教你如何使用Objective-C解析HTML

使用Objective-C解析HTML或者XML,系统自带有两种方式一个是通过libxml,一个是通过NSXMLParser。不过这两种方式都需要自己写很多编码来处理抓取下来的内容,而且不是很直观。

有一个比较好的类库hpple,它是一个轻量级的包装框架,可以很好的解决这个问题。它是用XPath来定位和解析HTML或者XML。

安装步骤:

-加入libxml2到你的项目中

MenuProject->EditProjectSettings

搜索“HeaderSearchPaths”

添加新的searchpath“${SDKROOT}/usr/include/libxml2″

Enablerecursiveoption

-加入libxml2library到你的项目

MenuProject->EditProjectSettings

搜索“OtherLinkerFlags”

添加新的searchflag“-lxml2″

-将下面hpple的源代码加入到你的项目中:

HTFpple.h

HTFpple.m

HTFppleElement.h

HTFppleElement.m

XPathQuery.h

XPathQuery.m

-XPath学习地址http://www.w3schools.com/XPath/default.asp

示例代码:

#import"TFHpple.h"

NSData*data=[[NSDataalloc]initWithContentsOfFile:@"example.html"];

//Createparser

xpathParser=[[TFHpplealloc]initWithHTMLData:data];

//Getallthecellsofthe2ndrowofthe3rdtable

NSArray*elements=[xpathParsersearch:@"//table[3]/tr[2]/td"];

//Accessthefirstcell

TFHppleElement*element=[elementsobjectAtIndex:0];

//Getthetextwithinthecelltag

NSString*content=[elementcontent];

[xpathParserrelease];

[datarelease];

下载地址:https://github.com/topfunky/hpple

另外,还有一个类似的解决方案可以参考

ElementParserhttp://github.com/Objective3/ElementParser

相关推荐