解析html和采集网页的神兵利器

时间：2014-09-23 19:36:05 阅读：227 评论：0 收藏：0 [点我收藏+]

标签：des style blog http color io 使用 java ar

HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库，主要用于在服务器端解析html文档（在B/S结构的程序中客户端可以用Javascript解析html）。截止到本文发表时，HtmlAgilityPack的最新版本为1.4.0。下载地址：http://htmlagilitypack.codeplex.com/

下载后解压缩后有3个文件，这里只需要将其中的HtmlAgilityPack.dll（程序集）、HtmlAgilityPack.xml（文档，用于Visual Studio 2008中代码智能提示和帮助说明之用）引入解决方案中即可使用，无需安装任何东西，非常“绿色环保”。

在C#类文件开头引入using HtmlAgilityPack;就可以使用该命名空间下的类型了。实际使用中，几乎都是以HtmlDocument类为主线的，这一点非常类似于微软.net framework中的XmlDocument类。XmlDocument类是操作的是xml文档，而HtmlDocument类操作的是html文档（其实也可以操作xml文档），它们的操作方式都是基于Dom，所不同的是后者取消了诸如GetElementsByTagName这样的方法，强化了GetElementById方法（在HtmlDocument中可以直接使用，而XmlDocument则不可以）。HtmlAgilityPack中定位节点基本上都用Xpath表达式，Xpath表达式的参考文档可见：http://www.w3school.com.cn/xpath/xpath_syntax.asp

例如，我们要采集博客园首页推荐文章的标题，在ASP.NET中可以编写如下代码：

[csharp] view plain copy

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument htmlDoc = htmlWeb.Load(@"http://www.cnblogs.com/");
HtmlNodeCollection anchors = htmlDoc.DocumentNode.SelectNodes(@"//a[@class=‘titlelnk‘]");
foreach (HtmlNode anchor in anchors)
Response.Write(anchor.InnerHtml + "<br/>");
Response.End();

这段代码将采集到的首页html静态文本解析成Dom节点树，然后用Xpath表达式获取整个文档中class属性值为titlelnk的所有a元素。获取节点最常用节点对象的两个方法：SelectNodes("xpath表达式")和SelectSingleNode("xpath表达式")，前者返回节点集合HtmlNodeCollection的一个实例；后者返回满足条件的第一个节点，类型为HtmlNode的一个实例。后面的Foreach循环输出每个a元素的内联文本。

通常情况下，HtmlAgilityPack比正则表达式解析html更加高效准确，这体现在开发效率和运行性能两方面。HtmlAgilityPack的灵活性也是非常好的。例如将上面代码中的foreach循环体改成Response.Write(anchor.OuterHtml + "<br/>");则输出的是超链接本身而非内联文本。甚至可以修改超链接本身：

[csharp] view plain copy

foreach (HtmlNode anchor in anchors)
{
anchor.Attributes.Add("style", "color:red");
Response.Write(anchor.OuterHtml + "<br/>");
}

这样运行后你看到的是红色的超链接。你可以几乎随心所欲地对HtmlAgilityPack解析生成的Dom节点树上的节点操作，就像你拥有一颗自己的圣诞树，可以随意对其修整剪裁。这也是正则方法无法相提并论的。HtmlAgilityPack对源文本的结构要求非常宽松，即使没有根元素也一样正常使用，这同要求非常严格的XmlDocument完全不同。熟练掌握HtmlAgilityPack解析html文档的关键在于熟悉Xpath表达式语法，好在Xpath的语法入门比较简单，只需花费数个小时基本就可满足大部分应用。依托于Dom高效而通用的结构，Xpath强大而简练的语法，HtmlAgilityPack真可以称为“解析html和采集网页的神兵利器”。

解析html和采集网页的神兵利器

标签：des style blog http color io 使用 java ar

原文地址：http://www.cnblogs.com/ranran/p/3988797.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行