标签:
关于数据采集 个人觉得主要分为两部分
1:获取网页HTML
在获取网页信息的时候 要注意访问的方式 应该尽量去模仿浏览器 让网站认为我们是用的浏览器登录 否则会有很大可能被视为“非法访问”
如 request.Referer 表头 request.UserAgent 等去模仿浏览器
2:对HTML进行处理(自己用的是 HtmlAgilityPack 在NuGet 中搜索就可以)
HtmlAgilityPack 主要分一下几部:
HtmlAgilityPack.HtmlDocument htmlDoc
通过htmlDoc 加载 上面获取的HTML htmlDoc.LoadHtml()
htmlDoc 里面的一些方法 可以供获取一个 HtmlNode 的对象
例:
HtmlNode sex = htmlDoc.GetElementbyId("zidingyi2");
HtmlNode 的InnerText InnerHTML 分别可以获取 id为zidingyi2 的文本内容和HTML 代码
一般都得到了HtmlNode 对象 后就基本已经完成了 随后就是对你获取的InnerText\ InnerHTML 进行操作就可以了
标签:
原文地址:http://www.cnblogs.com/Allen-chau/p/5800530.html