码迷,mamicode.com
首页 > 其他好文 > 详细

数据采集

时间:2016-08-23 20:21:10      阅读:144      评论:0      收藏:0      [点我收藏+]

标签:

关于数据采集  个人觉得主要分为两部分

1:获取网页HTML

在获取网页信息的时候 要注意访问的方式  应该尽量去模仿浏览器  让网站认为我们是用的浏览器登录  否则会有很大可能被视为“非法访问”

如 request.Referer 表头  request.UserAgent 等去模仿浏览器

2:对HTML进行处理(自己用的是 HtmlAgilityPack  在NuGet  中搜索就可以)

 

HtmlAgilityPack  主要分一下几部:

HtmlAgilityPack.HtmlDocument  htmlDoc

通过htmlDoc 加载 上面获取的HTML  htmlDoc.LoadHtml()

htmlDoc     里面的一些方法 可以供获取一个 HtmlNode 的对象 

例:

 HtmlNode sex = htmlDoc.GetElementbyId("zidingyi2");

HtmlNode  的InnerText InnerHTML  分别可以获取 id为zidingyi2 的文本内容和HTML 代码

一般都得到了HtmlNode 对象  后就基本已经完成了  随后就是对你获取的InnerText\ InnerHTML 进行操作就可以了

   

 

数据采集

标签:

原文地址:http://www.cnblogs.com/Allen-chau/p/5800530.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!