码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫的定向爬取与垂直搜索

时间:2016-06-30 18:11:05      阅读:141      评论:0      收藏:0      [点我收藏+]

标签:

转 爬虫的定向爬取与垂直搜索

定向爬虫是网络爬虫的一种。

  定向爬虫

  定向爬虫可以精准的获取目标站点信息。

  定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。

 优势:

  基于模版的信息提取技术,能提供更加精准的信息。比如价格,房屋面积,时间,职位,公司名等等。

  劣势:

  目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,欲要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大的人力成本。

 

  也就是说定向爬取就是我们要针对不同的网页构建不同的网页模板,比如针对BBS就要构建与BBS相同的网页模板,让爬虫定向的搜集某个网页块内的信息。对于问答网站就更是如此了。问答网站,一般都有提问块和回答块,如果我们能够建立模板专门的爬取这两个块,无疑将会在效率和准确度上更上一层楼。

垂直搜索

垂直搜索是针对某一方面的定向搜索,比如汽车、房子、衣物等等方面的单方面搜索,相对于一般搜索引擎的广度搜索,更专业性。而我们要做的项目是关于计算机方面知识的问答网站,只需要搜索爬取相应方面的知识就够了。应该说我们是一个基于深度的搜索。老师也给了我们一些高校的教学资源网站,我们只要能够将这些网站上的所有链接深度爬取,应该也能够获取大量专业性的资源。

 

参考资料:http://www.zhihu.com/question/19651413

http://geek87.iteye.com/blog/382450

爬虫的定向爬取与垂直搜索

标签:

原文地址:http://www.cnblogs.com/nucdy/p/5630479.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!