码迷,mamicode.com
首页 > 其他好文 > 详细

通用爬虫和聚焦爬虫

时间:2017-10-11 01:02:10      阅读:201      评论:0      收藏:0      [点我收藏+]

标签:系统   取图   直接   时间   用户   程序   本地服务器   引擎   ext   

爬虫分为两个领域:

聚焦爬虫和通用爬虫。

通用爬虫:

  搜索引擎用的爬虫系统。

目标:

  搜索互联网所有的信息下载下来,放到本地服务器,再对这些网页进行相关处理,提取关键字什么的,最终给用户提供一个检索的接口,他们每隔一段时间获取一次。

百度快照的好处:

  如果直接点击链接的话,可能信息已经被删除了,但是点击百度快照的话,可能还会备份的,搜索引擎的话是无法爬取图片的,电影也爬不出来。

 

聚焦爬虫:

  程序员写的针对某种内容信息的爬虫。

 

   

通用爬虫和聚焦爬虫

标签:系统   取图   直接   时间   用户   程序   本地服务器   引擎   ext   

原文地址:http://www.cnblogs.com/suiyisuixing/p/7648401.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!