10.聚焦爬虫和通用爬虫的区别

时间：2018-12-02 12:23:05 阅读：325 评论：0 收藏：0 [点我收藏+]

1.通用爬虫：搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。

　通用爬虫要遵循规则：Robots协议
　
　通用爬虫工作流程：
　　爬取网页》存储数据》内容处理》提供检索
　
　通用爬虫缺点：
　　只能提供和文本相关的内容如html、world、pdf等，不能提供多媒体文件如音乐、图片、视频和二进制文件（脚本、程序）
　　提供的结果千篇一律，针对不同领域提供不同内容
　　不能提供人类语义上的检索
　
　通用爬虫局限性：
　　1.通用搜索引擎返回网页的数据内容，大概90%都无用。
　　2.中文搜索引擎自然语言检索理解困难。
　　3.信息占有量和覆盖率存在局限。
　　4.搜索引擎主要是以关键字搜索为主，对于图片、数据库、视频、音频等多媒体的内容用通用搜索引擎无效。
　　5.搜索引擎的社区化和个性化不好，未考虑实际因素如人的地域、性别、年龄等差别。
　　6.搜索引擎爬取动态网页效果不好

2.聚焦爬虫：针对于某一需求编写的爬虫程序。
　 
  聚焦爬虫可分为三类：
　　
　1.积累式爬虫：从开始到结束，不断爬取，过程会进行重复操作。

　2.增量爬虫：已下载网页采取增量式跟新，爬取更新变化的数据。
　
　3.深度爬虫：指那些不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获取的web界面。

10.聚焦爬虫和通用爬虫的区别

标签：流程程序开始爬取中文搜索 code 无效通过不同

原文地址：https://www.cnblogs.com/lvjing/p/10052221.html

踩

(1)

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行