简谈-网络爬虫的几种常见类型

时间：2017-04-25 23:38:56 阅读：561 评论：0 收藏：0 [点我收藏+]

标签：匹配店铺筛选优秀大量灵活方法延长模块

　　众所周知，网络爬虫（或称为网络爬虫、网络蜘蛛、机器人）是搜索引擎最上游的一个模块，是负责搜索引擎内容索引的第一关。

很多人为了提高自己网站的索引量，都是去网上随便找一些爬虫工具来使用。但是很多人不知道，这些抓取网站的小爬虫是有各种各样的不同性格的。

常见的优秀网络爬虫有以下几种类型：

1.批量型网络爬虫：限制抓取的属性，包括抓取范围、特定目标、限制抓取时间、限制数据量以及限制抓取页面，总之明显的特征就是受限；

2.增量型网络爬虫（通用爬虫）：与前者相反，没有固定的限制，无休无止直到抓完所有数据。这种类型一般应用于搜索引擎的网站或程序；

3.垂直网络爬虫（聚焦爬虫）：简单的可以理解为一个无限细化的增量网络爬虫，可以细致的对诸如行业、内容、发布时间、页面大小等很多因素进行筛选。

这些网络爬虫的功能不一，使用方法也不同。例如谷歌、百度搜索就是典型的增量型爬虫，提供大而全的内容来满足世界各地的用户。另外像天猫、京东很多店铺都需要屏蔽外来的抓取，这时就需要爬虫根据一些低级域名的链接来抓取他们进行排名。

后来随着爬虫使用越来越灵活，很多网站都使用多个爬虫同步进行抓取。例如现下很多视频网站，都是先通过一般爬虫或者人工批量抓取内容，然后给用户一些可选项，让客户自己给聚焦爬虫划定范围最后找到匹配度足够高的内容，整个过程极大的降低了资源和时间的消耗。相反如果这些内容全部用聚焦爬虫来完成，不仅要消耗大量的网络资源，而且会延长搜索时间时间，影响客户体验。

简谈-网络爬虫的几种常见类型

标签：匹配店铺筛选优秀大量灵活方法延长模块

原文地址：http://www.cnblogs.com/zccpython/p/6764942.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行