第2章网络爬虫

时间：2015-05-28 22:54:36 阅读：701 评论：0 收藏：0 [点我收藏+]

标签：

　　通常搜索引擎处理的对象是互联网网页。首先面临的问题是：如何能够设计出高效的下载系统，以将如此海量的网页数据传送到本地，在本地形成互联网网页的镜像备份。

　　网络爬虫即起此作用，它是搜索引擎系统中很关键也很基础的构件。

1，爬虫框架

　　首先从互联网页面中精心选择一部分网页，以这些网页的链接地址作为种子URL，将这些种子URL放入待抓取URL队列中，爬虫从待抓取URL队列依次读取，并将URL通过DNS解析，把链接地址转换为网站服务器对应的IP地址，然后将其和网页相对路径名称交给网页下载器，网页下载器负责页面内容的下载。对于下载到本地的网页，一方面将其存储到页面库中，等待建立索引等后续处理;另一方面将下载的URL放入已抓取URL队列中，这个队列记载了爬虫系统已经下载过的URL以避免重复抓取。对于刚下载的网页，从中抽取所包含的所有链接信息，并在已抓取URL队列中检查，如果发现链接还没有被抓取过，则将这个URL放入待抓取URL队列末尾，在之后的抓取调度中会下载这个URL对应的网页。如此这般形成循环，直到待抓取URL队列为空。

　　互联网页面可划分为5个集合：

　　已下载的网页集合：爬虫已经从互联网下载到本地进行索引的网页集合

　　已过期的网页集合

　　待下载的网页集合

　　可知的网页集合：这些网页还没有被爬虫下载也没有出现在待抓取URL队列中，不过通过已经抓取的网页或者在待抓取URL队列中的网页，总是可以通过链接关系发现它们

　　不可知的网页集合：这些网页对爬虫来说是无法抓取到的。这部分网页所占的比例很高。

　　爬虫可划分为3种类型：

　　批量型爬虫：有比较明确的抓取范围和目标，当爬虫达到这个设定的目标后，即停止抓取过程。

　　增量型爬虫：保持不断的抓取，对于抓取到的网页，要定期更新。通用的商业搜索引擎爬虫基本都属此类。

　　垂直型爬虫：关注特定主题内容或属于特定行业的网页。

2，优秀爬虫的特性

　　高性能：主要指爬虫下载网页的抓取速度，高效的数据结构对于爬虫的性能影响很大

　　可扩展性

　　健壮性：爬虫能够正确处理各种异常情况

　　友好性：一是保护网站的部分私密性，二是减少被抓取网站的网络负载

3，网络爬虫研发的目标

　　在资源有限的情况下，既然搜索引擎只能抓取互联网现存网页的一部分，那么就尽可能选择比较重要的那部分网页来索引；对于已经抓取到的网页，尽可能快地更新其内容，使得索引网页和互联网对应页面内容同步更新；在此基础上尽可能扩大抓取范围，抓取到更多以前无法发现的网页。

4，抓取策略

　　抓取策略的基本目标：优先选择重要的网页进行抓取。

　　宽度优先遍历策略：将新下载网页包含的链接直接追加到待抓取URL队列末尾

　　非完全PageRank策略：对于已经下载的网页，加上待抓取URL队列中的URL一起，形成网页集合，在此集合内进行PageRank计算，计算完成后，将待抓取URL队列里的网页按照PageRank得分由高到低排序，形成的序列就是爬虫接下来应该依次抓取的URL列表。

　　OPIC策略：“在线页面重要性计算”。在算法开始前，每个互联网页面都给予相同的“现金”，每当下载了某个页面P后，P将自己拥有的“现金”平均分配给页面中包含的链接页面，把自己的“现金”清空。而对于待抓取URL队列中的网页，则根据其手头拥有的现金金额多少排序，优先下载现金最充裕的网页。OPIC与PageRank的区别：PageRank每次需要迭代计算，而OPIC策略不需要迭代过程。

　　大站优先策略：以网站为单位来衡量网页的重要性。对于待抓取URL队列中的网页，根据所属网站归类，如果哪个网站等待下载的页面最多，则优先下载这些链接。

5，网页更新策略

　　任务：决定何时重新抓取之前已经下载过的网页，以尽可能使得本地下载网页和互联网原始页面保持一致。

　　历史参考策略：过去频繁更新的网页，未来也会频繁更新。

　　用户体验策略：保存网页的多个历史版本，并根据过去每次内容变化对搜索质量的影响，得出一个平均值，以此作为判断爬虫重抓该网页时机的参考依据，对于影响越厉害的网页，则越优先调度重新抓取。

　　聚类抽样策略：首先根据网页所表现出的特征，将其聚类成不同的类别，每个类别内的网页具有相似的更新周期。从类别中抽取一部分最有代表性的网页，对这些网页计算其更新周期，那么这个更新周期适用于类别内所有的网页，之后即可根据网页所属类别来决定其更新频率。

6，暗网抓取

　　暗网，指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。如携程旅行网的机票数据，很难有显式链接指向数据库内的记录，往往是服务网站提供组合查询界面，只有用户按照需求输入查询之后，才可能获得相关数据。

　　暗网爬虫的目的是将暗网数据从数据库中挖掘出来，并将其加入到搜索引擎的索引，这样用户在搜索时便可利用这些数据，增加信息覆盖程度。

　　查询组合问题：Google对此提出了富含信息查询模版技术。对于某个固定的查询模版来说，如果给模版内每个属性都赋值，形成不同的查询组合，提交给垂直搜索引擎，观察所有返回页面的内容，如果相互之间内容差异较大，则这个查询模版就是富含信息查询模版。Google使用了ISIT算法：首先从一维模版开始，对一维查询模版逐个考察，看其是否富含信息查询模版，如果是则将这个一维模版扩展到二维，再次依次考察对应的二维模版，如此类推，逐步增加维数，直到再也找不到富含信息查询模版为止。

　　文本框填写问题：通过人工观察网站进行定位，提供一个与网站内容相关的初始种子查询关键词表，并向垂直搜索引擎提交查询，并下载返回的结果页面。之后从返回结果页面里自动挖掘出相关的关键词，并形成一个新的查询列表，依次将新挖掘出的查询提交给搜索引擎。如此往复，直到无法下载到新的内容为止。

7，分布式爬虫

　　分布式爬虫的3个层级：分布式数据中心，分布式抓取服务器及分布式爬虫程序。每个数据中心由多台高速网络连接的抓取服务器构成，而每台服务器又可以部署多个爬虫程序。

　　主从式分布爬虫：不同服务器承担不同的角色分工，其中一台专门负责对其他服务器提供URL分发服务，其他机器进行实际的网页下载。URL服务器容易成为整个系统的瓶颈。

　　对等式分布爬虫：服务器之间不存在分工差异，每台服务器承担相同的功能，各自负担一部分URL的抓取工作。判断某个URL是否应该由自己来抓取或者将该URL传递给相应的服务器，可对网址的主域名使用哈希取模或一致性哈希方法。

第2章网络爬虫

标签：

原文地址：http://www.cnblogs.com/rockzh/p/4530019.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

第2章 网络爬虫

1，爬虫框架

2，优秀爬虫的特性

3，网络爬虫研发的目标

4，抓取策略

5，网页更新策略

6，暗网抓取

7，分布式爬虫

第2章网络爬虫