爬虫框架一二三

时间：2019-10-02 20:55:17 阅读：89 评论：0 收藏：0 [点我收藏+]

标签：发布 png 通讯 nosql 新版本 class cas 界面 ibm

0.概述

Heritrix,Nutch,Scrapy三个爬虫框架侧重不同的方面，各有优劣。

1.Heritrix

技术图片

Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为，另外，它还有一个命令行工具来供用户选择调用。

Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布是在2004年1月，并不断的被互联网档案馆和其他感兴趣的第三方改进着。到现在已经成为一个成熟的开源爬虫，并被广泛使用。

官网：https://sourceforge.net/projects/archive-crawler/

参考资料: https://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/

2.Nutch

技术图片

Nutch是一个开源的网络爬虫项目，更具体些是一个爬虫软件，可以直接用于抓取网页内容。

现在Nutch分为两个版本，1.x和2.x。1.x最新版本为1.7，2.x最新版本为2.2.1。两个版本的主要区别在于底层的存储不同。

1.x版本是基于Hadoop架构的，底层存储使用的是HDFS，而2.x通过使用Apache Gora，使得Nutch可以访问HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStore等NoSQL。

官网：http://nutch.apache.org/

3.Scrapy

技术图片

Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。GitHub项目主页：https://github.com/scrapy/scrapy Scrapy 使用了 Twisted 异步网络库来处理网络通讯。

官网：http://www.scrapy.org/

原文:大专栏爬虫框架一二三

爬虫框架一二三

标签：发布 png 通讯 nosql 新版本 class cas 界面 ibm

原文地址：https://www.cnblogs.com/wangziqiang123/p/11618272.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行