网络爬虫又称网页蜘蛛、网络机器人、在FOAF社区常称网页追逐者。网络爬虫是一种按照一定规则,自动抓取万维网信息的程序或脚本。另外一些不常使用名称还有蚂蚁、自动索引、模拟程序或蠕虫。随着网络的迅速发展,万维网成为大量信息的载体,如何有效提取并利用这些信息成为一个巨大挑战。搜索引擎(Search Eng...
分类:
其他好文 时间:
2015-10-28 19:09:22
阅读次数:
7115
假设你想下载整个网站内容爬行动物,我不希望配置heritrix复杂的爬行动物,要选择WebCollector。项目github一个不断更新。github源地址:https://github.com/CrawlScript/WebCollectorgithub下载地址:http://crawlscri...
分类:
编程语言 时间:
2015-10-17 14:52:21
阅读次数:
208
一般爬虫要考虑的问题 之前尝试了request和cheerio实现的简单抓取数据用例,真的很初级,真正的爬虫且不说Google、百度等商用爬虫,即便是一个开源爬虫也要考虑很多东西,比如nodejs的开源爬虫neocrawler: 抓取网页并进行结构化解析,提取关键字后索引入库,防止网页重复抓取; 抓...
分类:
其他好文 时间:
2015-10-12 20:41:22
阅读次数:
213
原文地址 去年,之前的同事,喜欢看小说,就想自己没事搞个网站,我告诉他,先用爬虫把别人网站的小说下载下来,放到自己的网站里~我同事编码能力很强,学东西相当快,给他大概讲一下,帮他下载个用 http 协议下载网站的程序集(.net)就可以,但是,时不时,Web 会拒绝,后来,我说,http 协...
分类:
编程语言 时间:
2015-10-12 19:00:13
阅读次数:
344
开源爬虫Labin,Nutch,Neritrix介绍和对比 2 6 从网上找了一些开源spider的相关资料,整理在下面: Larbin开发语言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基于C++的web爬虫工具,拥有易于操...
分类:
其他好文 时间:
2015-08-11 07:10:25
阅读次数:
144
一、安装Scrapy 导入GPG密钥 sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7 添加软件源 echo ‘deb http://archive.scrapy.org/ubuntu scrapy main‘ | sudo tee /etc/apt/sources....
分类:
编程语言 时间:
2015-07-30 11:37:44
阅读次数:
141
世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。开源爬虫汇总表开发语言软件名称软件介绍许可证JavaArach...
分类:
其他好文 时间:
2015-07-02 13:37:54
阅读次数:
106
很多业务需要下载整站页面(有时为多个站点),将页面按照网站拓扑结构存放。
下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码。
代码中的抽取器可以作为一个插件复用。
WebCollector的jar包可到官网下载:WebCollector官网。进入官网后下载webcollector-版本号-bin.zip,解压得到所需jar包。...
分类:
编程语言 时间:
2015-06-25 10:30:17
阅读次数:
179
这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用。但是以前一直用的java和php,对python不熟悉,于是花一天时间粗略了解了一遍python的基础知识。于是就开干了,没想到的配置一个运行环境就花了我一天时间。.....
分类:
编程语言 时间:
2015-06-06 22:05:10
阅读次数:
665
世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。开源爬虫汇总表开发语言软件名称软件介绍许可证JavaArach...
分类:
其他好文 时间:
2015-05-21 17:10:07
阅读次数:
122