搜索关键字：开源爬虫，搜索到37个结果！码迷,mamicode.com！

开源爬虫 ── 专业、强大的万维网资源定向抓取、爬抓工具

网络爬虫又称网页蜘蛛、网络机器人、在FOAF社区常称网页追逐者。网络爬虫是一种按照一定规则，自动抓取万维网信息的程序或脚本。另外一些不常使用名称还有蚂蚁、自动索引、模拟程序或蠕虫。随着网络的迅速发展，万维网成为大量信息的载体，如何有效提取并利用这些信息成为一个巨大挑战。搜索引擎(Search Eng...

分类：其他好文时间：2015-10-28 19:09:22 阅读次数：7115

JAVA开源爬虫，WebCollector,使用方便，有接口。

假设你想下载整个网站内容爬行动物，我不希望配置heritrix复杂的爬行动物，要选择WebCollector。项目github一个不断更新。github源地址：https://github.com/CrawlScript/WebCollectorgithub下载地址：http://crawlscri...

分类：编程语言时间：2015-10-17 14:52:21 阅读次数：208

2015第42周一爬虫与反爬虫

一般爬虫要考虑的问题之前尝试了request和cheerio实现的简单抓取数据用例，真的很初级，真正的爬虫且不说Google、百度等商用爬虫，即便是一个开源爬虫也要考虑很多东西，比如nodejs的开源爬虫neocrawler: 抓取网页并进行结构化解析，提取关键字后索引入库，防止网页重复抓取；抓...

分类：其他好文时间：2015-10-12 20:41:22 阅读次数：213

主流开发语言 33 款开源爬虫

原文地址去年，之前的同事，喜欢看小说，就想自己没事搞个网站，我告诉他，先用爬虫把别人网站的小说下载下来，放到自己的网站里~我同事编码能力很强，学东西相当快，给他大概讲一下，帮他下载个用 http 协议下载网站的程序集（.net）就可以，但是，时不时，Web 会拒绝，后来，我说，http 协...

分类：编程语言时间：2015-10-12 19:00:13 阅读次数：344

开源爬虫Labin，Nutch，Neritrix介绍和对比

开源爬虫Labin，Nutch，Neritrix介绍和对比 2 6 从网上找了一些开源spider的相关资料，整理在下面： Larbin开发语言：C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基于C++的web爬虫工具，拥有易于操...

分类：其他好文时间：2015-08-11 07:10:25 阅读次数：144

基于Python的开源爬虫软件

一、安装Scrapy 导入GPG密钥 sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7 添加软件源 echo ‘deb http://archive.scrapy.org/ubuntu scrapy main‘ | sudo tee /etc/apt/sources....

分类：编程语言时间：2015-07-30 11:37:44 阅读次数：141

开源爬虫软件汇总

世界上已经成型的爬虫软件多达上百种，本文对较为知名及常见的开源爬虫软件进行梳理，按开发语言进行汇总，如下表所示。虽然搜索引擎也有爬虫，但本次我汇总的只是爬虫软件，而非大型、复杂的搜索引擎，因为很多兄弟只是想爬取数据，而非运营一个搜索引擎。开源爬虫汇总表开发语言软件名称软件介绍许可证JavaArach...

分类：其他好文时间：2015-07-02 13:37:54 阅读次数：106

WebCollector下载整站页面(JAVA网络爬虫)

很多业务需要下载整站页面（有时为多个站点），将页面按照网站拓扑结构存放。下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码。代码中的抽取器可以作为一个插件复用。 WebCollector的jar包可到官网下载：WebCollector官网。进入官网后下载webcollector-版本号-bin.zip，解压得到所需jar包。...

分类：编程语言时间：2015-06-25 10:30:17 阅读次数：179

安装python爬虫scrapy踩过的那些坑和编程外的思考

这些天应朋友的要求抓取某个论坛帖子的信息，网上搜索了一下开源的爬虫资料，看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用。但是以前一直用的java和php，对python不熟悉，于是花一天时间粗略了解了一遍python的基础知识。于是就开干了，没想到的配置一个运行环境就花了我一天时间。.....

分类：编程语言时间：2015-06-06 22:05:10 阅读次数：665

开源爬虫软件汇总

世界上已经成型的爬虫软件多达上百种，本文对较为知名及常见的开源爬虫软件进行梳理，按开发语言进行汇总，如下表所示。虽然搜索引擎也有爬虫，但本次我汇总的只是爬虫软件，而非大型、复杂的搜索引擎，因为很多兄弟只是想爬取数据，而非运营一个搜索引擎。开源爬虫汇总表开发语言软件名称软件介绍许可证JavaArach...

分类：其他好文时间：2015-05-21 17:10:07 阅读次数：122