Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开...
分类:
编程语言 时间:
2015-08-11 07:16:12
阅读次数:
198
开源爬虫Labin,Nutch,Neritrix介绍和对比 2 6 从网上找了一些开源spider的相关资料,整理在下面: Larbin开发语言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基于C++的web爬虫工具,拥有易于操...
分类:
其他好文 时间:
2015-08-11 07:10:25
阅读次数:
144
nutch中可执行的命令列表[root@ewanalysis ~]# nutchUsage: nutch COMMANDwhere COMMAND is one of: inject inject new urls into the database hostinject c...
分类:
其他好文 时间:
2015-08-05 14:25:10
阅读次数:
209
进入数据库:mongo查看所有数据库:> show dbs> show dbsadmin (empty)local 0.031GBnutch 0.031GBtest (empty)创建/切换数据库:> use nutch查看数据库:> db.stats()查看数据库表:> db.posts...
分类:
数据库 时间:
2015-08-05 12:15:45
阅读次数:
173
Nutch2.3 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种....
分类:
数据库 时间:
2015-08-04 22:50:55
阅读次数:
1247
Hi all 今天就要开始写hadoop相关源码blog了,内心还是比较激动,虽然说做了一段时间了。版本为Hadoop 0.1.0 额很原始的版本,Cutting大神当时从Nutch分离出来的项目。Hadoop命名和Nutch命名请看如下讨论https://issues.apache.org/jir...
分类:
其他好文 时间:
2015-07-31 23:27:45
阅读次数:
178
nutcher是中文的nutch文档,包含nutch的配置和源码解析,在github持续更新。
本教程由逼格DATA提供,未经允许,禁止转载。
可加入nutcher的bbs进行讨论:Nutch开发者
目录:
Nutch教程——导入Nutch工程,执行完整爬取
Nutch流程控制源码详解(bin/crawl中文注释版)
URLNormalizer源码详解(Nutch的URL正规化机制)...
分类:
编程语言 时间:
2015-07-25 15:17:22
阅读次数:
175
编译部署Nutch2.3,Precondition:
hadoop 2.7.1
Nutch 2.3
hbase 1.0.1.1 / hbase 0.98.13
solr 4.8.1
Linux version 3.16.0-4-amd64
jdk1.8.0_45...
分类:
其他好文 时间:
2015-07-23 15:44:27
阅读次数:
272
Precondition:
hadoop 2.7.1
hbase 1.0.1.1 / hbase 0.98.13
192.168.1.106 ->master
192.168.1.105 ->slave / regionservers
hbase部署
直接下载hbase bin文件
hbase1.0.1.1 还有hbase 0.98.13 和hadoop2.7.1 /...
分类:
其他好文 时间:
2015-07-23 15:38:42
阅读次数:
135
介绍 nutch系统架构的一个亮点就是插件,借鉴这个架构我们可以设计出自己的灵活的系统架构下面就来解析Nutch的插件系统是怎么回事。 关于nutch,在这里了解:http://nutch.apache.org,目前最新版本是1.10: Nutc...
分类:
其他好文 时间:
2015-07-02 14:13:11
阅读次数:
93