码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
Nutch 是一个开源Java 实现的搜索引擎
Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开...
分类:编程语言   时间:2015-08-11 07:16:12    阅读次数:198
开源爬虫Labin,Nutch,Neritrix介绍和对比
开源爬虫Labin,Nutch,Neritrix介绍和对比 2 6 从网上找了一些开源spider的相关资料,整理在下面: Larbin开发语言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基于C++的web爬虫工具,拥有易于操...
分类:其他好文   时间:2015-08-11 07:10:25    阅读次数:144
nutch2.3命令参数解析
nutch中可执行的命令列表[root@ewanalysis ~]# nutchUsage: nutch COMMANDwhere COMMAND is one of: inject inject new urls into the database hostinject c...
分类:其他好文   时间:2015-08-05 14:25:10    阅读次数:209
Mongodb常用命令
进入数据库:mongo查看所有数据库:> show dbs> show dbsadmin (empty)local 0.031GBnutch 0.031GBtest (empty)创建/切换数据库:> use nutch查看数据库:> db.stats()查看数据库表:> db.posts...
分类:数据库   时间:2015-08-05 12:15:45    阅读次数:173
Nutch2.3+Mongodb+ElasticSearch
Nutch2.3 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种....
分类:数据库   时间:2015-08-04 22:50:55    阅读次数:1247
万物始于,first commit
Hi all 今天就要开始写hadoop相关源码blog了,内心还是比较激动,虽然说做了一段时间了。版本为Hadoop 0.1.0 额很原始的版本,Cutting大神当时从Nutch分离出来的项目。Hadoop命名和Nutch命名请看如下讨论https://issues.apache.org/jir...
分类:其他好文   时间:2015-07-31 23:27:45    阅读次数:178
分布式网络爬虫Nutch中文教程nutcher(JAVA)
nutcher是中文的nutch文档,包含nutch的配置和源码解析,在github持续更新。 本教程由逼格DATA提供,未经允许,禁止转载。 可加入nutcher的bbs进行讨论:Nutch开发者 目录: Nutch教程——导入Nutch工程,执行完整爬取 Nutch流程控制源码详解(bin/crawl中文注释版) URLNormalizer源码详解(Nutch的URL正规化机制)...
分类:编程语言   时间:2015-07-25 15:17:22    阅读次数:175
NUTCH2.3 hadoop2.7.1 hbase1.0.1.1 solr4.8.1部署(一)
编译部署Nutch2.3,Precondition: hadoop 2.7.1 Nutch 2.3 hbase 1.0.1.1 / hbase 0.98.13 solr 4.8.1 Linux version 3.16.0-4-amd64 jdk1.8.0_45...
分类:其他好文   时间:2015-07-23 15:44:27    阅读次数:272
NUTCH2.3 hadoop2.7.1 hbase1.0.1.1 solr4.8.1部署(二)
Precondition: hadoop 2.7.1 hbase 1.0.1.1 / hbase 0.98.13 192.168.1.106 ->master 192.168.1.105 ->slave / regionservers hbase部署 直接下载hbase bin文件 hbase1.0.1.1 还有hbase 0.98.13 和hadoop2.7.1 /...
分类:其他好文   时间:2015-07-23 15:38:42    阅读次数:135
解析Nutch插件系统
介绍 nutch系统架构的一个亮点就是插件,借鉴这个架构我们可以设计出自己的灵活的系统架构下面就来解析Nutch的插件系统是怎么回事。 关于nutch,在这里了解:http://nutch.apache.org,目前最新版本是1.10: Nutc...
分类:其他好文   时间:2015-07-02 14:13:11    阅读次数:93
272条   上一页 1 ... 11 12 13 14 15 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!