1. 下载hadoop使用如下命令:wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz使用如下命令解压:tar -zxvf hadoop-1.2.1.tar.gz2. 配置hadoop将hadoop的bin目录加入到配置文件中,使用如下命令:vim .bashrc添加如下行:expor...
分类:
其他好文 时间:
2016-05-28 16:01:09
阅读次数:
173
在上一篇博文我们对Nutch进行了hadoop的配置,那么本文就对nutch的deploy模式的使用进行说明。...
分类:
其他好文 时间:
2016-05-22 12:12:49
阅读次数:
186
在之前的博文中,我们一直在使用Nutch的local模式,那么Nutch的Deploy模式该怎么使用呢?首先我们来配置hadoop,为使用Nutch的deploy模式做准备。...
分类:
其他好文 时间:
2016-05-22 12:11:53
阅读次数:
196
起因 最近突然发了羊癫疯,对爬虫十分感兴趣,开始想写几个爬虫练练手,于是,洗手开搞。 像我这种懒人,对爬虫了解个大概之后就开始偷懒了,开始找框架了,Google关键字“Java 爬虫”,第一个搜索结果就是 高票回答推荐的几款爬虫框架:nutch、Heritrix、crawler4j、WebColle ...
分类:
编程语言 时间:
2016-05-20 19:19:26
阅读次数:
229
原文出处:http://blessht.iteye.com/blog/2095675 Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google ...
分类:
其他好文 时间:
2016-05-20 11:39:45
阅读次数:
181
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip,进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解...
分类:
其他好文 时间:
2016-05-13 03:36:00
阅读次数:
255
上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容。...
分类:
其他好文 时间:
2016-05-13 03:28:22
阅读次数:
260
在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释。1. 下载中文分词器由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1.2. luke设置mmseg4j2.1...
分类:
其他好文 时间:
2016-05-12 23:44:31
阅读次数:
225
转载自:java.ByteArrayInputStream与ByteArrayOutputStream再次理解 第一次看到ByteArrayOutputStream的时候是在Nutch的部分源码,后来在涉及IO操作时频频发现这两个类的踪迹,觉得确实是很好用,所以把它们的用法总结一下。 ByteArr ...
分类:
编程语言 时间:
2016-05-12 09:20:08
阅读次数:
298
solrindex建立索引并提交到Solr服务器。
参数:
参数说明:
solr url:solr的访问url,如:http://192.168.238.128:8983/solr;
crawldb:crawldb的路径;
linkdb:linkdb路径;
dir:segments的路径。
执行命令:bin/nutch solrindex http://192.168.238.128:898...
分类:
其他好文 时间:
2016-05-03 18:33:38
阅读次数:
163