码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
[Nutch]Hadoop多机完全分布式模式hadoop配置
1. 下载hadoop使用如下命令:wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz使用如下命令解压:tar -zxvf hadoop-1.2.1.tar.gz2. 配置hadoop将hadoop的bin目录加入到配置文件中,使用如下命令:vim .bashrc添加如下行:expor...
分类:其他好文   时间:2016-05-28 16:01:09    阅读次数:173
[Nutch]Hadoop单机伪分布式模式的使用(deploy)
在上一篇博文我们对Nutch进行了hadoop的配置,那么本文就对nutch的deploy模式的使用进行说明。...
分类:其他好文   时间:2016-05-22 12:12:49    阅读次数:186
[Nutch]Hadoop单机伪分布模式的配置
在之前的博文中,我们一直在使用Nutch的local模式,那么Nutch的Deploy模式该怎么使用呢?首先我们来配置hadoop,为使用Nutch的deploy模式做准备。...
分类:其他好文   时间:2016-05-22 12:11:53    阅读次数:196
关于Java爬虫的研究
起因 最近突然发了羊癫疯,对爬虫十分感兴趣,开始想写几个爬虫练练手,于是,洗手开搞。 像我这种懒人,对爬虫了解个大概之后就开始偷懒了,开始找框架了,Google关键字“Java 爬虫”,第一个搜索结果就是 高票回答推荐的几款爬虫框架:nutch、Heritrix、crawler4j、WebColle ...
分类:编程语言   时间:2016-05-20 19:19:26    阅读次数:229
Hadoop
原文出处:http://blessht.iteye.com/blog/2095675 Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google ...
分类:其他好文   时间:2016-05-20 11:39:45    阅读次数:181
[Nutch]Solr配置自定义的中文分词器mmseg4j
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip,进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解...
分类:其他好文   时间:2016-05-13 03:36:00    阅读次数:255
[Nutch]使用LUKE查看Solr的索引文件内容
上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容。...
分类:其他好文   时间:2016-05-13 03:28:22    阅读次数:260
[Nutch]指定LUKE的分词器
在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释。1. 下载中文分词器由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1.2. luke设置mmseg4j2.1...
分类:其他好文   时间:2016-05-12 23:44:31    阅读次数:225
(转)java.ByteArrayInputStream与ByteArrayOutputStream再次理解
转载自:java.ByteArrayInputStream与ByteArrayOutputStream再次理解 第一次看到ByteArrayOutputStream的时候是在Nutch的部分源码,后来在涉及IO操作时频频发现这两个类的踪迹,觉得确实是很好用,所以把它们的用法总结一下。 ByteArr ...
分类:编程语言   时间:2016-05-12 09:20:08    阅读次数:298
[Nutch]Solr命令的使用
solrindex建立索引并提交到Solr服务器。 参数: 参数说明: solr url:solr的访问url,如:http://192.168.238.128:8983/solr; crawldb:crawldb的路径; linkdb:linkdb路径; dir:segments的路径。 执行命令:bin/nutch solrindex http://192.168.238.128:898...
分类:其他好文   时间:2016-05-03 18:33:38    阅读次数:163
272条   上一页 1 ... 7 8 9 10 11 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!