搜索关键字：nutch，搜索到272个结果！码迷,mamicode.com！

[Nutch]Hadoop多机完全分布式模式hadoop配置

1. 下载hadoop使用如下命令：wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz使用如下命令解压：tar -zxvf hadoop-1.2.1.tar.gz2. 配置hadoop将hadoop的bin目录加入到配置文件中，使用如下命令：vim .bashrc添加如下行：expor...

分类：其他好文时间：2016-05-28 16:01:09 阅读次数：173

[Nutch]Hadoop单机伪分布式模式的使用(deploy)

在上一篇博文我们对Nutch进行了hadoop的配置，那么本文就对nutch的deploy模式的使用进行说明。...

分类：其他好文时间：2016-05-22 12:12:49 阅读次数：186

[Nutch]Hadoop单机伪分布模式的配置

在之前的博文中，我们一直在使用Nutch的local模式，那么Nutch的Deploy模式该怎么使用呢？首先我们来配置hadoop，为使用Nutch的deploy模式做准备。...

分类：其他好文时间：2016-05-22 12:11:53 阅读次数：196

关于Java爬虫的研究

起因最近突然发了羊癫疯，对爬虫十分感兴趣，开始想写几个爬虫练练手，于是，洗手开搞。像我这种懒人，对爬虫了解个大概之后就开始偷懒了，开始找框架了，Google关键字“Java 爬虫”，第一个搜索结果就是高票回答推荐的几款爬虫框架：nutch、Heritrix、crawler4j、WebColle ...

分类：编程语言时间：2016-05-20 19:19:26 阅读次数：229

Hadoop

原文出处：http://blessht.iteye.com/blog/2095675 Hadoop历史雏形开始于2002年的Apache的Nutch，Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。随后在2003年Google ...

分类：其他好文时间：2016-05-20 11:39:45 阅读次数：181

[Nutch]Solr配置自定义的中文分词器mmseg4j

上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容，从里面可以看到，默认的分词很乱，所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip，进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面，在workspace目录使用如下命令解...

分类：其他好文时间：2016-05-13 03:36:00 阅读次数：255

[Nutch]使用LUKE查看Solr的索引文件内容

上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器，那么我们怎么样查看solrindex命令产生的索引内容呢？这就要使用本篇博文要分享的工具LUKE，通过LUKE工具，我们可以很清楚的看到通过solrindex命令产生的索引内容。...

分类：其他好文时间：2016-05-13 03:28:22 阅读次数：260

[Nutch]指定LUKE的分词器

在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j，那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢？本篇博文将详细进行解释。1. 下载中文分词器由于我们使用的luke是4.0版本的，只能使用mmseg4j的1.9.1版本，因为1.8.5的mmseg4j版本与4.0版本的luke有冲突，请点击下载1.9.1版本的mmseg4j-1.9.1.2. luke设置mmseg4j2.1...

分类：其他好文时间：2016-05-12 23:44:31 阅读次数：225

（转）java.ByteArrayInputStream与ByteArrayOutputStream再次理解

转载自：java.ByteArrayInputStream与ByteArrayOutputStream再次理解第一次看到ByteArrayOutputStream的时候是在Nutch的部分源码，后来在涉及IO操作时频频发现这两个类的踪迹，觉得确实是很好用，所以把它们的用法总结一下。 ByteArr ...

分类：编程语言时间：2016-05-12 09:20:08 阅读次数：298

[Nutch]Solr命令的使用

solrindex建立索引并提交到Solr服务器。参数：参数说明： solr url：solr的访问url，如：http://192.168.238.128:8983/solr； crawldb：crawldb的路径； linkdb：linkdb路径； dir：segments的路径。执行命令：bin/nutch solrindex http://192.168.238.128:898...

分类：其他好文时间：2016-05-03 18:33:38 阅读次数：163

共272条上一页 1 ... 7 8 9 10 11 ... 28 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)