crawler 开发 语言 功能 单一 支持分布式 爬取 效率 镜像 保存 Nutch Java × √ 低 × Larbin C++ √ × 高 √ Heritrix Java √ × 中 √ ************** Larbin开发语言:C++http://larbin.sourcefor ...
分类:
其他好文 时间:
2016-06-20 17:14:34
阅读次数:
400
Solr中默认的中文分词是用Lucene的一元分词包。 现在说明在Solr5.0中配置Lucene的SmartCN中文分词包。 1,进入Solr的安装目录,我这里是:/root/nutch/solr-5.0.0 把contrib/analysis-extras/lucene-libs/lucene- ...
分类:
其他好文 时间:
2016-06-17 21:02:40
阅读次数:
168
家裡或公司的舊電腦不夠力? 效能慢到想砸爛它們? 朋友或同事有電腦要丟嗎? 我有一個廢物利用的方法, 我收集了四台舊電腦, 組了一個Fully Distributed Mode的Hadoop Cluster, 在Hadoop上架了Hbase, 執行Nutch, 儲存Solr的資料在Hbase。 PC ...
分类:
其他好文 时间:
2016-06-15 14:17:26
阅读次数:
208
在之前的博文有对分布式模式做负载均衡设置,那么这次我们就来说明一下如果动态增加DataNode结点和TaskTracker结点。1. 在host1上增加host4使用如下命令:vi conf/slaves如下:
2. 将host1上的公钥加入到host4中使用如下命令:ssh-copy-id -i .ssh/id_rsa.pub hadoop@host4如下:
将host1的公钥添加到h...
分类:
其他好文 时间:
2016-06-12 02:26:18
阅读次数:
154
在上一篇博文我们有说明如何动态增加一个DataNode结点和TaskTracker结点,本次就来说明一下如何限制hadoop结点的连接。1. 配置hdfs-site.xml文件新增如下内容:
dfs.hosts
/home/hadoop/workspace/hadoop-1.2.1/conf/include
</pr...
分类:
其他好文 时间:
2016-06-12 02:25:42
阅读次数:
161
在之前的博文有说明动态添加一个结点,本次就说明如何动态删除一个结点。在上一篇博文有讲解如何限制一个结点的连接,要动态删除一个结点,可以在这个基础之上进行配置。1. 在host1上配置dfs.hosts.exclude在dfs.hosts.exclude指定的文件中添加host4:
再执行如下命令:hadoop dfsadmin -refreshNodes然后用如下命令进行查看:hadoop...
分类:
其他好文 时间:
2016-06-12 02:25:15
阅读次数:
213
一、 org.apache.nutch.crawl.Injector 注入url.txt url标准化 拦截url,进行正则校验(regex-urlfilter.txt) 对符合URL标准的url进行map对构造,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序和采 ...
分类:
其他好文 时间:
2016-06-07 14:39:50
阅读次数:
198
参考地址 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是 ...
分类:
编程语言 时间:
2016-06-04 17:43:55
阅读次数:
297
目前hadoop在默认情况下是没有启用回收站的,如果文件被删除是没有办法恢复的,所以我们需求启用回收站,以便于恢复已经删除的文件。
1. 用hadoop创建一个文件夹使用如下的命令在hadoop的文件系统里面创建一个文件夹urls:hadoop fs -mkdir urls用如下命令进行查看:hadoop fs -ls如下:
在web里面也可以查看到:
2. 删掉文件使用如下命令进行删除:had...
分类:
其他好文 时间:
2016-05-30 15:24:45
阅读次数:
132
在上一篇博文中我们有介绍hadoop的单机伪分布式模式的使用,那么现在我们就来看下多机完全分布式模式。1. 多主机配置1.1 对多台机器进行主机名设置用root账户使用如下命令:vim /etc/hostname分别对三台机器设置为:host1、host2、host3
1.2 配置主机映射用root账户使用如下命令:vim /etc/hosts分别配置三台机器:
host1:
host2:...
分类:
其他好文 时间:
2016-05-28 16:02:42
阅读次数:
180