码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
开源爬虫Labin,Nutch,Neritrix介绍和对比
crawler 开发 语言 功能 单一 支持分布式 爬取 效率 镜像 保存 Nutch Java × √ 低 × Larbin C++ √ × 高 √ Heritrix Java √ × 中 √ ************** Larbin开发语言:C++http://larbin.sourcefor ...
分类:其他好文   时间:2016-06-20 17:14:34    阅读次数:400
Solr5.0配置中文分词包
Solr中默认的中文分词是用Lucene的一元分词包。 现在说明在Solr5.0中配置Lucene的SmartCN中文分词包。 1,进入Solr的安装目录,我这里是:/root/nutch/solr-5.0.0 把contrib/analysis-extras/lucene-libs/lucene- ...
分类:其他好文   时间:2016-06-17 21:02:40    阅读次数:168
How to Reuse Old PCs for Solr Search Platform?
家裡或公司的舊電腦不夠力? 效能慢到想砸爛它們? 朋友或同事有電腦要丟嗎? 我有一個廢物利用的方法, 我收集了四台舊電腦, 組了一個Fully Distributed Mode的Hadoop Cluster, 在Hadoop上架了Hbase, 執行Nutch, 儲存Solr的資料在Hbase。 PC ...
分类:其他好文   时间:2016-06-15 14:17:26    阅读次数:208
[Nutch]Hadoop动态增加DataNode节点和TaskTracker节点
在之前的博文有对分布式模式做负载均衡设置,那么这次我们就来说明一下如果动态增加DataNode结点和TaskTracker结点。1. 在host1上增加host4使用如下命令:vi conf/slaves如下: 2. 将host1上的公钥加入到host4中使用如下命令:ssh-copy-id -i .ssh/id_rsa.pub hadoop@host4如下: 将host1的公钥添加到h...
分类:其他好文   时间:2016-06-12 02:26:18    阅读次数:154
[Nutch]限制Hadoop结点连接
在上一篇博文我们有说明如何动态增加一个DataNode结点和TaskTracker结点,本次就来说明一下如何限制hadoop结点的连接。1. 配置hdfs-site.xml文件新增如下内容: dfs.hosts /home/hadoop/workspace/hadoop-1.2.1/conf/include </pr...
分类:其他好文   时间:2016-06-12 02:25:42    阅读次数:161
[Nutch]Hadoop动态删除DataNode节点和TaskTracker节点
在之前的博文有说明动态添加一个结点,本次就说明如何动态删除一个结点。在上一篇博文有讲解如何限制一个结点的连接,要动态删除一个结点,可以在这个基础之上进行配置。1. 在host1上配置dfs.hosts.exclude在dfs.hosts.exclude指定的文件中添加host4: 再执行如下命令:hadoop dfsadmin -refreshNodes然后用如下命令进行查看:hadoop...
分类:其他好文   时间:2016-06-12 02:25:15    阅读次数:213
nutch源代码阅读心得
一、 org.apache.nutch.crawl.Injector 注入url.txt url标准化 拦截url,进行正则校验(regex-urlfilter.txt) 对符合URL标准的url进行map对构造,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序和采 ...
分类:其他好文   时间:2016-06-07 14:39:50    阅读次数:198
开源的49款Java 网络爬虫软件
参考地址 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是 ...
分类:编程语言   时间:2016-06-04 17:43:55    阅读次数:297
[Nutch]hadoop启用回收站
目前hadoop在默认情况下是没有启用回收站的,如果文件被删除是没有办法恢复的,所以我们需求启用回收站,以便于恢复已经删除的文件。 1. 用hadoop创建一个文件夹使用如下的命令在hadoop的文件系统里面创建一个文件夹urls:hadoop fs -mkdir urls用如下命令进行查看:hadoop fs -ls如下: 在web里面也可以查看到: 2. 删掉文件使用如下命令进行删除:had...
分类:其他好文   时间:2016-05-30 15:24:45    阅读次数:132
[Nutch]Hadoop多机完全分布式模式主机配置
在上一篇博文中我们有介绍hadoop的单机伪分布式模式的使用,那么现在我们就来看下多机完全分布式模式。1. 多主机配置1.1 对多台机器进行主机名设置用root账户使用如下命令:vim /etc/hostname分别对三台机器设置为:host1、host2、host3 1.2 配置主机映射用root账户使用如下命令:vim /etc/hosts分别配置三台机器: host1: host2:...
分类:其他好文   时间:2016-05-28 16:02:42    阅读次数:180
272条   上一页 1 ... 6 7 8 9 10 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!