Nutch

时间：2017-02-04 21:14:56 阅读：228 评论：0 收藏：0 [点我收藏+]

Nutch

介绍

Apache Nutch是一个用Java编写的开源网络爬虫。通过它，我们就能够自动地找到网页中的超链接，从而极大地减轻了维护工作的负担，例如检查那些已经断开了的链接，或是对所有已经访问过的网页创建一个副本以便用于搜索。接下来就是Apache Solr所要做的。Solr是一个开源的全文搜索框架，通过Solr我们能够搜索Nutch已经访问过的网页。幸运的是，关于Nutch和Solr之间的整合在下方已经解释得相当清楚了。

Apache Nutch对于Solr已经支持得很好，这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网络应用以及依赖于Apache Lucene来进行索引的麻烦。只需要从这里下载一个二进制的发行版即可。

步骤

这篇教程描述了Nutch 1.x（当前版本是1.6）的安装和使用。关于如何编译和安装Nutch 2.x，请查看Nutch2Tutorial。

1.从二进制发行包安装Nutch

从这里下载二进制包（apache-nutch-1.X-bin.zip）。
解压缩您的Nutch包。那应该会有一个新文件夹apache-nutch-1.X。
cd apache-nutch-1.X/

从现在开始，我们将会使用${NUTCH_RUNTIME_HOME}来代替当前目录（apache-nutch-1.X/）。

从源代码安装Nutch

高级用户也可能会使用源代码发行包：

下载一个源代码包（apache-nutch-1.X-src.tar.gz）
解压缩
cd apache-nutch-1.X/
在这个目录里运行ant（参见：RunNutchInEclipse）
现在那会有一个目录runtime/local，它包含了准备使用的Nutch安装

当使用源代码包时，我们会用${NUTCH_RUNTIME_HOME}代替目录apache-nutch-1.X/runtime/local/。记住这些：

配置文件在apache-nutch-1.X/runtime/local/conf/目录里面
ant clean将会移除这个目录（并保留被更改的配置文件的备份）

2.检验您的Nutch安装

运行”bin/nutch“。如果您能看见下列内容说明您的安装是正确的：

Usage: nutch [-core] COMMAND

一些解决问题的提示：

如果您看见”Permission denied”那么请运行下列命令：

chmod +x bin/nutch

如果您看见JAVA_HOME没有设置那么请设置JAVA_HOME环境变量。在Mac上，您可以运行下述命令或者把它添加到~/.bashrc里面去：

export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6/Home

Nutch

标签：local frame 配置文件自动如何依赖全文搜索 tar.gz 整合

原文地址：http://www.cnblogs.com/anpajin/p/6366251.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行