Nutch搜索引擎（第4期）_ Eclipse开发配置

时间：2014-04-30 04:53:32 阅读：781 评论：0 收藏：0 [点我收藏+]

标签：des com http blog style class div img java log c

1、环境准备

1.1 本期引言

前三期分别介绍了Nutch与Solr在Linux上面的安装，并做了简单的应用，这一期从开发的角度进行，因为我们日常最熟悉的开发环境是Windows，所以本期详细介绍Windows平台的Nutch二次开发所需要进行的配置安装。当我们开发好之后，最后在部署到Linux环境中。

为了方便以后Nutch开发以及软件安装的管理，我们对开发环境配置进行如下安排：

E:/（盘符）

    |----cygwin

|----NutchWorkPlat

    |----ant

    |----solr

    |----nutch

        |----eclipse

        |----tomcat

        |----workspace

1.2 环境介绍

本次Nutch二次开发的环境介绍：

操作系统：Windows 7 旗舰版
ANT版本：apache-ant-1.8.3-bin.tar.gz
JDK版本：jdk-6u31-windows-i586.exe
Solr版本：apache-solr-3.5.0.zip
Nutch版本：apache-nutch-1.4-bin.tar.gz
Tomcat版本：apache-tomcat-7.0.27.tar.gz
Eclipse版本：eclipse-jee-indigo-SR1-win32.zip

下面是安装的Eclipse插件：

IvyDE插件：
- Ivy：
  - plugins：

org.apache.ivy_2.2.0.final_20100923230623.jar
org.apache.ivy.eclipse.ant_2.2.0.final_20100923230623.jar

features：org.apache.ivy.feature_2.2.0.final_20100923230623.jar

IvyDE：
- plugins：org.apache.ivyde.eclipse_2.2.0.beta1-201203282058-RELEASE.jar
- features：org.apache.ivyde.feature_2.2.0.beta1-201203282058-RELEASE.jar

Tomcat插件：tomcatPluginV33.zip

1.3 JDK安装配置

双击"jdk-6u31-windows-i586.exe"即可进行安装，我们一路点击Next，默认安装在C盘，下面是我们安装完JDK的目录。

mamicode.com,码迷

下面配置JAVA环境变量：右击à我的电脑à属性à高级系统设置à高级à环境变量。

【新建】

JAVA_HOME=C:\Program Files\Java\jdk1.6.0_31

CLASSPATH=.;% JAVA_HOME %\lib;% JAVA_HOME%\jre\lib

NUTCH_JAVA_HOME=% JAVA_HOME %

【增加】

PATH=……;% JAVA_HOME%\bin; % JAVA_HOME%\jre\bin

第一步：点击"新建"，然后变量名写上"JAVA_HOME"，填上上面内容。

mamicode.com,码迷

备注：JAVA_HOME的变量值后千万不能加分号。

第二步：点击"新建"，然后变量名写上"JAVA_HOME"，填上上面内容。

mamicode.com,码迷

备注：要加圆点.表示当前路径。

第三步：点击"新建"，然后变量名写上"NUTCH_JAVA_HOME"，填上上面内容。

mamicode.com,码迷

第四步：在系统变量里找到Path，点击编辑。在后面追加上面内容。

mamicode.com,码迷

备注：追加时，用";"与前面的值进行分割。

1.4 ANT安装配置

把"apache-ant-1.8.3-bin.tar.gz"解压到"E:\NutchWorkPlat"中，并重新命名为"ant"。

mamicode.com,码迷

下面配置ANT环境变量：右击à我的电脑à属性à高级系统设置à高级à环境变量。

【新建】

ANT_HOME= E:\NutchWorkPlat\ant

【增加】

PATH=……;%ANT_HOME%\bin; %ANT_HOME%\lib

第一步：点击"新建"，然后变量名写上"ANT_HOME"，填上上面内容。

mamicode.com,码迷

备注：ANT_HOME的变量值后千万不能加分号。

第二步：在系统变量里找到Path，点击编辑。在后面追加上面内容。

mamicode.com,码迷

备注：追加时，用";"与前面的值进行分割。

1.5 IvyDE安装配置

从官网上把上面所写的IvyDE的Eclipse插件下载下来。

mamicode.com,码迷

备注：其他网友和官网都只说安装"ivyde-2.2.0.beta1"即可，但是发现安装没有起作用，按照"Eclipse安装ivyDe插件"这篇文章成功了。

【ivyde-eclipse】

mamicode.com,码迷

ivyde- plugins

mamicode.com,码迷

把"org.apache.ivyde.eclipse_2.2.0.beta1-201203282058-RELEASE.jar"复制到Eclipse安装目录的"plugins"中。

ivyde-features

mamicode.com,码迷

把"org.apache.ivyde.feature_2.2.0.beta1-201203282058-RELEASE.jar"解压到Eclipse安装目录的"features"中。

备注：是解压之后放到目录"features"中，而不是直接把jar包放到里面，不然启动Eclipse后，打开WindowàShow ViewàError log后，提示"Unable to find feature.xml in directory"。

【ivy-eclipse】

mamicode.com,码迷

ivy- plugins

把"org.apache.ivy.eclipse.ant_2.2.0.final_20100923230623.jar"和"org.apache.ivy_2.2.0.

mamicode.com,码迷

final_20100923230623.jar"复制到Eclipse安装目录的"plugins"中。

ivy-features

mamicode.com,码迷

把"org.apache.ivy.feature_2.2.0.final_20100923230623.jar"解压到Eclipse安装目录的"features"中。

完成以上步骤之后，重启Eclipse，打开Windowàpreference对话框里看到ivy一栏；打开HelpàAbout EclipseàInstallationàPlug-ins列表里也可以看到两个ivy，一个ivyDe。

mamicode.com,码迷

1.5 Tomcat安装配置

首先安装Tomcat，把"apache-tomcat-7.0.27.tar.gz"解压到"E:\NutchWorkPlat"目录下，并重新命名为"tomcat"。

mamicode.com,码迷

进入"E:\NutchWorkPlat\tomcat\bin"点击"startup.bat"，然后出现如下界面。

mamicode.com,码迷

然后在浏览器输入"http://localhost:8080/"，出现如下界面，表示安装成功。

mamicode.com,码迷

接着安装Tomcat的Eclipse插件，并让Eclipse与Tomcat结合，把"tomcatPluginV33.zip"后的"com.sysdeo.eclipse.tomcat_3.3.0"复制到"E:\NutchWorkPlat\eclipse\plugins"中，然后重启Eclipse。

mamicode.com,码迷

打开Windowàpreference对话框里看到tomcat一览，点击tomcat，把刚才解压的tomcat进行关联，操作如下。

mamicode.com,码迷

点击工具栏的"Start Tomcat"即可启动Tomcat。

mamicode.com,码迷

然后在Eclipse控制台会输出启动Tomcat的相关信息。

mamicode.com,码迷

此时可以再次在浏览器输入"http://localhost:8080/"进行验证是否启动成功。

1.6 Cygwin安装配置

nutch是在hadoop基础上做的，由于hadoop只在linux上运行，里面涉及到大量的操作linux程序，所以我们在Windows部署的时候必须先安装cygwin环境，模拟linux操作。

我们这次安装cygwin是用安装包进行安装，并没有采用Internet在线安装。

mamicode.com,码迷

在上图所示的对话框中，直接点击"下一步"，进入如下图所示的对话框：

mamicode.com,码迷

界面出现三种安装模式：

Install from Internet，这种模式直接从Internet安装，适合网速较快的情况；
Download Without Installing，这种模式只从网上下载Cygwin的组件包，但不安装；
Install from Local Directory，这种模式与上面第二种模式对应，当你的Cygwin组件包已经下载到本地，则可以使用此模式从本地安装Cygwin。

我们这里选择第三种"Install from Local Directory"方式进行安装，然后点击"下一步"，进入如下图所示对话框：

mamicode.com,码迷

在上图所示的对话框中，设置Cygwin 的安装目录，Install For 选择"All Users"，然后点击"下一步"，进入如下图所示对话框：

mamicode.com,码迷

选择本地安装包的路径，然后点击"下一步"，进入如下图所示对话框：

mamicode.com,码迷

点击"确定"，进入如下图所示对话框：

mamicode.com,码迷

进入"Select Packages"对话框后，其实直接点击"下一步"，进行默认安装即可，为了以后再cygwin下面搭建hadoop环境，所以安装了一些软件。

OpenSSL
sed
vim

必须保证"Net Category"下的"OpenSSL"被安装，如下图所示：

mamicode.com,码迷

如果还打算在eclipse 上编译Hadoop，则还必须安装"Base Category"下的"sed"，如

下图所示：

mamicode.com,码迷

另外，还建议将"Editors Category"下的vim 安装，以方便在Cygwin 上直接修改配置文件，如下图所示：

mamicode.com,码迷

建议安装在"Devel Category"下的subversion，如下图所示：

mamicode.com,码迷

当完成上述操作后，点击"Select Packages"对话框中"下一步"，进入Cygwin 安装包

下载过程，如下图所示：

mamicode.com,码迷

当安装完后，会自动进入到如下图所示的对话框：

mamicode.com,码迷

在上图所示的对话框中，选中"Create icon on Desktop"，以方便直接从桌面上启动

Cygwin，然后点击"完成"按钮。至此，Cgywin 已经安装完，安装目录下的内容如下图所示：

mamicode.com,码迷

当安装完Cygwin软件之后，我们还需要对其设置它的环境变量。

【新建】

CYGWIN_HOME= E:\cygwin

【增加】

PATH=……;% CYGWIN_HOME %\bin

第一步：点击"新建"，然后变量名写上"CYGWIN_HOME"，填上上面内容。

mamicode.com,码迷

第二步：在系统变量里找到Path，点击编辑。在后面追加上面内容。

mamicode.com,码迷

2、Eclipse开发

2.1 Solr部署

第一步：把"apache-solr-3.5.0.zip"解压到"E:\NutchWorkPlat"目录下，并命名为"solr"。

mamicode.com,码迷

第二步：把"E:\NutchWorkPlat\solr\dist"目录下的"apache-solr-3.5.0.war"重命名为"solr.war"，并把它放到"E:\NutchWorkPlat\tomcat\webapps"目录下面。

mamicode.com,码迷

第三步：修改Tomcat配置文件"E:\NutchWorkPlat\tomcat\conf\server.xml"，添加中文编码支持。

mamicode.com,码迷

第四步：把"E:\NutchWorkPlat\solr\example"目录下的"solr"文件夹连同里面的内容一起复制到"E:\NutchWorkPlat\tomcat"目录中。

mamicode.com,码迷

第五步：在"E:\NutchWorkPlat\tomcat\conf\Catalina\localhost"下创建一个"solr.xml"文件，内容如下所示：

<?xml version="1.0" encoding="UTF-8"?>

<Context docBase="E:\NutchWorkPlat\tomcat\webapps\solr.war" debug="0"

crossContext="true" >

<Environment name="solr/home" type="java.lang.String"

value="E:\NutchWorkPlat\tomcat\solr" override="true" />

</Context>

第六步：修改"E:\NutchWorkPlat\tomcat\solr\conf\ solrconfig.xml"找到下面这句话。

<queryResponseWriter

name="velocity"

class="solr.VelocityResponseWriter" enable="${solr.velocity.enabled:true}"/>

把 enable="${solr.velocity.enabled:true}中的true修改为false。

第七步：重新启动Tomcat，输入"http://localhost:8080/solr/"，出现下面界面。

mamicode.com,码迷

2.2 Nutch导入

第一步：把"apache-nutch-1.4-bin.tar.gz"解压到"E:\NutchWorkPlat"目录下，并重命名为"nutch"。

mamicode.com,码迷

第二步：在eclipse中新建立一个Java Project，名字自己定义为Nutch1.4_V0.1，去掉默认路径（Use default location）前面的对勾，选择"E:\NutchWorkPlat\nutch"。其他保持默认，点击"next"。

mamicode.com,码迷

第三步：选择"Librariesà Add Class Folder..."，从列表中选择"conf"，将conf加入到classpath中。

mamicode.com,码迷

第四步：别着急点"next"，选择"Order and Export"，选中"conf"，点击"Top"，使其置顶，此步骤非常关键，置顶之后，点击"Finish"。

mamicode.com,码迷

第五步：在"Nutch1.4_V0.1"工程根目录下面创建"urls"文件夹（与src、conf同级），在里面在创建一个名为"urls.txt"的文件，在该文件里添加如下内容：

http://www.hebut.edu.cn

http://www.qq.com/

第六步：在"Nutch1.4_V0.1"工程根目录下的conf文件夹中，编辑"nutch-site.xml"，使其内容如下：

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<configuration>

    <property>

        <name>http.agent.name</name>

        <value>My Nutch Spider</value>

    </property>



    <property>

        <name>plugin.folders</name>

        <value>./src/plugin</value>

    </property>

</configuration>

备注：其中"http.agent.name"和"plugin.folders"必须设置，不然会出现"Job Failure"。

第七步：在"Nutch1.4_V0.1"工程根目录下的conf文件夹中，编辑"regex-urlfilter.txt"，在"# accept anything else"下面输入："+^http://(\.*)*"，然后保存。

mamicode.com,码迷

第八步：经过上面的配置之后，就可以爬去网页了，选中"Nutch1.4_V0.1"工程右击选择"Run AsàRun Configurations"，从中找到"Java Application"，然后右击选择"New"，在Main Class选择"org.apache.nutch.crawl.Crawl"，将名字命名为"Crawl"。

mamicode.com,码迷

第八步：接着上面在"Arguments"选项卡中按下面进行填写，然后点击"Apply与Run"。

Program Arguments：urls -dir crawl -depth 5 -threads 5 -topN 100
VM arguments：-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

mamicode.com,码迷

2.3 Solr与Nutch结合

通过上面的步骤之后，指定的网页已经抓取到本地了，现在我们就为我们下载的网页建立索引。

第一步：把"E:\NutchWorkPlat\nutch\conf"下面的"schema.xml"复制到Tomcat的安装目录"E:\NutchWorkPlat\tomcat\solr\conf"下，覆盖掉原文件。schema.xml设置了索引的字段，把content项后面的stored="false" 改为 stored="true" 后在搜索返回值中就会包含含有关键字的具体内容。

mamicode.com,码迷

第二步：点击Eclipse工具栏的"Start Tomcat"即可启动Tomcat。

mamicode.com,码迷

备注：如果Tomcat已经起来了，在第一步完成之后，也应该重启使其有效，如果不起动Tomcat，在建立索引时会失败。

第三步：经过上面的配置之后，就可以建立索引了，选中"Nutch1.4_V0.1"工程右击选择"Run AsàRun Configurations"，从中找到"Java Application"，然后右击选择"New"，在Main Class选择"org.apache.nutch.indexer.solr.SolrIndexer"，将其命名为"SolrIndexer"。