1、nutch2.3-snapshot中batchid为null引发的.NullPointerException异常:Exception in thread "main" java.lang.NullPointerExceptionat org.apache.nutch.parse.ParserJo...
分类:
其他好文 时间:
2014-11-26 11:08:57
阅读次数:
185
一、??Nutch安装并整合到Solr ? 1、下载并解压Nutch(此处使用版本1.9)????? http://nutch.apache.org/ ? 2、修改apache-nutch-1.9/conf/nutch-site.xml <property> <name>http.agent.name</name> <val...
分类:
其他好文 时间:
2014-11-13 19:15:38
阅读次数:
218
http://www.nowamagic.net/librarys/veda/detail/1767Hadoop是什么Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来,Hadoop是一个可以更容易开发和...
分类:
其他好文 时间:
2014-11-05 10:48:11
阅读次数:
181
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不...
分类:
其他好文 时间:
2014-11-05 10:30:05
阅读次数:
139
<?xml?version="1.0"?>
<?xml-stylesheet?type="text/xsl"?href="configuration.xsl"?>
<!--?Put?site-specific?property?overrides?in?this?file.?-->
<configuration>
<property>
<name>plugi...
分类:
其他好文 时间:
2014-10-31 13:59:24
阅读次数:
135
网络拓扑 图 1 网络拓扑图安装Java JDK首先查看系统是否已经安装了其它版本号的JDK,假设有,先要把其它版本号的JDK卸载。用root用户登录系统。# rpm-qa|grepgcj显示内容当中包括以下两行信息#java-1.6.0-ope...
分类:
Web程序 时间:
2014-10-24 16:01:20
阅读次数:
333
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,...
分类:
编程语言 时间:
2014-10-17 02:11:54
阅读次数:
306
使用开源工具Nutch和Lucene在局域网下搭建垂直搜索引擎。...
分类:
Web程序 时间:
2014-10-14 09:56:18
阅读次数:
376
在去年的时候,就想把lucene,solr,nutch和hadoop这几个东东给详细的介绍下,但由于时间的关系,我还是只写了两篇文章,分别介绍了一下lucene和solr,后来就没有在写了,但我心里还是期待的,虽然到现在我没有真正搞过nutch和hadoop实战项目,但公司马上就要做hadoop大数据的监控了,我一直都说,要做一个有准备的人,因此我从去年到现在从未停止过对hadoop相关技术的学习、思考、实战。...
分类:
Web程序 时间:
2014-10-11 10:15:45
阅读次数:
240