码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
全文索引之nutch与hadoop(转)
原文:http://blog.csdn.net/chaofanwei/article/details/39476535全文索引-lucene,solr,nutch,hadoop之lucene全文索引-lucene,solr,nutch,hadoop之solr 我在去年的时候,就想把lucene,so...
分类:其他好文   时间:2015-02-12 01:53:48    阅读次数:223
读取Webpage表中的内容
nutch将从网页中抓取到的信息放入hbase数据库中,默认情况下表名为$crawlId_webpage,但表中的内容以16进制进行表示,直接scan或者通过Java API进行读取均只能读取到16进制信息。     因此nutch提供了readdb选项进行数据获取,将表中的内容读取到一个文本中。  具体用法为: $ bin/nutch readdb Usage: WebTableRea...
分类:Web程序   时间:2015-02-10 15:17:58    阅读次数:155
Hadoop学习篇1 快速入门
Hadoop是Apache Lucene创始人Doug Cutting创建的,Hadoop起源于Apache Nutch,一个开源的网络搜索引擎。最先引起注意是2003年google的一篇论文,该论文实现了谷歌分布式文件系统,也就是GFS,2004年,他们开始着手实现一个开源的实现,也就是HDFS,...
分类:其他好文   时间:2015-02-04 23:15:13    阅读次数:309
Nutch 二次开发之parse正文内容
关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4 版本号,在cygwin下运行crawl命令进行爬取。bin/nutch crawl urls...
分类:其他好文   时间:2015-01-30 15:37:06    阅读次数:250
solr ,hadoop ,lucene,nutch 的关系和区别
转自http://blog.itpub.net/8912125/viewspace-1120496/
分类:Web程序   时间:2015-01-30 08:57:57    阅读次数:576
在Eclipse中运行Nutch2.3
一、环境准备 1、下载nutch2.3源代码 wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz或者下载正在开发中的最新版本 svn co https://svn.apache.org/repos/asf/nutch/branches/2.x 2、选择使用的数据库类型,以hbase为例...
分类:系统相关   时间:2015-01-28 17:59:01    阅读次数:520
Nutch关于robot.txt的处理
在nutch中,默认情况下尊重robot.txt的配置,同时不提供配置项以忽略robot.txt。 以下是其中一个解释。即作为apache的一个开源项目,必须遵循某些规定,同时由于开放了源代码,可以简单的通过修改源代码来忽略robot.txt的限制。 From the point of view of research and crawling certain pieces of the ...
分类:其他好文   时间:2015-01-28 13:08:18    阅读次数:161
Nutch2.2.1 问题一:索引不能提交
按照bin/nutch下的脚步一步一步的执行抓取:Inject,Generate,Fetcher,Parse,Updatedb,Solrindex,SolrDump.每部其实都可以打出 “bin/nutch $commands”命令来进行命令的提示,例如:"bin/nutch Inject" 注入U...
分类:其他好文   时间:2015-01-27 01:50:15    阅读次数:239
ant编译apache-nutch-2.2.1结合mysql实现爬虫的安装配置全过程
之前的数据抓取都是用的八爪鱼软件,老大突发奇想要我自己搞个爬虫来抓取数据,网上找找貌似apache的nutch比较合适,于是就开始安装这啥nutch。 对于一个linux零基础的人来说,还要先学学linux,大致了解了ssh连接工具怎么用后就开始正事了。了解到从nutch2开始,源码就必须要自己编....
分类:数据库   时间:2015-01-26 19:00:26    阅读次数:1393
Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26(续)
上周以为搞定了Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26的整合,于是这周开始真正执行nutch抓取tieba的数据:nutch inject /urls -crawlId tieba谁知道报错:java.lang.NoSuchMethodError: org.apache...
分类:其他好文   时间:2015-01-20 19:50:08    阅读次数:156
272条   上一页 1 ... 15 16 17 18 19 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!