搜索关键字：nutch，搜索到272个结果！码迷,mamicode.com！

全文索引之nutch与hadoop（转）

原文：http://blog.csdn.net/chaofanwei/article/details/39476535全文索引-lucene，solr，nutch，hadoop之lucene全文索引-lucene，solr，nutch，hadoop之solr 我在去年的时候，就想把lucene，so...

分类：其他好文时间：2015-02-12 01:53:48 阅读次数：223

读取Webpage表中的内容

nutch将从网页中抓取到的信息放入hbase数据库中，默认情况下表名为$crawlId_webpage，但表中的内容以16进制进行表示，直接scan或者通过Java API进行读取均只能读取到16进制信息。因此nutch提供了readdb选项进行数据获取，将表中的内容读取到一个文本中。具体用法为： $ bin/nutch readdb Usage: WebTableRea...

分类：Web程序时间：2015-02-10 15:17:58 阅读次数：155

Hadoop学习篇1 快速入门

Hadoop是Apache Lucene创始人Doug Cutting创建的，Hadoop起源于Apache Nutch，一个开源的网络搜索引擎。最先引起注意是2003年google的一篇论文，该论文实现了谷歌分布式文件系统，也就是GFS，2004年，他们开始着手实现一个开源的实现，也就是HDFS,...

分类：其他好文时间：2015-02-04 23:15:13 阅读次数：309

Nutch 二次开发之parse正文内容

关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发，为了满足搜索的准确率的问题，考虑只将网页正文的内容提取出来作为索引的内容，相应的是parse_text的数据。我使用的事nutch1.4 版本号，在cygwin下运行crawl命令进行爬取。bin/nutch crawl urls...

分类：其他好文时间：2015-01-30 15:37:06 阅读次数：250

solr ,hadoop ,lucene,nutch 的关系和区别

转自http://blog.itpub.net/8912125/viewspace-1120496/

分类：Web程序时间：2015-01-30 08:57:57 阅读次数：576

在Eclipse中运行Nutch2.3

一、环境准备 1、下载nutch2.3源代码 wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz或者下载正在开发中的最新版本 svn co https://svn.apache.org/repos/asf/nutch/branches/2.x 2、选择使用的数据库类型，以hbase为例...

分类：系统相关时间：2015-01-28 17:59:01 阅读次数：520

Nutch关于robot.txt的处理

在nutch中，默认情况下尊重robot.txt的配置，同时不提供配置项以忽略robot.txt。以下是其中一个解释。即作为apache的一个开源项目，必须遵循某些规定，同时由于开放了源代码，可以简单的通过修改源代码来忽略robot.txt的限制。 From the point of view of research and crawling certain pieces of the ...

分类：其他好文时间：2015-01-28 13:08:18 阅读次数：161

Nutch2.2.1 问题一:索引不能提交

按照bin/nutch下的脚步一步一步的执行抓取:Inject,Generate,Fetcher,Parse,Updatedb,Solrindex,SolrDump.每部其实都可以打出 “bin/nutch $commands”命令来进行命令的提示,例如:"bin/nutch Inject" 注入U...

分类：其他好文时间：2015-01-27 01:50:15 阅读次数：239

ant编译apache-nutch-2.2.1结合mysql实现爬虫的安装配置全过程

之前的数据抓取都是用的八爪鱼软件，老大突发奇想要我自己搞个爬虫来抓取数据，网上找找貌似apache的nutch比较合适，于是就开始安装这啥nutch。对于一个linux零基础的人来说，还要先学学linux，大致了解了ssh连接工具怎么用后就开始正事了。了解到从nutch2开始，源码就必须要自己编....

分类：数据库时间：2015-01-26 19:00:26 阅读次数：1393

Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26（续）

上周以为搞定了Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26的整合，于是这周开始真正执行nutch抓取tieba的数据：nutch inject /urls -crawlId tieba谁知道报错：java.lang.NoSuchMethodError: org.apache...

分类：其他好文时间：2015-01-20 19:50:08 阅读次数：156

共272条上一页 1 ... 15 16 17 18 19 ... 28 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)