码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
Nutch 2.x + Hadoop 2.5.2 + Hbase 0.94.26
一开始运行Nutch 2.x 总是报下面这个错误:java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.Counter, but class was expected这个问题足足折腾了2...
分类:其他好文   时间:2015-01-16 20:47:15    阅读次数:1766
Nutch2.x 集成ElasticSearch 抓取+索引
http://blog.csdn.net/eryk86/article/details/14111811使用https://github.com/apache/nutch.git导入nutch项目到intellij配置ivy.xml和conf下的gora.properties、nutch-site....
分类:其他好文   时间:2015-01-14 00:49:35    阅读次数:795
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。搜 索引擎架构在ElasticSearch之上,...
分类:其他好文   时间:2015-01-10 19:37:13    阅读次数:1115
hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略
一、背景最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es。这几样神器的作用就不多作介绍了,自行参考各类百科就行了。我选择这样的方案主要是基于以下考虑:1、可扩展,虽然只是实验环境,但是以后在项目中是要应...
分类:其他好文   时间:2015-01-10 16:27:38    阅读次数:155
Nutch 快速入门(Nutch 2.2.1+Hbase+Solr)
http://www.tuicool.com/articles/VfEFjmNutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如HBase, Cassandra, MySql来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。1....
分类:其他好文   时间:2015-01-08 11:16:36    阅读次数:4606
Solr\Lucene优劣势分析
最早lucene2.4以及以前,追溯到2008年前后,lucene刚刚引起大家的关注,到后来Nutch 、solr的出现,lucene变得更加热。Nutch、Solr的发展,极大推动了lucene的升级。 对于一些接触过搜索,使用过lucene、solr的人来说,一般都会感觉lucene、solr很牛逼。我个人也认为solr、lucene确实非常NB,他涵盖了信息检索的几乎全部基础知识和非常高...
分类:Web程序   时间:2015-01-07 11:01:38    阅读次数:185
网络爬虫的乱码处理
原文地址:http://www.cnblogs.com/agileblog/p/3615250.html 关于爬虫乱码有很多群友的各式各样的问题,下边简单总结下关于网络爬虫的乱码处理。注意,这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为他们的解决方式 是一致的,故在此统一说明。     网络爬虫,有两种选择,一是选择nutch、hetriex,二是...
分类:其他好文   时间:2015-01-05 13:03:19    阅读次数:195
Nutch 二次开发之parse正文内容
关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4 版本号,在cygwin下运行crawl命令进行爬取。bin/nutch crawl urls...
分类:其他好文   时间:2014-12-31 18:00:36    阅读次数:207
nutch二次开发环境搭建
开发环境: ubuntu14.04 + jdk1.7 + eclispe +nutch1.71:解压下好nutch1.7 src 源码(wget http://archive.apache.org/dist/nutch/1.7/apache-nutch-1.7-src.tar.gz)2:新建一个ja...
分类:其他好文   时间:2014-12-31 15:55:11    阅读次数:248
开发网络爬虫应该怎样选择爬虫框架?
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?...
分类:其他好文   时间:2014-12-24 14:42:27    阅读次数:254
272条   上一页 1 ... 16 17 18 19 20 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!