码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
nutch 插件开发[资料整理]
plugin(插件)为nutch提供了一些功能强大的部件,nutch中很多功能都是使用插件实现的,而使用者也可以自行开发更多适合自已的插件。 nutch使用这样的plugin系统有什么好处: 1:可扩展性 ? ? ??通过plugin,n...
分类:其他好文   时间:2015-07-01 16:11:19    阅读次数:178
nutch源代码阅读心得
一、 org.apache.nutch.crawl.Injector 注入url.txt url标准化 拦截url,进行正则校验(regex-urlfilter.txt) 对符合URL标准的url进行map对构造,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索...
分类:其他好文   时间:2015-07-01 12:32:26    阅读次数:117
合约广告系统-Hadoop
HadoopHadoop概况Hadoop由Apache Software Foundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由Google Lab开发的Map/Reduce和Google File System(GFS)的启发。Yahoo!是最主要...
分类:其他好文   时间:2015-06-30 12:26:50    阅读次数:199
开发基于大数据平台的搜索引擎
hadoop & hbase  & nutch 搜索平台 hadoop,hbase,nutch.solr,oracle,db2,mysql,linux...
分类:其他好文   时间:2015-06-28 00:09:22    阅读次数:155
Hadoop下各技术应用场景
数据采集和DataFlow对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集。对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储。对于网页采集,前端可以采用Nutch,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据...
分类:其他好文   时间:2015-05-30 07:01:49    阅读次数:205
Nutch之简介与安装
初学Nutch之简介与安装初学Nutch之简介与安装1、Nutch简介 Nutch是一个由Java实 现的,开放源代码(open-source)的web搜索引擎。主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行 查询的一套工具。其底层使用了Hadoop来做分布式....
分类:其他好文   时间:2015-05-16 07:52:59    阅读次数:310
Nutch & Solr & IKAnalyzer 问题记录
【集锦】Nutch配置错误IO错误 记得出错的时候把出错的目录删除,否则下次还是出错。Command crawl is deprecated, please use bin/crawl instead 1.8和2.3版本不可以使用这个命令,所以才会有之前的错误。 使用以下代替:1 Us...
分类:其他好文   时间:2015-05-14 13:54:37    阅读次数:204
爬虫概述
之前本打算做垂直搜索时使用了python的scrapy抓取 大众点评网的数据。现在准备做一款互联网医疗的产品。爬虫是需要抓取自然理论数据。因此对主流的开源爬虫框架做一个介绍。Java:Nutch,HeritrixC++:Larbin,PolyBotPython:ScrapyErlang:EbotR....
分类:其他好文   时间:2015-05-10 17:11:17    阅读次数:141
Nutch配置:nutch-default.xml详解
===============File===============配置1: file.content.limit 65536 The length limit for downloaded content using the file protocol, in bytes. If thi...
分类:其他好文   时间:2015-05-10 12:52:19    阅读次数:170
CentOS 6.5+Nutch 1.7+Solr 4.7+IK 2012
环境Linux版本:CentOS6.5JDK版本:JDK1.7Nutch版本:Nutch1.7Solr版本:Solr4.7IK版本:IK-Analyzer2012目录1.安装JDK2.安装Solr3.为Solr配置IK分词4.安装Nutch内容1.安装JDK1.1在/usr/下创建java/目录,下载JDK包并解压[root@localhost~]#mkdir/usr/java [root@localhost~]#c..
分类:其他好文   时间:2015-05-06 15:27:09    阅读次数:126
272条   上一页 1 ... 12 13 14 15 16 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!