码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
JAVA爬虫Nutch、WebCollector的正则约束
每种爬虫的正则约束系统都有一些区别,这里拿Nutch、WebCollector两家爬虫的正则系统做对比。爬虫爬取时,需要约束爬取的范围。基本所有的爬虫都是通过正则表达式来完成这个约束................
分类:编程语言   时间:2014-08-28 13:18:59    阅读次数:569
【Nutch源代码分析之二】索引的基本流程
一、各个主要类之间的关系 SolrIndexerJob extends IndexerJob 1、IndexerJob:主要完成 2、SolrIndexerJob:主要完成 3、IndexUtil:主要只有一个方法public NutchDocument index(String key, WebPage page),用于根据网页信息,返回一个solr的Document对象...
分类:其他好文   时间:2014-08-25 15:02:14    阅读次数:270
【Nutch2.2.1源码分析之一】Nutch加载配置文件的方法
1、NutchConfiguration.java用于加载及获取Nutch的相关参数。 Utility to create Hadoop Configurations that include Nutch-specific  resources.  即它会加载hadoop及nutch中的参数文件。 关键是2个create()方法,它加载了参数文件的同时,又返回了Configuration对象...
分类:其他好文   时间:2014-08-22 22:34:26    阅读次数:359
【转】Nutch源代码研究 网页抓取 数据结构
今天我们看看Nutch网页抓取,所用的几种数据结构:主要涉及到了这几个类:FetchListEntry,Page,首先我们看看FetchListEntry类:public final class FetchListEntry implements Writable, Cloneable实现了Writ...
分类:Web程序   时间:2014-08-22 15:59:58    阅读次数:242
【转】Nutch源代码研究 网页抓取 下载插件
今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpRespon...
分类:Web程序   时间:2014-08-22 15:53:38    阅读次数:266
Nutch 二次开发之parse正文内容
关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4 版本号,在cygwin下运行crawl命令进行爬取。bin/nutch crawl urls...
分类:其他好文   时间:2014-08-22 12:34:26    阅读次数:193
Nutch2.2.1配置文件nutch-site.xml
在nutch2.2.1中,有两份配置文件:nutch-default.xml与nutch-site.xml。 其中前者是nutch自带的默认属性,一般情况下不要修改。 如果需要修改默认属性,可以在nutch-site.xml中增加一个同名的属性,并修改其值。nutch-site.xml中的属性值会覆盖nutch-default.xml中的值。 1、db.ignore.external...
分类:其他好文   时间:2014-08-18 18:45:02    阅读次数:299
Nutch2.2.1抓取流程
一、抓取流程概述 1、nutch抓取流程 当使用crawl命令进行抓取任务时,其基本流程步骤如下: (1)InjectorJob 开始第一个迭代 (2)GeneratorJob (3)FetcherJob (4)ParserJob (5)DbUpdaterJob (6)SolrIndexerJob 开始第二个迭代 (2)GeneratorJob(3)FetcherJob(4)...
分类:其他好文   时间:2014-08-15 22:36:09    阅读次数:1149
一个“牛人”的简历摘要
1.flume 2.storm 3.hadoop 4.crawler 5.nutch 6.opentsd 7.tigase 8.flume +shell 收集日志,方便在线以及离线分析 9.redis 做用户行为分析的利器 10.maven 11.git 12.ruby 13.python 14.p...
分类:其他好文   时间:2014-08-13 14:29:36    阅读次数:302
Hadoop与Lucene和Nutch的关系
Hadoop+Lucene+NutchHadoop中实现了 Google的GFS和MapReduce算法,使Hadoop成为了一个分布式的计算平台。Hadoop不仅是一个用于存储的分布式文件系统,而且是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。Lucene是一个Java高性能全文...
分类:其他好文   时间:2014-08-10 23:51:50    阅读次数:316
272条   上一页 1 ... 22 23 24 25 26 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!