码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
Hadoop起源
本文来自Doug Cutting为《Hadoop权威指南》所作之序,感觉读一下还是挺有收获的。 Hadoop 起源于Nutch项目。我们几个人有一段时间一直在尝试构建一个开源的Web搜索引擎,但始终无法有效地将计算任务分配到多台计算机上,即使就只是屈指可数的几台。直到谷歌发表的GFS和MapRedu... ...
分类:其他好文   时间:2017-10-30 18:21:52    阅读次数:225
谦先生的程序员日志之我的hadoop大数据生涯一
从一个初级程序员到高级程序员的经历 你好!我是谦先生,我是茫茫程序猿中的一猿,平凡又执着。 刚入行的时候说实话,啥都不懂,就懂点皮毛的java,各种被虐狗的感觉。又写js又写css又写后台。。。慢慢被虐出来了~开始掌握一些好多前端框架比如jqury、jquery ui、easyui、datagrid ...
分类:其他好文   时间:2017-10-13 19:13:26    阅读次数:173
Nutch的初步搭建(IDEA)
1.环境搭建:ant,从http://ant.apache.org/下载apache-ant-1.9.9-bin.zip;解压指定目录,配置环境变量,ANT_HOME : F:\life\rainofsky\apache-ant-1.9.9,path中新增:%ANT_HOME%\bin。 2.下载N ...
分类:其他好文   时间:2017-09-15 13:45:41    阅读次数:192
Nutch源码阅读进程5
看nutch的源码仿佛就是一场谍战片,而构成这精彩绝伦的谍战剧情的就是nutch的每一个从inject->generate->fetch->parse->update的环节,首先我党下派任务给优秀的地下工作者(inject),地下工作者经过一系列处理工作(告诉自己媳妇孩子要出差什么的……)以及加入自 ...
分类:系统相关   时间:2017-09-03 00:31:19    阅读次数:264
在ssh中利用Solr服务建立的界面化站内搜索
继上次匆匆搭建起结合solr和nutch的所谓站内搜索引擎之后,虽当时心中兴奋不已,可是看了看百度,再只能看看我的控制台的打印出每个索引项的几行文字,哦,好像差距还是有点大…… 简陋的信息显示环境最起码给了我一个信号,这条路没有走错,好吧,让我们来继续探索搜索引擎的奥秘吧。 上期回顾:上次主要是介绍 ...
分类:其他好文   时间:2017-09-03 00:31:10    阅读次数:274
Nutch源码阅读进程4
前面依次看了nutch的准备工作inject和generate部分,抓取的fetch部分的代码,趁热打铁,我们下面来一睹parse即页面解析部分的代码,这块代码主要是集中在ParseSegment类里面,Let‘s go~~~ 上期回顾:上回主要讲的是nutch的fetch部分的功能代码实现,主要是 ...
分类:系统相关   时间:2017-09-03 00:30:22    阅读次数:281
利用Solr服务建立的站内搜索雏形
最近看完nutch后总感觉像好好捯饬下solr,上次看到老大给我展现了下站内搜索我便久久不能忘怀。总觉着之前搭建的nutch配上solr还是有点呆板,在nutch爬取的时候就建立索引到solr服务下,然后在solr的管理界面中选择query,比如在q选项框中将“*:*”改写为“title:安徽”,则 ...
分类:其他好文   时间:2017-09-03 00:21:11    阅读次数:157
Nutch源码阅读进程3
走了一遍Inject和Generate,基本了解了nutch在执行爬取前的一些前期预热工作,包括url的过滤、规则化、分值计算以及其与mapreduce的联系紧密性等,自我感觉nutch的整个流程是很缜密的,起码从前面两个过程看是这样的。 前期回顾:上一期主要是讲解了nutch的第二个环节Gener ...
分类:系统相关   时间:2017-09-03 00:19:56    阅读次数:237
Mac自己搭建爬虫搜索引擎(nutch+elasticsearch是失败的尝试,改用scrapy+elasticsearch)
1.引言 项目需要做爬虫并能提供个性化信息检索及推送,发现各种爬虫框架。其中比较吸引的是这个: Nutch+MongoDB+ElasticSearch+Kibana 搭建搜索引擎 E文原文在:http://www.aossama.com/search-engine-with-apache-nutch ...
分类:系统相关   时间:2017-08-11 17:25:29    阅读次数:511
开发网络爬虫应该如何选择爬虫框架?
有些人问,开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其它的?这里依照我的经验随便扯淡一下: 上面说的爬虫,基本能够分3类: 1.分布式爬虫:Nutch 2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollec ...
分类:其他好文   时间:2017-08-05 19:44:45    阅读次数:183
272条   上一页 1 2 3 4 5 6 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!