码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
利用Solr服务建立的界面化站内搜索---solr2
本篇主要通过利用nutch爬取的页面,并将索引写入solr服务器中,结合solrj的api编写界面化的搜索界面,包括高亮和搜索的规则和关键字的设置,点击搜索实现指定规则或是关键字的搜索并呈现搜索结果。
分类:其他好文   时间:2014-08-10 12:54:40    阅读次数:218
nutch相关异常
1、在任务一开始运行,注入Url时即出现以下错误。 InjectorJob: Injecting urlDir: urls  InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.  InjectorJob: java.lang.RuntimeException: j...
分类:其他好文   时间:2014-08-09 00:18:16    阅读次数:252
nutch安装配置
http://nlp.solutions.asia/?p=180http://www.promenade.me/archives/146环境 ubuntu 12.04sql建表CREATE DATABASE nutch DEFAULT CHARACTER SET utf8mb4 DEFAULT CO...
分类:其他好文   时间:2014-08-06 21:56:32    阅读次数:239
Nutch源码阅读进程5---update
本文主要介绍nutch的五个环节中的最后一个流程update的具体执行流程。
分类:其他好文   时间:2014-08-06 14:37:51    阅读次数:231
待处理事项列表
待处理事项列表技术类1、提升java基础(内部类、泛型、集合、多线程、xml、io、nio、网络编程)2、学习设计模式。3、学习nutch。4、了解集成的知识。5、学习Hadoop。6、深入理解java虚拟机。7、阅读好的开源代码并参与感兴趣的开源项目。8、学习python语言。9、玩转github...
分类:其他好文   时间:2014-08-05 22:22:10    阅读次数:552
Nutch源码阅读进程4---parseSegment
本篇主要解读了nutch的第四个环节parse过程的执行流程和处理方法。
分类:其他好文   时间:2014-08-03 12:36:15    阅读次数:221
Nutch源码阅读进程3---fetch
本篇主要重点讲解了阅读nutch源码的fetch部分的感受以及通过调试追踪整个fetch的执行流程,其中包括通过生产者-消费者的模型解决爬虫问题,nutch如何爬取页面以及对于不同的返回状态做相应的处理机制,其中还涉及到一些多线程的知识。
分类:其他好文   时间:2014-08-02 17:55:13    阅读次数:290
Nutch Solrj高亮显示
后台: 检索条件必须放到query中,不能设置到fq中 //编辑queryStr; SolrQuery?query?=?new?SolrQuery(queryStr); query.setHighlight(true);?//?开启高亮组件 query.addHighlightField("title");//?高亮...
分类:其他好文   时间:2014-07-31 21:24:58    阅读次数:233
Nutch源码阅读进程2---Generate
本文主要讲解了自己阅读nutch中Generate整个运行过程,Generate主要分为以下几个部分:以前面的Inject过程得到的输出crawldb为输入提交job并得到抓取列表存放在临时文件夹中;再以该临时文件夹中的数据为输入提交一个job并得到一个输出segments;最后更新crawldb,...
分类:其他好文   时间:2014-07-27 23:17:09    阅读次数:338
Nutch源码阅读进程1---inject
本文主要从nutch的Crawl方法开始,分享了nutch爬取的第一个步骤——注入(Inject)以及具体的流程和处理的方法
分类:其他好文   时间:2014-07-26 16:53:51    阅读次数:328
272条   上一页 1 ... 23 24 25 26 27 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!