码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
Setting up Nutch 2.1 with MySQL to handle UTF-8
Setting up Nutch 2.1 with MySQL to handle UTF-8
分类:数据库   时间:2014-06-28 16:00:45    阅读次数:363
Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引
Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引
分类:数据库   时间:2014-06-21 14:31:57    阅读次数:298
nutch的爬虫demo代码 编辑
关键词: nutch今日来看看Nutch怎么Parse页面的:Nutch运用了两种Html parser东西(NekoHTML和TagSoup)来完成html的获取,这两种东西是可经过配置来选择的。当然你要自己完成Parser你还能够选择HTMLParser[根据visitor访问者形式一起也供给了...
分类:其他好文   时间:2014-06-18 15:28:46    阅读次数:181
nutch,solr集成在hadoop上
nutch,solr集成在hadoop上 nutch是一个应用程序,在我的这个项目里主要是做爬虫用,爬取后的内容寄存在hdfs上,所以在hdfs结合模块现已结合上去了。 solr: 在eclipse新建动态页面项目,删去WebContent的一切内容。 在solr/dist下(或许/solr3.6....
分类:其他好文   时间:2014-06-18 10:30:02    阅读次数:223
nutch的爬虫demo代码 编辑
关键词: nutch今日来看看Nutch怎么Parse页面的: Nutch运用了两种Html parser东西(NekoHTML和TagSoup)来完成html的获取,这两种东西是可经过配置来选择的。 当然你要自己完成Parser你还能够选择HTMLParser[根据visitor访问者形式一起也供...
分类:其他好文   时间:2014-06-17 21:22:32    阅读次数:258
nutch的爬虫demo代码 编辑
关键词:nutch今日来看看Nutch怎么Parse页面的:Nutch运用了两种Htmlparser东西(NekoHTML和TagSoup)来完成html的获取,这两种东西是可经过配置来选择的。当然你要自己完成Parser你还能够选择HTMLParser[根据visitor访问者形式一起也供给了Eventdriver的接口]来获取页面。假如..
分类:其他好文   时间:2014-06-17 18:30:27    阅读次数:200
Nutch搜索引擎系列
Nutch搜索引擎系列
分类:其他好文   时间:2014-05-25 19:15:18    阅读次数:318
nutch学习笔记(一)入门篇
简介 nutch是一个用java实现的网络爬虫,但却不仅仅是一个爬虫。它还囊括了网页分析,索引,搜索等功能,所白了,可以当做一个搜索引擎来用。nutch的意义在于,为普通开发人员提供了一扇研究搜索引擎的窗户,让搜索引擎不再神秘。而且,由于nutch的不断发展,对性能以及并行批处理的要求不断提供,h....
分类:其他好文   时间:2014-05-22 01:21:40    阅读次数:258
nutch2.1抓取中文网站
对nutch添加中文网站抓取功能。1、中文网页抓取A、调整mysql配置,避免存入mysql的中文出现乱码。修改${APACHE_NUTCH_HOME}/runtime/local/conf/gora.properties################################MySQLproperties################################gora.sqlstore.jdbc.driver=com..
分类:Web程序   时间:2014-05-20 19:17:55    阅读次数:539
nutch2.1抓取中文网站
对nutch添加中文网站抓取功能。1、中文网页抓取 A、调整mysql配置,避免存入mysql的中文出现乱码。修改 ${APACHE_NUTCH_HOME} /runtime/local/conf/gora.properties ################################ .....
分类:Web程序   时间:2014-05-19 17:44:52    阅读次数:326
272条   上一页 1 ... 25 26 27 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!