码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
集成Nutch/Hbase/Solr构建搜索引擎之三:内容修改
1、从content域中搜索 从solr的example中得到的solrConfig.xml中,qf的定义如下: [html] view plaincopy str name="qf">      text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4...
分类:其他好文   时间:2014-07-24 23:31:23    阅读次数:211
Nutch学习笔记11---1.7local模式启用压缩算法
压缩优化 由于hadoop的很多结果都是由mr触发,mr中间伴随着很多硬盘IO。 所以这里需要启用压缩算法,减少IO数据量,减少IO时间。 症状表现:运行时看到 2014-07-14 18:13:09,386 WARN util.NativeCodeLoader - ...
分类:其他好文   时间:2014-07-22 09:03:05    阅读次数:199
WEB中调用Nutch执行JOB抓取
把nutch的源代码导入到eclipse工程自定义抓取任务。下载源码:http://svn.apache.org/repos/asf/nutch/从svn下载想要的nutch源码,这里选择nutch-1.1编译源码:使用ant编译源代码,编译成功,可以看到多了一个build目录,其中有plugins...
分类:Web程序   时间:2014-07-16 15:22:05    阅读次数:236
集成Nutch/Hbase/Solr构建搜索引擎之二:内容分析
一、被索引的域 Schema.xml 在使用solr对Nutch抓取到的网页进行索引时,schema.xml被改变成以下内容。 文件中指定了哪些域被索引、存储等内容。                 <fieldType name="string" class="solr.StrField" sortMissingLast="true"             omitNor...
分类:其他好文   时间:2014-07-13 18:56:21    阅读次数:411
(转)Hadoop生态系统
以下图1是hadoop生态图,通俗的说,就是hadoop核心模块和衍生的子项目。 图 1 Hadoop生态系统图由图可知,hadoop生态系统包括以下成员:① 各种浏览器,产生海量的Web数据;② Nutch项目,一个快速搜索海量网页的开源项目③ HDFS,Hadoop分布式文件系统,大数据的存储系...
分类:其他好文   时间:2014-07-10 15:32:23    阅读次数:189
Nuch分析一
1、构建Nutch tar -zxvf apache-nutch-2.2.1-src.tar.gz  cd apache-nutch-2.2.1 ant runtime 2、    ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式: Deploy:的数据必须运行在Hadoop的HDFS中 loca...
分类:其他好文   时间:2014-07-08 18:20:36    阅读次数:268
【未完善】使用nutch命令逐步下载网页
此文未完善。是否可以使用nutch逐步下载,未知。 1、基本操作,构建环境 (1)下载软件安装包,并解压至/usr/search/apache-nutch-2.2.1/ (2)构建runtime  cd /usr/search/apache-nutch-2.2.1/ ant runtime (3)验证Nutch安装完成 [root@jediael44 apache-nutch...
分类:Web程序   时间:2014-07-08 18:06:35    阅读次数:270
集成Nutch/Hbase/Solr构建搜索引擎
1、下载相关软件...
分类:其他好文   时间:2014-07-08 14:03:12    阅读次数:398
Hadoop技术内幕HDFS-笔记1
书籍学习——董西成《Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理》HDFS 高容错,高伸缩性Lucene是引擎开发包,提供了一个纯java的高性能全文检索,可方便的嵌入到各种应用中实现全文搜索/索引功能。Nutch是以Lucene为基础实现的搜索引擎应用,Lu...
分类:其他好文   时间:2014-06-27 12:15:57    阅读次数:221
272条   上一页 1 ... 24 25 26 27 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!