1、从content域中搜索
从solr的example中得到的solrConfig.xml中,qf的定义如下:
[html] view
plaincopy
str name="qf">
text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4...
分类:
其他好文 时间:
2014-07-24 23:31:23
阅读次数:
211
压缩优化
由于hadoop的很多结果都是由mr触发,mr中间伴随着很多硬盘IO。
所以这里需要启用压缩算法,减少IO数据量,减少IO时间。
症状表现:运行时看到
2014-07-14 18:13:09,386 WARN util.NativeCodeLoader - ...
分类:
其他好文 时间:
2014-07-22 09:03:05
阅读次数:
199
把nutch的源代码导入到eclipse工程自定义抓取任务。下载源码:http://svn.apache.org/repos/asf/nutch/从svn下载想要的nutch源码,这里选择nutch-1.1编译源码:使用ant编译源代码,编译成功,可以看到多了一个build目录,其中有plugins...
分类:
Web程序 时间:
2014-07-16 15:22:05
阅读次数:
236
一、被索引的域 Schema.xml
在使用solr对Nutch抓取到的网页进行索引时,schema.xml被改变成以下内容。
文件中指定了哪些域被索引、存储等内容。
<fieldType name="string" class="solr.StrField" sortMissingLast="true"
omitNor...
分类:
其他好文 时间:
2014-07-13 18:56:21
阅读次数:
411
以下图1是hadoop生态图,通俗的说,就是hadoop核心模块和衍生的子项目。 图 1 Hadoop生态系统图由图可知,hadoop生态系统包括以下成员:① 各种浏览器,产生海量的Web数据;② Nutch项目,一个快速搜索海量网页的开源项目③ HDFS,Hadoop分布式文件系统,大数据的存储系...
分类:
其他好文 时间:
2014-07-10 15:32:23
阅读次数:
189
1、构建Nutch
tar -zxvf apache-nutch-2.2.1-src.tar.gz
cd apache-nutch-2.2.1
ant runtime
2、 ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式:
Deploy:的数据必须运行在Hadoop的HDFS中
loca...
分类:
其他好文 时间:
2014-07-08 18:20:36
阅读次数:
268
此文未完善。是否可以使用nutch逐步下载,未知。
1、基本操作,构建环境
(1)下载软件安装包,并解压至/usr/search/apache-nutch-2.2.1/
(2)构建runtime
cd /usr/search/apache-nutch-2.2.1/
ant runtime
(3)验证Nutch安装完成
[root@jediael44 apache-nutch...
分类:
Web程序 时间:
2014-07-08 18:06:35
阅读次数:
270
书籍学习——董西成《Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理》HDFS 高容错,高伸缩性Lucene是引擎开发包,提供了一个纯java的高性能全文检索,可方便的嵌入到各种应用中实现全文搜索/索引功能。Nutch是以Lucene为基础实现的搜索引擎应用,Lu...
分类:
其他好文 时间:
2014-06-27 12:15:57
阅读次数:
221