码迷,mamicode.com
首页 > 其他好文 > 详细

集成Nutch/Hbase/Solr构建搜索引擎之三:内容修改

时间:2014-07-24 23:31:23      阅读:211      评论:0      收藏:0      [点我收藏+]

标签:des   style   blog   http   color   os   strong   文件   


1、从content域中搜索

从solr的example中得到的solrConfig.xml中,qf的定义如下:
[html] view plaincopy
  1. <str name="qf">  
  2.    text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4  
  3.    title^10.0 description^5.0 keywords^5.0 author^2.0 resourcename^1.0  
  4. </str>  
由于content不占任何的权重,因此如果某个文档只在content中包含关键字的话,搜索结果并不会返回这个文档。因此,对于nutch提取的索引来说,要增加content的权重,以及url的权重(如果需要的话):
[html] view plaincopy
  1. <str name="qf">  
  2.    content^1.0 text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4  
  3.    title^10.0 description^5.0 keywords^5.0 author^2.0 resourcename^1.0  
  4. </str>  
2、保存网页的content内容

将schema.xml中的

 <field name="content" type="text" stored="false" indexed="true"/>
改为

        <field name="content" type="text" stored="true" indexed="true"/>

3、同时显示网页文件与一般文本

 velocity/results_list.vm

##parse("hit_plain.vm")
将注释去掉。

4、调整每个搜索返回项的显示内容

vi richtest_doc.vm

<div>
  Id: #field('id')
</div>
改成:

<div>
  time: #field('tstamp')
</div>
<div>
  score: #field('score')
</div>
这个方法可以修改其它字段,详见http://blog.csdn.net/jediael_lu/article/details/38039267

集成Nutch/Hbase/Solr构建搜索引擎之三:内容修改,布布扣,bubuko.com

集成Nutch/Hbase/Solr构建搜索引擎之三:内容修改

标签:des   style   blog   http   color   os   strong   文件   

原文地址:http://blog.csdn.net/jediael_lu/article/details/38087747

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!