码迷,mamicode.com
首页 > 其他好文 > 详细

IK中文分词器配置

时间:2015-05-22 13:33:37      阅读:165      评论:0      收藏:0      [点我收藏+]

标签:solr   ik   中文分词器   配置   

solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。

一、版本信息

solr版本:4.7.0

需要ik-analyzer版本:IK Analyzer 2012FF_hf1

ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list

上面的连接有的人可能无法下载(需要翻墙)

下面是csdn的下载地址 http://download.csdn.net/detail/li295214001/8727497

二、配置步骤

下载压缩解压后得到如下目录结构的文件夹:

技术分享

我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。

我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。

技术分享

修改core的schema.xml,在<types></types>配置项间加一段如下配置:

<fieldType name="text_ik" class="solr.TextField">   
     <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
</fieldType> 



我们就多了一种text_ik的field类型了,该类型使用的分词器就是ik-analyzer

我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。

 <field name="name"      type="text_ik"   indexed="true"  stored="true"  multiValued="false" />  

三、中文分词测试

技术分享

                   
IKT
	
text
raw_bytes
start
end
type
position
	
中华人民共和国
[e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]
0
7
CN_WORD
1
	
中华人民
[e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91]
0
4
CN_WORD
2
	
中华
[e4 b8 ad e5 8d 8e]
0
2
CN_WORD
3
	
华人
[e5 8d 8e e4 ba ba]
1
3
CN_WORD
4
	
人民共和国
[e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]
2
7
CN_WORD
5
	
人民
[e4 ba ba e6 b0 91]
2
4
CN_WORD
6
	
共和国
[e5 85 b1 e5 92 8c e5 9b bd]
4
7
CN_WORD
7
	
共和
[e5 85 b1 e5 92 8c]
4
6
CN_WORD
8
	
国
[e5 9b bd]
6
7
CN_CHAR
9

IK中文分词器配置

标签:solr   ik   中文分词器   配置   

原文地址:http://blog.csdn.net/li295214001/article/details/45915469

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!