solr的同义词实现

时间：2017-06-23 14:12:37 阅读：255 评论：0 收藏：0 [点我收藏+]

标签：打包 ict comm syn text color cfg.xml body --

solr同义词的具体实现

1.修改分词器的jar包技术分享并重新打包

　　在org.wltea.analyzer.lucene包下新增IKTokenizerFactory 类

package org.wltea.analyzer.lucene;

import java.io.Reader;
import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;

public class IKTokenizerFactory extends TokenizerFactory {
private final boolean useSmart;

public IKTokenizerFactory(Map<String, String> args) {
　　super(args);
　　this.useSmart = getBoolean(args, "useSmart", false);

}

@Override
public Tokenizer create(AttributeFactory factory, Reader in) {
　　return new IKTokenizer(in, this.useSmart);
　　}

}

2.修改配置文件schema.xml

不需要同义词的配置

<fieldType name="text_ik" class="solr.TextField" >
　　<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

修改为同义词的配置

修改synonyms.txt文件加入需要的同义词

技术分享

如果同义词不生效,则需要下面的配置

在tomcat下的solr项目

技术分享

IKAnalyzer.cfg.xml的配置

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
　　<comment>IK Analyzer 扩展配置</comment>
　　
　　<entry key="ext_dict">ext.dic;</entry>
　　<!--用户可以在这里配置自己的扩展停止词字典
　　<entry key="ext_stopwords">stopword.dic;</entry>

　　 -->
</properties>

有些特殊的词语我们在使用的过程中不需要进行分词所以需要配置停词

停词配置文件ext.dic的配置不分词的词语

技术分享

最后的运行效果如下:

技术分享

solr的同义词实现

标签：打包 ict comm syn text color cfg.xml body --

原文地址：http://www.cnblogs.com/dp-blog/p/7069065.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行