在创建索引库的基础上,加上中文分词器的,更好的支持中文的查询。引入jar包je-analysis-1.5.3.jar,极易分词.还是先看目录。
建立一个分词器的包,analyzer,准备一个AnalyzerTest的类.里面的代码如下,主要写了一个testAnalyzer的方法,测试多种分词器对于中文和英文的分词;为了可以看到效果,所以写了个analyze()的方法,将...
分类:
Web程序 时间:
2014-12-31 13:05:16
阅读次数:
244
描述: 在Linux环境下实现高速的全文检索一、当前环境: CentOS (Linux) 6.3 64 bit二、所需软件1、Java的JDK2、Solr最新稳定版Solr-4.53、Tomcat最新稳定版Tomcat-7.0.424、IK Analyzer最新稳定版分词器IKAnalyze...
分类:
其他好文 时间:
2014-12-21 19:23:48
阅读次数:
259
一、lucene建立索引过程:1、解析器用来解析物理文件,从中提取出所需的文本,其作用于物理文件;2、分析器用来分析文本内容(文字),其作用于解析器处理物理文件之后生成的文本;Lucene没有自己开发语言分析程序,JavaCC来生成分析器;分析器(analyzer)主要包含分词器和过滤器。分析器使用...
分类:
Web程序 时间:
2014-12-19 17:16:02
阅读次数:
198
在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer ov...
分类:
Web程序 时间:
2014-12-18 16:29:35
阅读次数:
1432
话不多话都在注释上
public class OperatorIndex {
public static final String INDEX_PATH = "D:/indexDir";
// 创建分词器
private Analyzer analyzer = null;
// 索引保存目录
private File indexFile = null;
// 目录对象...
分类:
Web程序 时间:
2014-12-17 14:39:43
阅读次数:
272
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。一、版本信息solr版本:4.7.0需要ik-analyzer版本:IK Analyzer 2012FF_hf1ik-analyzer下载地址:...
分类:
其他好文 时间:
2014-12-12 16:35:14
阅读次数:
273
??
1 Lucene卡发包结构分析
包名
功能
org.apache.lucene.analysis
Analysis提供自带的各种Analyzer
org.apache.lucene.collation
包含collationKey...
上次在使用Lucene建立索引时使用的时自带的StandAnalyzer分词器,而这个分词器在对中文进行分词时只是机械的按字进行划分,因此使用它lucene就不能很好的对中文索引,也就不能实现对中文关键词的检索了,因此其实上次的实践只能对英文进行。
为了解决这个问题,可以使用IKAnalyzer,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。它支持中英文等分词...
分类:
Web程序 时间:
2014-12-03 19:18:59
阅读次数:
299
一、 Lucene索引创建和优化 [版本2.9.0以上]Lucene索引的创建首先需要取得几个必须的对象:1、分词器//可以采用其他的中文分词器StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);//分词器...
分类:
Web程序 时间:
2014-12-03 18:38:58
阅读次数:
245
搜索中的分词器有很多种,包括中文、英文,一般的网站都会有站内搜索功能,也就是对用户输入的内容进行处理,本文对中文的全拼实现了一
个分词器,原理很简单,就是模式匹配。根据中文全拼的特点,即声母和韵母配对,首先列举出所有的声母,再分别列举出所有声母对应的韵母
集,分词的过程就是遍历匹配的过程。具体代码如下:
import java.util.ArrayList;
public cl...
分类:
编程语言 时间:
2014-12-02 22:45:20
阅读次数:
208