本文使用Github中的Elasticsearch-rtf,已经集成了众多的插件,例如必须使用的中文分词等,可以简单的通过配置来启用中文分词。本文主要分为以下几部分: 1、配置和启用中文分词; 2、定义索引的mapping 3、java客户端jest创建和检索索引 4、高亮检索结果 5、集群配置 工...
分类:
编程语言 时间:
2014-12-18 00:01:49
阅读次数:
280
话不多话都在注释上
public class OperatorIndex {
public static final String INDEX_PATH = "D:/indexDir";
// 创建分词器
private Analyzer analyzer = null;
// 索引保存目录
private File indexFile = null;
// 目录对象...
分类:
Web程序 时间:
2014-12-17 14:39:43
阅读次数:
272
最近又要做文本方面的处理,由于需求的定制化较高,还可能要放到集群上使用,所以不能再用公司封得严严密密、又笨又重的分词组件了。于是再次在网上找了一下能下载的分词工具,开源的:mmseg、IK_Analyzer、imdict、paoding、jcseg、free_ictclas、fnlp闭源的:NLPI...
分类:
其他好文 时间:
2014-12-16 17:00:10
阅读次数:
6186
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。一、版本信息solr版本:4.7.0需要ik-analyzer版本:IK Analyzer 2012FF_hf1ik-analyzer下载地址:...
分类:
其他好文 时间:
2014-12-12 16:35:14
阅读次数:
273
Lucene简介Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的 查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员...
分类:
Web程序 时间:
2014-12-12 12:57:56
阅读次数:
310
首先介绍下在lucene中attributeSource的类层次:
org.apache.lucene.util.AttributeSource
· org.apache.lucene.analysis.TokenStream (implementsjava.io.Closeable)
· org.apache.lucene.analysis.NumericTok...
分类:
其他好文 时间:
2014-12-11 19:14:11
阅读次数:
388
Jieba分词包(三)——基于词频最大切分组合
在前面,我们已经知道dict中所有的单词和词频信息已经存在了一个trie树中,并且需要分词的句子已经构建成了一个DAG图,构建的过程也运用了dict。那么这次我们来说如何基于每句话的DAG图,找到一个组合路径,使得该组合最合理(即打分最高)?
我们直接针对Jieba分词的源代码来解释,其中已经有了很多注释:...
分类:
其他好文 时间:
2014-12-10 18:14:46
阅读次数:
379
IK分词全名为IK Analyzer,是由java编写的中文分词工具包,目前在lucene以及solr中用的比较多,本系列的文章主要对ik的核心源码进行解析讲解,与大家分享,如果有错误的地方还望指教。
先来个整体概况:
其实从上面的图可以看出,真实的ik的代码其实并不多,这样给我们开始接触心里压力就小的多。
先打开IKAnalzyerDemo.java文件,先大体看看IK的工作流...
分类:
其他好文 时间:
2014-12-09 19:46:10
阅读次数:
287