项目地址:https://github.com/4onni/elasticsearch-analysis-ansjhttps://github.com/laigood/elasticsearch-analysis-ansj安装步骤基本上是按照第一个网页的要求安装的,通过插件的形式.
分类:
其他好文 时间:
2014-11-27 20:12:46
阅读次数:
152
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。
下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。
1.下载Ansj的相关jar包
要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg
2.程序代...
分类:
编程语言 时间:
2014-11-26 14:24:16
阅读次数:
329
自定义解析器(Custom Analyzers)
虽然ES本身已经提供了一些解析器,但是通过组合字符过滤器(Character Filter),分词器(Tokenizer)以及词条过滤器(Token Filter)来创建你自己的解析器才会显示出其威力。
在解析和解析器中,我们提到过解析器(Analyzer)就是将3种功能打包得到的,它会按照下面的顺序执行:
字符过滤器(Cha...
分类:
其他好文 时间:
2014-11-25 12:52:50
阅读次数:
247
From:http://blog.csdn.net/changong28/article/details/38491185索引重建(Rebuild) 索引创建后,你可以在索引当中添加新的类型,在类型中添加新的字段。但是如果想修改已存在字段的属性(修改分词器、类型等),目前ES是做不到的。如果确实存在...
分类:
其他好文 时间:
2014-11-21 16:08:57
阅读次数:
199
在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲,有两个点;词库和搜索效率,也就是算法。
lucene的倒排列表中,不同的分词单元有不同的PositionIncrementAttribute,如果两个词有着相同位置属性,比如:我定义美国和中国这两个词在倒排列表中是同一个位置,那么搜索美国的话,中国也能出来。这就是同义词搜索原理。
以下代码(用mmseg的 Tokenizer 去切词之后,然后再做同义词):
先自定义...
分类:
Web程序 时间:
2014-11-19 18:47:09
阅读次数:
265
TokenStream: 分词器做好处理之后得到的一个流。这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元。
以下是把文件流转换成分词流(TokenStream)的过程
首先,通过Tokenizer来进行分词,不同分词器有着不同的Tokenzier,Tokenzier分完词后,通过TokenFilter对已经分好词的数据进行过滤,比如停止词。过滤完之后,把所有的数据组合成一个TokenStream;...
分类:
Web程序 时间:
2014-11-17 22:56:37
阅读次数:
458
solr 分词词库管理思路大概有以下几种思路:1。 自定义 SolrRequestHandler 由 SolrRequestHandler 来进行对分词器,进行A)词库加载B)动态添加词库 等操作 这样的话,还需要在内存中hold 住所有的词,或者需要引用到分词的jar2. 在自定义分词器中...
分类:
其他好文 时间:
2014-11-10 19:48:26
阅读次数:
170
搭建SolrCloud ,zookeeper ,HDFS ,IK中文分词器,注意事项...
分类:
其他好文 时间:
2014-11-04 15:08:28
阅读次数:
628
近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想.....
分类:
编程语言 时间:
2014-09-20 09:57:17
阅读次数:
342
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:
其他好文 时间:
2014-09-17 10:30:22
阅读次数:
275