码迷,mamicode.com
首页 >  
搜索关键字:分词器    ( 431个结果
安装ansj分词器
项目地址:https://github.com/4onni/elasticsearch-analysis-ansjhttps://github.com/laigood/elasticsearch-analysis-ansj安装步骤基本上是按照第一个网页的要求安装的,通过插件的形式.
分类:其他好文   时间:2014-11-27 20:12:46    阅读次数:152
【Java】Java中文分词器Ansj的使用
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。 下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。 1.下载Ansj的相关jar包 要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg 2.程序代...
分类:编程语言   时间:2014-11-26 14:24:16    阅读次数:329
[Elasticsearch] 索引管理 (二)
自定义解析器(Custom Analyzers) 虽然ES本身已经提供了一些解析器,但是通过组合字符过滤器(Character Filter),分词器(Tokenizer)以及词条过滤器(Token Filter)来创建你自己的解析器才会显示出其威力。 在解析和解析器中,我们提到过解析器(Analyzer)就是将3种功能打包得到的,它会按照下面的顺序执行: 字符过滤器(Cha...
分类:其他好文   时间:2014-11-25 12:52:50    阅读次数:247
[转载]Elasticsearch索引重建(Rebuild)
From:http://blog.csdn.net/changong28/article/details/38491185索引重建(Rebuild) 索引创建后,你可以在索引当中添加新的类型,在类型中添加新的字段。但是如果想修改已存在字段的属性(修改分词器、类型等),目前ES是做不到的。如果确实存在...
分类:其他好文   时间:2014-11-21 16:08:57    阅读次数:199
lucene构建同义词分词器
在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲,有两个点;词库和搜索效率,也就是算法。 lucene的倒排列表中,不同的分词单元有不同的PositionIncrementAttribute,如果两个词有着相同位置属性,比如:我定义美国和中国这两个词在倒排列表中是同一个位置,那么搜索美国的话,中国也能出来。这就是同义词搜索原理。 以下代码(用mmseg的 Tokenizer 去切词之后,然后再做同义词): 先自定义...
分类:Web程序   时间:2014-11-19 18:47:09    阅读次数:265
lucene分词器中的Analyzer,TokenStream, Tokenizer, TokenFilter
TokenStream: 分词器做好处理之后得到的一个流。这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元。 以下是把文件流转换成分词流(TokenStream)的过程 首先,通过Tokenizer来进行分词,不同分词器有着不同的Tokenzier,Tokenzier分完词后,通过TokenFilter对已经分好词的数据进行过滤,比如停止词。过滤完之后,把所有的数据组合成一个TokenStream;...
分类:Web程序   时间:2014-11-17 22:56:37    阅读次数:458
solr 分词词库管理思路
solr 分词词库管理思路大概有以下几种思路:1。 自定义 SolrRequestHandler 由 SolrRequestHandler 来进行对分词器,进行A)词库加载B)动态添加词库 等操作 这样的话,还需要在内存中hold 住所有的词,或者需要引用到分词的jar2. 在自定义分词器中...
分类:其他好文   时间:2014-11-10 19:48:26    阅读次数:170
Solr 4.10.1 + tomcat 7 + zookeeper + HDFS 集成 (SolrCloud+HDFS)配置
搭建SolrCloud ,zookeeper ,HDFS ,IK中文分词器,注意事项...
分类:其他好文   时间:2014-11-04 15:08:28    阅读次数:628
[分词]Java开源中文分词器ANSJ_SEG初次试用
近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想.....
分类:编程语言   时间:2014-09-20 09:57:17    阅读次数:342
nltk-比较中文文档相似度
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:其他好文   时间:2014-09-17 10:30:22    阅读次数:275
431条   上一页 1 ... 38 39 40 41 42 ... 44 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!