打开 ~/es_root/config/elasticsearch.yml 文件,加入以下配置: 以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer,分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档,二者区别 ...
分类:
其他好文 时间:
2016-11-19 20:54:53
阅读次数:
289
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远...
分类:
其他好文 时间:
2016-11-19 10:09:47
阅读次数:
946
前段时间用这个分词用的好好的,突然间就总是初始化失败了; 网上搜了很多,但是不是我想要的答案,最终去了官网看了下;官网链接 发现哇,版本更新了啊,下载页面链接 麻利的下载好了最新的文档,一看压缩包名字:20161115173728_ICTCLAS2016分词系统下载包 现在是2016-11-17 1 ...
分类:
其他好文 时间:
2016-11-17 12:52:15
阅读次数:
324
需求: 1.设计一个词频统计的程序。 2.英语文章中包含的英语标点符号不计入统计。 3.将统计结果按照单词的出现频率由大到小进行排序。 设计: 1.基本功能和用法会在程序中进行提示。 2.原理是利用分隔符分词存入列表,然后从列表读出存入字典,键为词,值存放词的数量。 代码如图所示: 1.导入程序所需 ...
分类:
编程语言 时间:
2016-11-14 11:56:15
阅读次数:
362
https://www.elastic.co/ elasticsearch: 可以看成一个分布式的NoSql数据库,基于Lucene,开放了restful api和多种语言的编程接口。 支持复杂的查询,而且查询高效,sql能查的东西elasticsearch都能查询 支持PB级数据 基于插件化设计 ...
分类:
其他好文 时间:
2016-11-14 02:23:09
阅读次数:
159
和前一篇介绍的最大概率分词比较,2-gram分词也是一种最大概率分词,只不过在计算一个词概率的时候,它不光考虑自己,还会考虑它的前驱。 我们需要两个字典。第一个字典记录词\(w_i\)出现的频次,第二个字典记录词对儿<\(w_j,w_i\)>共同出现的频次。有这两份字典,我们就可以计算出条件概率\( ...
分类:
其他好文 时间:
2016-11-13 19:04:36
阅读次数:
204
这里介绍一种分词的方法--最大概率分词,也叫1-gram分词,因为它不考虑上下文关系,只考虑当前词的概率。 我们需要有一个词典,里面记录每个词的频次,比如: 基于这个词典,我们可以将一句话用一个有向无环图(DAG)的表示出来,比如 这个图里面,每个节点是一个字,边为两点构成词的概率。分词的问题,就是 ...
分类:
其他好文 时间:
2016-11-13 17:01:30
阅读次数:
312
Lucene文本解析器实现 把一段文本信息拆分成多个分词,我们都知道搜索引擎是通过分词检索的,文本解析器的好坏直接决定了搜索的精度和搜索的速度。 1.简单的Demo 2. 了解tokenStream的Attribute tokenStream()方法之后,添加多个Attribute,可以了解到分词之 ...
分类:
Web程序 时间:
2016-11-12 19:48:55
阅读次数:
385
文本提取特征常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计算互信息熵等等,但不管怎么训练,特征维度都很大,每个特征的信息量太小;2.统计特征:包括Term f ...
分类:
其他好文 时间:
2016-11-08 13:17:41
阅读次数:
5556
相似度分析的,其中的分词可以采用HanLP即可: http://www.open-open.com/lib/view/open1421978002609.htm ...
分类:
其他好文 时间:
2016-11-08 00:48:15
阅读次数:
149