码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
ik_max_word ik_smart
打开 ~/es_root/config/elasticsearch.yml 文件,加入以下配置: 以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer,分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档,二者区别 ...
分类:其他好文   时间:2016-11-19 20:54:53    阅读次数:289
NLP︱中文分词技术小结、几大分词引擎的介绍与比较
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远...
分类:其他好文   时间:2016-11-19 10:09:47    阅读次数:946
NLPIR_Init文本分词-总是初始化失败,false,Init ICTCLAS failed!
前段时间用这个分词用的好好的,突然间就总是初始化失败了; 网上搜了很多,但是不是我想要的答案,最终去了官网看了下;官网链接 发现哇,版本更新了啊,下载页面链接 麻利的下载好了最新的文档,一看压缩包名字:20161115173728_ICTCLAS2016分词系统下载包 现在是2016-11-17 1 ...
分类:其他好文   时间:2016-11-17 12:52:15    阅读次数:324
Python语音实现词频统计
需求: 1.设计一个词频统计的程序。 2.英语文章中包含的英语标点符号不计入统计。 3.将统计结果按照单词的出现频率由大到小进行排序。 设计: 1.基本功能和用法会在程序中进行提示。 2.原理是利用分隔符分词存入列表,然后从列表读出存入字典,键为词,值存放词的数量。 代码如图所示: 1.导入程序所需 ...
分类:编程语言   时间:2016-11-14 11:56:15    阅读次数:362
ELK
https://www.elastic.co/ elasticsearch: 可以看成一个分布式的NoSql数据库,基于Lucene,开放了restful api和多种语言的编程接口。 支持复杂的查询,而且查询高效,sql能查的东西elasticsearch都能查询 支持PB级数据 基于插件化设计 ...
分类:其他好文   时间:2016-11-14 02:23:09    阅读次数:159
2-gram分词
和前一篇介绍的最大概率分词比较,2-gram分词也是一种最大概率分词,只不过在计算一个词概率的时候,它不光考虑自己,还会考虑它的前驱。 我们需要两个字典。第一个字典记录词\(w_i\)出现的频次,第二个字典记录词对儿<\(w_j,w_i\)>共同出现的频次。有这两份字典,我们就可以计算出条件概率\( ...
分类:其他好文   时间:2016-11-13 19:04:36    阅读次数:204
最大概率分词
这里介绍一种分词的方法--最大概率分词,也叫1-gram分词,因为它不考虑上下文关系,只考虑当前词的概率。 我们需要有一个词典,里面记录每个词的频次,比如: 基于这个词典,我们可以将一句话用一个有向无环图(DAG)的表示出来,比如 这个图里面,每个节点是一个字,边为两点构成词的概率。分词的问题,就是 ...
分类:其他好文   时间:2016-11-13 17:01:30    阅读次数:312
Lucene-Analyzer
Lucene文本解析器实现 把一段文本信息拆分成多个分词,我们都知道搜索引擎是通过分词检索的,文本解析器的好坏直接决定了搜索的精度和搜索的速度。 1.简单的Demo 2. 了解tokenStream的Attribute tokenStream()方法之后,添加多个Attribute,可以了解到分词之 ...
分类:Web程序   时间:2016-11-12 19:48:55    阅读次数:385
Latent Dirichlet Allocation 文本分类主题模型
文本提取特征常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计算互信息熵等等,但不管怎么训练,特征维度都很大,每个特征的信息量太小;2.统计特征:包括Term f ...
分类:其他好文   时间:2016-11-08 13:17:41    阅读次数:5556
相似度分析的地址
相似度分析的,其中的分词可以采用HanLP即可: http://www.open-open.com/lib/view/open1421978002609.htm ...
分类:其他好文   时间:2016-11-08 00:48:15    阅读次数:149
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!