CleverCode发现scws分词的效率挺高,研究了一下自定义分词库。
1 安装scws
安装详解:http://blog.csdn.net/clevercode/article/details/52204124。
2 没有添加自定义分词库
2.1 php代码
# vim parseWord.php
<?php
function parse($str)
{
$cws...
分类:
其他好文 时间:
2016-08-18 16:04:34
阅读次数:
379
1.分词 全文检索必须要分词,所谓分词就是把一句话切分成一个个单独的词。分词有很多算法,比如自然分词、n-gram分词、字典分词等等。对中文来说没有自然分隔符,一般采用字典分词,再加上对人名、地名的特殊处理,提高分词的准确性。 我们使用ik分词组件,ik有两种分词策略:smart策略、max wor ...
分类:
其他好文 时间:
2016-08-18 11:13:13
阅读次数:
312
1.添加索引和类型,同时设定edgengram分词和charsplit分词 curl -XPUT 'http://127.0.0.1:9200/userindex/' -d '{ "settings": { "index": { "analysis": { "analyzer": { "charsp... ...
分类:
其他好文 时间:
2016-08-17 15:26:35
阅读次数:
317
elasticsearch源数据容量与索引容量的大小比例与很多因素有关,没有一个比较固定的比例。首先,是否存_all有着最大的影响,如果你的es不是拿来做全文检索,那么这个_all可以不用存;其次是_source(是否存原始数据);最后是对多少个字段分词,多少个字段建索引,使用什么分词..
分类:
其他好文 时间:
2016-08-16 22:07:55
阅读次数:
1893
词干化处理: 在NLP中,我们对一句话或一个文档分词之后,一般要进行词干化处理。词干化处理就是把一些名词的复数去掉,动词的不同时态去掉等等类似的处理。 对于切词得到的英文单词要进行词干化处理,主要包括将名词的复数变为单数和将动词的其他形态变为基本形态。对动词的词干化可以使用 Porter 算法[5] ...
分类:
其他好文 时间:
2016-08-11 15:35:05
阅读次数:
540
solr中配有分词器,但分词器里面有大写转换为小写的过滤器时,数字就会被过滤。比如123中国ABC。123就会被过滤掉了,所以才查1|12|123都会失败。 《Solr 数字字符不能搜索的一个问题》这篇博文说得还算详细,我就是学这篇文章的。 根据账号来搜索,当账号在数据库中是整型变量时,导入到sol ...
分类:
其他好文 时间:
2016-08-10 18:55:24
阅读次数:
989
由于elasticsearch基于lucene,所以天然地就多了许多lucene上的中文分词的支持,比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在elasticsearch上使用。当然前提是有elasticsearch的插件。 至于插件怎么开发,这里有一片文章介绍: ...
分类:
其他好文 时间:
2016-08-09 00:06:01
阅读次数:
231
一周乱谈(第八周) - 中文分词 中文分词 NLP(Natural language processing)自然语言处理一直都是比较热门的领域,现在不管是搜索,推荐神马的基本都需要和nlp打交道,而中文的nlp处理的第一步就是分词了,所以中文分词一直扮演者举足轻重的角色。当然了,分词的算法也是层出不 ...
分类:
其他好文 时间:
2016-08-08 00:45:38
阅读次数:
195
1、收集预料 自己写个爬虫去收集网页上的数据。 使用别人提供好的数据http://www.sogou.com/labs/dl/ca.html 2、对预料进行去噪和分词 我们需要content其中的值,通过简单的命令把非content 的标签干掉 cat news_tensite_xml.dat | ...
分类:
其他好文 时间:
2016-08-07 16:51:08
阅读次数:
154
中文分词 NLP(Natural language processing)自然语言处理一直都是比较热门的领域,现在不管是搜索,推荐神马的基本都需要和nlp打交道,而中文的nlp处理的第一步就是分词了,所以中文分词一直扮演者举足轻重的角色。当然了,分词的算法也是层出不穷,从最初的字典匹配到后来的统计模 ...
分类:
其他好文 时间:
2016-08-06 20:34:56
阅读次数:
182