Elasticsearch 默认分词器和中分分词器之间的比较及使用方法 https://segmentfault.com/a/1190000012553894 介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful ...
分类:
其他好文 时间:
2018-05-24 18:14:12
阅读次数:
137
中文分词其实有点像古代的句读(dou),韩愈的《师说》中就有:“彼童子之师,授之书而习其句读者也”。古人文章是没有标点符号的,行文一气呵成。如果不懂离经断句,就很难理解古文的意思。从某种程度上,句读就类似今天要讲的中文分词。
北京航空航天大学的梁南元教授提出了查字典的方法
查字典的方法就是把句子从左到右扫描一遍,遇到字典里有的词就标示出来,遇到不认识的字串就分割为单字词。如果分割出的词与后面的...
分类:
其他好文 时间:
2015-08-07 23:58:13
阅读次数:
313
ES官方只支持smartcn这个中文分词插件,是按照单个字进行索引。前端产品搜索时,凡是带这个关键字的都会被索引到。打个比方:搜索"苹果"关键词,凡是包含"苹"和"果"的title都会被索引到。所以为了这个需求,找一个第三方的中文分词插件.看了一下,国内有几款中分分词插件:ik、an..
分类:
其他好文 时间:
2015-01-15 16:14:45
阅读次数:
384