码迷,mamicode.com
首页 > 其他好文 > 详细

Elasticsearch之停用词

时间:2017-02-24 21:01:36      阅读:230      评论:0      收藏:0      [点我收藏+]

标签:logs   href   工作流程   ast   大小   title   blog   log   www   

 

 前提

什么是倒排索引?

Elasticsearch之分词器的作用

Elasticsearch之分词器的工作流程

 

 

 

 

 

 

 

Elasticsearch的停用词

  1、有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响。

  2、英文

    a、an、the、of

  3、中文

    的、了、着、是 、标点符号等

  4、文本经过分词之后,停用词通常被过滤掉,不会被进行索引。

  5、在检索的时候,用户的查询中如果含有停用词,检索系统也会将其过滤掉(因为用户输入的查询字符串也要进行分词处理)。

  6、排除停用词可以加快建立索引的速度,减小索引库文件的大小。

  7、英文停用词

         http://www.ranks.nl/stopwords

  8、中文停用词

          http://www.ranks.nl/stopwords/chinese-stopwords

Elasticsearch之停用词

标签:logs   href   工作流程   ast   大小   title   blog   log   www   

原文地址:http://www.cnblogs.com/zlslch/p/6440220.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!