码迷,mamicode.com
首页 > 其他好文 > 详细

Sphinx 与全文索引

时间:2018-08-16 00:57:27      阅读:143      评论:0      收藏:0      [点我收藏+]

标签:中文   strong   过程   The   分析   创建   str   全文索引   nbsp   

全文索引创建过程

第一步:将源文档传给分词组件(Tokenizer)

分词组件做了以下事情:

  • 将文档分成一个一个的单词
  • 去除标点符号
  • 去除停词:英文(the / a / this / that ....)  中文 ( 是、的...)
  • 经过分词后得到的就是词元

第二步:将词元传给语言处理组件

语言处理组件做了以下事情(针对英文):

  • 将大小变成小写
  • 将单词复数变成单数形式
  • 将各种时态变成现在时,例如“drove”变成“drive”

第三步:将处理好的词传给索引组件(indexer)

  • 根据词创建字典(字典的key是传过来的词,value是词对应的记录的id)
  • 对字典进行排序

 

根据索引进行搜索:

第一步:用户输入查询语句

第二步:对输入查询的语句进行词法分析,语法分析及语言处理

第三步:将处理好的词组传给搜索引擎(Sphinx),搜索索引,得到符合语法的文档

第四步:根据得到文档和查询语句的相关性,进行排序

Sphinx 与全文索引

标签:中文   strong   过程   The   分析   创建   str   全文索引   nbsp   

原文地址:https://www.cnblogs.com/xiaoliwang/p/9484533.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!