首页 > 其他好文 > 详细

Sphinx 与全文索引

时间：2018-08-16 00:57:27 阅读：143 评论：0 收藏：0 [点我收藏+]

标签：中文 strong 过程 The 分析创建 str 全文索引 nbsp

全文索引创建过程

第一步：将源文档传给分词组件（Tokenizer）

分词组件做了以下事情：

将文档分成一个一个的单词
去除标点符号
去除停词：英文(the / a / this / that ....) 中文 ( 是、的...)
经过分词后得到的就是词元

第二步：将词元传给语言处理组件

语言处理组件做了以下事情（针对英文）：

将大小变成小写
将单词复数变成单数形式
将各种时态变成现在时，例如“drove”变成“drive”

第三步：将处理好的词传给索引组件（indexer）

根据词创建字典（字典的key是传过来的词，value是词对应的记录的id）
对字典进行排序

根据索引进行搜索：

第一步：用户输入查询语句

第二步：对输入查询的语句进行词法分析，语法分析及语言处理

第三步：将处理好的词组传给搜索引擎（Sphinx），搜索索引，得到符合语法的文档

第四步：根据得到文档和查询语句的相关性，进行排序

Sphinx 与全文索引

标签：中文 strong 过程 The 分析创建 str 全文索引 nbsp

原文地址：https://www.cnblogs.com/xiaoliwang/p/9484533.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！