Sphinx search 是一款非常棒的开源全文搜索引擎,它使用C++开发,索引和搜索的速度非常快,我使用sphinx的时间也有好多年了。最初使用的是coreseek,一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎,可惜后来不再更新,sphinxsearch的版本太低,bu ...
分类:
其他好文 时间:
2018-12-21 18:10:14
阅读次数:
185
1.文件格式为 沃尔沃 1x:1现代 1x:1徐工 1x:1住友 1 。。。 3.将生成的符合格式要求的词表粘贴到原词表unigram.txt末尾,保存为unigram_new.txt,并拷贝到mmseg所在的目录下; 4.生成新的uni /usr/local/mmseg3/bin/mmseg -u ...
分类:
其他好文 时间:
2017-06-28 13:11:53
阅读次数:
142
coreseek 实战总结该文章包含以下内容:
coreseek 的典型架构
实时性解决方案
mmseg 分词使用经验
同义词使用经验
后继目标
coreseek 的典型架构coreseek 的典型结构,就是通过增量索引来满足近似实时性,对于新增的记录无法及时搜索可见。对于搜索系统存在的记录,非字符串字段的更新,我们一般是调用update方法进行更新。如果搜索引擎要返回业务的其他字段,这时字段的实时...
分类:
其他好文 时间:
2015-04-04 18:27:56
阅读次数:
150
下面给大家介绍一下如何打造自己的coreseek分词词库。coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词词库必不可少。
i.首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库
ii.因为下载回来的词库不是文本文..
分类:
其他好文 时间:
2015-03-18 18:33:14
阅读次数:
130
1:非基于词典的分词(人工智能领域)
相当于人工智能领域计算。一般用于机器学习,特定领域等方法,这种在特定领域的分词可以让计算机在现有的规则模型中,
推理如何分词。在某个领域(垂直领域)分词精度较高。例:比较流行的语义网:基于本体的语义检索。
2:基于词典的分词(最为常见)
这类分词算法比较常见,比如正向/逆向匹配。例如: mmseg分词器 就是一种基于词典的分词算法。以最大正向匹配为主,多
种 消除歧义算法为辅。但是不管怎么分。该类分词方法,分词精度不高。由于中文比较复杂,不推荐采用正向...
分类:
编程语言 时间:
2015-02-08 09:12:11
阅读次数:
327
http://www.byywee.com/page/M0/S602/602088.html 关于mmseg的简介
https://pypi.python.org/pypi/mmseg/1.3.0 关于mmseg python源码下载
https://pypi.python.org/pypi/mmseg/1.3.0 关于mmseg python的简单实现...
分类:
编程语言 时间:
2015-01-13 17:46:34
阅读次数:
174