标签:
Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法)
1.下载
1).到官网下载
2).解压后有三个文件夹
csft-3.2.14: Sphinx
mmseg-3.2.14: 中文分词组件
testpack: 接口开发包
2.安装
1).先安装mmseg, 因为Coreseek会用到
cd mmseg-3.2.14 ./configure --prefix=/usr/local/mmseg
此时如果Makefile文件创建成功, 但是出现了一个config.status: error: cannot find input file: src/Makefile.in错误信息, 使用以下命令重新编译
aclocal libtoolize --force automake --add-missing autoconf autoheader make clean ./configure --prefix=/usr/local/mmseg
执行安装
make && make install
2).安装csft(即Coreseek)
./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib make && make install
3.中文分词算法分类
1).基于字符串匹配的分词方法
基于字典, 进行挨个的词条匹配
三个要素: 分词词典, 文本扫描顺序, 匹配原则
扫描顺序: 正向, 逆向, 双向
匹配原则: 最大, 最小, 逐词,最佳
2).基于理解的分词方法, 正在测试阶段
3).基于统计的分词方法, 可以根据相邻的字出现的次数和频率等自动识别生词, 自动消除歧义
标签:
原文地址:http://www.cnblogs.com/JohnABC/p/4733682.html