码迷,mamicode.com
首页 > 其他好文 > 详细

Coreseek-带中文分词的Sphinx

时间:2015-08-16 10:45:01      阅读:107      评论:0      收藏:0      [点我收藏+]

标签:

Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法)

1.下载

  1).到官网下载

  2).解压后有三个文件夹

    csft-3.2.14: Sphinx

    mmseg-3.2.14: 中文分词组件

    testpack: 接口开发包

2.安装

  1).先安装mmseg, 因为Coreseek会用到

cd mmseg-3.2.14
./configure --prefix=/usr/local/mmseg

  此时如果Makefile文件创建成功, 但是出现了一个config.status: error: cannot find input file: src/Makefile.in错误信息, 使用以下命令重新编译

aclocal
libtoolize --force
automake --add-missing
autoconf
autoheader
make clean
./configure --prefix=/usr/local/mmseg

  执行安装

make && make install

  2).安装csft(即Coreseek)

./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib
make && make install

3.中文分词算法分类

  1).基于字符串匹配的分词方法

    基于字典, 进行挨个的词条匹配

    三个要素: 分词词典, 文本扫描顺序, 匹配原则

    扫描顺序: 正向, 逆向, 双向

    匹配原则: 最大, 最小, 逐词,最佳

  2).基于理解的分词方法, 正在测试阶段

  3).基于统计的分词方法, 可以根据相邻的字出现的次数和频率等自动识别生词, 自动消除歧义

 

Coreseek-带中文分词的Sphinx

标签:

原文地址:http://www.cnblogs.com/JohnABC/p/4733682.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!