什么是Sphinx
Sphinx 是一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS的原...
分类:
数据库 时间:
2014-07-09 11:22:17
阅读次数:
310
最近打算用python,写一个链接linux,执行命令并获取的数据的小工具。在安装SSH模块时,出现错误了,“unable to find vcvarsall.bat”,在网上搜索到了一个解决方案,参考地址:http://www.crifan.com/python_mmseg_error_unabl...
分类:
编程语言 时间:
2014-07-06 19:25:00
阅读次数:
181
elasticsearch本身的中文分词插件效果都不理想,手动添加词典可以在一定程度上进行弥补。
经过多次实验发现,mmseg的分词机制采用正向最长匹配算法,例如,针对“小时代”这个单词,其自带的词典中没有包含该词,故当用户搜索小时代时,检索不到任何结果。
在咸鱼老婆的虚心指导下,我终于找到了解决办法。
手动添加该词到mmseg的词库中,有两种方法:
1、将该词加入到自带的某个词典中(非停...
分类:
其他好文 时间:
2014-06-27 09:30:33
阅读次数:
232
1tar xzvf coreseek-3.2.14.tar.gz2cd
mmseg-3.2.14/./configure --prefix=/usr/local/mmseg3checking for vfprintf...
yeschecking for waitpid... yesconfigur...
分类:
系统相关 时间:
2014-06-07 22:52:52
阅读次数:
679
1.基本介绍:paoding:Lucene中文分词“庖丁解牛”
PaodingAnalysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j: 用 Chih-Hao Tsai 的 MMSeg 算法
实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理...
分类:
其他好文 时间:
2014-05-24 11:47:16
阅读次数:
358
官方网站:https://code.google.com/p/friso/
最新动态:friso-1.6.0发布了(2014.05.08 最新版本)
开源,简单易用,很适合分词技术的研究。
一。friso中文分词器
Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支...
分类:
Web程序 时间:
2014-05-08 08:17:13
阅读次数:
892
下载并解压coreseek
cd /usr/local/src
wget http://www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gz
tar zxvf coreseek-4.1-beta.tar.gz
安装词库
cd coreseek-4.1-beta
cd mmseg-3.2.1...
分类:
其他好文 时间:
2014-04-27 21:26:59
阅读次数:
284