一,软件准备 coreseek4.1 (包含coreseek测试版和mmseg最新版本,以及测试数据包【内置中文分词与搜索、单字切分、mysql数据源、python数据源、RT实时索引等测试配置】) Mysql源码包 (必须选择与你已安装mysql的版本一致) 为了避免安装中出现依赖包缺失,你需要打 ...
分类:
数据库 时间:
2017-01-03 22:37:21
阅读次数:
508
今天安装中文词检索功能模块 coreseek,其中一个分词模块 mmseg ,编译安装到最后,出现annot find input file: src/Makefile.in aclocal //是一个perl 脚本程序,它的定义是:“aclocal - create aclocal.m4 by s ...
分类:
其他好文 时间:
2017-01-03 22:16:05
阅读次数:
269
我们的项目中中文切词使用的是mmseg,有一个不满意的地方是jar包中的默认词典一定会被加载进去,当我对有些term有意见时,无法删除。 mmseg中Dictionary.java里一段代码保证了/data/words.dic的加载,我无法提供自己的进行替换。 而IKAnalyzer就比较自由,既可 ...
分类:
其他好文 时间:
2016-12-09 16:17:57
阅读次数:
383
1、安装coreseek 1.1首先升级或安装系统依赖库 1.2下载Coreseek3.2.14 解压:tar zxvf coreseek-3.2.14.tar.gz 如果报如下错误 通过安装autoconf和automake解决 完成上面操作,重新配置即可 安装mmseg 1.3安装完mmseg中 ...
分类:
数据库 时间:
2016-10-26 13:26:54
阅读次数:
510
算法原文位于:http://technology.chtsai.org/mmseg/ http://www.360doc.com/content/13/0217/15/11619026_266142832.shtml ...
分类:
编程语言 时间:
2016-06-17 16:55:16
阅读次数:
134
http://www.crifan.com/python_mmseg_error_unable_to_find_vcvarsall_bat/ 【已解决】安装Python模块mmseg出错:error: Unable to find vcvarsall.bat http://my.oschina.ne ...
分类:
其他好文 时间:
2016-06-06 23:23:16
阅读次数:
151
为了避免安装中出现依赖包缺失,你需要打一句鸡血: 1,安装mmseg3 【注意】如果编译mmseg提示cannot find input file: src/Makefile.in失败,可以尝试下面解决方法: 2,安装coreseek 【注意】如果出现Sphinx/Coreseek 4.1 执行 b ...
分类:
数据库 时间:
2016-04-19 06:17:02
阅读次数:
317
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法, 当我们创建一个index(库db_news)时,easticsearch默认提供的分
什么是SphinxSphinx 是一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其它应用提供快速、低空间占用、高结果相关度的全文搜索功能。Sphinx能够很easy的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持。也支持从标准输入...
分类:
数据库 时间:
2016-01-01 16:59:14
阅读次数:
304
分类:程序语言|标签:C|日期: 2015-05-01 02:00:24 MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实...
分类:
Web程序 时间:
2015-12-08 01:59:11
阅读次数:
1234