码迷,mamicode.com
首页 >  
搜索关键字:mmseg    ( 47个结果
Coreseek-带中文分词的Sphinx
Sphinx并不支持中文分词,也就不支持中文搜索, Coreseek = Sphinx +MMSEG(中文分词算法)
分类:其他好文   时间:2015-08-16 10:45:01    阅读次数:107
Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2)
Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2) jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发, 但是提供了最新版本的lucene和solr分词接口。...
分类:Web程序   时间:2015-07-31 18:27:39    阅读次数:288
添加coreseek中文分词
官方说明地址: ?http://www.coreseek.cn/opensource/mmseg/词典文件所在位置: 本地管理地址:xxx/dict/new_dict.txt【 每次添加新的词,先更新此文件, 然后再把最新的词典文件scp上传到sphinx所在服务器上更新词库】 线上词库配置地址: ...
分类:其他好文   时间:2015-07-18 12:11:28    阅读次数:123
Chinese Segmentation Introduction
1. Chinese Segmentation Introduction最近两天系统的研究了一下中文分词算法,在这里做个简单的总结。中文分词可以分为(1)基于词典的分词 和(2)非基于词典的分词。 基于词典的分词包括: * MMSEG * Forward/Backward matching * 最小切分非基于词典的分词主要是通过统计学计算概率的方法进行中文分词,例如CRF, is p...
分类:其他好文   时间:2015-07-06 16:06:51    阅读次数:242
让盘古分词支持最新的Lucene.Net 3.0.3
原文:让盘古分词支持最新的Lucene.Net 3.0.3好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。 然后我知...
分类:Web程序   时间:2015-06-26 14:58:45    阅读次数:139
基于MMSeg算法的中文分词类库
原文:基于MMSeg算法的中文分词类库最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(http://www.cnblogs.com/land/archive/2011/07/19/mmseg4...
分类:编程语言   时间:2015-06-26 14:55:47    阅读次数:152
关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造)
在中文搜索中的标点、符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程序员来说是个噩梦。然而在中文分词工具mmseg中,它的中文分词是将标点与符号均去除的,它认为对于中文来讲标点符号无意义,这明显不能满足我们的需求。那么怎样改造它让它符合我们的要求...
分类:其他好文   时间:2015-05-14 00:53:54    阅读次数:234
让盘古分词支持最新的Lucene.Net 3.0.3
好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。然后我知道了.Net下还有一个盘古分词(http://panguse...
分类:Web程序   时间:2015-04-30 06:23:53    阅读次数:156
Lucene实现自定义中文同义词分词器
---------------------------------------------------------- lucene的分词_中文分词介绍 ---------------------------------------------------------- Paoding:庖丁解牛分词器。已经没有更新了 mmseg:使用搜狗的词库 1.导入包(有两个包:1.带dic的,2...
分类:Web程序   时间:2015-04-08 10:59:40    阅读次数:191
如何采用 coreseek(sphinx) 搭建搜索系统
coreseek 实战总结该文章包含以下内容: coreseek 的典型架构 实时性解决方案 mmseg 分词使用经验 同义词使用经验 后继目标 coreseek 的典型架构coreseek 的典型结构,就是通过增量索引来满足近似实时性,对于新增的记录无法及时搜索可见。对于搜索系统存在的记录,非字符串字段的更新,我们一般是调用update方法进行更新。如果搜索引擎要返回业务的其他字段,这时字段的实时...
分类:其他好文   时间:2015-04-04 18:27:56    阅读次数:150
47条   上一页 1 2 3 4 5 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!