码迷,mamicode.com
首页 >  
搜索关键字:mmseg    ( 47个结果
ElasticSearch第三步-中文分词
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法,当我们创建一个index(库db_news)时,easticsearch默认提供的分词...
分类:其他好文   时间:2015-04-03 19:17:11    阅读次数:149
mmseg自定义分词词库
下面给大家介绍一下如何打造自己的coreseek分词词库。coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词词库必不可少。 i.首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库 ii.因为下载回来的词库不是文本文..
分类:其他好文   时间:2015-03-18 18:33:14    阅读次数:130
Sphinx(Coreseek)安装和使用指南
1.安装1.1安装mmseg./bootstrap # 必须执行,不然安装会失败./configure --prefix=/usr/local/mmseg-3.2.14 #指定安装目录makemake install1.2安装coreseek# 在csft-4.1/configure.ac中# 查找...
分类:其他好文   时间:2015-02-24 12:33:23    阅读次数:190
深度解析中文分词器算法(最大正向/逆向匹配)
1:非基于词典的分词(人工智能领域) 相当于人工智能领域计算。一般用于机器学习,特定领域等方法,这种在特定领域的分词可以让计算机在现有的规则模型中, 推理如何分词。在某个领域(垂直领域)分词精度较高。例:比较流行的语义网:基于本体的语义检索。 2:基于词典的分词(最为常见) 这类分词算法比较常见,比如正向/逆向匹配。例如: mmseg分词器 就是一种基于词典的分词算法。以最大正向匹配为主,多 种 消除歧义算法为辅。但是不管怎么分。该类分词方法,分词精度不高。由于中文比较复杂,不推荐采用正向...
分类:编程语言   时间:2015-02-08 09:12:11    阅读次数:327
关于mmseg分词算法的资料总结
http://www.byywee.com/page/M0/S602/602088.html 关于mmseg的简介 https://pypi.python.org/pypi/mmseg/1.3.0 关于mmseg python源码下载 https://pypi.python.org/pypi/mmseg/1.3.0   关于mmseg python的简单实现...
分类:编程语言   时间:2015-01-13 17:46:34    阅读次数:174
[nlp相关] ansj-seg初探
最近又要做文本方面的处理,由于需求的定制化较高,还可能要放到集群上使用,所以不能再用公司封得严严密密、又笨又重的分词组件了。于是再次在网上找了一下能下载的分词工具,开源的:mmseg、IK_Analyzer、imdict、paoding、jcseg、free_ictclas、fnlp闭源的:NLPI...
分类:其他好文   时间:2014-12-16 17:00:10    阅读次数:6186
lucene构建同义词分词器
在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲,有两个点;词库和搜索效率,也就是算法。 lucene的倒排列表中,不同的分词单元有不同的PositionIncrementAttribute,如果两个词有着相同位置属性,比如:我定义美国和中国这两个词在倒排列表中是同一个位置,那么搜索美国的话,中国也能出来。这就是同义词搜索原理。 以下代码(用mmseg的 Tokenizer 去切词之后,然后再做同义词): 先自定义...
分类:Web程序   时间:2014-11-19 18:47:09    阅读次数:265
pymmseg 安装方法以及乱码解决
pymmseg-cpp is a Python port of the rmmseg-cpp project. rmmseg-cpp is a MMSEG Chinese word segmenting algorithm implemented in C++ with a Ruby interfa...
分类:其他好文   时间:2014-11-06 12:38:53    阅读次数:235
Mac OS X 10.9.4 安装全文索引 Coreseek-3.2.14稳定版 问题及解决
根据coreseek官方文档安装: http://www.coreseek.cn/products-install/install_on_macosx/ (1)在安装mmseg过程中,进行make操作的时候,突然报了以下错误信息: n?file?included?from?css/ThesaurusDict.c...
分类:其他好文   时间:2014-07-21 10:38:15    阅读次数:286
NLP: 中文分词算法--正向最大匹配 Forward Maximum Matching
最近接触NLP中文分词, 在lunr.js的基础上, 实现了中文的最大正向匹配分词。 某些情况下, 我们在服务器端进行中文文本分词可以使用完整的基于mmseg算法的分词模块, 例如nodejieba, node-segment, 盘古分词等等,  但是在客户端环境下, 我们不能使用这些复杂的分词算法进行分词, 这个时候可以根据已经生成的索引进行简单的客户端分词, 就是所说的FMM (Forwar...
分类:其他好文   时间:2014-07-12 22:18:57    阅读次数:301
47条   上一页 1 2 3 4 5 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!