elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法,当我们创建一个index(库db_news)时,easticsearch默认提供的分词...
分类:
其他好文 时间:
2015-04-03 19:17:11
阅读次数:
149
下面给大家介绍一下如何打造自己的coreseek分词词库。coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词词库必不可少。
i.首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库
ii.因为下载回来的词库不是文本文..
分类:
其他好文 时间:
2015-03-18 18:33:14
阅读次数:
130
1.安装1.1安装mmseg./bootstrap # 必须执行,不然安装会失败./configure --prefix=/usr/local/mmseg-3.2.14 #指定安装目录makemake install1.2安装coreseek# 在csft-4.1/configure.ac中# 查找...
分类:
其他好文 时间:
2015-02-24 12:33:23
阅读次数:
190
1:非基于词典的分词(人工智能领域)
相当于人工智能领域计算。一般用于机器学习,特定领域等方法,这种在特定领域的分词可以让计算机在现有的规则模型中,
推理如何分词。在某个领域(垂直领域)分词精度较高。例:比较流行的语义网:基于本体的语义检索。
2:基于词典的分词(最为常见)
这类分词算法比较常见,比如正向/逆向匹配。例如: mmseg分词器 就是一种基于词典的分词算法。以最大正向匹配为主,多
种 消除歧义算法为辅。但是不管怎么分。该类分词方法,分词精度不高。由于中文比较复杂,不推荐采用正向...
分类:
编程语言 时间:
2015-02-08 09:12:11
阅读次数:
327
http://www.byywee.com/page/M0/S602/602088.html 关于mmseg的简介
https://pypi.python.org/pypi/mmseg/1.3.0 关于mmseg python源码下载
https://pypi.python.org/pypi/mmseg/1.3.0 关于mmseg python的简单实现...
分类:
编程语言 时间:
2015-01-13 17:46:34
阅读次数:
174
最近又要做文本方面的处理,由于需求的定制化较高,还可能要放到集群上使用,所以不能再用公司封得严严密密、又笨又重的分词组件了。于是再次在网上找了一下能下载的分词工具,开源的:mmseg、IK_Analyzer、imdict、paoding、jcseg、free_ictclas、fnlp闭源的:NLPI...
分类:
其他好文 时间:
2014-12-16 17:00:10
阅读次数:
6186
在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲,有两个点;词库和搜索效率,也就是算法。
lucene的倒排列表中,不同的分词单元有不同的PositionIncrementAttribute,如果两个词有着相同位置属性,比如:我定义美国和中国这两个词在倒排列表中是同一个位置,那么搜索美国的话,中国也能出来。这就是同义词搜索原理。
以下代码(用mmseg的 Tokenizer 去切词之后,然后再做同义词):
先自定义...
分类:
Web程序 时间:
2014-11-19 18:47:09
阅读次数:
265
pymmseg-cpp is a Python port of the rmmseg-cpp project. rmmseg-cpp is a MMSEG Chinese word segmenting algorithm implemented in C++ with a Ruby interfa...
分类:
其他好文 时间:
2014-11-06 12:38:53
阅读次数:
235
根据coreseek官方文档安装: http://www.coreseek.cn/products-install/install_on_macosx/ (1)在安装mmseg过程中,进行make操作的时候,突然报了以下错误信息: n?file?included?from?css/ThesaurusDict.c...
分类:
其他好文 时间:
2014-07-21 10:38:15
阅读次数:
286
最近接触NLP中文分词, 在lunr.js的基础上, 实现了中文的最大正向匹配分词。
某些情况下, 我们在服务器端进行中文文本分词可以使用完整的基于mmseg算法的分词模块, 例如nodejieba, node-segment, 盘古分词等等, 但是在客户端环境下, 我们不能使用这些复杂的分词算法进行分词, 这个时候可以根据已经生成的索引进行简单的客户端分词, 就是所说的FMM (Forwar...
分类:
其他好文 时间:
2014-07-12 22:18:57
阅读次数:
301