与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于随机条件场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。CRF简介CRF...
分类:
编程语言 时间:
2015-01-14 19:36:33
阅读次数:
317
最近学习主题模型pLSA、LDA,就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:https://code.google.com/p/ik-analyzer/由于太多,而且名称我也搞不清楚,不知道下载哪个。后来我下载了可是本文Ja...
分类:
其他好文 时间:
2015-01-14 00:40:27
阅读次数:
3869
mongodb中存储的结构如下:public class questionInfo { public int _id { get; set; } //试题id public List Samequestions { get; set; } //与该题分词相似的试题...
http://www.byywee.com/page/M0/S602/602088.html 关于mmseg的简介
https://pypi.python.org/pypi/mmseg/1.3.0 关于mmseg python源码下载
https://pypi.python.org/pypi/mmseg/1.3.0 关于mmseg python的简单实现...
分类:
编程语言 时间:
2015-01-13 17:46:34
阅读次数:
174
中文分词技术
http://blog.csdn.net/u012637501
一、中文分词技术
1.中文分词:上一篇博文我们谈到利用统计语言模型进行自然语言处理,而这些语言模型主要是建立在词的基础上的,因为词是表达语义的最小单位。对于西方拼音来讲,词之间有明确的分界符,统计和使用语言模型非常直接,如I
love China very much.但是对于中文来说,由于词之间没有明确的分...
分类:
其他好文 时间:
2015-01-10 11:20:46
阅读次数:
1190
数据:数据库文章条数超过200W,每天3K左右的增加。现状:Lucene 2.9 + 盘古分词,读写分离。索引文件达到1G多,列表读取越来愈慢。需求:前台页面实现列表秒出,检索秒出,提升用户体验。----------------------------------------------------...
首先是将分词字典构造成检索树。通常情况下,分词字典是完全的文本文件,其中每一行代表一个词例如表3-1所示的字典可以构造成如图3-8所示字典检索树的形式。由此一来,当利用该字典进行分词时,可以将待匹配字符串作为状态转移的字符输入,在字典检索树中进行遍历,从而判断该字符串是否为字典中存在的词。其算法如下...
分类:
编程语言 时间:
2015-01-08 23:57:53
阅读次数:
283
分词程序的测试一般用backoff2005的脚本,但是backoff2005脚本是运行在linux系统上的。如果在windows系统中时,怎么使用该脚本呢?假设用户已经有了icwb2-data压缩包了。首先得安装perl开发环境。下载地址:https://dwimperl.googlecode.com/files/dwimperl-5.14.2.1-v7-32bit...
Analysis 和Analyzer analysis: 1,对文本分词,分成适合做倒排索引的词语。 2,对词语做标准化(normalizing),比如统一大小写、缩写转换等。这样做的目的是为了提升可搜索的能力。 Analyzer: Analyzer对docum...
分类:
其他好文 时间:
2015-01-06 21:42:51
阅读次数:
262
今天在做中文分词,遇到很多问题,真是困难重重,而且是让人哭笑不得的问题,觉累不爱了。。。下面和大家分享一下吧!...
分类:
其他好文 时间:
2015-01-05 16:49:07
阅读次数:
117