码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
CRF分词的纯Java实现
与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于随机条件场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。CRF简介CRF...
分类:编程语言   时间:2015-01-14 19:36:33    阅读次数:317
中文分词和去停用词
最近学习主题模型pLSA、LDA,就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:https://code.google.com/p/ik-analyzer/由于太多,而且名称我也搞不清楚,不知道下载哪个。后来我下载了可是本文Ja...
分类:其他好文   时间:2015-01-14 00:40:27    阅读次数:3869
利用C# 驱动删除mongo中 list中的 某一项
mongodb中存储的结构如下:public class questionInfo { public int _id { get; set; } //试题id public List Samequestions { get; set; } //与该题分词相似的试题...
分类:Windows程序   时间:2015-01-13 21:30:32    阅读次数:311
关于mmseg分词算法的资料总结
http://www.byywee.com/page/M0/S602/602088.html 关于mmseg的简介 https://pypi.python.org/pypi/mmseg/1.3.0 关于mmseg python源码下载 https://pypi.python.org/pypi/mmseg/1.3.0   关于mmseg python的简单实现...
分类:编程语言   时间:2015-01-13 17:46:34    阅读次数:174
中文分词技术
中文分词技术 http://blog.csdn.net/u012637501 一、中文分词技术 1.中文分词:上一篇博文我们谈到利用统计语言模型进行自然语言处理,而这些语言模型主要是建立在词的基础上的,因为词是表达语义的最小单位。对于西方拼音来讲,词之间有明确的分界符,统计和使用语言模型非常直接,如I love China very much.但是对于中文来说,由于词之间没有明确的分...
分类:其他好文   时间:2015-01-10 11:20:46    阅读次数:1190
Mongo部署到Win2008 上 CPU持续100%,改为 Non- NUMA 即可
数据:数据库文章条数超过200W,每天3K左右的增加。现状:Lucene 2.9 + 盘古分词,读写分离。索引文件达到1G多,列表读取越来愈慢。需求:前台页面实现列表秒出,检索秒出,提升用户体验。----------------------------------------------------...
分类:Windows程序   时间:2015-01-09 16:57:24    阅读次数:358
双数组原理在分词字典中的应用
首先是将分词字典构造成检索树。通常情况下,分词字典是完全的文本文件,其中每一行代表一个词例如表3-1所示的字典可以构造成如图3-8所示字典检索树的形式。由此一来,当利用该字典进行分词时,可以将待匹配字符串作为状态转移的字符输入,在字典检索树中进行遍历,从而判断该字符串是否为字典中存在的词。其算法如下...
分类:编程语言   时间:2015-01-08 23:57:53    阅读次数:283
在windows系统中使用backoff2005的测试脚本来测试分词结果
分词程序的测试一般用backoff2005的脚本,但是backoff2005脚本是运行在linux系统上的。如果在windows系统中时,怎么使用该脚本呢?假设用户已经有了icwb2-data压缩包了。首先得安装perl开发环境。下载地址:https://dwimperl.googlecode.com/files/dwimperl-5.14.2.1-v7-32bit...
分类:Windows程序   时间:2015-01-08 15:42:58    阅读次数:301
ES0.2 Analysis和Analyzer
Analysis 和Analyzer analysis: 1,对文本分词,分成适合做倒排索引的词语。 2,对词语做标准化(normalizing),比如统一大小写、缩写转换等。这样做的目的是为了提升可搜索的能力。 Analyzer: Analyzer对docum...
分类:其他好文   时间:2015-01-06 21:42:51    阅读次数:262
Unsupported major.minor version 51.0错误解决
今天在做中文分词,遇到很多问题,真是困难重重,而且是让人哭笑不得的问题,觉累不爱了。。。下面和大家分享一下吧!...
分类:其他好文   时间:2015-01-05 16:49:07    阅读次数:117
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!