搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

CRF分词的纯Java实现

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比，基于随机条件场（CRF）的分词对未登录词有更好的支持。本文（HanLP）使用纯Java实现CRF模型的读取与维特比后向解码，内部特征函数采用双数组Trie树(DoubleArrayTrie)储存，得到了一个高性能的中文分词器。CRF简介CRF...

分类：编程语言时间：2015-01-14 19:36:33 阅读次数：317

中文分词和去停用词

最近学习主题模型pLSA、LDA，就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理，这里我找了开源工具IKAnalyzer2012，下载地址：https://code.google.com/p/ik-analyzer/由于太多，而且名称我也搞不清楚，不知道下载哪个。后来我下载了可是本文Ja...

分类：其他好文时间：2015-01-14 00:40:27 阅读次数：3869

利用C# 驱动删除mongo中 list中的某一项

mongodb中存储的结构如下：public class questionInfo { public int _id { get; set; } //试题id public List Samequestions { get; set; } //与该题分词相似的试题...

分类：Windows程序时间：2015-01-13 21:30:32 阅读次数：311

关于mmseg分词算法的资料总结

http://www.byywee.com/page/M0/S602/602088.html 关于mmseg的简介 https://pypi.python.org/pypi/mmseg/1.3.0 关于mmseg python源码下载 https://pypi.python.org/pypi/mmseg/1.3.0 关于mmseg python的简单实现...

分类：编程语言时间：2015-01-13 17:46:34 阅读次数：174

中文分词技术

中文分词技术 http://blog.csdn.net/u012637501 一、中文分词技术 1.中文分词：上一篇博文我们谈到利用统计语言模型进行自然语言处理，而这些语言模型主要是建立在词的基础上的，因为词是表达语义的最小单位。对于西方拼音来讲，词之间有明确的分界符，统计和使用语言模型非常直接,如I love China very much.但是对于中文来说，由于词之间没有明确的分...

分类：其他好文时间：2015-01-10 11:20:46 阅读次数：1190

Mongo部署到Win2008 上 CPU持续100%，改为 Non- NUMA 即可

数据：数据库文章条数超过200W，每天3K左右的增加。现状：Lucene 2.9 + 盘古分词，读写分离。索引文件达到1G多，列表读取越来愈慢。需求：前台页面实现列表秒出，检索秒出，提升用户体验。----------------------------------------------------...

分类：Windows程序时间：2015-01-09 16:57:24 阅读次数：358

双数组原理在分词字典中的应用

首先是将分词字典构造成检索树。通常情况下，分词字典是完全的文本文件，其中每一行代表一个词例如表3-1所示的字典可以构造成如图3-8所示字典检索树的形式。由此一来，当利用该字典进行分词时，可以将待匹配字符串作为状态转移的字符输入，在字典检索树中进行遍历，从而判断该字符串是否为字典中存在的词。其算法如下...

分类：编程语言时间：2015-01-08 23:57:53 阅读次数：283

在windows系统中使用backoff2005的测试脚本来测试分词结果

分词程序的测试一般用backoff2005的脚本，但是backoff2005脚本是运行在linux系统上的。如果在windows系统中时，怎么使用该脚本呢？假设用户已经有了icwb2-data压缩包了。首先得安装perl开发环境。下载地址：https://dwimperl.googlecode.com/files/dwimperl-5.14.2.1-v7-32bit...

分类：Windows程序时间：2015-01-08 15:42:58 阅读次数：301

ES0.2 Analysis和Analyzer

Analysis 和Analyzer analysis: 1，对文本分词，分成适合做倒排索引的词语。 2，对词语做标准化（normalizing），比如统一大小写、缩写转换等。这样做的目的是为了提升可搜索的能力。 Analyzer： Analyzer对docum...

分类：其他好文时间：2015-01-06 21:42:51 阅读次数：262

Unsupported major.minor version 51.0错误解决

今天在做中文分词，遇到很多问题，真是困难重重，而且是让人哭笑不得的问题，觉累不爱了。。。下面和大家分享一下吧！...

分类：其他好文时间：2015-01-05 16:49:07 阅读次数：117

共2158条上一页 1 ... 186 187 188 189 190 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)