http://www.hankcs.com/nlp/ner/place-names-to-identify-actual-hmm-viterbi-role-labeling.html命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写...
分类:
其他好文 时间:
2015-01-14 19:47:46
阅读次数:
279
LDA(Latent Dirichlet Allocation)主题模型是一种用统计进行文本挖掘的方法,它是pLSA(概率潜在语义分析)主题模型基础上加上贝叶斯框架而得到的模型。目前已应用于自然语言处理、计算机视觉、机器学习、信息检索等领域,得到了广泛关注。 LDA模型网上有多个开源代码,...
分类:
其他好文 时间:
2015-01-14 15:31:05
阅读次数:
308
转自 http://www.cocoachina.com/industry/20140321/8024.htmlNSPredicate是一个Foundation类,它指定数据被获取或者过滤的方式。它的查询语言就像SQL的WHERE和正则表达式的交叉一样,提供了具有表现力的,自然语言界面来定义一个集合...
分类:
其他好文 时间:
2015-01-12 17:22:09
阅读次数:
161
中文分词技术
http://blog.csdn.net/u012637501
一、中文分词技术
1.中文分词:上一篇博文我们谈到利用统计语言模型进行自然语言处理,而这些语言模型主要是建立在词的基础上的,因为词是表达语义的最小单位。对于西方拼音来讲,词之间有明确的分界符,统计和使用语言模型非常直接,如I
love China very much.但是对于中文来说,由于词之间没有明确的分...
分类:
其他好文 时间:
2015-01-10 11:20:46
阅读次数:
1190
从规则到统计与统计语言模型
http://blog.csdn.net/u012637501
一、自然语言处理-从规则到统计
1.基于规则的自然语言处理
在20世纪60年代,摆在科学家面前的问题是怎样才能让机器理解自然语言。当时普遍的认识是首先要做好两件事,即分析语句(语法)和获取语义。由于西方的语言学家们已经对各种自然语言进行了非常形式化的总结,学习语法规则、词性和构词法对于学习西...
分类:
编程语言 时间:
2015-01-09 17:20:12
阅读次数:
386
隐马尔可夫模型(Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及HMM的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下...
分类:
其他好文 时间:
2015-01-09 12:05:06
阅读次数:
193
Python网络爬虫简明教程 通过本教程可以快速了解网络爬虫过程,对一般性数据抓取有启发意义。...
分类:
编程语言 时间:
2015-01-06 23:09:10
阅读次数:
484
http://blog.csdn.net/heavendai/article/details/7228621CRF(Conditional Random Field) 条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。在我看来,CRF就像一个反向的隐马尔可夫...
分类:
其他好文 时间:
2015-01-04 15:13:57
阅读次数:
162
L20n是 Mozilla 开发的用于 Web 开发的本地化框架。它允许本地化开发者把逻辑细分为本地化的资源。 L20n 的框架不再需要开发人员深入理解自然语言的具体细节,并提供了机会为本地化创造更好的翻译。L20n 重塑软件本地化,用户应该能够从自然语言的整个表现力中受益。
分类:
Web程序 时间:
2014-12-26 12:47:56
阅读次数:
164
Mallet是Umass大牛开发的一个关于统计自然语言处理的l的开源库,很好的一个东西。可以用来学topic model,训练ME模型等。对于开发者来说,其官网的技术文档是非常有效的。mallet下载地址,浏览开发者文档,只需点击相应的“Developer's Guide”。下面以开发一个简单的最大...
分类:
系统相关 时间:
2014-12-24 17:46:21
阅读次数:
321