一、发展起源:统计语言模型起源于 Ponte 和 Croft 在 1998年的 SIGIR上发表的论文应用:语言模型的应用很多:corsslingual retrievaldistributed IRexpert findingpassage retrievalweb searchgenomics ...
分类:
编程语言 时间:
2015-03-20 12:46:42
阅读次数:
141
自然语言处理 基于规则 基于统计统计语言模型中文分词 梁南元--查字典 郭进--统计语言模型 Basis Technology 通用分词器 葛显平、朱安隐含马尔科夫模型信息熵贾里尼克、香农、雅各布森、乔姆斯基、弗兰德、哈克特统计语音识别和自然语言处理雅让斯基、布莱尔阿米特.辛格搜索引擎:...
分类:
其他好文 时间:
2015-02-19 20:43:20
阅读次数:
310
中文分词技术
http://blog.csdn.net/u012637501
一、中文分词技术
1.中文分词:上一篇博文我们谈到利用统计语言模型进行自然语言处理,而这些语言模型主要是建立在词的基础上的,因为词是表达语义的最小单位。对于西方拼音来讲,词之间有明确的分界符,统计和使用语言模型非常直接,如I
love China very much.但是对于中文来说,由于词之间没有明确的分...
分类:
其他好文 时间:
2015-01-10 11:20:46
阅读次数:
1190
从规则到统计与统计语言模型
http://blog.csdn.net/u012637501
一、自然语言处理-从规则到统计
1.基于规则的自然语言处理
在20世纪60年代,摆在科学家面前的问题是怎样才能让机器理解自然语言。当时普遍的认识是首先要做好两件事,即分析语句(语法)和获取语义。由于西方的语言学家们已经对各种自然语言进行了非常形式化的总结,学习语法规则、词性和构词法对于学习西...
分类:
编程语言 时间:
2015-01-09 17:20:12
阅读次数:
386
自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递的方式,因此让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关特性建立数学模型。这个数学模型就是自然语言处理中常说的统计语言模型,它是今天所有自然语言处理的基础,并且广泛应用与机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。...
分类:
编程语言 时间:
2014-11-19 01:39:42
阅读次数:
306
1.用数学方法描述规律由于自然语言具有上下文相关性,所以我们要依此建模,这就是我们常说的统计语言模型(statisticalLanguageModel)。比如一句话:国家主席习近ping昨天宣布将给非洲提供100亿美元的资金,帮助他们发展。这句话很容易理解。但是如果换成:习近ping国家主席将宣布1...
分类:
编程语言 时间:
2014-10-18 20:53:49
阅读次数:
297
1.TF-IDF2.基于语义的统计语言模型文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重...
分类:
其他好文 时间:
2014-09-24 16:02:07
阅读次数:
165
A Neural Probabilistic Language Model,这篇论文是Begio等人在2003年发表的,可以说是词表示的鼻祖。在这里给出简要的译文A Neural Probabilistic Language Model一个神经概率语言模型摘要 统计语言模型的一个目标是学习一种语言....
分类:
其他好文 时间:
2014-09-01 22:29:03
阅读次数:
364
用数学的方法描述语言规律贾里尼克:一个句子是否合理,等同于判断其可能性的大小,用概率来衡量Markov模型:简化条件概率运算。二元模型 Bigram
model,N元模型为什么合理?上下文相关,短程依赖。不足之处:忽略长程依赖性 Long Distance DependencyN的取值?tradeo...
分类:
其他好文 时间:
2014-05-25 23:12:32
阅读次数:
262