码迷,mamicode.com
首页 > 其他好文 > 详细

《数学之美》阅读小记

时间:2018-12-03 15:34:19      阅读:172      评论:0      收藏:0      [点我收藏+]

标签:相对   没有   其他   转变   次数   图灵   提示   方法   数学之美   

主要是记录一些我认为比较有代表性的知识点~

1.自然语言处理解决问题的方法经历了从规则(句法分析:主谓宾动名形容词)到统计的转变。

2.N元模型:P(s)=P(w1,w2,...wn)句子s出现的概率由其中的词出现的概率计算,基于马尔科夫假设(任意一个词wi出现的概率只同它前面的词Wi-1有关),该公式简化为

P(s)=P(w1)*P(w2|w1)*P(w3|w2)...P(wn|wn-1),该统计语言模型称为二元模型。

相应的,假设一个词由前面n-1个词决定,称为N元模型。

但是,一般只用到3元模型及以下,因为当N从1到2,再从2到3时,模型的效果上升显著,但从3到4时,效果提示不是很显著,且资源的耗费增加很快。另外,很有可能即便再高阶的语言模型都不能覆盖所有语言现象,这是马尔科夫假设的局限性,此时要采用其他一些长程的依赖性来解决。

另外基于统计计算的概率可能得到概率为0,此时方法一是增加数据量,但是仍然没有办法避免出现0概率,方法二是通过古德-图灵估计计算词出现的概率,或者是其他平滑方法如:卡茨退避法。由于一元组wi出现的次数平均比二元组(wi-1,wi)出现的次数要多很多,根据大数定理,他的相对频度更接近概率分布,类似的,二元组比三元组更接近概率分布,所以用低阶语言模型和高阶模型进行线性插值达到平滑的目的,称为删除差值

《数学之美》阅读小记

标签:相对   没有   其他   转变   次数   图灵   提示   方法   数学之美   

原文地址:https://www.cnblogs.com/kjkj/p/10034548.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!