码迷,mamicode.com
首页 > 编程语言 > 详细

统计语言模型

时间:2018-09-04 10:37:27      阅读:177      评论:0      收藏:0      [点我收藏+]

标签:有关   出现   估计   图灵   平滑   规则   比较   马尔科夫   折扣   

从基于规则到基于统计的语言模型的转变

基于马尔科夫假设,即任意一个词出现的概率只与它前面的词有关,可得到一个二元模型。乃至基于一个N-1阶马尔科夫假设,对应的语言模型是N元模型。一般N取值非常小,通常为2,可取到3或者4。

对于样本中未出现的零概率问题,使用古德-图灵估计方法进行平滑处理。对于出现频率超过一定阈值的词,概率估计就是相对频度,对于小于的词,概率估计就会小于他们的相对频度,次数越小,折扣越多,对于未看见的词也给予了一个比较小的频度,使得概率估计平滑。

统计语言模型

标签:有关   出现   估计   图灵   平滑   规则   比较   马尔科夫   折扣   

原文地址:https://www.cnblogs.com/auhz/p/9582446.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!