标签:str span word log http 格式 htm tag ons
先看一下语言模型的输出格式
(注:上面的值都是以10为底的对数值)
上面是一个语言模型的一部分,三元语言模型的综合格式如下:
第一项表示ngram的条件概率,就是P(wordN | word1,word2,。。。,wordN-1)。
第二项表示ngram的词。
最后一项是回退的权重。
举例来说,对于三个连续的词来说,我们计算三个词一起出现的概率:
表示word1和word2出现的情况下word3出现的概率,比如P(平|习,进)的意思是已经出现了“习进”两个字,后面是平的概率,这个概率这么计算:
上面的计算又集中在计算P(word3 | word2)的概率上,就是如果不存在习进平的三元模型,此时不管何种路径,都要计算P(word3 | word2) 的概率,计算如下:
标签:str span word log http 格式 htm tag ons
原文地址:http://www.cnblogs.com/dahu-daqing/p/7449200.html