基于SRILM的ARPA的n-gram语言模型格式

时间：2014-10-23 20:39:57 阅读：443 评论：0 收藏：0 [点我收藏+]

标签：style ar sp 数据 on log bs ef as

\data\

ngram 1=10

ngram 2=20

ngram 3=30

\1-grams:

-2.522091 啊 -0.4599362

-3.616682 阿 -0.2710813

-5.888154 阿坝

-5.483542 阿布 -0.02341532

-5.513821 阿迪达斯 -0.08972257

-5.357502 阿哥

-5.619849 阿胶

-5.003489 阿拉 -0.0459251

-5.11305 阿拉伯 -0.1348525

-5.11305 阿拉伯数字 -0.153861

\2-grams:

-2.841684 阿楠

-1.279527 阿布贾

-0.7184195 阿迪达斯 </s>

-1.628645 阿拉阿拉

-1.628414 阿拉蕾

-1.272437 阿拉善

-1.37447 阿拉伯贵族

-1.122427 阿拉伯人

-1.373596 阿拉伯数

-0.9671616 阿拉伯语

\3-grams:

-0.7579774 啊啊 </s>

-0.3643477 啊啊啊

-1.625012 啊啊对

-1.826232 啊啊行

-0.1952119 爱啊 </s>

-0.1937787 安排啊 </s>

-0.2185729 安全啊 </s>

-0.1328749 安装啊 </s>

-0.3589647 吧啊 </s>

-1.99777 吧啊拜拜

*上面的值都是以10为底的对数值（词组前面的数字：概率，词组后面的数据，回退权值）

计算一个句子在该ARPA中的概率如下（3gram为例）：

# Make sure the OOVs change to <unk>

#P(word3| word1, word2):

# if has (word3| word1, word2){

# return P(word3| word1, word2);

# }else if has (word2| word1){

# return backOff(word2| word1) * P(word3| word2);

# }else{

# return P(word3| word2);

# }

#P(word2 | word1):

# if has (word2| word1){

# return P(word2| word1);

# }else{

# return backOff(word1) * P(word2);

# }

python 实现

def wordsProbs(words, dict):

wordArr = words.split(" ")

if len(wordArr) == 3:

if dict.has_key(words):

return dict.get(words).prob

elif dict.has_key(wordArr[0] + " " + wordArr[1]):

return dict.get(wordArr[0] + " " + wordArr[1]).backoff + wordsProbs(wordArr[1] + " " + wordArr[2], dict)

else:

return wordsProbs(wordArr[1] + " " + wordArr[2], dict)

elif len(wordArr) == 2:

if dict.has_key(wordArr[0] + " " + wordArr[1]):

return dict.get(wordArr[0] + " " + wordArr[1]).prob

else:

return dict.get(wordArr[0]).backoff + wordsProbs(wordArr[1], dict) #make sure OOV change to <unk>，or error

else:

return dict.get(wordArr[0]).prob #make sure OOV change to <unk>，or error

*通过以上获取的是logP(3gramWords)，probs = 10 ^ logP(3gramWords)，probs即是3gramWords的最终概率值

基于SRILM的ARPA的n-gram语言模型格式

标签：style ar sp 数据 on log bs ef as

原文地址：http://www.cnblogs.com/ariesblogs/p/4046592.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行