N-gram统计语言模型

时间：2014-11-19 01:39:42 阅读：306 评论：0 收藏：0 [点我收藏+]

标签：style blog http io ar color sp strong 数据

N-gram统计语言模型

1.统计语言模型

自然语言从它产生开始，逐渐演变成一种上下文相关的信息表达和传递的方式，因此让计算机处理自然语言，一个基本的问题就是为自然语言这种上下文相关特性建立数学模型。这个数学模型就是自然语言处理中常说的统计语言模型，它是今天所有自然语言处理的基础，并且广泛应用与机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。

2.N-Gram

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔划，或代表字母或笔划的数字，转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音(或笔划串，或数字串)的重码问题。搜狗拼音和微软拼音的主要思想就是N-gram模型的，不过在里面多加入了一些语言学规则而已。

3.用数学的方法描述语言规律

美联储主席本.伯克南昨天告诉媒体7000亿美元的救助资金将借给上百家银行、保险公司和汽车公司。（这句话意很通顺，意思也很明白）

改变一些词的顺序，或者替换掉一些词，这句话变成：

本.伯克南美联储主席昨天7000亿美元的救助资金告诉媒体将借给银行、保险公司和汽车公司上百家。（意思就含混了，虽然多少还是能猜到一点）。

但是如果再换成：

联主美储席本.伯诉体南将借天的救克告媒助资金70元亿00美元给上百百百家银保行、汽车保险公司公司和。（基本上读者就不知所云了）。

20世纪70年代之前，科学家们试图判断这个文字序列是否合乎文法、含义是否正确等，但这条路走不动。贾里尼克从另外一个角度来看待这个问题，用一个简单的统计语言模型非常漂亮的搞定了它。贾里尼克的出发点很简单：一个句子是否合理，就看看它的可能性大小如何。至于可能性就用概率来衡量。第一个句子出现的概率最大，因此，第一个句子最有可能句子结构合理。这个方法更普通而严格的描述是：假定S表示某一个有意义的句子，由一连串特定顺序排列的词w1,w2,w3,...,wn组成，这里n是句子的长度。现在，我想知道S在文本中（语料库）出现的可能性，也就是数学上所说的S的概率P(S)。我们需要一个模型来估算概率，既然S=w1,w2,w3,...,wn，那么不妨把P(S)展开表示： P(S)=P(w1,w2,w3,...,wn)

利用条件概率的公式，S这个序列出现的概率等于每一个词出现的条件概率相乘,于是P(w1,...,wn)展开为：、

P(S)=P(W1,W2,W3,...,Wn)=P(W1)P(W2|W1)P(W3|W1,W2)…P(Wn|W1,W2,…,Wn-1)

其中P(w1)表示第一个词w1出现的概率；P(w2|w1)是已知第一个词的前提下，第二个词出现的概率；以此类推，词wn出现的概率取决于它前面所有的词。

补充知识：

条件概率、贝叶斯公式的详细讲解

但是这种方法存在两个致命的缺陷：一个缺陷是参数空间过大(条件概率P(wn|w1,w2,...,wn-1)的可能性太多，无法估算)，不可能实用化；另外一个缺陷是数据稀疏严重。

数据稀疏的解释：假设词表中有20000个词，如果是bigram model(二元模型)那么可能的2-gram就有400000000个，如果是trigram(3元模型)，那么可能的3-gram就有8000000000000个！那么对于其中的很多词对的组合，在语料库中都没有出现，根据最大似然估计得到的概率将会是0，这会造成很大的麻烦，在算句子的概率时一旦其中的某项为0，那么整个句子的概率就会为0，最后的结果是，我们的模型只能算可怜兮兮的几个句子，而大部分的句子算得的概率是0. 因此，我们要进行数据平滑（data Smoothing），数据平滑的目的有两个：一个是使所有的N-gram概率之和为1，使所有的N-gram概率都不为0,有关数据平滑处理的方法可以参考《数学之美》第33页的内容。