Michael Collins自然语言处理课程讲义（翻译：Trey）

时间：2014-05-21 19:57:32 阅读：404 评论：0 收藏：0 [点我收藏+]

第一章语言模型

（Michael Collins的自然语言处理课程讲义，哥伦比亚大学）

1.1 介绍

在这一节，我们将考虑一个问题，即如何为一个例句集建立语言模型。语言模型最初从语音识别发展起来；对现代的语言识别系统，语言模型依然起着中心作用。语言模型在其他自然语言处理应用中也被广泛应用。我们将在本章讨论参数估计技术。参数估计技术最初为语言模型而生，在很多场合都有用，譬如在接下来的章节中将会讨论到的标注问题和句法分析问题。

我们的任务如下。假设我们有一个语料库——某特定语言的句子集。譬如说，我们可能持有泰晤士报数年内的文档，又或者我们可能拥有非常大量的网络文档。基于这些语料，我们希望评估一个语言模型的参数。

语言模型定义如下。首先，我们将该门语言中的所有单词组成的集合定义为 bubuko.com,布布扣。例如，当我们为英语建立语言模型时，我们可能会有

bubuko.com,布布扣

在实际应用中 bubuko.com,布布扣可以是很大的：它可能包含数千甚至数万个单词。我们假设是一个有限集。该语言的一个句子就是一个单词序列

bubuko.com,布布扣

其中 bubuko.com,布布扣满足，且，，且假定是一个特殊符号——STOP（我们假定STOP并非中的元素）。我们将会看到为什么让每个句子以STOP结束是方便的。以下是一些例句：

bubuko.com,布布扣

我们将定义 bubuko.com,布布扣作为取词于的句子的集合：这是一个无限集，因为句子可以是任意长度的。

我们接着给出如下定义：

定义1 （语言模型） 一个语言模型由一个有限集 bubuko.com,布布扣，以及一个函数构成，其中满足：

1. 对任意 bubuko.com,布布扣，

2. 此外，

bubuko.com,布布扣

因此 bubuko.com,布布扣是中句子的概率分布。

对从训练语料库中学习语言模型的一种（非常差劲的）方法，我们考虑如下。将句子 bubuko.com,布布扣在训练语料库中出现的次数定义为，训练语料库的句子总数为。于是我们可以将定义为

bubuko.com,布布扣

然而，这是一个非常差劲的模型：具体地说，它会将任何未在训练语料库中出现过的句子的概率赋为0。因此它无法遍及那些未在训练语料库中出现过的句子。本章的主要技术贡献就是介绍可以遍及未在训练语料库中出现过的句子的方法。

乍看起来语言模型问题是一个特别奇怪的任务，那么究竟我们为什么要考虑这个问题？有几个理由：

1. 语言模型在非常广泛的应用中都有着重要作用，最明显的或许是语音识别和机器翻译。在很多应用中，获得一个好的先验分布 bubuko.com,布布扣来描述句子在该种语言中是否可能，是非常有用的。例如，在语音识别中，语言模型与一个语音模型绑定，语音模型是为单词发音而建的模型：想象这种语言模型的一个方法是，语音模型生成大量候选句子，每个句子都附带着一个概率值；语言模型则基于每个句子在该种语言中有是否更有可能是一个句子，来重新分配概率。