LDA-math-文本建模

时间：2015-08-02 23:17:24 阅读：314 评论：0 收藏：0 [点我收藏+]

标签：

http://cos.name/2013/03/lda-math-text-modeling/

4. 文本建模

我们日常生活中总是产生大量的文本，如果每一个文本存储为一篇文档，那每篇文档从人的观察来说就是有序的词的序列

包含

统计文本建模的目的就是追问这些观察到语料库中的的词序列是如何生成的。统计学被人们描述为猜测上帝的游戏，人类产生的所有的语料文本我们都可以看成是一个伟大的上帝在天堂中抛掷骰子生成的，我们观察到的只是上帝玩这个游戏的结果 —— 词序列构成的语料，而上帝玩这个游戏的过程对我们是个黑盒子。所以在统计文本建模中，我们希望猜测出上帝是如何玩这个游戏的，具体一点，最核心的两个问题是

上帝都有什么样的骰子；
上帝是如何抛掷这些骰子的；

第一个问题就是表示模型中都有哪些参数，骰子的每一个面的概率都对应于模型中的参数；第二个问题就表示游戏规则是什么，上帝可能有各种不同类型的骰子，上帝可以按照一定的规则抛掷这些骰子从而产生词序列。

上帝掷骰子

4.1 Unigram Model

假设我们的词典中一共有

上帝的这个唯一的骰子各个面的概率记为

上帝投掷

对于一篇文档

p (w \to) = p (w 1, w 2, ?, w n) = p (w 1) p (w 2) ? p (w n)

而文档和文档之间我们认为是独立的，所以如果语料中有多篇文档

p (W) = p (w 1 -\to-) p (w 2 -\to-) ? p (w m -\to--)

在 Unigram Model 中，我们假设了文档之间是独立可交换的，而文档中的词也是独立可交换的，所以一篇文档相当于一个袋子，里面装了一些词，而词的顺序信息就无关紧要了，这样的模型也称为词袋模型(Bag-of-words)。

假设语料中总的词频是

p (n \to) = M u l t (n \to | p \to, N) = (N n \to ) \prod k = 1

p (W) = p (w 1 -\to-) p (w 2 -\to-) ? p (w m -\to--) = \prod k = 1 V p

当然，我们很重要的一个任务就是估计模型中的参数

p i^= n i N .

对于以上模型，贝叶斯统计学派的统计学家会有不同意见，他们会很挑剔的批评只假设上帝拥有唯一一个固定的骰子是不合理的。在贝叶斯学派看来，一切参数都是随机变量，以上模型中的骰子

上帝的这个坛子里面，骰子可以是无穷多个，有些类型的骰子数量多，有些类型的骰子少，所以从概率分布的角度看，坛子里面的骰子

贝叶斯观点下的 Unigram Model

以上贝叶斯学派的游戏规则的假设之下，语料

p (W) = \int p (W | p \to) p (p \to) d p \to

p (n \to) = M u l t (n \to | p \to, N)

D i r (p \to | α \to) = 1 Δ ( α \to ) \prod k = 1 V p α k - 1 k ，

Δ (α \to) = \int \prod k = 1 V p α k - 1 k d p \to .

Dirichlet 先验下的 Unigram Model

Unigram Model的概率图模型

回顾前一个小节介绍的 Drichlet 分布的一些知识，其中很重要的一点就是

Dirichlet 先验 + 多项分布的数据

D i r (p \to | α \to) + M u l t C o u n t (n \to) = D i r (p \to | α \to + n \to

于是，在给定了参数

p (p \to | W, α \to) = D i r (p \to | n \to + α \to) = 1 Δ ( n

在贝叶斯的框架下，参数

E (p \to) = (n 1 + α 1 \sum V i = 1 ( n i + α i ) , n 2 +

p i^= n i + α i \sum V i = 1 ( n i + α i ) (2)

进一步，我们可以计算出文本语料的产生概率为

p (W | α \to) = \int p (W | p \to) p (p \to

4.2 Topic Model 和 PLSA

以上 Unigram Model 是一个很简单的模型，模型中的假设看起来过于简单，和人类写文章产生每一个词的过程差距比较大，有没有更好的模型呢？

我们可以看看日常生活中人是如何构思文章的。如果我们要写一篇文章，往往是先确定要写哪几个主题。譬如构思一篇自然语言处理相关的文章，可能 40\% 会谈论语言学、30\% 谈论概率统计、20\% 谈论计算机、还有10\%谈论其它的主题：

说到语言学，我们容易想到的词包括：语法、句子、乔姆斯基、句法分析、主语…；
谈论概率统计，我们容易想到以下一些词: 概率、模型、均值、方差、证明、独立、马尔科夫链、…；
谈论计算机，我们容易想到的词是：内存、硬盘、编程、二进制、对象、算法、复杂度…；

我们之所以能马上想到这些词，是因为这些词在对应的主题下出现的概率很高。我们可以很自然的看到，一篇文章通常是由多个主题构成的、而每一个主题大概可以用与该主题相关的频率最高的一些词来描述。

以上这种直观的想法由Hoffman 于 1999 年给出的PLSA(Probabilistic Latent Semantic Analysis) 模型中首先进行了明确的数学化。Hoffman 认为一篇文档(Document) 可以由多个主题(Topic) 混合而成，而每个Topic 都是词汇上的概率分布，文章中的每个词都是由一个固定的 Topic 生成的。下图是英语中几个Topic 的例子。

Topic 就是Vocab 上的概率分布