EM算法学习笔记2：深入理解

时间：2015-06-18 22:14:56 阅读：209 评论：0 收藏：0 [点我收藏+]

文章《EM算法学习笔记1：简介》中介绍了EM算法的主要思路和流程，我们知道EM算法通过迭代的方法，最后得到最大似然问题的一个局部最优解。本文介绍标准EM算法背后的原理。

我们有样本集X，隐变量Z，模型参数 $\theta$ ，注意他们3个都是向量，要求解的log似然函数是 $lnp(X|\theta)$ ，而这个log似然函数难以求解，我们假设隐变量Z已知，发现 $lnp(X,Z|\theta)$ 的最大似然容易求解。

有一天，人们发现引入任意一个关于隐变量的分布q(Z)，对于这个log似然函数，存在这样一个分解：

l n p (X | θ) = L (q, θ) + K L (q | | p) . (1)

$lnp(X|\theta) = L(q,\theta) + KL(q||p).(1)$
其中：

L (q, θ) = \sum Z q (Z) l n p ( X , Z | θ ) q ( Z ) . (2)

$L(q,\theta) = \sum_Zq(Z)ln{\frac{p(X,Z|\theta)}{q(Z)}}.(2)$

K L (q | | p) = ? \sum Z q (Z) l n p ( Z | X , θ ) q ( Z ) . (3)

$KL(q||p) = -\sum_Zq(Z)ln{\frac{p(Z|X,\theta)}{q(Z)}}.(3)$

L(q,θ) $L(q,\theta)$ is a functional of q(Z), and a function of

θ $\theta$ .
因为KL距离是大于等于0的，当且仅当

q(Z)=p(Z|X,θ) $q(Z)=p(Z|X,\theta)$ 时等于0，所以

L(q,θ) $L(q,\theta)$ 是log似然函数

lnp(X|θ) $lnp(X|\theta)$ 的一个lower bound，也就是如下图的关系：
技术分享

要证明(1)式成立，将如下的(4)式代入(2)中，再把(2),(3)代入(1)式右边，整理后可以看到(1)式两边相等。

l n p (X, Z | θ) = l n p (Z | X, θ) + $ l n p (X | θ) . (4)

$lnp(X,Z|\theta)=lnp(Z|X,\theta)+$lnp(X|\theta).(4)$
假设当前初始化了一个

θold $\theta^{old}$ 。
在E step，我们固定

θold $\theta^{old}$ ，根据q(Z)来最大化lower bound

L(q,θold) $L(q,\theta^{old})$ 。我们直接令

q(Z)=p(Z|X,θold) $q(Z)=p(Z|X,\theta^{old})$ ，使L达到最大，而

lnp(X|θ) $lnp(X|\theta)$ 不依赖于q(Z)，所以它的值不变。
技术分享

此时在对(2)式把q(Z)用

p(Z|X,θold) $p(Z|X,\theta^{old})$ 替换掉，可以得到：

L (q, θ) = \sum Z p (Z | X, θ o l d) l n p (X, Z | θ) ? \sum Z p (Z | X, θ o l d) l n p (Z | X, θ o l d) = E (θ, θ o l d) + c o n s t . (5)

$L(q,\theta)=\sum_Zp(Z|X,\theta^{old})lnp(X,Z|\theta) - \sum_Zp(Z|X,\theta^{old})lnp(Z|X,\theta^{old}) = E(\theta,\theta^{old}) + const.(5)$
这个

E(θ,θold) $E(\theta,\theta^{old})$ 就是(5)中第一个求和式：在假设隐变量Z已知时的log似然函数，关于隐变量Z的后验概率的期望。
const是包含了减号及减号后面的内容，在我们固定

θold $\theta^{old}$ 的情况下，是个固定值。
所以在E step这一步，我们需要计算出期望

E(θ,θold) $E(\theta,\theta^{old})$ ，下一步的最大化L也就可以转化成最大化这个期望，而期望中包含的lnp(X,Z|\theta)，最好能是连乘或指数形式，这样下一步最大似然的计算会简单很多。
也就是说，我们绕开了对

lnp(X|θ) $lnp(X|\theta)$ 直接求最大似然。

在M step，我们固定q(Z)，根据 $\theta$ 来最大化lower bound $L(q,\theta^{old})$ （实质上也是最大化期望E），并得到一个令L最大的 $\theta^{new}$ ，此时L达到最大，且 $lnp(X|\theta)$ 也相应增大。
而此时KL距离又变大了，q也已经不是最优了，所以要再回到E step。
技术分享
如此反复迭代，lnp(X|theta)总是在增大的，等到它不再增大，或者增大速度很慢很慢时，我们可以认为达到了局部最优。

上述EM算法的过程可以用下图直观地解释。
技术分享
红色线是我们要最大化的log似然函数 $lnp(X|\theta)$ ，开始时先设定一个 $\theta^{old}$ 。
在E step估计隐变量Z的后验概率，得到一个 $L(q,\theta^{old})$ ，如蓝色线所示。
在M step来最大化 $L(q,\theta^{old})$ ，得到绿色线，此时它更好地接近 $lnp(X|\theta)$ ，我们得到一个 $\theta^{new}$ 。

这个EM算法的理解是来自《Pattern Recognition And Machine Learning》中的”EM algorithm in general”，其中在引入q(Z)时已经涉及到了变分的思想，本文的EM内容有助于理解LDA的原始论文中的EM算法求解参数的部分。

EM算法学习笔记2：深入理解

标签：em 迭代最大似然方法参数

原文地址：http://blog.csdn.net/happyer88/article/details/46551843

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行