机器学习：高斯混合模型及EM算法

时间：2016-05-12 17:49:17 阅读：158 评论：0 收藏：0 [点我收藏+]

标签：

Mixtures of Gaussian

这一讲，我们讨论利用EM (Expectation-Maximization)做概率密度的估计。假设我们有一组训练样本 ${x^{(1)}, x^{(2)},...x^{(m)}}$ ,因为是unsupervised的学习问题，所以我们没有任何y的信息。

我们希望利用一个联合分布 $p(x^{(i)}, z^{(i)})=p(x^{(i)}|z^{(i)})p(z^{(i)})$ 来拟合这些数据, 其中 $z^{(i)} \sim \text{Multinomial} (\phi)$ ( $\phi_{j} \geqslant 0$ , $\sum_{j=1}^{k}\phi_{j}=1$ ,参数 $\phi_{j}$ 给出了概率 $p(z^{(i)}=j)$ )，并且 $x^{(i)}|z^{(i)} =j \sim N(\mu_{j}, \Sigma_{j})$ ，我们让k表示 $z^{(i)}$ 可能值的个数，因此在这个模型中，每一个训练样本 $x^{(i)}$ 是由随机取某一个值的变量 $z^{(i)}$ 生成的，所以 $x^{(i)}$ 是从k个的高斯分布中的一个(由 $z^{(i)}$ 指示)提取出来的。这个称为高斯混合模型，我们也要注意到 $z^{(i)}$ 是隐含的随机变量，高斯混合模型涉及的参数是 $\phi, \mu, \Sigma$ ，为了估计这些变量，我们可以建立如下的表达式：

l (?, μ, Σ) = \sum i = 1 m log p (x (i); ?, μ, Σ) = \sum i = 1 m log \sum z (i) = 1 k p (x (i) | z (i); μ, Σ) p (z (i), ?)

$\begin{equation*} \begin{split} l(\phi, \mu, \Sigma) & =\sum_{i=1}^{m}\text{log} p(x^{(i)}; \phi, \mu, \Sigma) \& =\sum_{i=1}^{m} \text{log} \sum_{z^{(i)}=1}^{k} p(x^{(i)}|z^{(i)} ;\mu, \Sigma)p(z^{(i)}, \phi) \end{split} \end{equation*}$

我们发现，通过求偏导数求极值的方法，无法得到这些参数的解，从上面的表达式可以看出，随机变量 $z^{(i)}$ 告诉了我们 $x^{(i)}$ 是从k个高斯分布中的其中一个生成的，如果我们知道是哪一个高斯分布，或者说如果知道 $z^{(i)}$ 的值，那我们可以利用最大似然估计的方法估计参数
$\phi, \mu,\Sigma$ ，如果 $z^{(i)}$ 已知，那么上式可以写成：

l (?, μ, Σ) = \sum i = 1 m log p (x (i) | z (i); μ, Σ) + log p (z (i), ?)

$l(\phi, \mu, \Sigma) = \sum_{i=1}^{m} \text{log} p(x^{(i)}|z^{(i)} ;\mu, \Sigma) + \text{log}p(z^{(i)}, \phi)$
利用最大似然估计，可以求得这些参数为：

? j μ j Σ j = 1 m \sum i = 1 m 1 {z (i) = j} = \sum m i = 1 1 { z ( i ) = j } x ( i ) \sum m i = 1 1 { z ( i ) = j } = \sum m i = 1 1 { z ( i ) = j } ( x ( i ) ? μ j ) ( x ( i ) ? μ j ) T \sum m i = 1 1 { z ( i ) = j }

$\begin{equation*} \begin{split} \phi_{j} & =\frac{1}{m} \sum_{i=1}^{m} 1\{z^{(i)}=j\} \\mu_{j}& =\frac{\sum_{i=1}^{m} 1\{z^{(i)}=j\} x^{(i)}} { \sum_{i=1}^{m} 1\{z^{(i)}=j\} } \\Sigma_{j} & = \frac{\sum_{i=1}^{m} 1\{z^{(i)}=j\}( x^{(i)}-\mu_{j}) ( x^{(i)}-\mu_{j})^{T}}{\sum_{i=1}^{m} 1\{z^{(i)}=j\}} \end{split} \end{equation*}$
从上面的表达式可以看出，如果

z(i) $z^{(i)}$ 的值已知，那么参数

?,μ,Σ $\phi, \mu,\Sigma$ 的估计与之前介绍的Gaussian discriminant analysis 模型对参数的估计是一样的，这里的

z(i) $z^{(i)}$ 就像Gaussian discriminant analysis 模型中的输出y一样。

但是遗憾的是，我们不知道 $z^{(i)}$ 的值，所以这里我们要介绍另外一种unsupervised的学习方法，称为EM算法，EM算法主要分为两步，在E-step，我们主要对 $z^{(i)}$ 的值做猜测，在M-step，我们在E-step假设的基础上，利用最大似然估计求参数 $\phi, \mu,\Sigma$ ，算法主要流程如下：

Repeat until convergence {

E-step：对于每一个i,j,设置：

w (i) j : = p (z (i) = j | x (i); ?, μ, Σ)

$w_{j}^{(i)}:=p(z^{(i)}=j| x^{(i)}; \phi, \mu, \Sigma)$

M-step：跟新如下参数：

? j : = 1 m \sum i = 1 m w (i) j

$\phi_{j} : =\frac{1}{m} \sum_{i=1}^{m} w_{j}^{(i)}$

μ j : = \sum m i = 1 w ( i ) j x ( i ) \sum m i = 1 w ( i ) j

$\mu_{j} : = \frac{\sum_{i=1}^{m} w_{j}^{(i)}x^{(i)}}{ \sum_{i=1}^{m} w_{j}^{(i)} }$

Σ j : = \sum m i = 1 w ( i ) j ( x ( i ) ? μ j ) ( x ( i ) ? μ j ) T \sum m i = 1 w ( i ) j

$\Sigma_{j} : = \frac{ \sum_{i=1}^{m} w_{j}^{(i)} ( x^{(i)}-\mu_{j}) ( x^{(i)}-\mu_{j})^{T} }{ \sum_{i=1}^{m} w_{j}^{(i)} }$

}

在E-step，我们可以通过给定的 $x^{(i)}$ 和当前估计的参数计算 $z^{(i)}$ 的后验概率，利用贝叶斯估计，我们可以得到：

p (z (i) = j | x (i); ?, μ, Σ) = p ( x ( i ) | z ( i ) = j ; μ , Σ ) p ( z ( i ) = j , ? ) \sum k l = 1 p ( x ( i ) | z ( i ) = l ; μ , Σ ) p ( z ( i ) = l , ? )

$p(z^{(i)}=j| x^{(i)}; \phi, \mu, \Sigma)=\frac{ p(x^{(i)}|z^{(i)}=j ;\mu, \Sigma) p(z^{(i)}=j, \phi) }{ \sum_{l=1}^{k} p(x^{(i)}|z^{(i)}=l ;\mu, \Sigma) p(z^{(i)}=l, \phi) }$

这里， $p(x^{(i)}|z^{(i)}=j ;\mu, \Sigma)$ 通过计算一个均值为 $\mu_{j}$ ，协方差为 $\Sigma_{j}$ 的高斯分布在 $x^{(i)}$ 处的概率密度得到， $p(z^{(i)}=j, \phi)$
是由 $\phi_{j}$ 给出，在E-step计算的 $w_{j}^{(i)}$ 的值，表示我们对 $z^{(i)}$ 的一种弱估计。

同样，我们也可以将M-step的参数跟新与知道 $z^{(i)}$ 确切值的参数估计的表达式进行对比，可以看出两者是一致的，只不过前面的表达式 $1\{z^{(i)}=j\}$ 指出了我们利用哪个高斯分布，而现在换成了 $w_{j}^{(i)}$ 。

EM 算法同样会让人联想起k均值算法，k均值是硬聚类，将样本聚到某一类里，而EM算法是弱聚类，样本所属的高斯分布由 $w_{j}^{(i)}$ 估计。

参考来源：

Andrew Ng, “Machine Learning”, Stanford University.

机器学习：高斯混合模型及EM算法

标签：

原文地址：http://blog.csdn.net/matrix_space/article/details/45579041

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

机器学习 ： 高斯混合模型及EM算法

机器学习：高斯混合模型及EM算法