从 MLE 到 EM 算法

时间：2016-06-06 18:30:10 阅读：613 评论：0 收藏：0 [点我收藏+]

标签：

极大似然估计（MLE）提供了一种给定观察数据来评估模型参数的方法，MLE 的问题形式是这样的，给定来自随机变量 $X$ 的数据集合 $\left \{ x_1,x_2 ,..., x_N \right \}$ , $X$ 的概率密度函数 $f(x|\theta)$ ,其中 $\theta$ 是为概率密度的未知参数，现在即可根据 MLE 求参数 $\theta$ .

其实是 MLE 一种经验风险最小化（emperical risk minimization，ERM）的方法，在机器学习中，ERM 即在给定的有限数据集上使求得模型的损失最小，写成公式有：

\[\min_{f \in \mathbb{F} } \frac{1}{N} \sum_{i=1}^{N}L(y_i,f(x_i))\]

其中 $ \mathbb{F} $ 是假设空间，$L(y_i,f(x_i))$为人工定义的损失函数， $f(x)$ 是假设函数，也即所求的模型，可见当样本容量足够大时，ERM 会保证很好的解，但是样本容量 N 很小时，ERM 可能有 over-fitting 的现象。对 MLE 来说，当模型是条件概率，损失函数是对数损失函数时，其与 ERM 是等价的，求证如下：对单个样本 $(x_i,y_i)$ ,当模型为 $f(x_i) = p(x_i|\theta)$ 时，对数损失函数为 $L(y_i,f(x_i)) = -logf(x_i) = -log \ p(x_i|\theta)$ ,此时对于所有样本数据 $\left \{ x_1,x_2 ,..., x_N \right \}$ 有：

\[\min_{\theta } -\frac{1}{N} \sum_{i=1}^{N}log \ p(x_i|\theta)\Leftrightarrow \max_{\theta } \frac{1}{N} \sum_{i=1}^{N}log \ p(x_i|\theta)\]

以上便为 MLE 的log似然对数，有无 $\frac{1}{N}$ 对结果无影响。接下来给出 MLE 的一般形式：对于数据 $\left \{ x_1,x_2 ,..., x_N \right \}$ ，密度函数为 $f(x|\theta)$ , 则数据集的联合密度函数为 $f(x_1,x_2,...,x_N|\theta) = f(x_1|\theta)f(x_2|\theta)...f(x_N|\theta) = \prod_{i=1}^{N}f(x_i|\theta)$ ,要求其最大值，可先两边同时取 log ，然后求 log 函数的极大值即可，即

\[\max_{\theta}L(\theta)= \max_{\theta}log(\prod_{i=1}^{N}f(x_i|\theta)) = \max_{\theta}\sum_{i=1}^{N}log f(x_i|\theta) \]

显然对 ERM 来说数据量越多

即在已知数据概率密度的情况下，

Jensen不等式

随机变量的期望

随机变量函数的期望

最大期望算法（Expectation Maximization Algorithm，又译期望最大化算法），是一种迭代算法，用于含有隐变量（latent variable）的概率参数模型的最大似然估计或极大后验概率估计。

从 MLE 到 EM 算法

标签：

原文地址：http://www.cnblogs.com/ooon/p/5564547.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行