码迷,mamicode.com
首页 > 编程语言 > 详细

从 MLE 到 EM 算法

时间:2016-06-06 18:30:10      阅读:613      评论:0      收藏:0      [点我收藏+]

标签:

极大似然估计(MLE)提供了一种 给定观察数据来评估模型参数的方法,MLE 的问题形式是这样的,给定来自随机变量 $X$ 的数据集合 $\left \{  x_1,x_2 ,..., x_N \right \}$ , $X$ 的概率密度函数 $f(x|\theta)$ ,其中 $\theta$ 是为概率密度的未知参数,现在即可根据 MLE 求参数 $\theta$ .

其实是 MLE 一种经验风险最小化(emperical risk minimization,ERM)的方法,在机器学习中,ERM 即在给定的有限数据集上使求得模型的损失最小,写成公式有:

\[\min_{f \in \mathbb{F} } \frac{1}{N} \sum_{i=1}^{N}L(y_i,f(x_i))\]

其中 $ \mathbb{F} $ 是假设空间,$L(y_i,f(x_i))$为人工定义的损失函数, $f(x)$ 是假设函数,也即所求的模型,可见当样本容量足够大时,ERM 会保证很好的解,但是样本容量 N 很小时,ERM 可能有 over-fitting 的现象。对 MLE 来说,当模型是条件概率,损失函数是对数损失函数时,其与 ERM 是等价的,求证如下:对单个样本 $(x_i,y_i)$ ,当模型为 $f(x_i) = p(x_i|\theta)$ 时,对数损失函数为 $L(y_i,f(x_i)) = -logf(x_i) = -log \ p(x_i|\theta)$ ,此时对于所有样本数据  $\left \{  x_1,x_2 ,..., x_N \right \}$ 有:

\[\min_{\theta } -\frac{1}{N} \sum_{i=1}^{N}log \  p(x_i|\theta)\Leftrightarrow \max_{\theta } \frac{1}{N} \sum_{i=1}^{N}log \ p(x_i|\theta)\]

以上便为 MLE 的log似然对数,有无 $\frac{1}{N}$ 对结果无影响。接下来给出 MLE 的一般形式:对于数据 $\left \{  x_1,x_2 ,..., x_N \right \}$ ,密度函数为  $f(x|\theta)$ , 则数据集的联合密度函数为 $f(x_1,x_2,...,x_N|\theta) = f(x_1|\theta)f(x_2|\theta)...f(x_N|\theta) = \prod_{i=1}^{N}f(x_i|\theta)$ ,要求其最大值,可先两边同时取 log ,然后求 log 函数的极大值即可,即  

\[\max_{\theta}L(\theta)= \max_{\theta}log(\prod_{i=1}^{N}f(x_i|\theta)) =  \max_{\theta}\sum_{i=1}^{N}log f(x_i|\theta) \]

 

显然对 ERM 来说数据量越多

即在已知数据概率密度的情况下,

Jensen不等式

随机变量的期望

随机变量函数的期望

 

最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,用于含有隐变量(latent variable)的概率参数模型的最大似然估计或极大后验概率估计。

从 MLE 到 EM 算法

标签:

原文地址:http://www.cnblogs.com/ooon/p/5564547.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!