参数估计：最大似然估计、贝叶斯估计与最大后验估计

时间：2014-07-23 22:39:07 阅读：894 评论：0 收藏：0 [点我收藏+]

简介：

在概率统计中有两种主要的方法：参数统计和非参数统计（或者说参数估计和非参数估计）。其中，参数估计是概率统计的一种方法。主要在样本知道情况下，一般知道或假设样本服从某种概率分布，但不知到具体参数（或者知道具体模型，但不知道模型的参数）。参数估计就是通过多次试验，观察其结果，利用结果推出参数的大概值。（当你推出参数的极大可能值时，就相当于知道了分布及其参数情况，就可以利用它来推测其他样例出现的概率了。这属于应用了）

参数估计的方法有多种，这里我们分析三种基于概率的方法，分别是最大似然估计（Maximum Likelihood）、贝叶斯估计（Bayes）和最大后验估计（Maximum a posteriori）。我们假设我们观察的变量是 $bubuko.com,布布扣$ ，观察的变量取值（样本）为 $bubuko.com,布布扣$ ，要估计的参数是 $bubuko.com,布布扣$ ， $bubuko.com,布布扣$ 的分布函数是 $bubuko.com,布布扣$ （我们用条件概率来显式地说明这个分布是依赖于 $bubuko.com,布布扣$ 取值的）。实际中， $bubuko.com,布布扣$ 和 $bubuko.com,布布扣$ 都可以是几个变量的向量，这里我们不妨认为它们都是标量（theta若是标量求导，若是向量求偏导）。这里的p(x|θ)可以是高斯分布或其他分布。

bubuko.com,布布扣

最大似然估计 Maximum Likelihood (ML)

“likelihood/似然”的意思就是“事件（即观察数据）发生的可能性”，最大似然估计就是要找到 $bubuko.com,布布扣$ 的一个估计值，使“事件发生的可能性”最大，也就是使 $bubuko.com,布布扣$ 最大。一般来说，我们认为多次取样得到的 $bubuko.com,布布扣$ 是独立同分布的（iid），这样

$bubuko.com,布布扣$

由于 $bubuko.com,布布扣$ 一般都比较小，且N一般都比较大，因此连乘容易造成浮点运算下溢，所以通常我们都去最大化对应的对数形式

$bubuko.com,布布扣$

具体求解释时，可对右式对 $bubuko.com,布布扣$ 求导数，然后令为0，求出 $bubuko.com,布布扣$ 值即为 $bubuko.com,布布扣$ 。

这时一般知道具体的分布，再加上参数theta，然后可以用含theta的式子表示每一次（独立的）出现的概率。这样L(theta）就是一个含theta参数的式子，最后求导（或偏导），解方程（组）就OK了。

注意：最大似然把待估的参数看做是确定性的量，只是其取值未知。最佳估计就是使得产生以观测到的样本的概率最大的那个值。

该估计是最大可能性估计，但不是无偏估计。

最大似然估计属于点估计，只能得到待估计参数的一个值。(1) 但是在有的时候我们不仅仅希望知道 $bubuko.com,布布扣$ ，我们还希望知道 $bubuko.com,布布扣$ 取其它值得概率，即我们希望知道整个 $bubuko.com,布布扣$ 在获得观察数据 $bubuko.com,布布扣$ 后的分布情况 $bubuko.com,布布扣$ . (2) 最大似然估计仅仅根据（有限的）观察数据对总体分布进行估计，在数据量不大的情况下，可能不准确。例如我们要估计人的平均体重，但是抽样的人都是小孩，这样我们得到的平均体重就不能反映总体的分布，而我们应该把“小孩之占总人口20%”的先验考虑进去。这时我们可以用贝叶斯方法。

贝叶斯估计 Bayes

使用Bayes公式，我们可以把我们关于 $bubuko.com,布布扣$ 的先验知识以及在观察数据结合起来，用以确定 $bubuko.com,布布扣$ 的后验概率 $bubuko.com,布布扣$ ：

$bubuko.com,布布扣$

其中 $bubuko.com,布布扣$ 是累积因子，以保证 $bubuko.com,布布扣$ 和为1。要使用Bayes方法，我们需有关于 $bubuko.com,布布扣$ 的先验知识，即不同取值的概率 $bubuko.com,布布扣$ 。比如 $bubuko.com,布布扣$ 表示下雨， $bubuko.com,布布扣$ 表示不下雨，根据以往的经验我们大体上有 $bubuko.com,布布扣$ 、 $bubuko.com,布布扣$ ，在这种知识不足的时候，可以假设 $bubuko.com,布布扣$ 是均匀分布的，即取各值的概率相等。

在某个确定的 $bubuko.com,布布扣$ 取值下，事件x的概率就是 $bubuko.com,布布扣$ ，这是关于 $bubuko.com,布布扣$ 的函数，比如一元正态分布 $bubuko.com,布布扣$ 。与上一节中的一样，我们认为各次取样是独立的， $bubuko.com,布布扣$ 可以分开来写，这样我们就可以得到 $bubuko.com,布布扣$ 的一个表达式，不同的 $bubuko.com,布布扣$ 对应不同的值。

根据获得的 $bubuko.com,布布扣$ ，我们边可以取使其最大化的那个 $bubuko.com,布布扣$ 取值，记为 $bubuko.com,布布扣$ 。可能有人已经看出问题来了：我们做了很多额外功，为了求得一个 $bubuko.com,布布扣$ ，我们把 $bubuko.com,布布扣$ 取其它值的情况也考虑了。当然在有的时候 $bubuko.com,布布扣$ 分布是有用的，但是有的时候我们取并不需要知道 $bubuko.com,布布扣$ ，我们只要那个 $bubuko.com,布布扣$ 。最大后验估计这个时候就上场了。

备注：贝叶斯估计则把待估计的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程，就是把先验概率密度转化为后验概率密度，这样就利用样本的信息修正了对参数的初始估计值。在贝叶斯估计中，一个典型的效果就是，每得到新的观测样本，都使得后验概率密度函数变得更加尖锐，使其在待估参数的真实值附近形成最大的尖峰。

最大后验估计 MAP

最大后验估计运用了贝叶斯估计的思想，但是它并不去求解 $bubuko.com,布布扣$ ，而是直接获得 $bubuko.com,布布扣$ 。从贝叶斯估计的公式可以看出， $bubuko.com,布布扣$ 是与 $bubuko.com,布布扣$ 无关的，要求得使 $bubuko.com,布布扣$ 最的的 $bubuko.com,布布扣$ ，等价于求解下面的式子：

$bubuko.com,布布扣$

与最大似然估计中一样，我们通常最大化对应的对数形式：

$bubuko.com,布布扣$

这样，我们便无需去计算 $bubuko.com,布布扣$ ，也不需要求得具体的 $bubuko.com,布布扣$ 部分，便可以得到想要的 $bubuko.com,布布扣$ 。

和最大似然很相似，也是假定参数未知，但是为确定数值。只是优化函数为后验概率形式，多了一个先验概率项。

区别与总结：

区别：而贝叶斯估计和二者最大的不同在于，假定参数也是随机变量，不是确定值。在样本分布D上，计算参数所有可能的情况，并通过基于参数期望，计算类条件概率密度。

也就是说贝叶斯估计不是想极大似然估计那样找到使观测到的样本的概率最大的那个参数值。而是找到所有可能的参数值及其相应的可信值（暂且怎么称呼吧）。这样你就可以知道不同参数值的可信程度。例如：①有三个分别为0.8,0.05,0.05; 则决然的选最大的0.8。例如②三个参数值的可信值为0.4,0.39， 0.39；则选第一个参数值就要慎重了。

但是，当参数分布为尖峰（如例①），且该参数对应样本分布比较平坦时，极大似然近似于贝叶斯。

总结：

三种方法各有千秋，使用于不同的场合。当对先验概率 $bubuko.com,布布扣$ 的估计没有信心，可以使用最大似然估计（当然也可以使用其它两种）。贝叶斯估计得到了后验概率的分布，最大似然估计适用于只需要知道使后验概率最大的那个 $bubuko.com,布布扣$ 。总体上，极大似然计算简单，而贝叶斯在某些特殊情况下，效果好于极大似然。

另外一方面，我们可以感觉到，最大似然估计和Bayes/MAP有很大的不同，原因在于后两种估计方法利用了先验知识 $bubuko.com,布布扣$ ，如果利用恰当，可以得到更好的结果。其实这也是两大派别（Frequentists and Bayesians)的一个区别。

最后附上一张参数估计与非参数估计的对比图：

bubuko.com,布布扣