码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习(3)之最小二乘法的概率解释

时间:2014-09-11 01:02:41      阅读:291      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   使用   strong   数据   问题   sp   log   

机器学习(3)之最小二乘法的概率解释

在前面梯度下降以及正规方程组求解最优解参数Θ时,为什么选择最小二乘作为计算参数的指标,使得假设预测出的值和真正y值之间面积的平方最小化?

 

我们提供一组假设,证明在这组假设下最小二乘是有意义的,但是这组假设不唯一,还有其他很多方法可以证明其有意义。

 

(1)      假设1:

假设输入与输出为线性函数关系,表示为:bubuko.com,布布扣

 

其中,bubuko.com,布布扣为误差项,这个参数可以理解为对未建模效应的捕获,如果还有其他特征,这个误差项表示了一种我们没有捕获的特征,或者看成一种随机的噪声。

 

假设bubuko.com,布布扣服从某个概率分布,如高斯分布(正态分布):bubuko.com,布布扣,表示一个均值是0,方差是bubuko.com,布布扣的高斯分布。

高斯分布的概率密度函数:

bubuko.com,布布扣

 

根据上述两式可得:

bubuko.com,布布扣

 

即,在给定了特征与参数之后,输出是一个服从高斯分布的随机变量,可描述为:bubuko.com,布布扣

 

*为什么选取高斯分布?

1)         便于数学处理

2)         对绝大多数问题,如果使用了线性回归模型,然后测量误差分布,通常会发现误差是高斯分布的。

3)         中心极限定律:若干独立的随机变量之和趋向于服从高斯分布。若误差有多个因素导致,这些因素造成的效应的总和接近服从高斯分布。

 

注意:bubuko.com,布布扣并不是一个随机变量,而是一个尝试估计的值,就是说它本身是一个常量,只不过我们不知道它的值,所以上式中用分号表示。分号应读作“以…作为参数”,上式读作“给定x(i)以为参数的y(i)的概率服从高斯分布”。

 

假设每个 为IID(independently and identically distributed)独立同分布

即误差项彼此之间是独立的,并且他们服从均值和方差相同的高斯分布

 

(2)      假设2:

bubuko.com,布布扣的似然性为(即给定x(i)以为参数的y(i)的概率):bubuko.com,布布扣

 

由于bubuko.com,布布扣是独立同分布,所以上式可写成所有分布的乘积:

bubuko.com,布布扣

(3)      假设3:

极大似然估计:选取bubuko.com,布布扣使似然性bubuko.com,布布扣最大化(数据出现的可能性尽可能大)

定义对数似然函数为bubuko.com,布布扣

bubuko.com,布布扣

 

上式两个加项,前一项为常数。所以,使似然函数最大,就是使后一项最小,即:

bubuko.com,布布扣

 

这一项就是之前的bubuko.com,布布扣 ,由此得证,即之前的最小二乘法计算参数,实际上是假设了误差项满足高斯分布,且独立同分布的情况,使似然最大化来计算参数。

机器学习(3)之最小二乘法的概率解释

标签:style   blog   http   使用   strong   数据   问题   sp   log   

原文地址:http://www.cnblogs.com/rcfeng/p/3965490.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!