码迷,mamicode.com
首页 > 其他好文 > 详细

线性回归

时间:2015-01-23 19:52:07      阅读:296      评论:0      收藏:0      [点我收藏+]

标签:

一、问题描述

线性回归问题非常简单。对于给定的m个样本技术分享 ,其中技术分享, 为第 i个样本的自变量,表示成n维列向量,即 技术分享(这里为了方便已经对技术分享 进行了增广,即对n-1维的变量增加取值为1的一维,组成n维,这样可以方便地将公式写成向量形式),技术分享 为对应的函数值。

线性回归的目标是找到自变量和函数值直接的一个最佳线性拟合技术分享,其中 技术分享 ,表示为n维列向量,即 技术分享,我们要找到一个技术分享使得这种拟合是最优的。

二、求解

为了找到最优的技术分享,需要首先定义一个目标函数来说明什么样的技术分享是最优的。线性回归采用的是最小平方误差准则。

定义目标函数 技术分享,显然,求和式内部的每一项为预测值和原始值的平方误差差,所以目标函数定义了所以样本的预测值和原始值平方差的和,要使得线性拟合最优,那么就需要选取技术分享使得这个函数取值最小。下面来求解技术分享。这是一个优化问题,可以用不同的优化方法来做,比如梯度下降或者牛顿法啊什么的,当然能直接得到解析解最好了~对于现在这个问题,我们可以很方便求出它的解析解。

为了方便,我们将目标函数写成向量形式。

技术分享,  技术分享

这样目标函数

技术分享

为了求目标函数极值,对其求导:

技术分享

(上式利用了求导公式技术分享技术分享,令技术分享技术分享  )

令倒数为0:

技术分享

这样便求出了最优的参数 技术分享,回归曲线技术分享便也求出了。

 

回过头来再看,上面的推导有两点问题:

(1)对于目标函数技术分享 ,我们求它的最小值,那么最小值存在吗?感性的认识一下,由于我们找的拟合直线(或超平面)是距离所有样本偏差平方和最小的,那么目标函数最新值应该是存在的,直观上好像总能找到这样一个直线(或超平面),如果要找最大值,那当然不存在了,我们可以将直线(或超平面)放置的离样本无穷远。但是现在我们这里求解的是解析解,所以还是需要一下说明的。我们知道,如果一个函数的Hessien矩阵正定或者半正定,那么这个函数是一个凹函数(开口向上),所以是梯度为零的驻点就是全局函数值最小点。显然,现在的目标函数是关于技术分享的二次函数,其Hessien矩阵为技术分享,那么它半正定吗?其实我也不知道。。。

查书找到一个结论,如果为技术分享方阵,那么技术分享是半正定的,可惜这里技术分享不是方阵,网上问了一下又说技术分享是半正定的,但不知道怎么证明,所以也不敢确定喽~

(2)对于技术分享这一步推导 ,需要技术分享可逆,那么它可逆吗?如果问题(1)中 技术分享正定,那么正定矩阵是可逆的,就不存在这个问题了。但如果如(1)中网友所言技术分享是半正定,那么能说明它可逆吗?这个问题我也不知道怎么弄。

在实际中,如果技术分享不可逆,为了得到一个解,我们可以用它的伪逆当作逆来用,这样做在数学上是怎么回事我也就不知道了,人家数学家说可以这样弄个,我很天真,就相信喽~

 

好吧,我理解的线性回归就这些了,程序就不写了,简单的套公式。看Andrew Ng讲的资料里还有对线性回归的概率模型解释,这个单写一篇吧~

 

上面的两个问题,欢迎讨论哈~

 

参考资料:Andrew Ng机器学习视频和课件

 

 

 

        

线性回归

标签:

原文地址:http://www.cnblogs.com/dreamvibe/p/4244812.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!