码迷,mamicode.com
首页 > 其他好文 > 详细

线性回归模型

时间:2018-11-28 19:41:45      阅读:128      评论:0      收藏:0      [点我收藏+]

标签:amp   浮动   特征   数据集   src   idt   ima   参数估计   三维   

一、线性方程

  Θ1,Θ2,。。。为参数,Θ0为偏置,x1,x2,...xn为特征

  若在二维平面中,一个特征,找出一条最合适的直线去拟合我们的数据

  所在三维平面中,两个特征,找出一个最合适的平面去拟合我们的数据。

  技术分享图片

二、误差

  真实值和预测值之间肯定存在差异

  对每个样本来说:技术分享图片                      (1)

  误差ε符合:独立,同分布,均值为0,方差为Θ2的高斯分布。

  独立:样本之间互相不影响。

  同分布:所有样本服从于同一个规律

  高斯分布:即正态分布,绝大多数情况下,误差不会太大,极小情况下浮动大,属于正常情况。

三、将ε代入高斯分布

  技术分享图片              (2)

  将(1)式代入(2)式

 

  技术分享图片

四、似然函数

技术分享图片

最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积。

五、对数似然

技术分享图片

 

只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。

技术分享图片

六、最小二乘法

技术分享图片

 

 技术分享图片

七、评估方法

  相关系数R2

 技术分享图片

  R平方:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。如R平方为0.8,则表示回归关系可以解释因变量80%的变异。换句话说,如果我们能控制自变量不变,则因变量的变异程度会减少80%  

  R平方值=回归平方和(ssreg)/总平方和(sstotal)
  其中回归平方和=总平方和-残差平方和(ssresid)

  R2越接近于1,我们认为模型拟合的越好

  拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。

 

矩阵知识补充:

矩阵的迹定义如下

  一个技术分享图片的矩阵技术分享图片的迹是指技术分享图片的主对角线上各元素的总和,记作技术分享图片。即

  技术分享图片

  技术分享图片

  技术分享图片

 

线性回归模型

标签:amp   浮动   特征   数据集   src   idt   ima   参数估计   三维   

原文地址:https://www.cnblogs.com/zhangyafei/p/10032215.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!