码迷,mamicode.com
首页 > 编程语言 > 详细

回归预测及R语言实现 Part1 回归基础综述

时间:2015-05-19 13:14:22      阅读:298      评论:0      收藏:0      [点我收藏+]

标签:

Part1 回归基础综述


回归方法有很多种,最常见的是线性回归(又有一元和多元之分)、多项式回归、非线性回归。另外还将简单说明对预测结果的检验方法。

 

线性回归

一元线性回归,是最简单最常见的回归模型,类似初中数学中的一元一次方程,它的基本模型如下:

技术分享

我们常见的一元线性回归方程一般没有最后一项,确切的说,我们在实际的应用中也忽略了最后一项。最后一项ui的现实意义是:它是指除自变量x以外所有对因变量y有影响的其他因素,应用回归预测时,我们假设ui是一个均值为零的随机变量,方差为常值,不同ui间相互独立,并与自变量x相互独立。

 

多元线性回归,则类似多元一次方程,是指在存在二个或二个以上的自变量,会对因变量y产生线性影响,线性影响这个说法不知道有没有,意思就是一次关系。多元线性回归模型如下:

技术分享

技术分享是n个对因变量y会产生影响的n个自变量。二元线性回归和三元线性回归在实际应用中都比较常见,因变量再多的话关系比较复杂但将其简单定义为线性关系,可能在用作预测时,误差会较大。

 

线性回归方法在做预测时,我们需要根据已有观测数据得到参数技术分享。常见估算b参数的方法有最小二乘法和最大似然估计法。

简单来说最小二乘法就是估算值能很好地拟合已有的观测值,使得估计值和观测值之差的平方和最小。最大似然估计法的依据是:概率最大的事件最可能发生。以一元线性回归为例,说明下,这两个算法是如何来估算技术分享的。

 

最小二乘法

根据最小二乘法的概念,使得估计值和观测值差的平方和最小,即使下面的式子能取到最小值:

技术分享

根据微积分中求极值的原理,只需分别对技术分享求偏导,并使之等于0时技术分享能取到最小值。可以求得技术分享的值分别如下:

技术分享

最大似然估计法

给一个参考http://blog.csdn.net/ppn029012/article/details/8908104,简单线性回归比较常用的是上面最小二乘法。这里不再详细说明最大似然估计法的过程。

 

多项式回归

多项式回归,简单来看,就是自变量x的多项式与因变量y的关系,其模型如下:

技术分享

 

非线性回归

现实生活中,很多问题并不是简单的线性关系,这种情况下,要选择合适的曲线才能来描述实际问题。上面的多项式回归就是一种非线性回归。介绍几种常见的非线性回归关系,作图软件http://fooplot.com/

1.      幂函数

技术分享

b>0时,图形如下,图中三条线分别是a=1,b=0.5;a=1,b=1;a=1,b=2时的情况。

技术分享

b<0时,图形如下,图中三条线分别是a=1,b=-0.5;a=1,b=-1;a=1,b=-2时的情况。

 技术分享

2.      指数函数与对数函数

 技术分享技术分享

技术分享

3.      抛物线函数

技术分享

这就是一种多项式回归,二项式,是现实中很常见的一种描述问题的方法模型。感觉中学跟它打交道的时间很多。这个模型的图形如下:

a=1,b=-2,c=1时

技术分享

a=-1,b=2,c=-1时

技术分享

 

4.      S形函数

技术分享

   又被叫做逻辑函数。这个函数图形很有特点,很适合描述实际问题,有兴趣可以看下它的说明http://zh.wikipedia.org/wiki/%E9%82%8F%E8%BC%AF%E5%87%BD%E6%95%B8

技术分享

 

验证方法

下面简单说明对回归结果的验证的几种方法。

1.      标准误差

标准误差是估计值与观测值的平均平方误差,其计算公式为:

技术分享

2.      可决系数

可决系数的取值范围是0~1,是1减去未解释离差与实际方差的比值,R^2的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R^2的值越接近0,说明回归直线对观测值的拟合程度越差。其计算公式如下:

技术分享

3.      相关系数

相关系数的取值范围是-1~1,其实它就是前面可决系数的开方值,区别于可决系数的是相关系数可以有正有负。相关系数接近1或者-1时拟合程度好,接近0时拟合程度不好。其计算公式如下:

技术分享

4.      F检验

技术分享

上式中,总离差可分解为回归偏差和剩余残差两部分。自由度n-1也可分解为回归自由度1和残差自由度n-2两部分。将回归偏差和剩余残差分别除以它们的自由度后相比即为检验统计量F。其计算公式如下:

技术分享

这里F服从F(1,n-2)分布,取显著性水平技术分享,如果技术分享,则表明回归模型显著,否则回归模型不显著不能用于预测。

简单说明下自由度表示的是一组数据可以自由表化的数量的多少。n-1是通常的计算方法,更准确的讲应该是n-x,n表示“处理”的数量,x表示实际需要计算的参数的数量。

 

5.      t检验

回归系数的显著性检验常用t值,其计算公式如下:

技术分享

其中,t服从自由度为n-2的t分布,取显著水平技术分享,如果技术分享,则回归系数b显著。


参考:《统计预测和决策》 徐国祥(所有公式都出自这里)

有任何问题建议欢迎指出,谢谢!

回归预测及R语言实现 Part1 回归基础综述

标签:

原文地址:http://blog.csdn.net/cl1143015961/article/details/45841557

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!