标签:
回归分析
1.回归分析基本原理
所谓回归分析法,就是在掌握大量观察数据基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(简称为回归方程式)。回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系,这种因变量与自变量的不确定性的关系(相关性关系)。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
2.为什么使用回归分析?
如上所述,回归分析估计了两个或多个变量之间的关系。回归分析的好处良多。具体如下:
1.它表明自变量和因变量之间的显著关系;
2.它表明多个自变量对一个因变量的影响强度。
回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
3.有多少种回归技术?
有各种各样的回归技术用于预测。这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。总共有7种:线性回归,逻辑回归,多项式回归,Stepwise Regression逐步回归,Ridge Regression岭回归,Lasso Regression套索回归,ElasticNet回归
4. Linear Regression线性回归
它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。用一个方程式来表示它,即Y=a+b*X + e,其中a表示截距,b表示直线的斜率,e是误差项。这个方程可以根据给定的预测变量来预测目标变量的值。
一元线性回归和多元线性回归的区别在于,多元线性回归有(>1)个自变量,而一元线性回归通常只有1个自变量。现在的问题是“我们如何得到一个最佳的拟合线呢?”。
1)获得最佳拟合线(a和b的值)
这个问题可以使用最小二乘法轻松地完成。最小二乘法也是用于拟合回归线最常用的方法。对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时,偏差先平方,所以正值和负值没有抵消。
2)最小二乘法原理
在这里假设变量Y与X之间存在线性相关关系。设有n对观测值,构造线性函数Y=ax+b,令,根据上面的阐述,利用最小二乘法求解回归函数参数就是找到适合的参数(a,b)使得 的值最小,然后在式中,分别求S对(a,b)的偏导数,并令其等于零,可求得参数a,b。
要点:
自变量与因变量之间必须有线性关系
多元回归存在多重共线性,自相关性和异方差性。
线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值。
多重共线性会增加系数估计值的方差,使得在模型轻微变化下,估计非常敏感。结果就是系数估计值不稳定
在多个自变量的情况下,我们可以使用向前选择法,向后剔除法和逐步筛选法来选择最重要的自变量
3)线性回归方程的显著性检验
线性回归方程建立后,一般需要进行显著性检验,常用的检验方法有:方差分解法,相关分析法,F检验,t检验以及D-W检验。下面主要介绍F检验和t检验。
F检验法
在一元线性回归模型中,若b=0,则X的变化不会引起Y的变化,即Y与X不具有线性相关关系。因此,线性回归方程的显著性检验可以通过回归方程的F检验来完成。
提出:b=0, :b0,则在成立,即Y与X之间不存在线性相关的条件下,统计量
服从自由度为(1,n-2)的F分布。在给定了检验的显著性水平以后,可由F分布表得到成立时的临界值,如果对于一组样本计算得出的统计量F的值大于,则否定,即b0,说明X与Y之间确定存在线性相关关系。因此,对回归方程的相关性检验可按下列步骤做F检验。
步骤1:提出假设:b=0, :b0,
步骤2:在成立时,统计量 F(1,n-2)对于给定的显著性水平,查F分布表得到检验的临界值。
步骤3:对于一组样本计算SSR和SSE,并由此得到F值。
步骤4:比较F与的值,若F> ,则拒绝零假设。我们认为X与Y之间存在线性相关关系,否则接受,认为X与Y之间没有线性相关关系。
t检验
尽管相关系数r是对变量Y与X之间线性关系密切程度的一个度量,但是相关系数r是根据样本数据计算得到的,因而具有一定的随机性,样本容量越小,其随机性就越大。因此也需要通过样本相关系数r对总体的相关系数做出判断。由于相关系数r的分布密度函数比较复杂,实际应用中需要对r作变换。令
则统计量t服从t(n-2)分布。于是关于总体是否线性相关的问题就变成对总体相关系数=0的假设检验,也就是只要对统计量t进行t检验就行了。
根据一组样本计算出上述t值,再根据问题所给定的显著性水平和自由度n-2,查t分布表,找到相应的临界值/2.若,表明t在统计上是显著的,即总体的两个变量间存在线性关系。否则就认为两个变量不存在线性关系。
2.Logistic Regression逻辑回归
逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。
Logit函数,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差(如在普通回归使用的)。
2.1极大似然估计参数求解步骤:
(1) 写出似然函数:
这里,n为样本数量,似然函数表示n个样本(事件)同时发生的概率。
(2) 对似然函数取对数:
(3) 将对数似然函数对各参数求偏导数并令其为0,得到对数似然方程组。
(4) 从方程组中解出各个参数。
要点:
它广泛的用于分类问题。
逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。
为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。
它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。
自变量不应该相互关联的,即不具有多重共线性。然而,在分析和建模中,我们可以选择包含分类变量相互作用的影响。
如果因变量的值是定序变量,则称它为序逻辑回归。
如果因变量是多类的话,则称它为多元逻辑回归。
2.2 Logistic回归建模步骤
1)根据分析目的设置指标变量(因变量与自变量),然后收集数据
2)y取1的概率是p=P(y=1|X),取0的概率是1-p,用 和自变量列出线性回归方程,估计出模型中的回归系数
3)进行模型检验:根据输出的方差分析表中的F值和p值来检验该回归方程是否显著,如果p值小于显著性水平则模型通过检验,可以进行下一步回归系数的检验;否则要重新选择指标变量,重新建立回归方程
4)进行回归系数的显著性检验:在多元线性回归中,回归方程显著并不意味着每个自变量对y的影响都显著,为了从回归方程中剔除那些次要的、可有可无的变量,为了从回归方程中剔除那些次要的、可有可无的变量,重新建立更为简单的回归方程,需要对每个自变量进行显著性检验,检验结果由参数估计表得到。采用逐步回归法,首先剔除掉最不显著的因变量,重新构造回归方程,一直到模型和参与的回归系数都通过检验。
5)模型应用:输入自变量的取值,就可以得到预测的变量的值,或者根据预测变量的值去控制自变量的取值。
Logistic回归模型的建模步骤如下图所示:
3. Polynomial Regression多项式回归
对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。
在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。
4. Stepwise Regression逐步回归
在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法:
标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。
向前选择法从模型中最显著的预测开始,然后为每一步添加变量。
向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的变量。
这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。
5. Ridge Regression岭回归
岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。
6. Lasso Regression套索回归
它类似于岭回归,Lasso (LeastAbsolute Shrinkage and Selection Operator)也会惩罚回归系数的绝对值大小。此外,它能够减少变化程度并提高线性回归模型的精度。
7.ElasticNet回归
ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。
如何正确选择回归模型?
在多类回归模型中,基于自变量和因变量的类型,数据的维数以及数据的其它基本特征的情况下,选择最合适的技术非常重要。以下是你要选择正确的回归模型的关键因素:
1)数据探索是构建预测模型的必然组成部分。在选择合适的模型时,比如识别变量的关系和影响时,它应该首选的一步。比较适合于不同模型的优点,我们可以分析不同的指标参数,如统计意义的参数,R-square,Adjusted R-square,AIC,BIC以及误差项,另一个是Mallows’ Cp准则。这个主要是通过将模型与所有可能的子模型进行对比(或谨慎选择他们),检查在你的模型中可能出现的偏差。
2)交叉验证是评估预测模型最好额方法。在这里,将你的数据集分成两份(一份做训练和一份做验证)。使用观测值和预测值之间的一个简单均方差来衡量你的预测精度。如果你的数据集是多个混合变量,那么你就不应该选择自动模型选择方法,因为你应该不想在同一时间把所有变量放在同一个模型中。
3)它也将取决于你的目的。可能会出现这样的情况,一个不太强大的模型与具有高度统计学意义的模型相比,更易于实现。
4)回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。
标签:
原文地址:http://blog.csdn.net/u013153546/article/details/51337498