码迷,mamicode.com
首页 > 其他好文 > 详细

[小白眼中的统计]差异性检验与一般线性模型(1)

时间:2015-05-01 00:27:27      阅读:253      评论:0      收藏:0      [点我收藏+]

标签:

     用SPSS的童鞋都知道,我们常用的方差分析(ANOVA)在一般线性模型(General Linear Model,简称GLM)的菜单下。那GLM是何许人也呢?让我们打开万能的wiki,键入General Linear Model。。。看到的居然是一张毫无违和感的Fitting Plot:

                                                       技术分享

以及传说中的多元(线性)回归公式: $Y_{i}=\beta_{0} + \beta_{i1}X_{i1} + \beta_{2}X_{i2} + ... +  \beta_{p}X_{ip} + \epsilon_{i} $  

  这不是回归问题么?跟检验差异的方差分析有何关系呢?

 

  事实上,基于正态分布假设的参数检验(T检验,ANOVA,MANOVA,ANCOVA等等)均可以表征成回归问题。

      不妨让我们以最简单的二类差异问题为例(组A与组B的差异)  ,我们通常采用T检验考察A与B之间的差异,并用Error_bar来表示A与B的差异(如下图左)。

                                技术分享                   技术分享

  A与B是自变量X下的两个水平,我们可以用0(A)与1(B)来编码它们。那么,我们便可以得到因变量Y与自变量X的对应函数Y=F(X),假定两者之间存在线性相关,即有函数模型$Y = \alpha X + \beta$ (如上图右)。当A与B的差异越大,拟合线的斜率α也越大,即差异性检验可以通过回归的形式来表达。

  那么两者之间的显著性是否等价呢?即A与B之间的T分数与拟合线的斜率α的T分数是否相同,答案是肯定的。

 

 

  我们不妨假设组A与组B之间满足方差齐性,组A(Na)与组B(Nb)的样本数不等。那么组A与组B之间的t值即为

$$t=\frac{\overline{Y_{b}}-\overline{Y_{a}}}{S_{Y_{a}Y_{b}}· \sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}} $$

其中,有$S_{Y_{a}Y_{b}}=\sqrt{\frac{(N_{a}-1)S_{Y_{a}}^2 + (N_{b}-1)S_{Y_{b}}^2}{N_{a}+N_{b}-2}}$,$S_{Y_{a}}$、 $S_{Y_{b}}$ 分别为组A与组B的标准差。

 

令$MEAN=\overline{Y_{b}}-\overline{Y_{a}}$,$SE=S_{Y_{a}Y_{b}}·\sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}$ ,即有$t=\frac{MEAN}{SE}$

 

先处理最简单的MEAN部分:

将线性模型$Y = \alpha X + \beta$代入MEAN,由于$X_{a_{i}}=0$,$X_{b_{i}}=1$,即有: $MEAN =( \hat{\alpha} \times 1 +\hat{\beta} ) - ( \hat{\alpha} \times 0 +\hat{\beta} )={\hat{\alpha} -0} $

 

接着来看SE部分,首先是$S_{Y_{a}Y_{b}}$部分:

根据样本标准差的Bessel校正公式,$S_{Y_{a}}=\frac{ \sum_{i=1}^{N_{a}}{(Y_{a_{i}} - \overline{Y_{a}})^{2}}}{N_{a}-1}$,$S_{Y_{b}}=\frac{ \sum_{i=1}^{N_{b}}{(Y_{b_{i}} - \overline{Y_{b}})^{2}}}{N_{b}-1}$,将两者带入$S_{Y_{a}Y_{b}}$:

$$S_{Y_{a}Y_{b}}=\sqrt{\frac{\sum_{i=1}^{N_{a}}{(Y_{a_{i}} - \overline{Y_{a}})^{2}} + \sum_{i=1}^{N_{b}}{(Y_{b_{i}} - \overline{Y_{b}})^{2}}}{N_{a}+N_{b}-2}}$$

组A,B的均值分别是其组内点的最小二乘估计量,即$\overline{Y_{a}}=\hat{Y_{a_{i}}},i\in A$;$\overline{Y_{b}}=\hat{Y_{b_{i}}},i\in B$:

$$S_{Y_{a}Y_{b}}=\sqrt{\frac{\sum_{i=1}^{N_{a}}{(Y_{a_{i}} - \hat{Y_{a_{i}}})^{2}} + \sum_{i=1}^{N_{b}}{(Y_{b_{i}} - \hat{Y_{b_{i}}})^{2}}}{N_{a}+N_{b}-2}}=\sqrt{\frac{\sum_{i=1}^{N}{(Y_{i} - \hat{Y_{i}})^{2}}}{N-2}}$$ 

   

最后,来看$\sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}$:

$$\frac{1}{N_{a}} + \frac{1}{N_{b}}=\frac{1}{\frac{N_{a}N_{b}}{N_{a}+N_{b}}}$$

$$=\frac{1}{\frac{N_{b}(N-N_{b})}{N}}$$

$$=\frac{1}{N_{b} - \frac{N_{b}^2}{N}}$$

$$=\frac{1}{N_{b} - 2·\frac{N_{b}^2}{N}+\frac{N_{b}^2}{N}}$$

由于$X_{a_{i}}=0$,$X_{b_{i}}=1$,即有$N_{b}=\sum^{N}X_{i}=\sum^{N}X_{i}^2$,并有$\overline{X}=\frac{N_{b}}{N}$:

$$N_{b} - 2·\frac{N_{b}^2}{N}+\frac{N_{b}^2}{N}=\sum^{N}X_{i}^2-2·\sum^{N}(\frac{N_{b}}{N}·X_{i})+\sum^{N}(\frac{N_{b}}{N})^2$$

$$=\sum^{N}(X_{i}-\frac{N_{b}}{N})^2=\sum^{N}(X_{i}-\hat{X})^2$$

即$\large \sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}=\frac{1}{\sqrt{\sum_{i=1}^{N}(X_{i}-\overline{X})^2}}$

 

综上,$\Large t=\frac{MEAN}{SE}=\frac{MEAN}{S_{Y_{a}Y_{b}}·\sqrt{\frac{1}{N_{a}} + \frac{1}{N_{b}}}}=\frac{\hat{\alpha} -0}{\sqrt{\frac{\frac{1}{N-2}·\sum_{i=1}^{N}{(Y_{i} - \hat{Y_{i}})^{2}}}{\sum_{i=1}^{N}(X_{i}-\overline{X})^2}}}=\frac{\hat{\alpha} -0}{SE_{\hat{\alpha}}}$,最后的等式为线性模型的斜率的最小二乘估计量$\hat{\alpha}$是否大于0的T检验的表达式。

至此,我们成功的证明了:

方差齐性且不等组的组A与组B的之间的差异的T值 与

线性模型$Y = \alpha X + \beta$($X_{A}=0$,$X_{B}=1$)中$\alpha$是否显著大于0的T值是等价的。

 

 对于更为一般的方差不齐的情况、配对样本T检验以及多组间比较的方差分析(dummy coding技术),且听下回分解^ ^

 

  

 

 

 

  

 

  

    

                               

[小白眼中的统计]差异性检验与一般线性模型(1)

标签:

原文地址:http://www.cnblogs.com/lovedreamf/p/4462357.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!