线性模型（1）

时间：2015-10-31 21:32:04 阅读：457 评论：0 收藏：0 [点我收藏+]

标签：

在方差分析中，我们初步介绍了线性模型的思想，实际上，线性模型只是方法分析的模型化，其统计检验仍然是依照方差分解原理进行F检验。

线性模型作为一种非常重要的数学模型，根据分析目的可以分为线性回归模型和方差分析模型，根据表现形式又可以分为一般线性模型、广义线性模型、一般线性混合模型、广义线性混合模型。

下面我们就根据分析目的来介绍线性模型

一、方差分析模型：

使用线性模型进行方差分析的时候涉及一些基本概念：

===============================================

(1)因素与水平
因素也称为因子，在实际分析中，因素就是会对结果产生影响的变量，通常因素都是分类变量，如果用自变量和因变量来解释，那么因素就是自变量，结果就是因变量。

一个因素下面往往具有不同的指标，称为水平，表现在分类变量上就是不同类别或取值范围，例如性别因素有男、女两个水平，有时取值范围是人为划分的。

(2)单元
因素各水平之间的组合，表现在列联表中就是某个单元格，有些实验设计如拉丁方设计，单元格为空或无。

(3)元素
指用于测量因变量值的最小单位，其实也就是具体的测量值。根据具体的实验设计，列联表的一个单元格内可以有一个或多个元素，也可能没有元素。

(4)均衡
如果一个实验设计中任一因素的各水平在所有单元格中出现的次数相同，且每个单元格内的元素数也相同，那么该实验就是均衡的。不均衡的实验设计在分析时较为复杂，需要对方差分析模型作特别的设置才行。

(5)协变量
有时，我们在分析某些因素的影响时，需要排除某个因素对因变量的影响，这个被排除的因素被称为协变量，

(6)交互作用
如果一个因素的效应大小在另一个因素的不同水平下表现的明显不同，则说明这两个因素之间存在交互作用。交互作用是多因素分析时必须要做的，这样分析的结果才会全面。

(7)固定因素和随机因素
是因素的两个种类，固定因素是指该因素的所有水平，在本次分析中全部出现，从分析结果就可以获知全部水平的情况。而随机因素相反，指该因素的所有水平在本次分析中并没有全部出现，如果重复本次分析，可能得到的因素水平完全不同。这样的因素称为随机因素。

固定因素和随机因素并没有严格区别，而是需要根据分析目的进行指定，一个因素有可能是固定因素也有可能是随机因素，如果将某个因素指定为固定因素，那么结论就不应该“泛化”到全部水平，否则，就应该将其指定为随机因素。固定因素和随机因素的处理方法是不一样的，显然，如果把随机因素误当做固定因素来处理，结果肯定也会是错的。
====================================================
方差分析的适用条件：

(1)独立性：
要求样本中的各元素相互独立，之间没有相关性，来自真正的随机抽样，只有这样才能保证差异具有可分解性，但是对于重复测量的实验设计，由于测量数据来自同一个体，因此元素之间存在相关性，需要使用专门的重复测量方差分析模型。

(2)正态性
由于各组的随机误差项被设定服从均值为0，标准差为某个定值的正态分布，因此模型要求各单元格的残差也要服从正态分布

(3)方差齐性
由于各组的随机误差项被设定为服从正态分布，因此模型要求各单元格要满足方差齐，也就是变异程度相同，这样才具有可比性。

(4)各组协变量与因变量关系是线性的
这是在协变量分析中要求的假定

(5)各分组回归斜率相等
这是在协变量分析中要求的假定
==================================================
方差分析按处理因素(也可简单称为自变量)个数的多少，分为单因素方差分析、双因素方差分析、多因素方差分析等

方差分析按分析指标(也可简单称为因变量)的个数多少，分为一元方差分析（ANOVOA）、多元方差分析（MANOVOA）

多自变量多因变量的方差分析也可以简单称为多元方差分析，当然更精确的称为“X因素Y元方差分析”，如二因素二元方差分析。

====================================================

1.单因素方差分析

单因素方差分析指的是只有一种处理因素在影响结果，或者说只有一个自变量在影响因变量的情况，

单因素方差分析比较简单，我们在方差分析中已经有过详细介绍。在此，只做回顾：

设任何一次实验结果都可以表示成如下形式:

Yi=μ+εi

其中Yi是第i次实验的实际结果，μ是该结果的最佳估计值，其实就是总体均值，εi是均值和实际结果的偏差也就是随机误差，为了方便推导，我们假定εi服从均值为0，标准差为某个定值的正态分布，这也是前面讲到的方差分析的适用条件之一。

我们把以上形式按照方差分析进行推广，假设我们要研究几种水平之间的差异，每种水平抽取一定样本并收集相关数据，那么模型公式可以表示为：

Yij=μi+εij

其中Yij是第i组水平的第j个样本的实际结果，μi是第i组的均值，εij是第i组第j个样本相对于实际结果的偏差。我们同样假定εi服从均值为0，标准差为某个定值的正态分布，如果这i组水平没有差异，则Yij应等于总体均值加上随机误差项。为了方便统计推断，我们又把模型公式改为如下形式：

Yij=μ+αi+εij

其中μ表示不考虑分组时的总体均值，αi表示第i组的附加效应，即在第i组时的均值改变情况，例如

αi=10，表示第i组的均值要比总体均值多10，如果这i组均值并无差异，那么α1=α2=α3=.....=αi，反之则不等，据此我们可以建立假设：

H0：i取任意值时，αi=0
H1：i取任意值时，至少有一个αi<>0

结合差异分解的方差分析思路，我们发现αi实际上就是处理因素导致的差异。

2.两因素及多因素方差分析

当处理因素多于1个的时候，我们不但要考虑某个因素的影响，还要考虑多个因素之间的交互作用，因此模型公式还需要扩展，以两因素方差为例，模型公式为：

Yij=μ+αi+βj+γij+εijk

其中μ表示不考虑分组时的总体均值，
αi表示第i组的附加效应
βj表示第j组的附加效应
γij表示两个因素的交互作用产生的效应

如果我们要分析αi对均值有无影响，需要以αi建立假设，即

H0：i取任意值时，αi=0
H1：i取任意值时，至少有一个αi≠0

如果我们要分析βj对均值有无影响，需要以βj建立假设，即
H0：i取任意值时，βj=0
H1：i取任意值时，至少有一个βj≠0

3.协方差分析

有时我们在进行方差分析的时候，遇到某些因素会对实验结果产生影响，但是这些因素在实验设计阶段无法避免，只有在分析阶段加以控制，这种需要控制的因素称为协变量，需要分析带有协变量的方差分析称为协方差分析。

协方差分析的基本思想是：在做多组均值比较之前，用直线回归方法找出各组均值与协变量之间的数量关系，求出当各组协变量相等的时候的均值，即修正均值，然后利用方差分析比较修正均值之间的差别，从而达到排除协变量对结果的影响的目的。

协方差分析的适用条件除了基本的独立性、正态性、方差齐性之外，还增了两点是：

(1)各组协变量与因变量关系是线性的
(2)各分组回归斜率相等

由上我们看出，协方差分析需要借助线性回归才能进行分析。

4.多元方差分析(MANOVOA)

多元方差分析，这里的多元指的是多个因变量，多个因变量的方差分析不能简单的拆分成多个单因变量，对于此类多因变量资料的分析，一般有两种方法：一种是因子分析，另一种就是多元方差分析。

单因素方差分析不能分析出因素对多个因变量的协方差的影响。在考虑多个因变量时，多元方差分析将多个因变量看做一个整体(联合分布)，从因变量的任意线性组合，发现不同总体的最大组间差异，即自变量对多个因变量整体的影响。

多元方差分析也是基于变异分解的思路，但是和一元方差分析所不同的是：一元方差分析是对组间均方与组内均方进行比较，而多元方差分析则是组间方差协方差矩阵和组内方差协方差矩阵进行比较。换句话说：一元方差分析是对方差(离均差平方和)的分解，多元方差分析是对方差-协方差(离均差平方和-离均差积和)的分解。

多元方差分析也有一些适用条件，总的来说和一元方差分析类似，但是有些略有不同

(1)各因变量的联合分布服从多元正态分布。对于这一点，要求并不高，实际上可以近似为各因变量分别服从正态分布即可，当各因变量服从多元正态分布时，每个因变量也必然服从正态分布，但是只要有一个因变量不服从正态分布，那么这几个因变量的联合分布肯定不服从多元正态分布。
(2)各观察对象间相互独立
(3)各组观察对象因变量的方差协方差矩阵相等，也就是方差齐性要求
(4)各因变量间存在一定的关联，这可以从专业或研究目的的角度进行判断。

以上四点中，对于第三点方差齐性要求较高，并且对样本量也有一定要求，不仅总样本量要大，而且各个单元格中的样本量也应较大。

多元方差分析中，如果自变量的个数多于两个，也可以进一步对自变量间的交互作用进行分析，这和一元方差分析相同。

如果还想分析处理因素对哪些因变量有影响或影响程度如何，则可以通过对每个因变量分别进行单因素方差分析来进行处理。并且，当某个处理因素有统计学意义的时候，还可以进行两两比较进一步分析是那几个水平间的哪几个因变量差别有统计学意义，这和单因素方差分析一样。

多元方差分析有一些自己的统计量

(1)SSCP:离差平方和与离均差积和矩阵
(2)W=每个因变量的离差矩阵之和（多元方差的组内变异）
(3)T=总离差矩阵
(4)B=T-W=组间离差矩阵

多元方差的检验方法主要有以下几种：

(1)Roy 检验: Roy检验基于HE^-1 的最大特征根。

(2)Lawley和Hotelling‘s trace检验：统计量为 T=trace(BW^-1)

(3)Pillai‘s trace检验：统计量为V=trace[B(B+W)^-1]

(4)Roy‘s第二检验：Roy的另一个依靠U=|B(B+W)^-1|的统计量

(5)Wilks似然比检验：由Wilks依据Λ=|W|/|B+W|导出的统计量

以上检验中：
<1>当四种检验结果不同时，需要进一步找出原因
<2>当四种检验结果相同时，推荐使用Wilks似然比检验，通常情况下，Wilks似然比检验表现最好
<3>Wilks似然比检验、Lawley和Hotelling‘s trace检验、Pillai‘s trace检验的功效是近似的，而Roy‘s检验只有在处理差异非常大的时候功效较高，其余时候比前三种方法功效低。
<4>当模型建立的前提条件不满足时（如轻微偏离多元正态），Pillai‘s trace检验最为稳健。

线性模型（1）

标签：

原文地址：http://www.cnblogs.com/xmdata-analysis/p/4926232.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行