码迷,mamicode.com
首页 > 其他好文 > 详细

卡方检验

时间:2016-07-24 13:37:01      阅读:928      评论:0      收藏:0      [点我收藏+]

标签:

编辑
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
中文名
卡方检验
外文名
chi-square test ;X,2-test
种    类
假设检验方法
应    用
分类资料统计推断
作    用
资料分析

卡方检验法的基本原理和步骤

编辑
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
注意:卡方检验针对分类变量。
(1)提出原假设:
H0:总体X的分布函数为F(x).
如果总体分布为离散型,则假设具体为
H0:总体X的分布律为P{X=xi}=pi, i=1,2,...
(2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取
A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),
其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。
(3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。
(4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i 个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)
(5)当H0为真时,n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近,当H0不真时,则fi/n与pi相差很大。基于这种思想,皮尔逊引进如下检验统计量
技术分享
,在0假设成立的情况下服从自由度为k-1的卡方分布。

独立样本四格表的检验方法(自由度为1)

编辑
假设有两个分类变量X和Y,它们的值域分别为{x1, x2}和{y1, y2},其样本频数列联表为:
 
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变量K^2的值(即K的平方)
K^2的值越大,说明“X与Y有关系”成立的可能性越小。
当表中数据a,b,c,d都不小于5时,可以查阅下表来确定结论“X与Y有关系”的可信程度:
P(K^2≥k)
0.50
0.40
0.25
0.15
0.10
k
0.455
0.708
1.323
2.072
2.706
P(K^2≥k)
0.05
0.025
0.010
0.005
0.001
k
3.841
5.024
6.635
7.879
10.828
例如,当“X与Y有关系”的K^2变量的值为6.109,根据表格,因为5.024≤6.109<6.635,所以“X与Y有关系”成立的概率为0.025,即2.5%。

  

  
化妆 15(55) 95(55) 110
不化妆 85(45) 5(45) 90

  
100 100 200
如果性别和化妆与否没有关系,四个格子应该是括号里的数(理论值),这和实际值(括号外的数)有差距,理论和实际的差距说明这不是随机的组合。
应用拟合度公式
技术分享
=
技术分享
129.3>10.828
显著不相关,作此推论犯错的概率p>0.999,即99.9%。
注:独立四格表的拟合度公式可以写成n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)
总结:独立四格表资料检验[1] 
四格表资料的卡方检验用于进行两个率或两个构成比的比较。
1. 专用公式:
若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用拟合度公式)
自由度v=(行数-1)(列数-1)=1
2. 应用条件:
要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。

行×列表资料检验(自由度df=(C-1)(R-1))

编辑
行×列表资料的卡方检验用于多个率或多个构成比的比较。
1. 专用公式:
r行c列表资料卡方检验的卡方值=n[(A11/n1n1+A12/n1n2+...+Arc/nrnc)-1]
2. 应用条件:
要求每个格子中的理论频数T均大于5或1<T<5的格子数不 超过总格子数的1/5。当有T<1或1<T<5的格子较多时,可采用并行并列、删行删列、增大样本含量的办法使其符合行×列表资料卡方 检验的应用条件。而多个率的两两比较可采用行X列表分割的办法。
列联表资料检验
同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。
1. R*C 列联表的卡方检验:
R*C 列联表的卡方检验用于R*C列联表的相关分析,卡方值的计算和检验过程与行×列表资料的卡方检验相同。
2. 2*2列联表的卡方检验:
2*2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验,根 据卡方值计算公式的不同,可以达到不同的目的。当用一般四格表的卡方检验计算时,卡方值=n(ad-bc)^2/[(a+b)(c+d)(a+c) (b+d)],此时用于进行配对四格表的相关分析,如考察两种检验方法的结果有无关系;当卡方值=(|b-c|-1)2/(b+c)时,此时卡方检验用来 进行四格表的差异检验,如考察两种检验方法的检出率有无差别。
列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。

用代码实现卡方检验

编辑
在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?
处理
发癌数
未发癌数
合计
发癌率%
甲组
52
19
71
73.24
乙组
39
3
42
92.86
合计
91
22
113
80.53
52 19
39 3
这是表中最基本的数据,因此上表资料又被称之为四格表资料。卡方检验的统 计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的 发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*(91/113)=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组 发癌率不同的可能性越大。
卡方检验要求:最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据不符合要求,就要应用校正卡方。
利用统计学软件分析结果如下:
data kafang;
input row column number @@;
cards;
1 1 52
1 2 19
2 1 39
2 2 3
;
run;
proc freq;
tables row*column/chisq;
weight number;
run;

统计量
自由度
概率
卡方
1
6.4777
0.0109(显著)
似然比卡方
1
7.3101
0.0069
连续校正卡方
1
5.2868
0.0215
Mantel-Haenszel 卡方
1
6.4203
0.0113
Phi 系数
 
-0.2394
 
列联系数
 
0.2328
 
Cramer 的 V
 
-0.2394
 
  

卡方检验

标签:

原文地址:http://www.cnblogs.com/sddai/p/5700629.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!