标签:style blog ext width http strong
2>残差的正态性检验:
Shapiro-Wilk正态性检验【转】
Shapiro-Wilk (SW) 检验
有多种手段评估数据是否正态分布。分两大类:图形和统计量。图形手段包括q-q plot和p-p plot,统计量手段包括Kolmogorov-Smirnov 检验 and Shapiro-Wilks 检验。
Samuel Shapiro 和 MartinWilk[2]于1965年提出了Shapiro–Wilk 检验。他们观察到Normal probability plot与线性回归很类似。Normalprobability plot是q-q plot的特例,检查样本数据集是否匹配某正态分布,比如标准正态分布N(0,1)。
Shapiro-Wilk检验用于验证一个随机样本数据是否来自正态分布。
在实际使用中,除了Shapiro-Wilk检验的结果,还应配上normal probability plot,提供样本分布形状方面的非量化信息。
设 Y1< Y2 < … < Yn 是数量是n的一个排序的样本,需要验证其是否符合正态分布。假设是:
H0: 样本数据与正态分布没有显著区别。
HA: 样本数据与正态分布存在显著区别。
检验使用的统计量W 定义为
其中
1. 是样本均值。
2. a = (al ,… , an)T 符合以下条件: (Σaiyi )2是(n -1) σ2,的最佳线性无偏估计(best linear unbiased estimate, BLUE [3]),σ 是样本来自的正态分布的标准差。 a 的确切值是:
a=(mT V-1 V-1 m)-1/2mTV-1
其中矩阵V 是个协方差矩阵(covariance matrix),属于n个标准正态分布的随机变量的顺序统计量(order statistics),m是这些变量的期望组成的向量。
3. W的分母是通常使用的(n -1) σ2的一个无偏估计。
如果样本数据的确来自一个正态分布,统计量W的分子和分母均会趋向一个常数:(n -1) σ2的估计值。对于非正态分布的数据而言,分子和分母通常不会趋向同一个常数。
统计量W 最大值是1,最小值是na12/(n-1)。
可以把W看作是顺序排列样本值( yi ) 和系数ai之间相关系统的平方(squared correlation coefficient)或者是线性回归的确定性系数(coefficientof determination R2 for linear regression),它的值越高,越表示样本与正态分布匹配。
有了统计量,我们就可以设定一显著性水平α(常见的是0.05),然后获得它的分位数或者临界值Wα,如果W < Wα则拒绝H0,否则接受H0。如果使用p-value,如果p-value 小于显著性水平α.,则拒绝H0。
注释:
不幸的是,针对大多数n,统计量W的分布是未知的,必须通过模拟,造表或者近似方法(比如Royston的方法[4][5])获得。如下图显示,Samuel Shapiro 和 Martin Wilk 在[2]中为几个不同的样本规模画了W的C.D.F (累积分布函数)曲线。
在R中使用此种检验方法很简单。设Y =(y1, . . . , yn)是一数据向量,直接输入命令shapiro.test(Y),就可以获得W的值和对应的p-value。如果p-value 小于设定的显著性水平(比如0.05),就拒绝正态分布假设,否则就不能拒绝。R允许样本规模到5000。
如下图示,我们用函数rnorm获得一个标准正态分布的随机样本,然后用函数Shapiro.test检验它的正态性。
结果显示p-value大于显著性水平0.05,所以不能拒绝零假设:样本来自正态分布。
1. Statistical Analysis Handbook,Shapiro-Wilk
http://www.statsref.com/HTML/index.html?shapiro_wilk.html
2. Shapiro S S, Wilk M B (1965) AnAnalysis of Variance Test for Normality (Complete Samples). Biometrika,52(3/4), 591-611.
3. https://en.wikipedia.org/wiki/Best_linear_unbiased_estimator
4. Royston P (1982) An extensionof Shapiro and Wilk‘s W test for normality to large samples. AppliedStatistics, 31, 115–124.
5. Royston P (1992) Approximatingthe Shapiro-Wilk W test for non-normality. Statistics and Computing 2: 117.
标签:style blog ext width http strong
原文地址:http://www.cnblogs.com/wangwp/p/3714678.html