码迷,mamicode.com
首页 > 其他好文 > 详细

数学之路-SAS分析(1)

时间:2015-04-01 17:54:00      阅读:496      评论:0      收藏:0      [点我收藏+]

标签:大数据   sas   

卡方分布chi-square distributionχ2-distribution)是概率论统计学中常用的一种概率分布k独立的标准正态分布变量的平方和服从自由度k的卡方分布。卡方分布是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验置信区间的计算。

k个随机变量技术分享、……、技术分享是相互独立,符合标准正态分布随机变量数学期望为0、方差为1),则随机变量Z的平方和

技术分享

被称为服从自由度为 k 的卡方分布,记作

技术分享
技术分享

概率密度函数

技术分享
其中,
技术分享
伽玛函数

期望和方差

技术分享
分布的均值为自由度 n,记为 E(
技术分享
) = n。
技术分享
分布的方差为2倍的自由度(2n),记为 D(
技术分享
) = 2n。

性质

1)
技术分享
分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数 n 的增大,
技术分享
分布趋近于正态分布;卡方分布密度曲线下的面积都是1.
2)
技术分享
分布的均值与方差可以看出,随着自由度n的增大,χ2分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来越大)。
3)不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。
4) 若
技术分享
互相独立,则:
技术分享
服从
技术分享
分布,自由度为
技术分享
技术分享
服从
技术分享
分布,自由度为
技术分享

累积分布函数

卡方分布的累积分布函数为:

技术分享

其中γ(k,z)为不完全Gamma函数

在大多数涉及卡方分布的书中都会提供它的累积分布函数的对照表。此外许多表格计算软件如OpenOffice.org Calc和Microsoft Excel中都包括卡方分布函数。

自由度为k的卡方变量的平均值k方差2k。 卡方分布是伽玛分布的一个特例,它的为:

技术分享

其中技术分享双伽玛函数

伽玛函数(Gamma Function)作为阶乘的延拓,是定义在复数范围内的亚纯函数,通常写成
技术分享
在实数域上伽玛函数定义为:
技术分享
在复数域上伽玛函数定义为:
技术分享
其中
技术分享
,此定义可以用解析开拓原理拓展到整个复数域上,非正整数除外。
标准正态分布又称为u分布,是以0为均数、以1为标准差的正态分布,记为N(0,1)。
标准正态分布曲线下面积分布规律是:在-1.96~+1.96范围内曲线下的面积等于0.9500,在-2.58~+2.58范围内曲线下面积为0.9900。统计学家还制定了一张统计用表(自由度为∞时),借助该表就可以估计出某些特殊u1和u2值范围内的曲线下面积。

正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是位置参数均数为0, 尺度参数:标准差为1的正态分布(见右图中绿色曲线)。
技术分享
正态分布中一些值得注意的量:
密度函数关于平均值对称
平均值与它的众数(statistical mode)以及中位数(median)同一数值。
函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
95.449974%的面积在平均数左右两个标准差的范围内。
99.730020%的面积在平均数左右三个标准差的范围内。
99.993666%的面积在平均数左右四个标准差的范围内。
函数曲线的反曲点(inflection point)为离平均数一个标准差距离的位置。
技术分享

非中心卡方分布[1][2]是有正态分布衍生得到的一个概率分布. 设技术分享为一组独立的随机变量, 并且技术分享(技术分享服从正态分布), 定义随机变量技术分享, 称随机变量技术分享服从自由度为技术分享, 非中心参数为技术分享的的非中心卡方分布, 记为技术分享; 其中技术分享. 当技术分享时, 随机变量技术分享服从自由度为技术分享卡方分布.





SAS设定自由度和非中心参数计算p分位点的方式如下:

272  data _null_;
273  q=cinv(0.95,10,25.2);*0.95分位数,自由度为10,非中心参数为25.2;
274  put q=;
275  run;


q=54.759186647
NOTE: “DATA 语句”所用时间(总处理时间):
      实际时间          0.00 秒
      CPU 时间          0.00 秒



CINV(p, df<, nc>)

Required Arguments

p

is a numeric probability.

Range0 ≤ p < 1

df

is a numeric degrees of freedom parameter.

Rangedf > 0

Optional Argument

nc

is a numeric noncentrality parameter.

Rangenc ≥ 0

Details

The CINV function returns the pth quantile from the chi-square distribution with degrees of freedom df and a noncentrality parameter nc. The probability that an observation from a chi-square distribution is less than or equal to the returned quantile is p. This function accepts a noninteger degrees of freedom parameter df.
If the optional parameter nc is not specified or has the value 0, the quantile from the central chi-square distribution is returned. The noncentrality parameter nc is defined such that if X is a normal random variable with mean μ and variance 1, X2 has a noncentral chi-square distribution with df=1 and nc = μ2

数学之路-SAS分析(1)

标签:大数据   sas   

原文地址:http://blog.csdn.net/myhaspl/article/details/44807445

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!