标签:
描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识。
在此所提供之统计量包含:
用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算。
例如:
> mean(Nile)
[1] 919.35
中位数描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据的一半。对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同。中位数的又一显著特点是不受异常值得影响,具有稳健性,因此它是数据分析中相当重要的统计量。
例如:
> median(Nile)
[1] 893.5
众数(Mode),在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。
样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。
在概率论和统计学中,变异系数,又称“离散系数”,是概率分布离散程度的一个归一化量度。
例如:
> sd(Nile)/mean(Nile)
[1] 0.184073
全距(Range),又称极差,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距;即最大值减最小值后所得之数据。
全距可以用ω(读做omega)来表示。
内四分位距(interquartile range, IQR),是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的分别(即Q_1, Q_3的差距)。与方差、标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计(robust statistic)。
四分位距:IQR=Q3-Q1
四分位差:QD=(Q3-Q1)/2
例如
> quantile(Nile)
0% 25% 50% 75% 100%
456.0 798.5 893.5 1032.5 1370.0
> fivenum(Nile)
[1] 456.0 798.0 893.5 1035.0 1370.0
在统计学中,峰度(Kurtosis)又称峰态系数,用来衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。峰度刻划不同类型的分布的集中和分散程序。设分布函数F(x)有中心矩μ_2, μ_4,则C_k=μ_4/(μ_2^2 )-3为峰度系数。
对于正整数k,如果E(X^k)存在,称μ^k=E(X^k)为随机变量X的k阶原点矩。X的数学期望(均值)是X的一阶原点矩,即E(X)=μ^1。
对于正整数k,如果E(X)存在,且E([X – EX]k)也存在,则称E([X-EX]k)为随机变量X的k阶中心矩。如X的方差是X的二阶中心矩,即D(X)= E([X-EX]2)
例如:
> library(PerformanceAnalytics)
> kurtosis(Nile)
[1] -0.3049068
在机率论和统计学中,偏度衡量实数随机变量概率分布的不对称性。偏度的值可以为正,可以为负或者甚至是无法定义。在数量上,偏度为负(负偏态)就意味着在概率密度函数左侧的尾部比右侧的长,绝大多数的值(包括中位数在内)位于平均值的右侧。偏度为正(正偏态)就意味着在概率密度函数右侧的尾部比左侧的长,绝大多数的值(包括中位数在内)位于平均值的左侧。偏度为零就表示数值相对均匀地分布在平均值的两侧,但不一定意味着其为对称分布。
当Cs>0时,概率分布偏向均值右则,Cs<0时,概率分布偏向均值左则。
例如:
> library(PerformanceAnalytics)
> skewness(Nile)
[1] 0.3223697
标签:
原文地址:http://www.cnblogs.com/tychyg/p/5277156.html