码迷,mamicode.com
首页 > 其他好文 > 详细

标准差,标准误

时间:2015-03-30 23:03:39      阅读:252      评论:0      收藏:0      [点我收藏+]

标签:

 

开博第三篇依旧回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:标准差,标准误。
 
10 标准差
在概率论和数理统计中,标准差(Standard Deviation,符号\(\sigma\))是方差的算术平方根。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。平均数相同的,标准差未必相同。
 
对于离散型随机变量,假设随机变量为\(X\),取值\({x}_{i}(i = 1, 2, ... , n)\),\(\mu\)为随机变量的数学期望(均值),那么离散型随机变量\(X\)的标准差可以表示为:
\(\sigma(X) = \sqrt{\frac{1}{n}\sum_{i=1}^{n}{({x}_{i} - \mu)}^{2}}\)
 
11 标准误
 
标准误指抽样的误差,从一个总体中可以抽取出无数多种样本,每一个样本的数据都是对总体的数据的估计。标准误代表当前样本对总体数据的估计,是样本均值与总体均数的相对误差。标准误由样本的标准差除以样本容量的开平方来计算。这里可以看到,标准误更大的是受到样本容量的影响。样本容量越大,标准误越小,抽样误差就越小,就表明所抽取的样本能够较好地代表总体。
如果样本服从均值为\(\mu\),标准差为\(\sigma\)的正态分布,即\(X \backsim N(\mu, {\sigma}^{2})\)。那么样本均值服从均值为\(\mu\),标准差为\(\frac{\sigma}{\sqrt{n}}\)的正态分布,即\(X \backsim N(\mu, \frac{{\sigma}^{2}}{n})\)。这里\(\sigma\)为标准差,\(\frac{\sigma}{\sqrt{n}}\)为标准误。

从标准误的概念来看,标准误是一个分数,其数值的大小受到分子与分母的共同影响。如果公式中分子(标准差)小,标准误也小,反之亦然;如果公式中分母(样本容量)大,则标准误变小,反之亦然。由于总体(或样本)的标准差是根据实际分布状况计算得到的,不能随意调整,所以,加大样本容量可以说是减小标准误的有效途径。

 

标准误越小,说明样本统计量与总体参数的真值越接近,样本对总体越有代表性,用样本统计量推断总体参数的准确度越大。因此,标准误是统计推断的可靠性指标。

 
二者的联系与区别
 
标准差与标准误都是数理统计学的内容,两者不仅在字面上比较相近,而且都是表示距离某一个标准值或中间值的离散程度,即都表示变异程度,但是两者是有着较大的区别的。
 
首先从统计抽样的方面说起。现实生活或者调查研究中,我们常常无法对某类调查的目标群体的所有成员都加以估计,而只能够在所有成员(即样本)中抽取一些成员出来进行调查,再利用统计原理和方法对所得数据进行分析,分析出来的数据结果就是样本的结果,然后用样本结果推断总体的情况。一个总体可以抽取出多个样本,所抽取的样本越多,其样本均值就越接近总体数据的平均值。
 
标准差表示的是样本数据的离散程度,是样本平均数方差的开平方,标准差通常是相对于样本数据的平均值而定的,通常用\(\mu±\sigma\)来表示,表示样本某个数据观察值相距平均值有多远。从这里可以看到,标准差受到极值的影响。标准差越小,表明数据越聚集;标准差越大,表明数据越离散。标准差与正态分布有密切联系:在正态分布中,1个标准差等于正态分布下曲线的68.26%的面积,1.96个标准差等于95%的面积。这在测验分数等值上有重要作用。
 
标准差表示数据的离散程度,标准误表示抽样误差的大小。标准差是样本数据方差的平方根,它衡量的是样本数据的离散程度;标准误是样本均值的标准差,衡量的是样本均值的离散程度。在实际的抽样中,习惯用样本均值来推断总体均值,那么样本均值的离散程度(标准误)越大,抽样误差就越大。所以用标准误来衡量抽样误差的大小。
 
在实际的应用中,标准差主要有两点作用,一是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布;二是通过标准差来确定异常值,常用的方法就是样本均值加减n倍的标准差。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误。
 

标准差表示数据的离散程度,或者说数据的波动大小。标准误表示抽样误差的大小。举个例子来说明含义。

 

比如,有一个学校,学校中共有1000名学生,则这1000名学生可以作为这个学校学生的总体。如果我想了解所有学生的身高,采用随机抽样,抽取了50人。这50人就是一个样本。这里需要注意:一个样本并不是指一个人,而是指一次抽样。一个样本可以是1个人,也可以是100人,这里的1和100就是样本大小。

 

从理论上讲,抽样误差表示这样的意思:即如果不止抽样一次,而是抽样10次,每次都50人,那么我就有10个均数和标准差。例如下图,大圈代表总体1000人,一个小圈代表一个样本,即50人。每个样本都能计算计算一个均数和标准差。

 

以这10个均数作为原始数据,仍然能计算出一个均数和标准差,以这10个均数计算出的标准差就称之为标准误。这是理论上的含义,实际的含义就代表抽样误差的大小,即抽取的样本代表性好不好,抽样误差越小,代表性越好,反之,代表性越差。

 

如果我对学校中的1000人都测量了身高,那理论上就没有标准误,也就是没有抽样误差了,因为我测量了总体,这时就不存在标准误了。但是标准差是存在的,因为这1000人的身高肯定不同,肯定会有波动。这里就充分表明了标准差和标准误的区别了。

 
*******************************************************************
版权所有,转载请注明出处
欢迎大家就数据分析、数据挖掘相关问题与我沟通交流。
E-mail:humengnju@sina.com
*******************************************************************
 

标准差,标准误

标签:

原文地址:http://www.cnblogs.com/jackhumeng/p/4379354.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!