码迷,mamicode.com
首页 > 其他好文 > 详细

统计学-单变量描述性统计

时间:2016-12-13 07:50:56      阅读:1001      评论:0      收藏:0      [点我收藏+]

标签:遇见   ati   average   不同   方法   类型   也会   分析   str   

复习一遍统计学基础,准备spss的考试。

拿到一组陌生的数据,就像遇见一个陌生人,我们遇到一个陌生人,第一件事往往就是打量打量ta,处理数据也是如此。描述性统计就是在打量一组数据,对数据有个大概对了解。一般来说,对数据做三个处理:集中趋势central tendency,离散趋势dispersion tendency,分布形态distribution tendency。虽然简单,但是最为基础,是我们后续数据分析的前提,通过对数据的描述性统计,我们才能选择合适的统计方法,以防误用。

单变量统计分析在一些书上又被叫做一元统计,只面对一个变量,方法比较死板固定单一。

part one:central tendency一种位置的统计量,把一个变量的不同观测(observation)集中到一个值上来表示。

1.mean(x-bar),算数均值(the average)一个东西。——注意,使用时,数据要呈现正态分布,即使不满足,也应该要单峰&基本对称分布。有极端值时不要选择用算数均值

2.median,位置的中间数的值。先找位置,再找值。位置:(n+1)/2,奇数位置对应值,偶数?.5左右两个数字的mean。——任意分布形态均可使用

3.mode,众数

4.其他:

  4.1截尾均数trimmed mean,又叫修正均数。去除Max、Min5%。好处是去掉了极端值的影响——有极端值时可以选用。缺点是,10%的数据本身是真实信息,去掉了使得信息减少。

  4.2几何均数 G(geometric mean)医学统计学中多使用,当data分布不对称,但是转换后呈现对称分布可以使用。

  4.3调和均数

mean和median相比,应该说mean的使用更广,使用的信息更全,在抽样调查中,mean的值随样本的变化而变化的幅度小,更为稳定,应该说是一个更好的统计量,但是一旦有极端值的存在,mean将会受到很大影响,因此此时应该使用median。

另外,根据变量的类型,选择统计量。名义型变量,只能使用mode,否则无意义,但是二分名义变量可以使用均值。定序变量,应该使用median,定距和定比变量使用mean,在无极端值的情况下。

补充,在组距分组资料中,均值采用组中值计算,mode组中值法,median=所在组组下限+[(n/2-CfM-1)/fm]*i   i为组距,fm所在组频数,cfm-1所在组以上累计频数。

part two:dispersion tendency,是尺度统计量,测量的是数据间相互的差别多大的问题

1.全距range,足距

2.推倒使用方差,但是因为度量单位问题,实际使用中采用标准差处理。标准差与mean单位一致。注意样本标准差。注意,标准差的计算用到了全部数据,也会受到极端值的干扰。

3.异众比例,看mode的代表性如何。

4.变异系数、离散系数。cv=s/mean。可以比较不同样本的离散情况。

5.百分位数、四分位数——排除了极端值干扰。当标准差不能用时,可以采用。

 

统计学-单变量描述性统计

标签:遇见   ati   average   不同   方法   类型   也会   分析   str   

原文地址:http://www.cnblogs.com/csyda/p/6166449.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!