码迷,mamicode.com
首页 > 其他好文 > 详细

数据分析学习准备

时间:2015-05-27 12:13:24      阅读:122      评论:0      收藏:0      [点我收藏+]

标签:

1、中位数的大小仅与数据的排列位置有关。因此中位数不受偏大和偏小数的影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。

2.如果数据属性是定性、分类的,如种族群体、头发颜色、收入档次、宗教等就使用众数。此情况下各分类是互斥的。
3.如果数据中包含极值,而且你不想扭曲平均数,便使用中位数,如收入。
4.如果数据不包括极值也不是定性数据就使用均值,如考试分数

5.标准值:Z值:标准值,计算公式: z=(x-x拔)/s .

x拔为均值,s为标准差,可理解为该个位距离平均数差了多少个标准差,相当于个体的位置

6.显著性差异

显著性差异是一种有量度的或然性评价。比如,我们说A、B两数据在0.05水平上具备显著性差异,这是说两组数据具备显著性差异的可能性为95%。两个数据所代表的样本还有5%的可能性是没有差异的。这5%的差异是由于随机误差造成的。

假设样本的均值是否为10,Sig(P值)越小,说明这个假设越不可能

sig值通常用 P>0.05 表示差异性不显著;0.01<P<0.05 表示差异性显著;P<0.01表示差异性极显著。 

 

SPSS统计分析

数据准备阶段

1、清理数据以保证数据的准确性;

2、对数据进行必要的转换。如生成一些新的字段以供分析;将连续字段离散化;将字符型字段数值化等。目的是将数据结构转换成合适的形式。

3、填充缺失数据;

4、对数据进行合并汇总等。将数据文件进行合并,将个体数据进行汇总,生成各组数据。

5、专业名词

集中趋势指标: Mean : 均值 ;     5% Trimmed Mean : 去掉两端5%极端值后的均值 ;    Median : 中位数  ;

离散趋势指标:Variance: 方差 ; Std.  Deviation : 标准差  ;  Range: 全距 ;  Interquartile Range:四分位数间距 ;

分布特征指标:Skewness : 遍度系数 ; Kurtosis: 峰度系数;   Std. Error: 标准误;

参数估计:       95% Confidence Interval for Mean : 均值的95%置信区间 

 

数据分析挖掘——http://pan.baidu.com/s/1jGKehRg
R 语言资料大全——http://pan.baidu.com/s/1qWPr9Ti

数据分析挖掘电子书——1.2G

http://yunpan.cn/cyMQEC4GeRBmi (提取码:ccd4) 

  

Excel累计

拆分的cid=abc_1234_23456_001,RIGHT(A4,IF(LEN(A4)=6,3,4))  ,结果:_001



数据分析学习准备

标签:

原文地址:http://www.cnblogs.com/ql0722/p/4532932.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!