标签:
相关系数是衡量变量之间相关程度的度量,也是很多分析的中的当中环节,SPSS做相关分析比较简单,主要是区别如何使用这些相关系数,如果不想定量的分析相关性的话,直接观察散点图也可以。
相关系数有一些需要注意的地方:
1、两变量之间存在相关,仅意味着存在关联,并不意味着因果关系。
2、相关系数不能进行加减乘除运算,没有单位,不同的相关系数不可比较
3、相关系数大小容易受到数据取值区间大小和数据个数大小的影响。
4、相关系数也需要进行检验确定其是否有统计学意义
相关系数的假设检验中
H0:相关系数=0,变量间没有相关性
H1:相关系数≠0,变量间有相关性
相关系数很多,我们一般根据变量的类型进行选择,我们知道变量类型由低级到高级可以分为定类、定序、定距、定比四种类型,而变量的数据类型则可以分为连续型或者离散型,注意不要混淆
一、定距、定比变量,基本上也就是连续变量
一般使用pearson相关系数,也称为积差相关系数,是一种线性相关系数,使用最为广泛,适用条件是两变量需要为线性关系,并且都来自正态分布总体,且要求成对出现
二、定序、定距、定比变量
一般使用spearman等级相关系数也称为秩相关系数,该系数利用了变量的次序信息,而且对原始数据没有过多要求,因此比pearson相关系数使用范围更广,它利用两变量的秩次大小作为分析依据,也可以认为是基于秩次的pearson相关系数,当数据不符合pearson相关系数的要求时,可以选择使用spearman相关系数,但是如果是定距或定比变量,还是建议用pearson相关系数,spearman相关系数的效能略低。
三、只限定序变量
1.Gamma相关系数
2.Kendall等级相关系数,分为τ-a,τ-b,τ-c三种
3.Somer‘s D相关系数
四、定类变量
定类变量的相关性大都是根据卡方值衍生而来
1、person卡方
实际上也就是卡方检验
2.列联系数
3.φ-Phi系数
4.Cramer‘s V系数
5.Lambda(λ)系数
6.Goodman and Kruskal的Tau-y系数
五、二分类变量
1.相对危险度RR值
2.优势比OR值
=========================================================
熟悉了各种相关系数的情况之后,我们来看一下在SPSS中的操作
1.分析—描述性统计—交叉表
此过程一般用来分析列联表的,由于数据的组成大多是列联表形式,因此该过程包含了很多种相关系数
2.分析—相关—双变量
此分析为简单相关分析,是最常用的相关分析。
3.分析—相关—偏相关
变量之间都是互相关联的,我们分析两个变量间的相关关系时,免不了会携带其他变量对其的影响,为了得到两个变量间纯粹的相关关系,我们需要控制一些变量的影响,此时的相关分析称为偏相关分析。
实际上,偏相关系数就是以希望分析的变量为因变量,被控制的变量为自变量分别拟合两个回归方程,将所得的两组残差进行简单相关分析
4.分析—相关—距离
该过程一般用于探索性分析,有时我们可以根据变量的含义来初步猜测他们之间的相关性,例如上述例子中的高校数量与专利申请数,但是有时候我们并不知道变量的含义,也就无从猜测了。这时可以根据距离过程对变量的差异性或相似性进行分析,对数据有个初步了解,然后再根据结果做进一步分析。
由于距离其实只是描述性分析,不涉及假设检验,因此结果不会给出P值和相关系数一样,测量距离的指标也有很多,并且根据变量类型也有所区分。
标签:
原文地址:http://www.cnblogs.com/xmdata-analysis/p/5585560.html