码迷,mamicode.com
首页 > 其他好文 > 详细

Stat3—因子分析(Factor Analysis)

时间:2015-04-20 22:30:20      阅读:555      评论:0      收藏:0      [点我收藏+]

标签:

http://www.datasoldier.net/post/40.html 

http://wenku.baidu.com/view/4904e121192e45361066f522.html

http://wenku.baidu.com/link?url=EwayX82S9pd1TO486JW4iEK2YEjTB-FuNiDlKeVRJ_bEJ4UfubCXbfsCErAw0ZTzfWVtFQvBCXr_7x1CclrYxRtPnVlrwFzyMqE_R9Q8dVW

http://wenku.baidu.com/view/67fb7a5a3b3567ec102d8abd.html

题注:主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义!

一. 问题引入

你是否曾经遇到过以下问题:

二. 概念

1. 高中大家都读过吧?(没读过怎么可能看到我这篇文章,真闹心,哈哈!)那是一个以成绩论英雄的时代,理科王子、文科小生是时代标签!对一个学生的数学、物理、化学、语文、历史、英语成绩,如何对其进行正确评价以便进行正确的排名呢?(大家想一想:为什么将数学、物理、化学归理科呢?其他的归为文科?有没有数据支持呢?)
2. 最近股市很牛啊,杀猪大爷与卖菜大妈都入市啦!比如我现在就比较冷静,想通过数据来分析某些股票是否只能买!对于沪深两市证券交易所48家上市公司的13个财务指标数据。13个财务指标分别为:流动比率(X1)、速动比率(X2)、总资产周转率(X3)、存货周转率(X4)、营运资本(X5)、每股收益(X6)、净利润增长率(X7)、每股收益增长率(X8)、主营业务毛利率(X9)、主营业务利润率(X10)、成本费用利润率(X11)、净资产收益率(X12)、总资产利润率(X13)。显然,这13个变量的相关性较强,如果利用因子分析得到低维的新变量来进行我的个股分析呢?
3. 通常我们可以得到关于衡量一个国家经济实力的N多维度数据,显然,如果把这些指标全部用上来进行分析,难免会出现信息重叠,因此,也需要利用FA来进行降维处理!
4. 企业形象或品牌形象的研究中,消费者通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣!但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价
5…………………………………………………………………………………………………………………………………

二. 概念

<R in nutshell>一书的解释:Suppose that you wanted to measure intelligence. It’s not possible to directly measure an abstract concept like intelligence, but it is possible to measure performance on different tests. You could use factor analysis to analyze a set of test scores (the observed values) to try to determine intelligence (the hidden value:因子).

维基百科的解释Factor analysis is a statistical method used to describe variability among observed, correlated variables in terms of a potentially lower number of unobserved variables called factors. For example, it is possible that variations in four observed variables mainly reflect the variations in two unobserved variables.The observed variables are modelled as linear combinations of the potential factors, plus "error" terms。

百度百科的解释:因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量 (latent variable, latent factor)。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

一句话因子分析:因子分析(factor analysis)是一种数据简化技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子, 如下:

技术分享技术分享

 

技术分享是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分 ,称为特殊因子。

三. 因子分析模型

1. 数据模型

技术分享 技术分享p个变量,如果表示为

技术分享

技术分享

 

   技术分享

 

称为技术分享 公共因子,是不可观测的变量,他们的系数称为因子载荷技术分享是特殊因子,是不能被前m个公共因子包含的部分。并且满足:

技术分享技术分享

技术分享互不相关,方差为1。

技术分享

即互不相关,方差不一定相等,技术分享

技术分享

2. 因子分析模型的性质

1)原始变量X的协方差矩阵的分解

技术分享

技术分享

              技术分享

              技术分享

              技术分享

D的主对角线上的元素值越小,则公共因子共享的成分越多。

2)因子载荷不是唯一的
3)模型不受计量单位的影响

3. 因子载荷矩阵中的几个统计特征

1)因子载荷aij的统计意义

因子载荷aij是第i个变量与第j个公共因子的相关系数

模型为技术分享,在上式的左右两边乘以技术分享,再求数学期望。

技术分享

根据公共因子的模型性质,有技术分享(载荷矩阵中第i行,第j列的元素)反映了第i个变量与第j个公共因子的相关重要性。绝对值越大,相关的密切程度越高。

2)变量共同度的统计意义

定义:变量技术分享共同度是因子载荷矩阵的第i的元素的平方和。记为技术分享

统计意义

技术分享

技术分享

技术分享

所有的公共因子和特殊因子对变量技术分享的贡献为1。如果技术分享非常靠近1,技术分享非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。

3)公共因子技术分享方差贡献的统计意义

因子载荷矩阵中各列元素的平方和

技术分享

称为第j个公共因子技术分享 对所有分量技术分享技术分享的方差贡献和。衡量技术分享 的相对重要性。


4. 因子载荷矩阵的估计方法

1)主分分分析法

设随机向量 技术分享的均值为技术分享,协方差为技术分享,技术分享技术分享的特征根,技术分享为对应的标准化特征向量,则

技术分享

技术分享

技术分享

技术分享

上式给出的技术分享表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的p-m项的贡献,有

技术分享

技术分享

                                   技术分享技术分享

上式有一个假定,模型中的特殊因子是不重要的,因而从S的分解中忽略了特殊因子的方差。

2)主因子法

主因子方法是对主成分方法的修正,假定我们首先对变量进行标准化变换。则

R=AA’+D

R*=AA’=R-D

称R*为约相关矩阵,R*对角线上的元素是技术分享 ,而不是1。设技术分享技术分享的初始估计,则技术分享

技术分享

技术分享

技术分享

3)极大似然估计法

如果假定公共因子F和特殊因子技术分享服从正态分布,那么可以得到因子载荷和特殊因子方差的极大似然估计。设 技术分享为来自正态总体技术分享的随机样本。

技术分享

技术分享

技术分享

技术分享

它通过技术分享依赖A和技术分享。上式并不能唯一确定A,为此可添加一个唯一性条件:

技术分享

这里技术分享是一个对角矩阵,用数值极大化的方法可以得到极大似然估计技术分享 。极大似然估计技术分享将使技术分享为对角阵,且似然函数达到最大。

相应的共同度的似然估计为:

技术分享

第j个因子对总方差的贡献:

技术分享

4)例子

假定某地固定资产投资率技术分享 ,通货膨胀率技术分享 ,失业率技术分享 ,相关系数矩阵为

技术分享

法一:试用主成分分析法求因子分析模型。

手算过程
特征根为:技术分享技术分享技术分享
技术分享
技术分享是F=AX中的A部分,转换成X=A-1F,需要求A的逆矩阵A-1(但是A不一定可逆,所以不能直接这样算!);可以根据如下关联来计算:主成分变量对应的特征向量的每个元素,与对应的特征值的平方根的乘积,等于该主成分变量,与该元素列标签对应的原始变量之间的相关系技术分享技术分享
技术分享
技术分享
技术分享

可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献为1.55。第一公因子F2为投资因子,对X的贡献为0.85。共同度分别为1,0.706,0.706。


R语言实现
Step1:生成相关系数矩阵
> Ltm<-c(1,1/5,1,-1/5,-2/5,1)
> names<-c(‘x1‘,‘x2‘,‘x3‘)
> R<-matrix(0,nrow=3,ncol=3,dimnames=list(names,names))
> R
   x1 x2 x3
x1  0  0  0
x2  0  0  0
x3  0  0  0

> for(i in 1:3){for(j in 1:i){R[i,j]<-Ltm[(i-1)*i/2+j];R[j,i]<-R[i,j]}}
> R
     x1   x2   x3
x1  1.0  0.2 -0.2
x2  0.2  1.0 -0.4
x3 -0.2 -0.4  1.0
> summary(pca)
Importance of components:
                          Comp.1    Comp.2    Comp.3
Standard deviation     1.2435474 0.9238993 0.7745967
Proportion of Variance 0.5154701 0.2845299 0.2000000
Cumulative Proportion  0.5154701 0.8000000 1.0000000
> pca$loadings
Loadings:
   Comp.1 Comp.2 Comp.3  
x1 -0.460  0.888         
主成分系数矩阵
x2 -0.628 -0.325  0.707
x3  0.628  0.325  0.707
               Comp.1 Comp.2 Comp.3
SS loadings     1.000  1.000  1.000
Proportion Var  0.333  0.333  0.333
Cumulative Var  0.333  0.667  1.000
> solve(load)   #求load载荷矩阵的逆!(这样直接求逆的计算显示是不对的,行不通!)
                  x1         x2        x3
Comp.1 -4.597008e-01 -0.6279630 0.6279630
Comp.2  8.880738e-01 -0.3250576 0.3250576
Comp.3 -3.834485e-16  0.7071068 0.7071068

方法二:试用主因子分析法求因子分析模型

假定用技术分享 代替初始的技术分享

技术分享

技术分享

特征根为:

技术分享技术分享技术分享

对应的非零特征向量为:

技术分享

                                   技术分享技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享


5. 因子得分

1)因子得分的概念

前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。

因子分析的数学模型为:

技术分享

原变量被表示为公共因子的线性组合,当载荷矩阵旋转之后,公共因子可以做出解释,通常的情况下,我们还想反过来把公共因子表示为原变量的线性组合。

因子得分函数:技术分享技术分享

可见,要求得每个因子的得分,必须求得分函数的系数,而由于p>m,所以不能得到精确的得分,只能通过估计。

2)因子得分的估计

1、巴特莱特因子得分(加权最小二乘法)

###巴特莱特因子得分计算方法的思想

技术分享看作因变量;把因子载荷矩阵

技术分享

看成自变量的观测;把某个个案的得分技术分享看成最小二乘法需要求的系数 。

技术分享

由于特殊因子的方差相异,所以用加权最小二乘法求得分,每个各案作一次,要求出所有样品的得分,需要作n次。

技术分享

技术分享

3)回归方法

###思想

技术分享

                                                技术分享技术分享

技术分享

               技术分享

                                 技术分享

                                 技术分享

                                技术分享

则,我们有如下的方程组:

技术分享

j=1,2,…,m

技术分享

                             技术分享技术分享


六. 因子分析的步骤、展望和建议

一)因子分析通常包括以下五个步骤

1、选择分析的变量

用定性分析和定量分析的方法选择变量,因子分析的前提条件是观测变量间有较强的相关性,因为如果变量之间

无相关性或相关性较小的话,他们不会有共享因子,所以原始变量间应该有较强的相关性。

2、计算所选原始变量的相关系数矩阵

相关系数矩阵描述了原始变量之间的相关关系。可以帮助判断原始变量之间是否存在相关关系,这对因子分析

是非常重要的,因为如果所选变量之间无关系,做因子分析是不恰当的。并且相关系数矩阵是估计因子结构的基础。

3、提取公共因子

这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到60%才能符合要求;

4、因子旋转

通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。

5、计算因子得分

求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做变量的聚类分析,做回归分析中的回归因子。

因子分析是十分主观的,在许多出版的资料中,因子分析模型都用少数可阐述因子提供了合理解释。实际上,绝大多数因子分析并没有产生如此明确的结果。不幸的是,评价因子分析质量的法则尚未很好量化,质量问题只好依赖一个“哇!”准则。如果在仔细检查因子分析的时候,研究人员能够喊出“哇,我明白这些因子”的时候,就可看着是成功运用了因子分析方法。


七. 直观的例子:国民生活质量的因素分析

国家发展的最终目标,是为了全面提高全体国民的生活质量,满足广大国民日益增长的物质和文化的合理需求。在可持续发展消费的统一理念下,增加社会财富,创自更多的物质文明和精神文明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,达到完整的代际公平和区际公平(即时间过程的最大合理性与空间分布的最大合理化)。

从1990年开始,联合国开发计划署(UYNP)首次采用“人文发展系数”指标对于国民生活质量进行测度。人文发展系数利用三类内涵丰富的指标组合,即人的健康状况(使用出生时的人均预期寿命表达)、人的智力程度(使用组合的教育成就表达)、人的福利水平(使用人均国民收入或人均GDP表达),并且特别强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况以及国民生活质量的总水平。

###在这个指标体系中有如下的指标:

X1——预期寿命;X2——成人识字率;X3——综合入学率;X4——人均GDP(美圆);X5——预期寿命指数;X6——教育成就指数;X7——人均GDP指数;

###旋转后的因子结构

Rotated Factor Pattern

                   FACTOR1  FACTOR2    FACTOR3

     X1          0.38129     0.41765         0.81714

     X2          0.12166     0.84828         0.45981

     X3          0.64803     0.61822         0.22398

     X4          0.90410     0.20531         0.34100

     X5          0.38854     0.43295         0.80848

     X6          0.28207     0.85325         0.43289

     X7          0.90091     0.20612         0.35052

FACTOR1为经济发展因子;FACTOR2为教育成就因子;FACTOR3为健康水平因子

### 被每个因子解释的方差和共同度

Variance explained by each factor

FACTOR1 FACTOR2 FACTOR3

2.439700  2.276317  2.009490

Final Communality Estimates: Total = 6.725507

      X1          X2             X3           X4            X5            X6            X7

0.987530 0.945796 0.852306 0.975830 0.992050  0.994995 0.976999

### Standardized Scoring Coefficients标准化得分系数

         FACTOR1 FACTOR2 FACTOR3

X1      -0.18875   -0.34397   0.85077

X2      -0.24109    0.60335  -0.10234

X3       0.35462    0.50232  -0.59895

X4       0.53990    -0.17336 -0.10355

X5       -0.17918   -0.31604 0.81490

X6       -0.09230   0.62258 -0.24876

技术分享

技术分享

技术分享


八. R因子实战

Stat3—因子分析(Factor Analysis)

标签:

原文地址:http://www.cnblogs.com/Bfrican/p/4442663.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!