标签:
http://www.datasoldier.net/post/40.html
http://wenku.baidu.com/view/4904e121192e45361066f522.html
http://wenku.baidu.com/link?url=EwayX82S9pd1TO486JW4iEK2YEjTB-FuNiDlKeVRJ_bEJ4UfubCXbfsCErAw0ZTzfWVtFQvBCXr_7x1CclrYxRtPnVlrwFzyMqE_R9Q8dVW
http://wenku.baidu.com/view/67fb7a5a3b3567ec102d8abd.html
题注:主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义!
你是否曾经遇到过以下问题:
二. 概念
1. 高中大家都读过吧?(没读过怎么可能看到我这篇文章,真闹心,哈哈!)那是一个以成绩论英雄的时代,理科王子、文科小生是时代标签!对一个学生的数学、物理、化学、语文、历史、英语成绩,如何对其进行正确评价以便进行正确的排名呢?(大家想一想:为什么将数学、物理、化学归理科呢?其他的归为文科?有没有数据支持呢?) 2. 最近股市很牛啊,杀猪大爷与卖菜大妈都入市啦!比如我现在就比较冷静,想通过数据来分析某些股票是否只能买!对于沪深两市证券交易所48家上市公司的13个财务指标数据。13个财务指标分别为:流动比率(X1)、速动比率(X2)、总资产周转率(X3)、存货周转率(X4)、营运资本(X5)、每股收益(X6)、净利润增长率(X7)、每股收益增长率(X8)、主营业务毛利率(X9)、主营业务利润率(X10)、成本费用利润率(X11)、净资产收益率(X12)、总资产利润率(X13)。显然,这13个变量的相关性较强,如果利用因子分析得到低维的新变量来进行我的个股分析呢? 3. 通常我们可以得到关于衡量一个国家经济实力的N多维度数据,显然,如果把这些指标全部用上来进行分析,难免会出现信息重叠,因此,也需要利用FA来进行降维处理! 4. 企业形象或品牌形象的研究中,消费者通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣!但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价 5………………………………………………………………………………………………………………………………… |
<R in nutshell>一书的解释:Suppose that you wanted to measure intelligence. It’s not possible to directly measure an abstract concept like intelligence, but it is possible to measure performance on different tests. You could use factor analysis to analyze a set of test scores (the observed values) to try to determine intelligence (the hidden value:因子).
维基百科的解释:Factor analysis is a statistical method used to describe variability among observed, correlated variables in terms of a potentially lower number of unobserved variables called factors. For example, it is possible that variations in four observed variables mainly reflect the variations in two unobserved variables.The observed variables are modelled as linear combinations of the potential factors, plus "error" terms。
百度百科的解释:因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量 (latent variable, latent factor)。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
一句话因子分析:因子分析(factor analysis)是一种数据简化技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子, 如下:
称是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分 ,称为特殊因子。
称为 公共因子,是不可观测的变量,他们的系数称为因子载荷。 是特殊因子,是不能被前m个公共因子包含的部分。并且满足:
D的主对角线上的元素值越小,则公共因子共享的成分越多。
因子载荷aij是第i个变量与第j个公共因子的相关系数
根据公共因子的模型性质,有(载荷矩阵中第i行,第j列的元素)反映了第i个变量与第j个公共因子的相关重要性。绝对值越大,相关的密切程度越高。
定义:变量的共同度是因子载荷矩阵的第i行的元素的平方和。记为
统计意义:
所有的公共因子和特殊因子对变量的贡献为1。如果非常靠近1,非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。
因子载荷矩阵中各列元素的平方和
称为第j个公共因子 对所有分量的方差贡献和。衡量 的相对重要性。
设随机向量 的均值为,协方差为,为的特征根,为对应的标准化特征向量,则
上式给出的表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的p-m项的贡献,有
上式有一个假定,模型中的特殊因子是不重要的,因而从S的分解中忽略了特殊因子的方差。
主因子方法是对主成分方法的修正,假定我们首先对变量进行标准化变换。则
R=AA’+D
R*=AA’=R-D
称R*为约相关矩阵,R*对角线上的元素是 ,而不是1。设是的初始估计,则
如果假定公共因子F和特殊因子服从正态分布,那么可以得到因子载荷和特殊因子方差的极大似然估计。设 为来自正态总体的随机样本。
它通过依赖A和。上式并不能唯一确定A,为此可添加一个唯一性条件:
这里是一个对角矩阵,用数值极大化的方法可以得到极大似然估计 。极大似然估计将使为对角阵,且似然函数达到最大。
相应的共同度的似然估计为:
第j个因子对总方差的贡献:
假定某地固定资产投资率 ,通货膨胀率 ,失业率 ,相关系数矩阵为
方法一:试用主成分分析法求因子分析模型。
手算过程 特征根为: 是F=AX中的A部分,转换成X=A-1F,需要求A的逆矩阵A-1(但是A不一定可逆,所以不能直接这样算!);可以根据如下关联来计算:主成分变量对应的特征向量的每个元素,与对应的特征值的平方根的乘积,等于该主成分变量,与该元素列标签对应的原始变量之间的相关系数 可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献为1.55。第一公因子F2为投资因子,对X的贡献为0.85。共同度分别为1,0.706,0.706。 R语言实现 > for(i in 1:3){for(j in 1:i){R[i,j]<-Ltm[(i-1)*i/2+j];R[j,i]<-R[i,j]}} > R x1 x2 x3 x1 1.0 0.2 -0.2 x2 0.2 1.0 -0.4 x3 -0.2 -0.4 1.0 > summary(pca) Importance of components: Comp.1 Comp.2 Comp.3 Standard deviation 1.2435474 0.9238993 0.7745967 Proportion of Variance 0.5154701 0.2845299 0.2000000 Cumulative Proportion 0.5154701 0.8000000 1.0000000 > pca$loadings Loadings: Comp.1 Comp.2 Comp.3 x1 -0.460 0.888主成分系数矩阵 x2 -0.628 -0.325 0.707 x3 0.628 0.325 0.707 Comp.1 Comp.2 Comp.3 SS loadings 1.000 1.000 1.000 Proportion Var 0.333 0.333 0.333 Cumulative Var 0.333 0.667 1.000 > solve(load) #求load载荷矩阵的逆!(这样直接求逆的计算显示是不对的,行不通!) x1 x2 x3 Comp.1 -4.597008e-01 -0.6279630 0.6279630 Comp.2 8.880738e-01 -0.3250576 0.3250576 Comp.3 -3.834485e-16 0.7071068 0.7071068 |
方法二:试用主因子分析法求因子分析模型
特征根为:
对应的非零特征向量为:
前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。
因子分析的数学模型为:
原变量被表示为公共因子的线性组合,当载荷矩阵旋转之后,公共因子可以做出解释,通常的情况下,我们还想反过来把公共因子表示为原变量的线性组合。
可见,要求得每个因子的得分,必须求得分函数的系数,而由于p>m,所以不能得到精确的得分,只能通过估计。
1、巴特莱特因子得分(加权最小二乘法)
###巴特莱特因子得分计算方法的思想
看成自变量的观测;把某个个案的得分看成最小二乘法需要求的系数 。
由于特殊因子的方差相异,所以用加权最小二乘法求得分,每个各案作一次,要求出所有样品的得分,需要作n次。
###思想
则,我们有如下的方程组:
j=1,2,…,m
一)因子分析通常包括以下五个步骤
1、选择分析的变量
用定性分析和定量分析的方法选择变量,因子分析的前提条件是观测变量间有较强的相关性,因为如果变量之间
无相关性或相关性较小的话,他们不会有共享因子,所以原始变量间应该有较强的相关性。
2、计算所选原始变量的相关系数矩阵
相关系数矩阵描述了原始变量之间的相关关系。可以帮助判断原始变量之间是否存在相关关系,这对因子分析
是非常重要的,因为如果所选变量之间无关系,做因子分析是不恰当的。并且相关系数矩阵是估计因子结构的基础。
3、提取公共因子
这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到60%才能符合要求;
4、因子旋转
通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。
5、计算因子得分
求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做变量的聚类分析,做回归分析中的回归因子。
因子分析是十分主观的,在许多出版的资料中,因子分析模型都用少数可阐述因子提供了合理解释。实际上,绝大多数因子分析并没有产生如此明确的结果。不幸的是,评价因子分析质量的法则尚未很好量化,质量问题只好依赖一个“哇!”准则。如果在仔细检查因子分析的时候,研究人员能够喊出“哇,我明白这些因子”的时候,就可看着是成功运用了因子分析方法。
国家发展的最终目标,是为了全面提高全体国民的生活质量,满足广大国民日益增长的物质和文化的合理需求。在可持续发展消费的统一理念下,增加社会财富,创自更多的物质文明和精神文明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,达到完整的代际公平和区际公平(即时间过程的最大合理性与空间分布的最大合理化)。
从1990年开始,联合国开发计划署(UYNP)首次采用“人文发展系数”指标对于国民生活质量进行测度。人文发展系数利用三类内涵丰富的指标组合,即人的健康状况(使用出生时的人均预期寿命表达)、人的智力程度(使用组合的教育成就表达)、人的福利水平(使用人均国民收入或人均GDP表达),并且特别强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况以及国民生活质量的总水平。
###在这个指标体系中有如下的指标:
X1——预期寿命;X2——成人识字率;X3——综合入学率;X4——人均GDP(美圆);X5——预期寿命指数;X6——教育成就指数;X7——人均GDP指数;
###旋转后的因子结构
Rotated Factor Pattern
FACTOR1 FACTOR2 FACTOR3
X1 0.38129 0.41765 0.81714
X2 0.12166 0.84828 0.45981
X3 0.64803 0.61822 0.22398
X4 0.90410 0.20531 0.34100
X5 0.38854 0.43295 0.80848
X6 0.28207 0.85325 0.43289
X7 0.90091 0.20612 0.35052
FACTOR1为经济发展因子;FACTOR2为教育成就因子;FACTOR3为健康水平因子
### 被每个因子解释的方差和共同度
Variance explained by each factor
FACTOR1 FACTOR2 FACTOR3
2.439700 2.276317 2.009490
Final Communality Estimates: Total = 6.725507
X1 X2 X3 X4 X5 X6 X7
0.987530 0.945796 0.852306 0.975830 0.992050 0.994995 0.976999
### Standardized Scoring Coefficients标准化得分系数
FACTOR1 FACTOR2 FACTOR3
X1 -0.18875 -0.34397 0.85077
X2 -0.24109 0.60335 -0.10234
X3 0.35462 0.50232 -0.59895
X4 0.53990 -0.17336 -0.10355
X5 -0.17918 -0.31604 0.81490
X6 -0.09230 0.62258 -0.24876
标签:
原文地址:http://www.cnblogs.com/Bfrican/p/4442663.html