标签:
主成分分析(PCA):降维。
将多个变量通过线性变换(线性相加)以选出较少个数重要变量。
力求信息损失最少的原则。
主成分:就是线性系数,即投影方向。
通常情况下,变量之间是有一定的相关关系的,即信息有一定的重叠。将重复的变量删除。
基本思想:将坐标轴中心移到数据的中心,然后旋转坐标轴,使得数据在C1轴上的上的方差最大,即全部n个数据个体在该方向上的投影最为分散。意味着更多的信息被保留下来。C1成为第一主成分。
C2第二主成分:找一个C2,使得C2与C1的协方差(相关系数)为0,以免与C1信息重叠,并且使数据在该方向的方差尽量最大。
以此类推,找到第三主成分,第四主成分。。。。第p个主成分。p个随机变量就有p个主成分。
通过协方差对特征值、特征向量进行分析。
特征向量(特征脸)。
主成分分析的定义:
主成分分析的性质:
主成分数目的选取
设有p个随机变量,便有p个主成分。由于总方差不增不减,C1, C2等前几个综合变量的方差较大,而Cp,Cp-1等后几个综合变量的方差较小, 严格 说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次 ”(要) 成份。实践中总是保留前几个,忽略后几个。 保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。
主成分分析的主要作用
主成分分析的计算步骤
对 m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差 贡献率。
主成分分析(principal components analysis, PCA)
标签:
原文地址:http://www.cnblogs.com/fuleying/p/4458439.html