码迷,mamicode.com
首页 > 其他好文 > 详细

主成分分析(principal components analysis, PCA)

时间:2015-04-26 22:32:09      阅读:457      评论:0      收藏:0      [点我收藏+]

标签:

主成分分析PCA算法 原理解析

 

浅谈对主成分分析(PCA)算法的理解

主成分分析(PCA):降维

  1. 将多个变量通过线性变换(线性相加)以选出较少个数重要变量。

  2. 力求信息损失最少的原则。

  3. 主成分:就是线性系数,即投影方向。

  4. 通常情况下,变量之间是有一定的相关关系的,即信息有一定的重叠。将重复的变量删除。

  5. 基本思想:将坐标轴中心移到数据的中心,然后旋转坐标轴,使得数据在C1轴上的上的方差最大,即全部n个数据个体在该方向上的投影最为分散。意味着更多的信息被保留下来。C1成为第一主成分

    C2第二主成分:找一个C2,使得C2与C1的协方差(相关系数)为0,以免与C1信息重叠,并且使数据在该方向的方差尽量最大。

    以此类推,找到第三主成分,第四主成分。。。。第p个主成分。p个随机变量就有p个主成分。

  6. 通过协方差对特征值、特征向量进行分析。

  7. 特征向量(特征脸)。

  8. 它是一个线性变换。这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差 在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数, 同时保持数据集的对方差贡献最大的特征。
  9. 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。

主成分分析的定义:

技术分享

主成分分析的性质:

技术分享

主成分数目的选取

  设有p个随机变量,便有p个主成分。由于总方差不增不减,C1, C2等前几个综合变量的方差较大,而Cp,Cp-1等后几个综合变量的方差较小, 严格 说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次 ”(要) 成份。实践中总是保留前几个,忽略后几个。 保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。

主成分分析的主要作用

  1. 降维
  2. 多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出 来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。 
  3. 由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。
  4. 用主成分分析筛选回归变量。回归变量的选择有着重要的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择变量,获得选择最佳变量子集合的效果。

主成分分析的计算步骤

技术分享

技术分享

对 m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差 贡献率。

 

主成分分析(principal components analysis, PCA)

标签:

原文地址:http://www.cnblogs.com/fuleying/p/4458439.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!