码迷,mamicode.com
首页 > 其他好文 > 详细

主成分分析

时间:2015-09-03 15:21:00      阅读:375      评论:0      收藏:0      [点我收藏+]

标签:

【主成分分析用了很多次,每次都是似懂非懂意会了事用SPSS解决,身为一个本科数学的甚感惭愧。将原理部分思路总结如下以供时候参考。】

 

主成分分析的目的是在p个特征中通过组合成p个新特征,在其中选取m个特征代表p个原始特征。从信息论的角度考虑,这m个特征蕴含了原始数据大部分的信息熵;从方差(?)的角度,这m个特征贡献了大部分的方差(通常给定的阈值是85%)。p个新特征之间彼此独立,也就是正交。

 

主成分分析可直观地简要理解为以下步骤:

1  得到p个特征的相关系数矩阵(另有说是协方差矩阵,事实上标准化后数据的协方差矩阵就是相关系数矩阵)

2  求得相关系数矩阵的特征值和特征向量

3  将特征值从大到小排列,每个特征值(对方差)的贡献率为其占特征值之和的百分比,找到使前m个特征总方差贡献率大于85%;特征值对应的特征向量(标准化后)即为相应主成分对原始特征的权重系数向量

 

从相关系数矩阵到特征值对角矩阵的变换可认为是“投影”,或者是“旋转”。具体数学理论的解释可参考以下文献:

 

http://wiki.mbalib.com/zh-tw/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90%E6%B3%95

纠正文献中的错误:计算方差贡献率的时候直接计算前m个特征值占总特征值和的比,前m个为按大小排序之后的

 

 

http://wenku.baidu.com/view/902af4fbf705cc17552709fa.html 

一个几何例子帮助理解:将斜轴的椭圆旋转投影到正交轴上;正交矩阵;主成分对特征的权重系数平方和等于1(将得到的特征向量进行标准化后得到权重系数向量)

 

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

cnblogs上一个博主给出了比较全面详细的解释,供参考

 

SPSS中的操作步骤比较简单,就不写了。

 

主成分分析

标签:

原文地址:http://www.cnblogs.com/manqing/p/4779526.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!