标签:
【主成分分析用了很多次,每次都是似懂非懂意会了事用SPSS解决,身为一个本科数学的甚感惭愧。将原理部分思路总结如下以供时候参考。】
主成分分析的目的是在p个特征中通过组合成p个新特征,在其中选取m个特征代表p个原始特征。从信息论的角度考虑,这m个特征蕴含了原始数据大部分的信息熵;从方差(?)的角度,这m个特征贡献了大部分的方差(通常给定的阈值是85%)。p个新特征之间彼此独立,也就是正交。
主成分分析可直观地简要理解为以下步骤:
1 得到p个特征的相关系数矩阵(另有说是协方差矩阵,事实上标准化后数据的协方差矩阵就是相关系数矩阵)
2 求得相关系数矩阵的特征值和特征向量
3 将特征值从大到小排列,每个特征值(对方差)的贡献率为其占特征值之和的百分比,找到使前m个特征总方差贡献率大于85%;特征值对应的特征向量(标准化后)即为相应主成分对原始特征的权重系数向量
从相关系数矩阵到特征值对角矩阵的变换可认为是“投影”,或者是“旋转”。具体数学理论的解释可参考以下文献:
http://wiki.mbalib.com/zh-tw/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90%E6%B3%95
纠正文献中的错误:计算方差贡献率的时候直接计算前m个特征值占总特征值和的比,前m个为按大小排序之后的
http://wenku.baidu.com/view/902af4fbf705cc17552709fa.html
一个几何例子帮助理解:将斜轴的椭圆旋转投影到正交轴上;正交矩阵;主成分对特征的权重系数平方和等于1(将得到的特征向量进行标准化后得到权重系数向量)
http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html
cnblogs上一个博主给出了比较全面详细的解释,供参考
SPSS中的操作步骤比较简单,就不写了。
标签:
原文地址:http://www.cnblogs.com/manqing/p/4779526.html