标签:
Principal components analysis
这一讲,我们简单介绍Principal Components Analysis(PCA),这个方法可以用来确定特征空间的子空间,用一种更加紧凑的方式(更少的维数)来表示原来的特征空间。假设我们有一组训练集
样本意味着有n个属性,一般来说,这n个属性里面,会有很多是存在一定相关性的,也就是很多属性是冗余的,这就为特征的降维提供了可能,关键是如何确定多余的属性以及如何进行降维。
PCA为这个问题提供了一种解决途径,在做PCA之前,我们要先对数据做如下的预处理:
1: 求出训练集的均值向量:
2: 用每一个训练样本减去均值向量,
3: 求出变换后的训练集的方差:
4: 再将训练集的样本做如下替换:
上面的第1,2步确保了训练集的均值为0,第3,4步保证了训练集的方差为1,使得训练样本里的不同属性变换到同一个尺度上处理。给定一个单位向量
因为
总之,我们应该取
因此,虽然
前k个主分量。
参考来源:
Andrew Ng, “Machine Learning”, Stanford University.
机器学习:Principal components analysis (主分量分析)
标签:
原文地址:http://blog.csdn.net/matrix_space/article/details/45579117