Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)

时间：2014-08-13 17:52:06 阅读：288 评论：0 收藏：0 [点我收藏+]

标签：style blog http os io 数据 for ar

网易公开课，第14课
notes，10

之前谈到的factor analysis，用EM算法找到潜在的因子变量，以达到降维的目的

这里介绍的是另外一种降维的方法，Principal Components Analysis (PCA)，比Factor Analysis更为直接，计算也简单些

主成分分析基于，

在现实中，对于高维的数据，其中有很多维都是扰动噪音，或有些维是冗余的，对描述数据特征没有作用

比如我们在描述汽车速度的时候，用不同的单位mph or kph作为两维，其实只需要其中一维即可

那么如果对于一个高维数据，比如3维空间，大部分数据都集中于一个二维平面，那么我们用这个二维平面的两个主向量来替代3维向量，就达到降维的目的

并且这样的也尽可能的保留了原始变量的信息不丢失

推而广之，对于n维空间，数据点集中于一个k维的超平面，那么我们就可以说这个超平面的k个主向量为主成分

看NG说的直升机自动驾驶的例子，描述直升机驾驶员的水平
x1，表示驾驶技能；x2，表示驾驶的爱好和兴趣，这两个维度其实是极度相关的，如下图
可以看到其实所有点都是集中在u1这个axis附近的，所以我们可以用u1作为主成分来替代原先的x1和x2

其实可以看出，u1和u2是对x1和x2进行旋转的结果，旋转后发现其实数据集中在u1维度，无需u2
对于n维空间，旋转后，发现用其中的k维就可以很好的描述数据，那么这k维就是主成分，并且坐标轴都是正交的，即特征间是独立的
所以旋转后，选取得到的主成分也都是独立的

知道主成分分析的原理，下面的问题就是如何找到主成分？

首先做预处理，

1. 算出均值
2. 算出和均值间的偏差
3. 算法均方差
4. normalization 偏差，因为每维上的scale是不一样的，比如一维是体重80，一维是身高1.8，所以需要规范化

好，如何找到u？

One way to pose this problem is as finding the unit vector u so that when the data is projected onto the direction corresponding to u, the variance of the projected data is maximized.

即找到一个单位向量，让数据投影到u上的点的方差最大，即最分散

为什么？
首先我们的目的是找到那个子超平面，使得数据点尽量集中在这个超平面上，即点到这个超平面的距离尽可能的小
如下图，比较直观，如左图，当点到u向量距离最小时，方差是最大的
当选取右图的方向时，方差是最小的

再者，方差大，点比较分散，才便于去区分

形式化的表达出来，
部分参考，主成分分析（Principal components analysis）-最大方差解释

To formalize this, note that given a unit vector u and a point x, the length of the projection of x onto u is given by

所以所有点的方差和为，

其中，中间那块是x的协方差矩阵，
设，
为

为

上面的式子表示为，

两边同时乘上u

即，这个是特征向量和特征值的公式
我们上面的目标是最大化的情况下求u，到这里转变为求x的协方差矩阵，特征值最大的特征向量u

这里简单解释一下特征向量和特征值

http://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%B5%E5%90%91%E9%87%8F

矩阵可以看作是线性变换，所以上面公式可以看成，对向量u进行线性变换，得到的向量仍然在同一方向上，只是发生伸缩（即数乘变换）
这样就称u为线性变换或矩阵的特征向量，而为对应于该特征向量的特征值

可以看到对于PCA的求解其实很简单，
只要先算出所有x之间的协方差矩阵，然后求出这个矩阵的特征向量
最终按特征值排序，取前k个特征向量作为新的主成分向量即可

PCA的应用非常广泛，

压缩数据
可视化，高维数据无法可视化，降到2维或3维便于可视化
降低over-fitting，用高维数据进行supervised learning，模型复杂度比较高，容易过拟合，通过PCA降维达到防止过拟合的作用
去噪音，比如对于脸部识别，100×100的pixel，就是10000特征，通过PCA降维可以找到主成分特征
异常检测，通过PCA可以找到由k个主成分组成的超平面，如果新的数据离该超平面很远，就说明可能是异常数据

Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA),布布扣,bubuko.com

Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)

标签：style blog http os io 数据 for ar

原文地址：http://www.cnblogs.com/fxjwind/p/3910377.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行