斯坦福NG机器学习课程：Dimensionality_reduction笔记

时间：2014-12-20 15:37:22 阅读：434 评论：0 收藏：0 [点我收藏+]

标签：机器学习 pca dimensionality_reduc

Dimensionality_reduction

首先通过图形化描述引出为什么需要进行数据降维？以及数据降维的motivation。

Data compression

Data compression 降低维度：好处减少计算机内存、磁盘等硬件使用，更重要的是加速学习算法执行速度。例子

技术分享

上面是很简单直观的降维的图形描述，分别有2维降维1维，三维降维2维。

习题：

技术分享

Visualization

降低维度另一个目的：进行Visualization，维度太高我们无法用图形直观来进行可视化处理，所以降低维度到2维3维最大好处就有方便可视化。下面举例一个国家经济构成因素表

技术分享

假设有50个特征，则特征向量为50维，这样表达一个data的特征很复杂。假设我们能把50维降到2维，则变为下面另外一张表格所示。

技术分享

可视化的结果类似下图:

用二维数据尽可能表示出50维特征所携带的信息！下面习题中简单看到，我们需要降低维数，而且最希望降低到2维或者3维，这样我们可以很好很简单进行可视化。

习题：

技术分享

PCA算法

前面这么多都是在描述降维，以及降维后带给我们的好处，但是没有提到如何进行降维的算法，现在引出PCA（principle component analysis）算法。

通常情况下 PCA之前先进行feature scaling 和mean normalization， PCA算法描述如下：

技术分享

进行project 来降低n维到k维，最小化projection error。直观上理解为什么可以降维？因为我们在高维时可能很多维数据相互关联，所以我们没必要用那么多维去表达数据特征。降维我们可能在允许的一定范围内损失了一些信息，但是维度降低，避免维灾难，大大加速学习算法速度，这样是值得去做的。

特别注意区分两个不同问题：PCA与线性回归的关系？

PCA不是线性回归！首先需要区别就是两者优化目标函数都是不一致的。此外线性回顾是用来预测y变量的值，而PCA中没有涉及y值问题，只是进行降维，project到line或者surface上使得projection error最小。看图更好明白。

左边图示线性回归的cost function 它求得是真实值与预测值的差异，表现在图形上是垂直x轴上方向真实值与预测值差值，而右边是PCA算法，求得是真实值到直线的垂直距离，很明了两者所求的东西都是完全不一样的！

习题：

技术分享

看上面这个简单例题，我们想利用PCA，最小projection error 直观上看到斜率为-1直线能满足，所以选择D

在PCA之前需要进行数据预处理（data preprocessing），进行数据预处理类似监督学习中处理，只是这里是无监督学习，我们没有类标签。前面提到feature scaling 和mean normalization 下面描述具体怎么做这两个过程。

技术分享

前面都在对PCA算法进行描述，接下来说PCA具体该怎么计算，看下图

技术分享

上图所示：我们需要计算黑色圈内标记向量，以及投影到新的维度下的坐标值。课程中不会讲到这个计算问题证明，那些内容超出了课程要求（PS：在旧版本的视频中NG有详细对这部分内容进行推导，可能是数学推导过程比较复杂，讲解耗时大家听了也比较吃力，新的课程中NG删掉了数学推理过程，因为工具包实现PCA只需要很少代码，现在只是让大家了解其中原理，弱化里面具体数学推导过程），只讲到怎么操作能做到。

PCA算法流程：

技术分享