主成分分析(PCA)中的误差表示

时间：2015-03-17 08:12:37 阅读：656 评论：0 收藏：0 [点我收藏+]

标签：

给定n个m维样本X-⁽¹⁾, X⁽²⁾,…,X⁽ⁿ⁾，假设我们的目标是将这n个样本从m维降低到k维，并且尽可能保证这种降维的操作不会产生很大的代价（重要信息的丢失）。换句话说，我们要把n个样本点从m维空间投影到k维空间。对于每一个样本点，我们都可以用下式表示此投影过程：

Z=A^TX (1)

其中X是m维样本点， Z 是投影后得到的k维样本点，A是一个 m * k 的矩阵。

回顾一下，如果采用主成分分析法(PCA)来进行降维的话，我们首先求出样本的均值：

技术分享

再求出散布矩阵(scatter matrix)：

技术分享

接着求得散布矩阵S前k大特征值所对应的特征向量s₁,s₂,…,s_k，然后对s₁,s₂,…,s_k这k个向量进行单位化，即使得||s₁||=||s₂||=…=||s_k||=1，最后得到式(1)中的矩阵A：

技术分享 (2)

例子: 为了更直观地从几何上理解式(1)的含义，我们以一组2维数据作为例子，在这个例子当中，我们使用PCA的方法将这组2维数组降到1维。矩阵A所存储的这些特征向量，实际上降维后的是新坐标轴，而在这个例子当中，我们得到的是一个新的1维坐标轴。如图1所示，图中的红色叉点代表2维样本点垂直投影到这个新坐标轴上的点。对于每一个2维空间上的样本点X，只要我们将它代入式(1)就可以计算出其降维后的表达(在这个例当中，则是一个1维的向量，即一个值)：

(3)

技术分享

图1 10个样本点在2维空间上的表达

而式(3)算出来的这个值，实际上是这些投影点离原点的距离。因此，我们可以画出一个数轴来表示这个新的坐标轴，再根据式(3)算出来的这些值，在数轴上标出它们的位置，如图2所示。

技术分享

图2 10个样本点降到1维空间后的表达

这一组样本点降维后所产生的损失，可以通过下式来计算：

技术分享 (4)

为了理解式(4)，我们首先需要理解AA^TX⁽ⁱ⁾。回顾刚刚所说的，计算A^TX⁽ⁱ⁾所得到的，实际上是样本点在低维空间上的表达（参考图2）。相对而言，X⁽ⁱ⁾是样本点在高维空间上的表达。然而，我们知道不同纬度空间的点是无法做比较的，举例来说，一个在2维空间上的点(x₁, x₂)是无法跟一个在1维空间上(y₁)的点做比较的，因为它们纬度不一样(它们的所存在的世界不一样，它们不在同一个世界里）。

为了对2个不同纬度的样本点作比较，我们需要将它们放在同一个纬度空间下。一种合理的做法是，将低维空间上的点投影到高维空间，并假设高纬度的值为0。AA^TX⁽ⁱ⁾所做的工作就是把降维后的样本点反投影到高维空间上。以刚刚所举的例子来说，A^TX⁽ⁱ⁾是图2上的叉点，而AA^TX⁽ⁱ⁾实际上是图1中直线(新坐标轴)上的叉点。

值得注意的是，图2和图1上的这些叉点是一一对应的，无论在高维空间上还是在低维空间上，它们离原点的距离是不变的(仔细观察图1和图2中叉点离原点的距离)。我们仍然可以围绕这个例子，从理论上证明这一点，首先假设其中一个样本点 X降维后的表达为 Z=[ s ₁ x ₁+ s ₂ x ₂]，那么对它从低维到高维(在此例中，是从1维到2维)的反向投影为：

技术分享 (5)

现在，我们来证明式(5)中的X_approx所表示的就是图1中的叉点。要证明这一点，我们需要证明两样东西：①X_approx到原点的距离与Z到原点的距离相等，即||X||=||Z|| ②X_approx在高维空间的超平面上(在此例中，高维空间是2维空间，低维空间是1维空间，超平面是一条直线)。

证明①：

技术分享

由于s经过单位化，即||s||=s₁²+s₂²=1，所以||X_approax||=(s₁x₁+s₂x₂)²=||Z||，证毕.

证明②：

首先要得到超平面的一般表达式，而要得到超平面的一般表达式，就要计算出超平面所对应的法平面n，在此例中，法平面满足n^Ts=0，其中s^T=[s₁, s₂]。我们可以得到n=[-s₂/s₁, 1]，则超平面的一般表达式为(-s₂/s₁)x-₁+x₂=0。将X_approx^T=[s₁(s₁x₁+s₂x₂), s₂(s₁x₁+s₂x₂)]代入(-s₂/s₁)x-₁+x₂，得到(-s₂/s₁) *s₁(s₁x₁+s₂x₂)+s₂(s₁x₁+s₂x₂)= -s₂(s₁x₁+s₂x₂)+ s₂(s₁x₁+s₂x₂)=0，说对于任意的X_approx，都在超平面上，证毕.

回到式(4)当中，L所计算的是每个样本点在高维空间投影到低维空间后的距离总和。

主成分分析(PCA)中的误差表示

标签：

原文地址：http://my.oschina.net/JiamingMai/blog/387727

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行