首页 > 其他好文 > 详细

PCA whitening

时间：2017-06-22 01:20:04 阅读：200 评论：0 收藏：0 [点我收藏+]

标签：处理 img 方法例子预处理结果 log 因子 hit

对输入数据技术分享，维度为2时，想要把数据降维1维：

技术分享

数据的主方向就是旋转数据的第一维技术分享。因此，若想把这数据降到一维，可令：

技术分享

数据已经进行预处理（零均值），使得每个特征技术分享和具有相同的均值和方差。

PCA算法将寻找一个低维空间来投影我们的数据。从下图中可以看出，技术分享是数据变化的主方向，而是次方向。

技术分享

为更形式化地找出方向技术分享和，我们首先计算出协方差矩阵，如下所示：

　　　　技术分享就是协方差矩阵的主特征向量，而是次特征向量。（按照特征值得大小选取）

向量技术分享和构成了一个新基，可以用来表示数据。那么就是样本点在维度上的投影的长度（幅值）。同样的，是投影到维度上的幅值。

在本例中，可得技术分享的点图如下（取）：

　　技术分享

协方差：为了衡量两个数据的相关性，一个数据朝大于均值的方向走的趋势时，另一个数据如果朝小于均值的方向走，趋势相反，协方差值为负的，负相关；如果另一个数据同意朝大于均值的方向变化，协方差为正值，正相关。如果协方差值为0，不相关。

数据白化就是为降低训练数据的冗余，降低输入的冗余性

由前面的例子，特征技术分享的分布如下图所示：

技术分享

　　这个数据的协方差矩阵如下：

技术分享

　　技术分享和是不相关的, 满足我们对白化结果的第一个要求 (特征间相关性降低)。为了使每个输入特征具有单位方差，我们可以直接使用作为缩放因子来缩放每个特征。具体地，我们定义白化后的数据如下：

技术分享

　　绘制出技术分享，我们得到:

技术分享

这些数据现在的协方差矩阵为单位矩阵技术分享。我们说，是数据经过PCA白化后的版本: 中不同的特征之间不相关并且具有单位方差。

拿图像为例，图像中的像素之间存在很强的相关性。（在图像处理中，一个像素与相邻像素的灰度值之间有联系，所以可以利用这一点进行图像压缩）。白化就是为了减少冗余也就是减少这种相关性。PCA白化在减少特征之间相关性的处理方法与PCA算法相同，找到一个新的基，将数据投影到新的基上，也就是将原始数据做旋转变化，达到减少相关性的目标。但PCA白化与PCA有一点不同，就是处理后的数据的方差为单位方差。主要是将主轴上的数据进行了缩放处理。

ZCA白化是在PCA白化后的数据基础上做处理，主要是对数据进行旋转，使数据比较好的接近原始数据，并没有减少数据特征之间的相关性。

PCA与白化，

就是对输入数据进行预处理，

前者对数据进行降维，后者对数据进行方差处理。

标签：处理 img 方法例子预处理结果 log 因子 hit

原文地址：http://www.cnblogs.com/fanhaha/p/7062323.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！