降维的必要性 1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。 2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。 3.过多的变量会妨碍查找规律的建立。 4.仅在变量层面上分析可能会忽略变量之间的潜 ...
分类:
其他好文 时间:
2016-05-05 00:30:15
阅读次数:
199
经常会碰到PCA分析和因子分析,但是总是不恨了解内部原理以及区别所在,现整理相关知识如下: 先参考以下网址的说明,(http://www.tuicool.com/articles/iqeU7b6),主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为 ...
分类:
其他好文 时间:
2016-04-28 21:20:53
阅读次数:
996
在介绍因子分析时,我们把数据 x∈Rn 建模在 k 维子空间上,k<<n。我们假设每个点 x(i) 是这样生成的:先从 k 维高斯多元高斯分布中采样得到 z(i),再通过计算 μ+Λz(i) 将 z 映射到 n 维空间,给 μ+Λz(i) 增加协方差噪声 ψ,得到 x(i)。因子分析是基于概率模型, ...
分类:
其他好文 时间:
2016-04-25 09:19:15
阅读次数:
127
主成分分析 Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃, ...
分类:
其他好文 时间:
2016-04-23 18:05:51
阅读次数:
167
今天:查阅OpenCV中FaceRecognizer类的文档,结果问了老师发现自己用不上,因为我是用HOG做的特征提取; 连接了数据库,可成功打开; 界面添加了若干action; 粗略了解了PCA的原理和用法。 明天:进一步了解主成分分析的原理,并实现将HOG提取出来的特征降维; HOGDescri ...
分类:
其他好文 时间:
2016-04-19 00:20:19
阅读次数:
123
在看论文的过程中,经常遇到涉及到特征值、特征向量、奇异值、右奇异向量等相关知识的地方,每次都是看得似懂非懂。本文将从特征值和奇异值相关的基础知识入手,探究奇异值和特征值的内涵,进而对特征值和奇异的知识进行梳理。 特征值分解和奇异值分解(SVD)在主成分分析(PCA)和机器学习领域都有广泛的应用。PC ...
分类:
其他好文 时间:
2016-03-26 18:33:50
阅读次数:
375
主成分分析(PCA)是一种能够极大提升无监督特征学习速度的数据降维算法。更重要的是,理解PCA算法,对实现白化算法有很大的帮助,很多算法都先用白化算法作预处理步骤。 假设你使用图像来训练算法,因为图像中相邻的像素高度相关,输入数据是有一定冗余的。具体来说,假如我们正在训练的16x16灰度值图像,记为
分类:
其他好文 时间:
2016-03-19 16:25:49
阅读次数:
304
在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原
分类:
其他好文 时间:
2016-03-09 23:55:11
阅读次数:
242
知乎上看到的 - 收集高质量标注数据 - 输入输出数据做好归一化,以防出现数值问题,方法就是主成分分析啥的。- 参数初始化很重要。太小了,参数根本走不动。一般权重参数0.01均方差,0均值的高斯分布是万能的,不行就试更大的。偏差参数全0即可。- 用SGD ,minibatch size 128。或者
分类:
其他好文 时间:
2016-03-09 10:57:06
阅读次数:
166