白化是一种重要的预处理过程,其目的就是降低输入数据的冗余性,使得经过白化处理的输入数据具有如下性质:(i)特征之间相关性较低;(ii)所有特征具有相同的方差。
白化处理分PCA白化和ZCA白化,PCA白化保证数据各维度的方差为1,而ZCA白化保证数据各维度的方差相同。PCA白化可以用于降维也可以去相关性,而ZCA白化主要用于去相关性,且尽量使白化后的数据接近原始输入数据。
1...
分类:
其他好文 时间:
2014-12-25 16:25:46
阅读次数:
312
一、PCA(Principal Component Analysis)主成分分析,数据从原来的坐标系转换到新的坐标系,只保留新坐标系中的前面几个坐标轴,即对数据进行了降维处理1、算法描述(1)第一个新坐标轴:原数据集中方差最大的方向(2)第二个新坐标轴:与第一个新坐标轴正交且具有最大方差的方向(3)...
分类:
其他好文 时间:
2014-12-25 06:34:34
阅读次数:
271
这是个KNN算法的另一实例,计算Dating的可能性。import numpy as npimport osimport operatorimport matplotlibimport matplotlib.pyplot as pltdef classify(inX, dataSet, labels...
分类:
其他好文 时间:
2014-12-21 17:50:01
阅读次数:
266
KNN=K-Nearest Neighbour原理:我们取前K个相似的数据(排序过的)中概率最大的种类,作为预测的种类。通常,K不会大于20。下边是一个简单的实例,具体的含义在注释中:import numpy as npimport operatorimport osdef createDataSe...
分类:
编程语言 时间:
2014-12-21 15:10:40
阅读次数:
180
斯坦福NG机器学习课程:Dimensionality_reduction笔记,很好讲解降维和PCA算法。...
分类:
其他好文 时间:
2014-12-20 15:37:22
阅读次数:
434
1.K-means:聚类算法,无监督输入:k, data[n];(1) 选择k个初始中心点,例如c[0]=data[0],…c[k-1]=data[k-1];(2) 对于data[0]….data[n], 分别与c[0]…c[k-1]比较,假定与c[i]差值最少,就标记为i;(3) 对于所有标记为i...
分类:
其他好文 时间:
2014-12-18 23:33:31
阅读次数:
307
KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的一种监督学习算法。KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归。使用KNN算法时我们必须有接近实际数据的训练样本数据。K-近邻算法必须保存全部数据集,如果训练数据集的很大,必须使用大量的存储空间。此外,由于必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时。k-近邻算法的另一个缺陷是它无法给出任何数据的基...
分类:
编程语言 时间:
2014-12-16 21:04:43
阅读次数:
286
一、kNN算法分析 K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 ...
分类:
编程语言 时间:
2014-12-15 23:30:03
阅读次数:
605
KNN k临近算法遍历所有训练样本,求距离最近的点的结论,作为最后的预测结果MR版:map求样本距离(key:样本,value:距离),combine求的最小值,是过滤功能,reduce就有一个求得距离最小值贝叶斯:贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)贝叶斯将在属性条件下的...
分类:
其他好文 时间:
2014-12-15 10:21:20
阅读次数:
121
系统地讲解了线性判别分析,主成分分析,奇异值分解的数学原理...
分类:
其他好文 时间:
2014-12-14 08:22:37
阅读次数:
365