一.问题来源 来源于换关键字,从LSH转换为hash检索,这要感谢李某。二.解析 笔者认为关键思想是数据降维后使用矩阵旋转优化,其他和LSH一样的。2.1 PCA降维 先对原始空间的数据集X∈Rn×d用PCA进行降维处理,设经过PCA降维后的数据集为V∈Rn×c,该问题就可以转化为将该数据集中...
分类:
其他好文 时间:
2015-05-27 11:36:09
阅读次数:
118
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, N...
分类:
编程语言 时间:
2015-05-26 00:12:30
阅读次数:
261
有监督的kNN近邻算法:
(1)计算已知类别数据集中的点与当前点之间的距离
(2)按照距离递增次序排序
(3)选取与当前点距离最小的k个点
(4)确定前k个点所在类别的出现频率
(5)返回前k个点出现频率最高的类别作为当前点的预测分类
#数据样例
1 2:a
1 3:a
1 4:a
1 5:b
6 2:b
6 3:b
100 200:c
101 199:c
3...
分类:
编程语言 时间:
2015-05-24 21:58:04
阅读次数:
219
def pca(dataMat, topNfeat=9999999): #数据矩阵, 输出前topNfeat个feat
meanVals = mean(dataMat, axis=0) # 计算平均值
meanRemoved = dataMat - meanVals
covMat = cov(meanRemoved, rowvar...
分类:
编程语言 时间:
2015-05-23 06:29:48
阅读次数:
191
介绍在这篇文章中,我们讨论主成分分析(PCA)是如何工作的,以及它如何被用来作为分类问题的降维技术。在这篇文章的末尾,出于证明的目的提供了Matlab源代码。在前面的文章中,我们讨论了所谓的维数诅咒,表明在高维空间分类器倾向于过度拟合训练数据。接下来产生的问题是哪些特征应该保留,哪些应该从高维特征向量中删除。如果此特征向量的所有特征是统计独立的,可以简单地从这个向量中消除最小的判别特征。通过各种贪婪...
分类:
其他好文 时间:
2015-05-22 17:07:33
阅读次数:
2951
做芯片PCA主成分分析可以选择使用affycoretools包的plotPCA方法,以样品"GSM363445_LNTT.CEL"、"GSM362948_LTT.CEL"、"GSM363447_LNTT.CEL"、"GSM362949_LTT.CEL"、"GSM363449_LNTT.CEL"、.....
分类:
其他好文 时间:
2015-05-22 16:40:53
阅读次数:
131
这里我省去了很多的数学知识,建议数学比较薄弱的读者可以先看看信息检索导论>第18章。主要的数学知识包括方阵的特征值、特征向量;方阵的对角化;一般矩阵的奇异值分解及低秩逼近矩阵。这里主要讲解奇异值分解的两个应用PCA(降维)和LSA(潜在语义结构分析)。
PCA:
之前有详细讲过PCA,http://blog.csdn.net/lu597203933/article/details/415445...
分类:
其他好文 时间:
2015-05-22 00:38:18
阅读次数:
1027
主成分分析与白化是在做深度学习训练时最常见的两种预处理的方法,主成分分析是一种我们用的很多的降维的一种手段,通过PCA降维,我们能够有效的降低数据的维度,加快运算速度。而白化就是为了使得每个特征能有同样的方差,降低相邻像素的相关性。 主成分分析PCA PCA算法可以将输入向量转换为一个维数低很多的近...
分类:
其他好文 时间:
2015-05-21 21:46:23
阅读次数:
482
之前princomp函数还可以正常使用,但是今天突然不能使了!总是显示错误使用 pca输入参数太多。出错 princomp (line 29) [varargout{1:nargout}]=pca(varargin{1},'Algorithm','svd','Economy',fEconomy);....
分类:
其他好文 时间:
2015-05-20 20:24:09
阅读次数:
307
KNN是最简单的机器学习算法之一。在模式识别中,K-近邻算法(或近邻的简称)是一种用于分类和回归的非参数方法。[1]在这两种情况下,输入包含k个最近的训练样本在特征空间中。输出取决于近邻是用于分类或回归:l在kNN分类中,输出的是一个分类的关系。一个对象是由其邻居投票进行分类,被分类到最近的K个最近...
分类:
编程语言 时间:
2015-05-18 16:30:21
阅读次数:
781