UFLDL上的ICA为什么一定要做PCA whitenAndrew Ng先生的UFLDL教程真可谓deep learning入门的首选课程。在两年前我看教程里讲ICA部分的(链接)时候,里面提到使用教程所述的ICA模型时,输入数据必须经过PCA白化操作,页面上有个TODO问为什么要这样做。以当年的我...
分类:
其他好文 时间:
2015-06-11 21:10:02
阅读次数:
186
k近邻法(k-nearest neighbor,k-NN) 输入:实例的特征向量,对应于特征空间的点;输出:实例的类别,可以取多类。 分类时,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。 实例类别已定,不具有显式的学习过程。k近邻法实际上利用训练数据集对特征 向量空间进行划分,并作...
分类:
其他好文 时间:
2015-06-11 21:05:23
阅读次数:
227
很多时候会出现把一个N*M的矩阵做pca(对M降维)之后却得到一个M*(M-1)矩阵这样的结果。之前都是数学推导得到这个结论,但是,今天看到一个很形象的解释:Consider what PCA does. Put simply, PCA (as most typically run) creates...
分类:
其他好文 时间:
2015-06-10 23:47:31
阅读次数:
207
首先将本节主要内容记录下来,然后给出课后习题的答案。
笔记:
1:首先我想推导用SVD求解PCA的合理性。
PCA原理:假设样本数据X∈Rm×n,其中m是样本数量,n是样本的维数。PCA降维的目的就是为了使将数据样本由原来的n维降低到k维(k<n)。方法是找数据随之变化的主轴,在Andrew
Ng的网易公开课上我们知道主方向就是X的协方差所对应的最大特征值所对应的特征向量的...
分类:
其他好文 时间:
2015-06-09 11:56:02
阅读次数:
200
一、算法1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平庸的分类器或许是那种死记硬背式的分类器,记住全部的训练数据。对于新的数据则直接和训练数据匹配,假设存在同样属性的训练数据,则直接用它的分类来作为新数据的分类。这样的方式有一个明显...
分类:
编程语言 时间:
2015-06-08 22:54:11
阅读次数:
136
机器学习实战ByMatlab(1):KNN算法
KNN 算法其实简单的说就是“物以类聚”,也就是将新的没有被分类的点分类为周围的点中大多数属于的类。它采用测量不同特征值之间的距离方法进行分类,思想很简单:如果一个样本的特征空间中最为临近(欧式距离进行判断)的K个点大都属于某一个类,那么该样本就属于这个类。这就是物以类聚的思想。
当然,实际中,不同的K取值会影响到分类效果,并且在K个临近点的...
分类:
其他好文 时间:
2015-06-01 09:41:00
阅读次数:
569
四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维...
分类:
编程语言 时间:
2015-05-30 20:59:04
阅读次数:
253
数据量小,选用 high bias/low variance模型(Naive Bayes),因为low bias/high variance模型(KNN,logistic regression)会overfitNaive Bayes:简单,只需要计数就可以;数据量小时,也适用;如果各因素独立(比如词...
分类:
其他好文 时间:
2015-05-29 13:52:16
阅读次数:
196
向量的表示及协方差矩阵http://blog.csdn.net/songzitea/article/details/18219237PCA的数学原理http://blog.codinglabs.org/articles/pca-tutorial.html1、将X的每一行(代表一个属性字段)进行零均值...
分类:
其他好文 时间:
2015-05-27 12:05:36
阅读次数:
262