自我学习就是把稀疏自编码器与Softmax回归分类器串联起来。
稀疏编码器是用来无监督学习的,使用无标签数据。
Softmax回归分类器是有监督学习,使用标签数据。
实际生活中,我们能轻松获得大量无标签数据(如从网上随机下载海量图片)
难以获得大量有标签数据(有标签的数据库通常不会太大,而且很贵)
如果我们手头上只有少量标签数据,但是有大量的无标签数据,这是就可以采用自我...
分类:
其他好文 时间:
2014-08-13 13:03:36
阅读次数:
493
自编码器是什么?
自编码器本身就是一种BP神经网络。它是一种无监督学习算法。
我们都知道神经网络可以从任意精度逼近任意函数,这里我们让神经网络目标值等于输出值x,也就是模拟一个恒等函数:
太无聊了,是吗?输入等于输出,这网络有什么意义?但是,当我们把自编码神经网络加入某些限制,事情就发生了变化。如图1所示,这就是一个基本的自编码神经网络,可以看到隐含层节点数量要少于输入层节点数量。
...
分类:
其他好文 时间:
2014-08-09 11:37:57
阅读次数:
442
本章是监督学习的最后一部分,主要有三个目标。
首先,根据系统的分类错误概率来评估系统性能。
其次,将整个系统设计的各个阶段组合到一起。
最后,引入无标签数据,简单介绍半监督学习
1,ERROR-COUNTING方法
2,探求有限的数据集的大小
3,一个医学图像的学习案例
4,半监督学习:生成模型(generative model);基于图的方法(graph-bas...
分类:
其他好文 时间:
2014-07-26 15:18:10
阅读次数:
185
斯坦福ML公开课笔记15
我们在上一篇笔记中讲到了PCA(主成分分析)。PCA是一种直接的降维方法,通过求解特征值与特征向量,并选取特征值较大的一些特征向量来达到降维的效果。
本文继续PCA的话题,包括PCA的一个应用——LSI(Latent Semantic Indexing, 隐含语义索引)和PCA的一个实现——SVD(Singular Value Decomposition,奇异值分解),在SVD和LSI结束之后,关于PCA的内容就告一段落。视频的后半段开始讲无监督学习的一种——ICA(Indepen...
分类:
其他好文 时间:
2014-07-22 14:16:14
阅读次数:
314
1.背景 无监督学习的定义就不多说了,不懂得可以google。因为项目需要,需要进行无监督的分类学习。 K-means里面的K指的是将数据分成的份数,基本上用的就是算距离的方法。 大致的思路就是给定一个矩阵,假设K的值是2,也就是分成两个部分,那么我们首先确定两个质心。一开始是找矩阵每一列的最大值max,最小值min,算出range=max-min,然后设...
分类:
编程语言 时间:
2014-07-12 20:04:16
阅读次数:
338
线性回归(Linear Regression)问题属于监督学习(Supervised Learning)范畴,又称分类(Classification)或归纳学习(Inductive Learning);这类分析中训练数据集中给出的数据类标是确定的;机器学习的目标是,对于给定的一个训练数据集,通过不断的分析和学习产生一个联系属性集合和类标集合的分类函数(Classification Function)或预测函数(Prediction Function),这个函数称为分类模型(Classification Mo...
分类:
其他好文 时间:
2014-06-24 22:58:23
阅读次数:
585
摘要:有监督学习是对一类算法的研究,这类算法从表面实例推断出一般性的假说,得出的假说又可以进一步用来预测未发生的实例。换言之,有监督学习的目标,就是根据预测特征,为分类标签的概率分布建立简洁的模型。得到的分类器会被用于为测试实例贴上分类标签,其中,测试实例的分类特征是已知的,但其分类标签是未知的。本...
分类:
其他好文 时间:
2014-05-29 09:16:49
阅读次数:
210
SVM(支持向量机),一种二类分类器,之所以称之为向量机,是因为它本身就产生一个二值决策结果,即使一种决策“机”,支持向量机的泛化错误低(具有结构风险最小),具有很强的学习能力,因此很多人认为它是最好的监督学习算法。SVM与Logistic回归的联系:
logistic回归的目的就是从特征...
分类:
其他好文 时间:
2014-05-19 17:48:15
阅读次数:
364
1.机器学习的真实含义是利用数据来彰显数据背后的真实含义。
2.机器学习的一般用例:人脸识别、手写数字识别、垃圾邮件过滤、产品推荐等等。
3.机器学习的主要任务是分类,即将实例数据划分到合适的分类中。另一项任务是回归,主要用于预测数值型数据。分类和回归属于监督学习,之所以称为监督学习,是因为这类算法必须知道预测什么,即目标的分类信息。另一种机器学习方式是无监督学习,此时数据没有类别信息,也没有...
分类:
编程语言 时间:
2014-05-18 08:05:07
阅读次数:
320
训练集上训练的模型在多大程度上能够对新的实例预测出正确输出称为泛化(generalization)
对最好的泛化来说,我们应当使假设的复杂性和潜在数据的函数的复杂性相匹配。如果假设没有函数复杂,例如,当试图用直线拟合从三次项式抽取的数据时,称为欠拟合(underfitting)。在这种情况下,随着复...
分类:
其他好文 时间:
2014-05-17 21:15:53
阅读次数:
270