半指导学习(Semi-supervised Learning)的概念说起来一点儿也不复杂,即从同时含有标注数据和未标注数据的训练集中学习模型。半指导学习是介于有指导学习与无指导学习之间的一种机器学习方式。在NLP领域的很多任务中,标注数据其实是很难获取的。尤其像句法、语义等训练资源在标注时往往需要比...
分类:
其他好文 时间:
2014-10-17 18:24:53
阅读次数:
243
到目前为止,我们使用的学习方法都是批量学习(batch learning)方式,即首先给定训练集学习出拟合假设函数中的参数,然后评价的效果的时候使用独立的测试集。本篇博文将会介绍一种在线学习(online learning)方式,即算法必须在学习的过程中不断地作出预测,而不是批量学习方式一样,学习过...
分类:
其他好文 时间:
2014-10-16 13:54:32
阅读次数:
204
回归: 在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等。训练集(training set)或者训练数据(traini...
分类:
其他好文 时间:
2014-10-16 00:42:01
阅读次数:
165
到目前为止,已经叙述了神经网络的监督学习,即学习的样本都是有标签的。现在假设我们有一个没有标签的训练集,其中. 自动编码器就是一个运用了反向传播进行无监督学习的神经网络,学习的目的就是为了让输出值和输入值相等,即.下面就是一个自动编码器:自动编码器试图学习一个函数. 换句话说,它试图逼近一个等式函数...
分类:
其他好文 时间:
2014-10-14 14:04:58
阅读次数:
261
假设给定m个训练样本的训练集,用梯度下降法训练一个神经网络,对于单个训练样本(x,y),定义该样本的损失函数:那么整个训练集的损失函数定义如下:第一项是所有样本的方差的均值。第二项是一个归一化项(也叫权重衰减项),该项是为了减少权连接权重的更新速度,防止过拟合。我们的目标是最小化关于W和 b 的函数...
分类:
编程语言 时间:
2014-10-13 02:27:02
阅读次数:
310
1.间隔(Margins)考虑逻辑回归,概率值是由模型预测出来的,给定,如果,则,预测最终类别就为1.对于一个正类样本,越大,也就越大,我们也就更大程度上确定该样本属于类别1.也就是说如果,那么预测就非常可信,类似地,如果,我们就能很自信是正确的预测.换种角度,对于给定的训练集,如果我们拟合出合适的...
分类:
其他好文 时间:
2014-10-09 02:00:07
阅读次数:
264
考虑一个分类问题:根据一个动物的特征来区分该动物是大象(y=1)还是狗(y = 0).利用逻辑回归找到一条直线,即分界线,将训练集中的大象和狗分开,当给定一个新的动物特征时,检查该动物位于分界线的哪一边,然后做出判断是大象,还是狗,就是对p(y|x;θ)进行建模。这里我们来看另一种不同的思路,首先根...
分类:
其他好文 时间:
2014-10-07 23:39:34
阅读次数:
384
假设有以下面积和房屋价格的数据集:可以在坐标中画出数据的情况:就是基于这样一个数据集,假定给出一个房屋的面积,如何预测出它的价格?很显然就是我们只需建立一个关于房屋面积的函数,输出就是房屋的价格。所以引出监督学习的概念:给定训练集X,学习出一个函数h:X→Y,使得函数h(x)能够较好地对于Y做出预测...
分类:
其他好文 时间:
2014-10-06 12:53:50
阅读次数:
229
一、算法概述该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中, 所选择的邻居都是已经正确分类的对象(训练集)。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。二、算法要点1、...
分类:
其他好文 时间:
2014-09-26 19:37:38
阅读次数:
207
K近邻很简单。简而言之,对于未知类的样本,按照某种计算距离找出它在训练集中的k个最近邻,如果k个近邻中多数样本属于哪个类别,就将它判决为那一个类别。由于采用k投票机制,所以能够减小噪声的影响。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较...
分类:
其他好文 时间:
2014-09-13 20:04:05
阅读次数:
241