机器学习算法 原理、实践与实战 —— 感知机感知机(perceptron)是二分类的线性分类模型,输入为特征向量,输出为实例的类别,取值+1和-1。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,引入了基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。1. 感知机...
分类:
其他好文 时间:
2014-11-03 14:26:40
阅读次数:
270
统计学习中常用的损失函数有以下几种:(1) 0-1损失函数(0-1 loss function):L(Y,f(X))={1,0,Y≠f(X)Y=f(X)(2) 平方损失函数(quadratic loss function)L(Y,f(X))=(Y?f(X))2(3) 绝对损失函数(absolute ...
分类:
其他好文 时间:
2014-10-20 11:38:04
阅读次数:
170
梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正。下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合...
分类:
其他好文 时间:
2014-10-16 00:17:11
阅读次数:
415
假设给定m个训练样本的训练集,用梯度下降法训练一个神经网络,对于单个训练样本(x,y),定义该样本的损失函数:那么整个训练集的损失函数定义如下:第一项是所有样本的方差的均值。第二项是一个归一化项(也叫权重衰减项),该项是为了减少权连接权重的更新速度,防止过拟合。我们的目标是最小化关于W和 b 的函数...
分类:
编程语言 时间:
2014-10-13 02:27:02
阅读次数:
310
二类分类器svm 的loss function 是 hinge loss:L(y)=max(0,1-t*y),t=+1 or -1,是标签属性. 对线性svm,y=w*x+b,其中w为权重,b为偏置项,在实际优化中,w,b是待优化的未知,通过优化损失函数,使得loss function最小,得到优化...
分类:
其他好文 时间:
2014-09-15 14:08:08
阅读次数:
229
最小值:梯度下降;最大值:梯度上升(1)批量梯度下降---最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小。(2)随机梯度下降---最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往...
分类:
其他好文 时间:
2014-09-14 15:12:47
阅读次数:
295
本节主要是练习regularization项的使用原则。因为在机器学习的一些模型中,如果模型的参数太多,而训练样本又太少的话,这样训练出来的模型很容易产生过拟合现象。因此在模型的损失函数中,需要对模型的参数进行“惩罚”,这样的话这些参数就不会太大,而越小的参数说明模型越简单,越简单的模型则越不容易产...
分类:
其他好文 时间:
2014-09-12 16:54:53
阅读次数:
206
从假设函数、损失函数、优化目标和实现的角度总结几个常用的机器学习算法
分类:
其他好文 时间:
2014-08-07 22:55:55
阅读次数:
189
关于什么是梯度下降,请看我之前发的一个博文:http://blog.csdn.net/lilyth_lilyth/article/details/8973972
梯度下降能帮助我们找到局部最优值,取得很小的损失,但是在数据量达到数十万时,迭代次数高,运算速度慢,十分不适合。这时候可以考虑使用随机梯度下降算法。
所谓随机梯度下降是 每次用 每个样本的损失函数(即样本数为1时的损失函数)对th...
分类:
其他好文 时间:
2014-07-23 13:39:56
阅读次数:
256