Geoffery Hinton教授的Neuron Networks for Machine Learning的第六讲介绍了随机梯度下降法(SGD),并且介绍了加快学习速度的动量方法(the momentum method)、针对网络中每一个连接的自适应学习步长(adaptive learning rates for each connection)和RMSProp算法。这几个算法的难度很大,需要反复...
分类:
其他好文 时间:
2016-05-18 18:35:59
阅读次数:
373
问题的引入: 考虑一个典型的有监督机器学习问题,给定m个训练样本S={x(i),y(i)},通过经验风险最小化来得到一组权值w,则现在对于整个训练集待优化目标函数为: 其中为单个训练样本(x(i),y(i))的损失函数,单个样本的损失表示如下: 引入L2正则,即在损失函数中引入,那么最终的损失为: ...
分类:
其他好文 时间:
2016-05-13 08:47:25
阅读次数:
207
机器学习中常会用随机梯度下降法求解一个目标函数 L(Θ)L(\Theta) ,并且常是最小化的一个优化问题:
min L(Θ)min \ L \left(\Theta\right)
我们所追求的是目标函数能够快速收敛或到达一个极小值点。而随机梯度法操作起来也很简单,不过是求偏导数而已,但是为什么是这样呢?为什么算出偏导数就能说下降得最快?初期并不很明了,后来看过一些数学相关的知识才稍微明白了一点...
分类:
其他好文 时间:
2016-05-06 15:07:10
阅读次数:
1119
17.1 大型数据集的学习 17.2 随机梯度下降法 17.3 微型批量梯度下降 17.4 随机梯度下降收敛 17.5 在线学习 17.6 映射化简和数据并行 17.1 大型数据集的学习 17.2 随机梯度下降法 17.3 微型批量梯度下降 17.4 随机梯度下降收敛 17.5 在线学习 17.6 ...
分类:
系统相关 时间:
2016-04-28 00:14:37
阅读次数:
301
随机梯度下降 mini batch 批梯度下降算法 牛顿法 考虑这样一个问题,找到函数值为0的点,对于方程,目标是找到一个,使得,这里是一个实数,牛顿法是按照如下方式进行的: 一维情况下,牛顿方法可以简单理解为:随机选取一个点,然后求出f在该点处的切线L,该切线L的斜率即f在该点处倒数,该切线与x轴 ...
分类:
其他好文 时间:
2016-04-09 16:40:07
阅读次数:
186
// 搜索算法 挨个尝试 1. 梯度下降 批梯度下降, 随机梯度下降 2. 矩阵求导方法 ...
分类:
其他好文 时间:
2016-04-02 22:59:50
阅读次数:
457
1 # -*- coding: cp936 -*- 2 import numpy as np 3 import matplotlib.pyplot as plt 4 5 6 # 构造训练数据 7 x = np.arange(0., 10., 0.2) 8 m = len(x) # 训练数据点数目 9
分类:
编程语言 时间:
2016-02-27 16:29:00
阅读次数:
323
主要为第十周内容:大规模机器学习、案例、总结 (一)随机梯度下降法 如果有一个大规模的训练集,普通的批量梯度下降法需要计算整个训练集的误差的平方和,如果学习方法需要迭代20次,这已经是非常大的计算代价。 首先,需要确定大规模的训练集是否有必要。当我们确实需要一个大规模的训练集,可以尝试用随机梯度下降...
分类:
其他好文 时间:
2015-11-30 22:05:34
阅读次数:
153
Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之中的一个。其训练常採用最大似然准则。且为防止过拟合,往往在目标函数中增加(能够产生稀疏性的) L1 正则。但对于这样的带 L1 正则的最大熵模型,直接採用标准的随机梯度下降法(SGD)会出现效率不高和...
分类:
其他好文 时间:
2015-09-30 19:35:31
阅读次数:
237
下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数,j是参数的个数。 1、批量梯度下降(BGD)的求解思路...
分类:
其他好文 时间:
2015-09-23 15:12:58
阅读次数:
595