目录: 1. 前言 2. 正文 2.1 梯度 2.2 梯度下降算法 2.2.1 批量梯度下降算法 2.2.2 随机梯度下降算法 3.参考文献 1.前言 这篇随笔,记录的是个人对于梯度算法的些许理解. 由于充斥着太多关于梯度算法的各种说明软文,所以呢? 本文是从一个实例出发,来逐步使用各种算法进行求解 ...
分类:
编程语言 时间:
2016-09-21 15:57:55
阅读次数:
2989
实现我们分类数字的网络 好,让我们使用随机梯度下降和 MNIST训练数据来写一个程序来学习怎样失败手写数字。 我们也难怪Python (2.7) 来实现。只有 74 行代码!我们需要的第一个东西是 MNIST数据。如果有 github 账号,你可以将这些代码库克隆下来, git clone http ...
分类:
编程语言 时间:
2016-09-09 06:29:28
阅读次数:
1118
http://blog.csdn.net/lilyth_lilyth/article/details/8973972 版权声明:本文为博主原创文章,未经博主允许不得转载。 版权声明:本文为博主原创文章,未经博主允许不得转载。 梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批 ...
分类:
其他好文 时间:
2016-09-04 17:35:38
阅读次数:
177
# -*- coding:utf8 -*- import mathimport matplotlib.pyplot as plt def f(w, x): N = len(w) i = 0 y = 0 while i < N - 1: y += w[i] * x[i] i += 1 y += w[N ...
分类:
编程语言 时间:
2016-09-04 17:20:47
阅读次数:
174
1.交叉熵代价函数 2.正则化方法:L1和L2 regularization、数据集扩增、dropout 3. 数据预处理 4.机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size 5.随机梯度下降(Stochastic gradient descent)和 批量梯度下降 ...
分类:
其他好文 时间:
2016-08-22 21:41:51
阅读次数:
155
比对梯度下降和随机梯度下降: 梯度下降:每一次迭代耗时长,在大数据集上处理速度慢,对参数敏感性适中 随机梯度下降:每一次迭代耗时短,在大数据集上处理速度较快,但对参数非常敏感 随机梯度下降能更快地达到较大的对数似然值,但噪声更大 步长太小,收敛速度太慢;步长较大,震荡较大;步长异常大,不收敛 ...
分类:
其他好文 时间:
2016-08-15 12:46:22
阅读次数:
116
一、参数更新策略 1.SGD 也就是随机梯度下降,最简单的更新形式是沿着负梯度方向改变参数(因为梯度指向的是上升方向,但是我们通常希望最小化损失函数)。假设有一个参数向量x及其梯度dx,那么最简单的更新的形式是: x += - learning_rate * dx 其中learning_rate是一 ...
分类:
其他好文 时间:
2016-08-14 14:26:50
阅读次数:
683
今天看到有个同学分享了关于算法学习的思路,觉得对于我来说启发很大,因此决定把他说的一些东西写下来以提醒自己: 首先是算法的产生背景,适用场合(数据规模,特征维度,是否有Online算法,离散/连续特征处理) 原理推导(最大间隔,软间隔,对偶) 求解方法(随机梯度下降,拟牛顿法等优化算法); 优缺点, ...
分类:
编程语言 时间:
2016-08-11 00:39:36
阅读次数:
168
线性回归梯度下降、随机梯度下降与正规方程组的python实现 ...
分类:
其他好文 时间:
2016-07-03 23:08:21
阅读次数:
469
Deep learning中的优化方法
三种常见优化算法:SGD(随机梯度下降),LBFGS(受限的BFGS),CG(共轭梯度法)。
1.SGD(随机梯度下降)
随机梯度下降(Stochastic Gradient Descent, SGD)是随机和优化相结合的产物,是一种很神奇的优化方法,属于梯度下降的一种,适用于大规模问题。
...
分类:
其他好文 时间:
2016-06-24 15:36:58
阅读次数:
629