一、偏差和方差 欠拟合的loss主要来自偏差 过拟合的loss主要来自方差 应对大的偏差的方法: 增加更多特征作为输入 使用更复杂的模型 应对大的方差的方法: 更多数据 正则化 k折交叉验证 二、梯度下降 Adagrad 二次微分大的点梯度虽然大但是可能会比梯度小的点离极值点更近,因此学习率需要考虑 ...
分类:
其他好文 时间:
2020-07-22 20:53:23
阅读次数:
106
1. 基本算法 1.1 随机梯度下降 1.2 动量算法 1.3 nesterov动量算法 2. 自适应学习率算法 2.1 AdaGrad 2.2 RMSProp 2.3 Adam 3. 二阶导数方法 3.1 牛顿法 3.2 共轭梯度法 1.1 随机梯度下降 从数据集中随机抽取m个小批量样本(满足样本 ...
分类:
编程语言 时间:
2020-04-02 01:36:38
阅读次数:
106
1. SGD的不足: ①呈“之”字型,迂回前进,损失函数值在一些维度的改变得快(更新速度快),在一些维度改变得慢(速度慢)- 在高维空间更加普遍 ②容易陷入局部极小值和鞍点: 局部最小值: 鞍点: ③对于凸优化而言,SGD不会收敛,只会在最优点附近跳来跳去 - 可以通过使用不固定的learning ...
分类:
其他好文 时间:
2020-02-05 09:42:37
阅读次数:
90
在机器学习、深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较,今天来学习一下:https://arxiv.org/pdf/1609.0 ...
分类:
编程语言 时间:
2020-01-06 19:30:38
阅读次数:
136
讲授卷积神经网络核心思想、卷积层、池化层、全连接层、网络的训练、反向传播算法、随机梯度下降法、AdaGrad算法、RMSProp算法、AdaDelta算法、Adam算法、迁移学习和fine tune等。 大纲: 卷积神经网络简介 视觉神经网络的核心思想 卷积神经网络的核心思想 卷积运算 卷积层的原理 ...
分类:
其他好文 时间:
2019-10-25 13:37:25
阅读次数:
104
1、参数更新 SGD、Momentum、AdaGrad(学习率衰减)、Adam 2、权重初始值 Xavier初始值(sigmoid、tanh)、He初始值(relu) 3、Batch Normalization 4、正则化 5、权重衰减 6、Dropout 7、超参数(贝叶斯最优化) 设定超参数的范 ...
分类:
其他好文 时间:
2019-09-03 11:31:33
阅读次数:
105
Optimizer SGD Momentum Nesterov(牛顿动量) 二.自适应参数的优化算法 这类算法最大的特点就是,每个参数有不同的学习率,在整个学习过程中自动适应这些学习率。 AdaGrad RMSProp Adam 二阶近似的优化算法 牛顿法 共轭梯度法 BFGS LBFGS ...
分类:
编程语言 时间:
2019-07-23 15:21:57
阅读次数:
127
一、深度学习建模与调试流程 二、激活函数 sigmoid ReLU maxout 三、梯度下降的改进 Adagrad RMSProp Momentum Adam = RMSProp + Momentum Early Stopping 四、正则化 Dropout ...
分类:
其他好文 时间:
2019-07-16 18:55:03
阅读次数:
235
优化器 Momentum 从平地到了下坡的地方,加速了他的行走 AdaGrad 让每一个参数都有学习率,相当给人穿了一双鞋子 RMSProp 是两者的结合 比较四个优化器 Epoch: 0 Epoch: 1 Epoch: 2 Epoch: 3 Epoch: 4 Epoch: 5 Epoch: 6 E ...
分类:
其他好文 时间:
2019-07-08 19:29:23
阅读次数:
75
原文地址:https://www.jianshu.com/p/7a049ae73f56 梯度下降优化基本公式:${\theta\leftarrow\theta \eta\cdot\nabla_\theta{J(\theta)}}$ 一、三种梯度下降优化框架 这三种梯度下降优化框架的区别在于每次更新模 ...
分类:
其他好文 时间:
2019-05-03 16:43:57
阅读次数:
112