标签:bubuko inf 更新 设置 一个 位置 src 梯度下降算法 表示
:今天来一起聊一聊梯度下降算法的原理及实现。
一.梯度下降的算法方程式为:
二.方程式详解:
参数:
1.::表示网络中需要训练的参数。
2.:表示学习率。
3.:表示图像中一点的斜率。
含义:
假设一个二次函数,初始位置在曲线上蓝色点,
如果学习率α设置过大,则θ的每一次更新幅值将会很大。如此,若蓝点已非常接近最低点,则下一次参数更新的更新则会偏离最低点。
如果学习率α设置过小,则θ的每一次更新幅值将会很小。如此,将会增加参数训练的成本。
在确定学习率α以后,随着蓝点的移动,蓝点在曲线上每一点处 的斜率会发生变化,向下则变小,向上则变大。所以,随着蓝点越来越接近最低点,斜率变小,θ的更新幅值也会越来越小。
标签:bubuko inf 更新 设置 一个 位置 src 梯度下降算法 表示
原文地址:https://www.cnblogs.com/brillant-ordinary/p/9531305.html