标签:display 随机梯度下降 17. src splay info 优化 深度学习 mat
以下内容来自深度学习花树和维基百科
虽然随机梯度下降仍然是非常受欢迎的优化方法, 但其学习过程有时会很慢。 动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率、小但一致的梯度,或是 带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方 向移动。动量的效果如图 8.5 所示。
?
?
\[ \begin{align*} \varepsilon \cdot \vec g &= \vec v - \alpha \cdot \vec v \\frac {\partial{loss}}{\partial \vec w} &= \vec g =\frac{1-\alpha}{\varepsilon} \cdot \vec v \end{align*} \]
?
?
?
?
标签:display 随机梯度下降 17. src splay info 优化 深度学习 mat
原文地址:https://www.cnblogs.com/nowgood/p/optimizealgs.html