标签:block 方式 moment 数据 batch 一个 plain mini span
SGD + momentum
SGD是利用一个mini-batch的数据来近似估计梯度,有陷入局部最优或者马鞍点的问题
momentum是说当前梯度也受之前的梯度的影响,用加权的方式。可以按照光流的思想去类比理解。
原文地址:https://www.cnblogs.com/war1111/p/14208579.html