标签:方差 随机 就是 end mat rac 样本 span 梯度下降法
用单个训练样本的损失来近似平均损失,即
\[\begin{aligned} L(\theta; x_i, y_i) & = L(f(x_i, \theta), y_i) \\ \nabla L(\theta; x_i, y_i) & = \nabla L(f(x_i, \theta), y_i) \end{aligned}?\]
加快收敛速度,也适合在线更新
小批量梯度下降法
降低随机梯度的方差,使迭代更稳定
充分利用高度优化的矩阵运算
同时处理m个训练数据\(\{ (x_1, x_2), \cdots, (x_m, y_m) \}\),目标函数及其梯度为
\[\begin{aligned} L(\theta) & = \frac{1}{m} \sum \limits_{i=1}^{m}L(f(x_i, \theta), y_i) \\ \nabla L(\theta) & = \frac{1}{m} \sum \limits_{i = 1}^{m} \nabla L(f(x_i, \theta), y_i) \end{aligned}\]
注意:
标签:方差 随机 就是 end mat rac 样本 span 梯度下降法
原文地址:https://www.cnblogs.com/weilonghu/p/11922496.html