梯度下降

时间：2018-09-22 23:47:08 阅读：199 评论：0 收藏：0 [点我收藏+]

梯度下降（GD）是最小化风险函数、损失函数的一种常用方法，随机梯度下降和批量梯度下降是两种迭代求解思路。

随机梯度下降Stochastic gradient descent）

随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将theta迭代到最优解了。但是，SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。

优点最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。

BGD会得到一个全局最优解，但是每迭代一步，都要用到训练集所有的数据，如果m很大，效率会很低。

优点：最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小。

原文地址：https://www.cnblogs.com/cjr0707/p/9691583.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行