码迷,mamicode.com
首页 > 其他好文 > 详细

梯度下降

时间:2018-09-22 23:47:08      阅读:199      评论:0      收藏:0      [点我收藏+]

标签:样本   问题   训练   思路   sgd   最小化   方向   结果   The   

梯度下降

梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路。

随机梯度下降Stochastic gradient descent)

随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了。但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。

优点最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近。

批量梯度下降(Batch gradient descent )

BGD会得到一个全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果m很大,效率会很低。

优点:最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小。

梯度下降

标签:样本   问题   训练   思路   sgd   最小化   方向   结果   The   

原文地址:https://www.cnblogs.com/cjr0707/p/9691583.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!