标签:样本 问题 训练 思路 sgd 最小化 方向 结果 The
梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路。
随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了。但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。
优点最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近。
BGD会得到一个全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果m很大,效率会很低。
优点:最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小。
标签:样本 问题 训练 思路 sgd 最小化 方向 结果 The
原文地址:https://www.cnblogs.com/cjr0707/p/9691583.html