码迷,mamicode.com
首页 > 其他好文 > 详细

RNN 训练时梯度爆炸的理解

时间:2019-10-18 15:38:14      阅读:103      评论:0      收藏:0      [点我收藏+]

标签:计算   loss   也会   变化   rnn   参数   --   com   学习   

梯度爆炸

技术图片

比方说当前点刚好在悬崖边上, 这个时候计算这个点的斜率就会变得非常大, 我们跟新的时候是按 斜率 × 学习率 来的, 那么这时候参数的跟新就会非常非常大, loss也会非常大

应对办法就是 当斜率超过某个值比如15时, 设定斜率为15.

造成梯度爆炸的原因并不是来自激活函数 --- sigmoid , 如果把激活函数换为 ReLU 通常模型表现会更差

梯度消失

技术图片

可以理解为 RNN 把 weight 变化的程度放大了

RNN 训练时梯度爆炸的理解

标签:计算   loss   也会   变化   rnn   参数   --   com   学习   

原文地址:https://www.cnblogs.com/larkiisready/p/11698445.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!