码迷,mamicode.com
首页 > 其他好文 > 详细

深度学习梯度爆炸与梯度消失

时间:2020-06-24 17:49:19      阅读:48      评论:0      收藏:0      [点我收藏+]

标签:导致   csdn   解决方案   就是   背景   方案   法则   sig   优化   

背景

了解深度学习中的梯度爆炸与消失的原因,及如何处理梯度爆炸与消失。

梯度消失

梯度消失是激活函数和权重矩阵初始化值,这两个因素决定的。

sigmoid函数,求导的最大值为0.25

根据链式求导法则:导数小于0.25,如果初始化的W值,再小于1,这样逐个相乘后,会导致偏差为0,最终导致网路中的参数无法优化

梯度爆炸

依然根据链式求导法则:如果初始化的W值>10,则每一层的乘积大于1,这样逐个相乘后,会导致一个非常大权重更新,这就是梯度爆炸

解决方案

  1. 好的参数初始化方式,如He初始化
  2. 非饱和激活函数 ReLU
  3. 批量规范化
  4. 梯度截断
  5. 更快的优化器

参考

  1. https://blog.csdn.net/junjun150013652/article/details/81274958

深度学习梯度爆炸与梯度消失

标签:导致   csdn   解决方案   就是   背景   方案   法则   sig   优化   

原文地址:https://www.cnblogs.com/syw-home/p/13188694.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!