码迷,mamicode.com
首页 > 其他好文 > 详细

吴恩达深度学习笔记(deeplearning.ai)之循环神经网络(RNN)(三)

时间:2018-02-19 15:16:50      阅读:199      评论:0      收藏:0      [点我收藏+]

标签:markdown   工作原理   比较   depend   long   梯度   消失   笔记   神经网络   

1. 导读

本节内容介绍普通RNN的弊端,从而引入各种变体RNN,主要讲述GRU与LSTM的工作原理。

2. 普通RNN的弊端

  • 在NLP中,句子内部以及句子之间可能存在很长的依赖关系(long-term dependecies),最前边的单词对句子后面的单词产生影响。但是普通RNN不擅长捕获这种长期依赖关系。因为RNN相当于很深的权重共享的神经网络,因此在反向传播的过程中存在很严重的梯度消失现象,损失函数得到的输出误差很难影响到前面层的计算。
  • 对于深度神经网络,不光存在梯度消失,也存在梯度爆炸的现象,以至于网络参数崩溃(当参数梯度指数级增长时,你会看到很多参数值为NaN,这意味着网络发生了数值溢出)。普通RNN也是如此,但是相比于梯度消失,梯度爆炸比较容易解决,可以采用梯度修剪(gradient clipping)的处理方法。

    梯度修剪,指当梯度向量大于某个阈值时,re-scale梯度向量,保证它不会数值爆炸。

吴恩达深度学习笔记(deeplearning.ai)之循环神经网络(RNN)(三)

标签:markdown   工作原理   比较   depend   long   梯度   消失   笔记   神经网络   

原文地址:https://www.cnblogs.com/szxspark/p/8453791.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!