码迷,mamicode.com
首页 > 其他好文 > 详细

[ DLPytorch ] 循环神经网络进阶&拟合问题&梯度消失与爆炸

时间:2020-02-17 16:13:02      阅读:85      评论:0      收藏:0      [点我收藏+]

标签:begin   src   循环   class   特殊   更新   image   依赖关系   isp   

循环神经网络进阶

BPTT

反向传播过程中,训练模型通常需要模型参数的梯度。
技术图片
\[ \frac{\partial L}{\partial \boldsymbol{W}_{qh}} = \sum_{t=1}^T \text{prod}\left(\frac{\partial L}{\partial \boldsymbol{o}_t}, \frac{\partial \boldsymbol{o}_t}{\partial \boldsymbol{W}_{qh}}\right) = \sum_{t=1}^T \frac{\partial L}{\partial \boldsymbol{o}_t} \boldsymbol{h}_t^\top. \]
\[ \begin{aligned} \frac{\partial L}{\partial \boldsymbol{W}_{hx}} &= \sum_{t=1}^T \text{prod}\left(\frac{\partial L}{\partial \boldsymbol{h}_t}, \frac{\partial \boldsymbol{h}_t}{\partial \boldsymbol{W}_{hx}}\right) = \sum_{t=1}^T \frac{\partial L}{\partial \boldsymbol{h}_t} \boldsymbol{x}_t^\top,\\frac{\partial L}{\partial \boldsymbol{W}_{hh}} &= \sum_{t=1}^T \text{prod}\left(\frac{\partial L}{\partial \boldsymbol{h}_t}, \frac{\partial \boldsymbol{h}_t}{\partial \boldsymbol{W}_{hh}}\right) = \sum_{t=1}^T \frac{\partial L}{\partial \boldsymbol{h}_t} \boldsymbol{h}_{t-1}^\top. \end{aligned} \]

其次,注意到隐藏状态之间也存在依赖关系。也正是这种依赖关系,在训练时需要对状态进行特殊处理。
\[ \frac{\partial L}{\partial \boldsymbol{h}_t} = \text{prod} (\frac{\partial L}{\partial \boldsymbol{h}_{t+1}}, \frac{\partial \boldsymbol{h}_{t+1}}{\partial \boldsymbol{h}_t}) + \text{prod} (\frac{\partial L}{\partial \boldsymbol{o}_t}, \frac{\partial \boldsymbol{o}_t}{\partial \boldsymbol{h}_t} ) = \boldsymbol{W}_{hh}^\top \frac{\partial L}{\partial \boldsymbol{h}_{t+1}} + \boldsymbol{W}_{qh}^\top \frac{\partial L}{\partial \boldsymbol{o}_t} \]
当时间步数 \(T\) 较大或者时间步 \(t\) 较小时,目标函数有关隐藏状态的梯度较容易出现衰减和爆炸。

GRU

  • 重置门有助于捕捉时间序列里短期的依赖关系;
  • 更新门有助于捕捉时间序列里长期的依赖关系。
    门控循环单元会计算候选隐藏状态来辅助稍后的隐藏状态计算,将当前时间步重置门的输出与上一时间步隐藏状态做按元素乘法(符号为\(\odot\))。如果重置门中元素值接近0,那么意味着重置对应隐藏状态元素为0,即丢弃上一时间步的隐藏状态。如果元素值接近1,那么表示保留上一时间步的隐藏状态。然后,将按元素乘法的结果与当前时间步的输入连结,再通过含激活函数tanh的全连接层计算出候选隐藏状态。
    技术图片
    更新门可以控制隐藏状态应该如何被包含当前时间步信息的候选隐藏状态所更新,时间步\(t\)的隐藏状态\(\boldsymbol{H}_t \in \mathbb{R}^{n \times h}\)的计算使用当前时间步的更新门\(\boldsymbol{Z}_t\)来对上一时间步的隐藏状态\(\boldsymbol{H}_{t-1}\)和当前时间步的候选隐藏状态\(\tilde{\boldsymbol{H}}_t\)做组合。
    技术图片

LSTM

设置了遗忘门、输入门和输出门。当前时间步记忆细胞\(\boldsymbol{C}_t \in \mathbb{R}^{n \times h}\)的计算组合了上一时间步记忆细胞和当前时间步候选记忆细胞的信息,并通过遗忘门和输入门来控制信息的流动。候选记忆细胞由上一状态与本次输入分别线性计算再组合。
遗忘门控制上一时间步的记忆细胞\(\boldsymbol{C}_{t-1}\)中的信息是否传递到当前时间步,而输入门则控制当前时间步的输入\(\boldsymbol{X}_t\)通过候选记忆细胞\(\tilde{\boldsymbol{C}}_t\)如何流入当前时间步的记忆细胞。
通过输出门来控制从记忆细胞到隐藏状态\(\boldsymbol{H}_t\)
技术图片

[ DLPytorch ] 循环神经网络进阶&拟合问题&梯度消失与爆炸

标签:begin   src   循环   class   特殊   更新   image   依赖关系   isp   

原文地址:https://www.cnblogs.com/recoverableTi/p/12321975.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!