[ DLPytorch ] 循环神经网络进阶&拟合问题&梯度消失与爆炸

时间：2020-02-17 16:13:02 阅读：85 评论：0 收藏：0 [点我收藏+]

标签：begin src 循环 class 特殊更新 image 依赖关系 isp

循环神经网络进阶

BPTT

反向传播过程中，训练模型通常需要模型参数的梯度。
技术图片
\[ \frac{\partial L}{\partial \boldsymbol{W}_{qh}} = \sum_{t=1}^T \text{prod}\left(\frac{\partial L}{\partial \boldsymbol{o}_t}, \frac{\partial \boldsymbol{o}_t}{\partial \boldsymbol{W}_{qh}}\right) = \sum_{t=1}^T \frac{\partial L}{\partial \boldsymbol{o}_t} \boldsymbol{h}_t^\top. \]
\[ \begin{aligned} \frac{\partial L}{\partial \boldsymbol{W}_{hx}} &= \sum_{t=1}^T \text{prod}\left(\frac{\partial L}{\partial \boldsymbol{h}_t}, \frac{\partial \boldsymbol{h}_t}{\partial \boldsymbol{W}_{hx}}\right) = \sum_{t=1}^T \frac{\partial L}{\partial \boldsymbol{h}_t} \boldsymbol{x}_t^\top,\\frac{\partial L}{\partial \boldsymbol{W}_{hh}} &= \sum_{t=1}^T \text{prod}\left(\frac{\partial L}{\partial \boldsymbol{h}_t}, \frac{\partial \boldsymbol{h}_t}{\partial \boldsymbol{W}_{hh}}\right) = \sum_{t=1}^T \frac{\partial L}{\partial \boldsymbol{h}_t} \boldsymbol{h}_{t-1}^\top. \end{aligned} \]

其次，注意到隐藏状态之间也存在依赖关系。也正是这种依赖关系，在训练时需要对状态进行特殊处理。
\[ \frac{\partial L}{\partial \boldsymbol{h}_t} = \text{prod} (\frac{\partial L}{\partial \boldsymbol{h}_{t+1}}, \frac{\partial \boldsymbol{h}_{t+1}}{\partial \boldsymbol{h}_t}) + \text{prod} (\frac{\partial L}{\partial \boldsymbol{o}_t}, \frac{\partial \boldsymbol{o}_t}{\partial \boldsymbol{h}_t} ) = \boldsymbol{W}_{hh}^\top \frac{\partial L}{\partial \boldsymbol{h}_{t+1}} + \boldsymbol{W}_{qh}^\top \frac{\partial L}{\partial \boldsymbol{o}_t} \]
当时间步数 \(T\) 较大或者时间步 \(t\) 较小时，目标函数有关隐藏状态的梯度较容易出现衰减和爆炸。

GRU

重置门有助于捕捉时间序列里短期的依赖关系；
更新门有助于捕捉时间序列里长期的依赖关系。
门控循环单元会计算候选隐藏状态来辅助稍后的隐藏状态计算，将当前时间步重置门的输出与上一时间步隐藏状态做按元素乘法（符号为\(\odot\)）。如果重置门中元素值接近0，那么意味着重置对应隐藏状态元素为0，即丢弃上一时间步的隐藏状态。如果元素值接近1，那么表示保留上一时间步的隐藏状态。然后，将按元素乘法的结果与当前时间步的输入连结，再通过含激活函数tanh的全连接层计算出候选隐藏状态。

更新门可以控制隐藏状态应该如何被包含当前时间步信息的候选隐藏状态所更新，时间步\(t\)的隐藏状态\(\boldsymbol{H}_t \in \mathbb{R}^{n \times h}\)的计算使用当前时间步的更新门\(\boldsymbol{Z}_t\)来对上一时间步的隐藏状态\(\boldsymbol{H}_{t-1}\)和当前时间步的候选隐藏状态\(\tilde{\boldsymbol{H}}_t\)做组合。

LSTM

设置了遗忘门、输入门和输出门。当前时间步记忆细胞\(\boldsymbol{C}_t \in \mathbb{R}^{n \times h}\)的计算组合了上一时间步记忆细胞和当前时间步候选记忆细胞的信息，并通过遗忘门和输入门来控制信息的流动。候选记忆细胞由上一状态与本次输入分别线性计算再组合。
遗忘门控制上一时间步的记忆细胞\(\boldsymbol{C}_{t-1}\)中的信息是否传递到当前时间步，而输入门则控制当前时间步的输入\(\boldsymbol{X}_t\)通过候选记忆细胞\(\tilde{\boldsymbol{C}}_t\)如何流入当前时间步的记忆细胞。
通过输出门来控制从记忆细胞到隐藏状态\(\boldsymbol{H}_t\)
技术图片

[ DLPytorch ] 循环神经网络进阶&拟合问题&梯度消失与爆炸

标签：begin src 循环 class 特殊更新 image 依赖关系 isp

原文地址：https://www.cnblogs.com/recoverableTi/p/12321975.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行