2. DNN神经网络的反向更新（BP）

时间：2018-11-22 14:37:00 阅读：208 评论：0 收藏：0 [点我收藏+]

标签：梯度下降 com 根据 html 方便修改 www 选择 feed

1. 前言

DNN前向传播介绍了DNN的网络是如何的从前向后的把数据传递过去的，但是只有这个过程还不够，我们还需要想办法对所有参数进行一个梯度的更新，才能使得网络能够慢慢的学习到新的东西。

在神经网络中有一种通用的方法来更新参数，叫做反向更新BP。

2. DNN反向更新过程

根据前面的前向传播的过程我们得到了一个传播公式，其中\(\sigma\)是激活函数，对具体的函数不做要求，可以是线性激活函数，也可以是非线性激活函数。

\[ a^l = \sigma(z^l) = \sigma(W^la^{l-1} + b^l)\;\;\;\;\;\;(0) \]
我们假设DNN的损失函数是MSE，其中\(a^L\)是输出层的输出：

\[ J(W,b,x,y) = \frac{1}{2}||a^L-y||_2^2 \]
对低\(l\)层的\(W,b\)求导数有：

\[ \frac{\partial J(W,b,x,y)}{\partial W^l} = \frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial W^l}\;\;\;\;\;\;(1) \]

\[ \frac{\partial J(W,b,x,y)}{\partial b^l} = \frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial b^l}\;\;\;\;\;\;(2) \]
我们令

\[ \delta^l =\frac{\partial J(W,b,x,y)}{\partial z^l}\;\;\;\;\;\;(3) \]

把(3)带入(1)(2)得到下式(4)(5)
\[ \frac{\partial J(W,b,x,y)}{\partial W^l} = \delta^{l}(a^{l-1})^T\;\;\;\;\;\;(4) \]

\[ \frac{\partial J(W,b,x,y)}{\partial b^l} = \delta^{l}\;\;\;\;\;\;(5) \]
我们只要求出\(\delta^l\)的表达式，就能求出每一层的\(W^l,b^l\)的梯度，就能对每层进行梯度更新。

由(3)不难得出

\[ \delta^{l} = \frac{\partial J(W,b,x,y)}{\partial z^l} = \frac{\partial J(W,b,x,y)}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial z^{l}} = \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}}\;\;\;\;\;\;(6) \]
又因为有

\[ z^{l+1}= W^{l+1}a^{l} + b^{l+1} = W^{l+1}\sigma(z^l) + b^{l+1}\;\;\;\;\;\;(7) \]
根据(6)(7)我们得出

\[ \delta^{l} = \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}} = (W^{l+1})^T\delta^{l+1}\odot \sigma^{'}(z^l)\;\;\;\;\;\;(8) \]
现在我们有了一个\(\delta^{l}\)和\(\delta^{l+1}\)的递推公式，我们只要求出最后一层的\(\delta^{L}\)，就能算出所有层的\(\delta^{l}\)，然后根据(4)(5)可以算出每层的参数的梯度并进行更新。

如果理解了上面的过程，相比读者对计算\(\delta^{L}\)已经不在话下了：
\[ \delta^L = \frac{\partial J(W,b,x,y)}{\partial z^L} = (a^L-y)\odot \sigma^{'}(z^L) \]

到此为止，我们已经能成功的更新了每层的梯度，整个网络在理论上已经能够跑通了。不过在此说明两点。

上面的推理过程是在MSE的假设下进行的，如果换一个损失函数，那需要对计算输出层\(\delta^{L}\)进行相应的修改。
因为方便推理过程，前面都使用同一个激活函数\(\sigma\)，但是其实每一层可以有自己相应的激活函数，只要计算过程中使用相应的相应激活函数的导数即可。

3. 总结

由于梯度下降法有批量（Batch），小批量(mini-Batch)，随机三个变种，为了简化描述，这里我们以最基本的批量梯度下降法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度下降法。不过区别仅仅在于迭代时训练样本的选择而已。

（欢迎转载，转载请注明出处。欢迎沟通交流： 339408769@qq.com）

2. DNN神经网络的反向更新（BP）

标签：梯度下降 com 根据 html 方便修改 www 选择 feed

原文地址：https://www.cnblogs.com/huangyc/p/10000394.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

2. DNN神经网络的反向更新（BP）

1. DNN神经网络的前向传播（FeedForward）

2. DNN神经网络的反向更新（BP）

1. 前言

2. DNN反向更新过程

3. 总结