CNN卷积神经网络学习笔记3：权值更新公式推导

时间：2015-07-06 12:15:58 阅读：5035 评论：0 收藏：0 [点我收藏+]

在上篇《CNN卷积神经网络学习笔记2：网络结构》中，已经介绍了CNN的网络结构的详细构成，我们已经可以初始化一个自己的CNN网络了，接下来就是要用训练得到一个确定的CNN的模型，也就是确定CNN的参数。
CNN本质上就是人工神经网络的一种，只是在前几层的处理上有所不同，我们可以把卷积核看成是人工神经网络里的权值W，而采样层实质上也是一种卷积运算。所以可以基于人工神经网络的权值更新的方法来推导CNN里的权值更新公式。人工神经网络里是用反向传播算法将误差层层回传，利用梯度下降法更新每一层的权值，CNN中也是类似的。所以这里先对传统的BP算法做个概述，然后再推广到CNN中。

1，BP算法

1.1 Feedforward Pass前向传播

首先定义平方误差代价函数：

E N = 1 2 \sum n = 1 N \sum k = 1 c (t n k ? y n k) 2 .

$E^N = \frac{1}{2}\sum_{n=1}^N\sum_{k=1}^c(t_k^n-y_k^n)^2.$
其中N是样本个数，c是label的维度，对于分类问题，意味着这些样本能分为c类。

tkn $t_n^k$ 表示第n个样本的label

tn $t^n$ 的第k维，

ykn $y_n^k$ 是第n个样本网络的输出(predict label)的第k维。我们的目标是要更新网络的权值，使得网络输出y与真实值t更接近，也就是最小化这个E，考虑到要考虑一个样本，则第n个样本的误差函数是：

E n = 1 2 \sum k = 1 c (t n k ? y n k) 2 .

$E^n = \frac{1}{2}\sum_{k=1}^c(t_k^n-y_k^n)^2.$
定义第l层的输出为：

x l = f (u l), 其 中 u l = W l x l ? 1 + b l (1)

$x^l=f(u^l), 其中u^l = W^l x^{l-1}+b^l(1)$
这里f是激活函数，

xl?1 $x^{l-1}$ 是l-1层的输出，也就是l层的输入，W和b分别是l层的权值和偏置。
上式就是前向传播的公式，每一层对输入(也就是上一层的输出)做运算，得到输出结果，这样将样本信息逐层传递，最后输出一个预测值(predict label)。

1.2 Backpropagation Pass反向传播

预测值与真实值(label)之间必然是存在误差的，反向传播就是要把这个误差信息回传给每一层，让这些层修改他们的权值，使得CNN更精准。
BP算法中是用梯度下降法更新权值的，梯度下降法的更新公式如下：

W l n e w = W l o l d ? η ? E ? W l o l d .

$W_{new}^l = W_{old}^l - \eta\frac{\partial E}{\partial W_{old}^l}.$

b l n e w = b l o l d ? η ? E ? b l o l d .

$b_{new}^l = b_{old}^l - \eta\frac{\partial E}{\partial b_{old}^l}.$
梯度下降法细节可以参考这里：
http://ufldl.stanford.edu/wiki/index.php/Gradient_checking_and_advanced_optimization
其中

η $\eta$ 是梯度下降的学习率(learning rate)，可以看出，梯度下降法更新权值主要是利用误差代价函数对参数的梯度，所以权值更新的目标就是让每一层得到这样的梯度，然后更新。
为了求取单个样本的误差代价函数对参数的偏导，这里定义节点灵敏度(sensitivities)

δ $\delta$ 为误差对输出的变化率：

δ = ? E ? u

$\delta = \frac{\partial E}{\partial u}$
其中的u是

ul=Wlxl?1+bl $u^l = W^l x^{l-1}+b^l$ .
对于参数中的偏置b，因为

?u?b=1 $\frac{\partial u}{\partial b}=1$ ，由链式求导法则可得：

? E ? b l = ? E ? u l ? u l ? b l = δ l . (2)

$\frac{\partial E}{\partial b^l} = \frac{\partial E}{\partial u^l} \frac{\partial u^l}{\partial b^l}= \delta^l .(2)$
每层的灵敏度是不一样的，可以算得：

δ l = ? E ? b l = ? 1 2 ( y ? t ) 2 ? b l = f' (u l) ° (y n ? t n) . (3)

$\delta^l = \frac{\partial E}{\partial b^l} = \frac{\partial \frac{1}{2}(y-t)^2}{\partial b^l} = f‘(u^l)\circ(y^n - t^n).(3)$
注意这里y也是b的函数，

y=f(ul)=f(Wlxl?1+b) $y=f(u^l)=f(W^lx^{l-1}+b)$ ，所以要乘上

f′(ul) $f‘(u^l)$ ，这里的

° $\circ$ 表示每个元素相乘，因为每个神经元连接都会有一个灵敏度

δ $\delta$ ，所以每一层的灵敏度是一个矩阵。
进一步求得误差代价函数E对参数中的权值W的偏导：

? E ? W l = ? E ? u l ? u l ? W l = δ l x l ? 1 . (4)

$\frac{\partial E}{\partial W^l} = \frac{\partial E}{\partial u^l} \frac{\partial u^l}{\partial W^l}= \delta^l x^{l-1}.(4)$
至此，我们得到了每一层利用梯度下降进行权值更新时需要的梯度，也就是(2),(4)，可以看到他们都和灵敏度有关，而灵敏度可由(3)式计算。
在(3)式中，

yl $y^l$ 和

ul $u^l$ 中的

xl?1 $x^{l-1}$ 是不知道的，也就是说，我们不知道每一层具体的的输入和输出，而且这个也太难计算，那么怎么把误差信息层层回传呢？
从灵敏度下手：

δ l = ? E ? u l = ? E ? u l + 1 ? u l + 1 ? u l = δ l + 1 ? ( W l + 1 x l + b ) ? u l = δ l + 1 ? ( W l + 1 f ( u l ) + b ) ? u l = δ l + 1 W l + 1 ° f' (u l) .

$\delta^l =\frac{\partial E}{\partial u^l} =\frac{\partial E}{\partial u^{l+1}} \frac{\partial u^{l+1}}{\partial u^l}=\delta^{l+1}\frac{\partial (W^{l+1}x^l+b)}{\partial u^l}=\delta^{l+1}\frac{\partial (W^{l+1}f(u^l)+b)}{\partial u^l}=\delta^{l+1}W^{l+1} \circ f‘(u^l).$
所以反向传播其实是通过灵敏度层层回传误差信息，如下就是反向传播的核心公式：

δ l = δ l + 1 W l + 1 ° f' (u l) . (5)

$\delta^l = \delta^{l+1}W^{l+1}\circ f‘(u^l).(5)$
以上是对经典的BP算法做一个概述，CNN中把权值W换成卷积核k，按照(1)(2)(3)(4)(5)式就可以得到CNN的权值更新公式。

2，CNN中卷积层权值更新推导

2.1 对照(1)式计算l层的输出

在CNN中，对于卷积层的每一种输出的特征图 $x_j$ 有：

x l j = f (\sum i \in M j ? k l i j + b j) .

$x_j^l=f(\sum_{i\in Mj}*k_{ij}^l+b_j).$
其中，Mj表示选择的输入特征图组合，

kij $k_ij$ 是输入的第i种特征图和输出的第j种特征图之间的连接所用的卷积核，

bj $b_j$ 是第j种特征图对应的偏置，f是激活函数。

2.2 对照(5)式计算灵敏度

δ l j = δ l + 1 j W l + 1 j ° f' (u l) = β l + 1 j u p (δ l + 1 j) ° f' (u l) .

$\delta_j^l = \delta_j^{l+1}W_j^{l+1} \circ f‘(u^l) = \beta_j^{l+1} up(\delta_j^{l+1}) \circ f‘(u^l).$
因为l+1层是采样层，所以相当于也是做卷积，例如做scale=2的下采样，就是用2*2的每个值为1/4的卷积核卷积图像，所以这里的权值W实际上就是这个2*2的卷积核，它的值是

βj $\beta_j$ 。up表示上采样操作，因为l+1采样层的灵敏度矩阵是l层灵敏度矩阵的尺寸的1/4(scale=2时)，所以这里要对l+1层的灵敏度矩阵做上采样，使它们尺寸一致。

2.3 对照(2)式计算误差代价函数对偏置b的偏导

也就是对层l中的灵敏度中所有节点求和，这里(u,v)代表灵敏度矩阵中的元素位置：

? E ? b j = \sum u, v (δ l j) u, v

$\frac{\partial E}{\partial b_j}=\sum_{u,v} (\delta_j^l)_{u,v}$

2.4 对照(4)式计算误差代价函数对卷积核k的偏导：

? E ? k l i j = \sum u, v (δ l j) u, v (p l ? 1 i) u v .

$\frac{\partial E}{\partial k_{ij}^l} = \sum_{u,v}(\delta_j^l)_{u,v}(p_i^{l-1})_{uv}.$
这里

(pl?1i)uv $(p_i^{l-1})_{uv}$ 是

xl?1i $x_i^{l-1}$ 在做卷积时，与

kij $k_{ij}$ 做卷积的每一个patch，(u,v)是patch中心，输出特征图中(u,v)位置的值，是由输入特征图中(u,v)位置的patch和卷积核

kij $k_ij$ 卷积所得的值。

3，CNN中下采样层权值更新推导

3.1 对照(1)式计算l层的输出

在CNN中，对于采样层的每一种输出特征图 $x_j$ 有：

x l j = f (β l j d o w n (x l ? 1 j) + b l j) .

$x_j^l=f(\beta_j^l down(x_j^{l-1})+b_j^l).$
down表示下采样，这里的

β $\beta$ 是乘性偏置，b是加性偏置，一般cnn网络中没有这个

β $\beta$ 。

3.2 对照(5)式计算灵敏度

δ l j = δ l + 1 j W l + 1 j ° f' (u l) = f' (u l j) ° c o n v 2 (δ l + 1 j, r o t 180 (k l + 1 j),' f u l l') .

$\delta_j^l = \delta_j^{l+1}W_j^{l+1} \circ f‘(u^l) = f‘(u_j^l) \circ conv2(\delta_j^{l+1}, rot180(k_j^{l+1}), ‘full‘).$

3.3 对照(2)式计算误差代价函数对偏置b的偏导

这里和卷积层的b是一样的：

? E ? b j = \sum u, v (δ l j) u, v .

$\frac{\partial E}{\partial b_j}=\sum_{u,v} (\delta_j^l)_{u,v}.$

至此我们就得到了CNN的权值更新公式。
下一篇中讨论一个简单的CNN实现。

Reference
《Notes on Convolutional Neural Networks》
http://cogprints.org/5869/1/cnn_tutorial.pdf
以及它的中文翻译：
http://blog.csdn.net/zouxy09/article/details/9993371

CNN卷积神经网络学习笔记3：权值更新公式推导

标签：cnn 卷积神经网络公式权值更新 bp算法

原文地址：http://blog.csdn.net/happyer88/article/details/46772347

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行