Convolutional Neural Networks for Visual Recognition 7

时间：2016-02-26 12:26:22 阅读：195 评论：0 收藏：0 [点我收藏+]

标签：

Two Simple Examples

softmax classifier

后，我们介绍两个简单的例子，一个是线性分类器，一个是神经网络。由于网上的讲义给出的都是代码，我们这里用公式来进行推导。首先看softmax classifier 的例子。给定输入 $X \in \mathbf{R}^{N \times D}$ ，权值 $W \in \mathbf{R}^{D \times K}$ ，偏移量 $b \in \mathbf{R}^{1 \times K}$ ，我们可以得到分类器对每个样本的预测分数： $f=XW+b$ ，我们可以用softmax 函数将预测分数转为概率： $p_{i}=\frac{e^{f_{i}}}{\sum_{j}e^{f_{j}}}$ ， $p_{i}$
表示样本属于第 $i$ 类的概率， $f_{i},f_{j}$ 表示线性函数对样本属于第 $i,j$ 类的预测分数。

我们可以建立如下的loss function：

L i = ? l o g (p y i) = ? l o g ? ? e f y i \sum j e f j ? ?

$L_{i}=-log(p_{y_{i}}) = -log \left( \frac{e^{f_{y_{i}}}}{\sum_{j}e^{f_{j}}} \right)$

L = 1 N \sum i L i + 1 2 λ \sum k \sum l W 2 k, l

$L=\frac{1}{N}\sum_{i}L_{i}+\frac{1}{2}\lambda \sum_{k}\sum_{l}W_{k,l}^{2}$

下面我们推导loss对 $W,b$ 的偏导数，我们可以先计算loss对 $f$ 的偏导数，利用链式法则，我们可以得到：

? L i ? f k = ? L i ? p k ? p k ? f k ? p i ? f k = p i (1 ? p k) i = k ? p i ? f k = ? p i p k i \neq k ? L i ? f k = ? 1 p y i ? p y i ? f k = (p k ? 1 {y i = k})

$\begin{equation*} \begin{split} & \frac{\partial L_{i}}{\partial f_{k}}= \frac{\partial L_{i}}{\partial p_{k}} \frac{\partial p_{k}}{\partial f_{k}} \& \frac{\partial p_{i}}{\partial f_{k}}=p_{i}(1-p_{k}) \quad i=k \& \frac{\partial p_{i}}{\partial f_{k}}=-p_{i}p_{k} \quad i \neq k \& \frac{\partial L_{i}}{\partial f_{k}}=-\frac{1}{p_{y_{i}}} \frac{\partial p_{y_{i}}}{\partial f_{k}}= \left(p_{k}-1\{y_{i}=k \}\right) \end{split} \end{equation*}$

进一步，由 $f=XW+b$ ，可知 $\frac{\partial f}{\partial W}=X^{T}, \frac{\partial f}{\partial b}=1$ ，我们可以得到：

Δ W = ? L ? W = 1 N ? L i ? W + λ W = 1 N ? L i ? p ? p ? f ? f ? W + λ W Δ b = ? L ? b = 1 N ? L i ? b = 1 N ? L i ? p ? p ? f ? f ? b W = W ? α Δ W b = b ? α Δ b

$\begin{equation*} \begin{split} & \Delta W=\frac{\partial L}{\partial W} =\frac{1}{N} \frac{\partial L_{i}}{\partial W} + \lambda W =\frac{1}{N} \frac{\partial L_{i}}{\partial p} \frac{\partial p}{\partial f} \frac{\partial f}{\partial W} +\lambda W \& \Delta b=\frac{\partial L}{\partial b} =\frac{1}{N} \frac{\partial L_{i}}{\partial b} =\frac{1}{N} \frac{\partial L_{i}}{\partial p} \frac{\partial p}{\partial f} \frac{\partial f}{\partial b} \& W=W-\alpha \Delta W \& b=b-\alpha \Delta b \end{split} \end{equation*}$

Neural Networks

上面介绍的是softmax 分类器，下面我们介绍神经网络。神经网络与softmax分类器类似，只是多了一个隐含层。我们先考虑其前向传递。

f 1 = X W 1 + b 1 h = m a x (0, f 1) f 2 = h W 2 + b 2 p i = e f 2 i \sum j e f 2 j L = 1 N \sum i L i + 1 2 λ \sum \sum w 21 + 1 2 λ \sum \sum w 22

$\begin{equation*} \begin{split} & f_{1}=XW_{1}+b_{1} \& h=max(0, f_{1}) \& f_{2}=hW_{2}+b_{2} \& p_{i}=\frac{e^{f_{2i}}}{\sum_{j}e^{f_{2j}}} \& L=\frac{1}{N}\sum_{i}L_{i}+\frac{1}{2}\lambda \sum \sum w_{1}^{2}+\frac{1}{2}\lambda \sum \sum w_{2}^{2} \end{split} \end{equation*}$

下面我们看如何利用BP对网络中的参数进行更新：

? L ? f 2 = 1 N ? L i ? f 2 = 1 N (p k ? 1 {y i = k}) Δ W 2 = ? L ? W 2 = ? L ? f 2 ? h + λ W 2 Δ b 2 = ? L ? b 2 = ? L ? f 2 Δ W 1 = ? L ? W 1 = ? L ? f 2 ? f 2 ? h ? X + λ W 1 Δ b 1 = ? L ? b 1 = ? L ? f 2 ? f 2 ? h

$\begin{equation*} \begin{split} & \frac{\partial L}{\partial f_{2}}=\frac{1}{N} \frac{\partial L_{i}}{\partial f_{2}} =\frac{1}{N} \left(p_{k}-1\{y_{i}=k \}\right) \&\Delta W_{2}= \frac{\partial L}{\partial W_{2}}=\frac{\partial L}{\partial f_{2}} \cdot h +\lambda W_{2} \&\Delta b_{2}= \frac{\partial L}{\partial b_{2}}=\frac{\partial L}{\partial f_{2}} \&\Delta W_{1}= \frac{\partial L}{\partial W_{1}}=\frac{\partial L}{\partial f_{2}} \frac{\partial f_{2}}{\partial h} \cdot X + \lambda W_{1} \&\Delta b_{1}= \frac{\partial L}{\partial b_{1}}=\frac{\partial L}{\partial f_{2}} \frac{\partial f_{2}}{\partial h} \end{split} \end{equation*}$

上面的表达式忽略了矩阵运算里的一些转置，实际编写代码的时候需要注意这一点，最后，我们可以得到如下的参数更新表达式：

W 1 = W 2 ? α Δ W 2 b 1 = b 2 ? α Δ b 2 W 1 = W 1 ? α Δ W 1 b 1 = b 1 ? α Δ b 1

$\begin{equation*} \begin{split} & W_{1}=W_{2}-\alpha \Delta W_{2} \& b_{1}=b_{2}-\alpha \Delta b_{2} \& W_{1}=W_{1}-\alpha \Delta W_{1} \& b_{1}=b_{1}-\alpha \Delta b_{1} \\end{split} \end{equation*}$

还有一点，上式的N表示训练集里的样本总数，如果我们要用batch模型，那么可以将整个训练集分成若干个batch，那么此时的N就是每个batch的样本数。

Reference

http://cs231n.stanford.edu/

Convolutional Neural Networks for Visual Recognition 7

标签：

原文地址：http://blog.csdn.net/matrix_space/article/details/46709739

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行