Convolutional Neural Networks for Visual Recognition 3

时间：2015-06-20 15:42:46 阅读：182 评论：0 收藏：0 [点我收藏+]

标签：

Gradient Computing

前面我们介绍过分类器模型一般包含两大部分，一部分是score function，将输入的原始数据映射到每一类的score，另外一个重要组成部分是loss function，计算预测值
与实际值之间的误差，具体地，给定一个线性分类函数： $f(x_{i};W)=Wx_{i}$ ，我们定义如下的loss function：

L = 1 N \sum i \sum j \neq y i [max (0, f (x i, W) j ? f (x i, W) y i + 1)] + α R (W)

$L=\frac{1}{N}\sum_{i} \sum_{j \neq y_{i}} [ \max(0, f(x_{i},W)_{j}-f(x_{i},W)_{y_{i}}+1)] + \alpha R(W)$
我们看到

L $L$ 与参数

W $W$ 有关，所以我们需要找到一个合适的

W $W$ 使得

L $L$ 尽可能小，这个过程称为优化。所以一个完整的分类模型，包括三个核心部分：score function，loss function 以及optimization(优化)。

一般来说，我们定义的loss function中，里面涉及的输入变量都是高维的向量，要让它们直接可视化是不可能的，我们可以通过低维的情况下得到一些直观的印象，让loss在直线或者平面上变化，比如
我们可以先初始化一个权值矩阵 $W$ ，然后让该矩阵沿着方向 $W_{1}$ 变化，那么可以评估 $W_{1}$ 不同的幅值对loss的影响，即 $L(W+aW_{1})$ ，这个loss会随着不同的 $a$ 生成
一条曲线，同样，我们可以让 $L$ 在两个方向 $W_{1}$ ， $W_{2}$ 变化， $L(W+aW_{1})+bW_{2}$ 不同的 $a,b$ 会生成不同的loss，这个loss会形成一个平面，如下图所示：

技术分享

我们可以通过从数学的角度解释这个loss function，考虑只有一个样本的情况，我们有：

L i = \sum j \neq y i [max (0, w T j x i ? w T y i x i + 1)]

$L_{i}=\sum_{j \neq y_{i}} \left[ \max(0, w_{j}^{T}x_{i}-w_{y_{i}}^{T}x_{i}+1) \right]$

从这个表达式可以看出，样本的loss是 $W$ 的一个线性函数，如果我们考虑一个含有三个样本(每个样本是一个一维的点)的训练集，这个训练集有三个类别，那么训练集
的loss可以表示为：

L 0 = [max (0, w T 1 x 0 ? w T 0 x 0 + 1)] + [max (0, w T 2 x 0 ? w T 0 x 0 + 1)] L 1 = [max (0, w T 0 x 1 ? w T 1 x 1 + 1)] + [max (0, w T 2 x 1 ? w T 1 x 1 + 1)] L 2 = [max (0, w T 0 x 2 ? w T 2 x 2 + 1)] + [max (0, w T 1 x 2 ? w T 2 x 2 + 1)] L = (L 0 + L 1 + L 2) / 3

$\begin{equation*} \begin{split} & L_{0}= \left[ \max(0, w_{1}^{T}x_{0}-w_{0}^{T}x_{0}+1) \right] + \left[ \max(0, w_{2}^{T}x_{0}-w_{0}^{T}x_{0}+1) \right] \ & L_{1}= \left[ \max(0, w_{0}^{T}x_{1}-w_{1}^{T}x_{1}+1) \right] + \left[ \max(0, w_{2}^{T}x_{1}-w_{1}^{T}x_{1}+1) \right] \ & L_{2}= \left[ \max(0, w_{0}^{T}x_{2}-w_{2}^{T}x_{2}+1) \right] + \left[ \max(0, w_{1}^{T}x_{2}-w_{2}^{T}x_{2}+1) \right] \ & L=(L_{0}+L_{1}+L_{2})/3 \end{split} \end{equation*}$
因为样本

xi $x_{i}$ 是一维的，所以系数

wi $w_{i}$ 也是一维的，它们的和

L $L$ 与与

W $W$ 的关系可以由下图表示：

技术分享

上图给出的是一维的情况，如果是高维的话，这个要复杂的多，我们希望找到一个 $W$ 使得该loss最小，上图是一个凸函数，对于这类函数的优化，是一大类属于凸优化的
问题，但是我们后面介绍的神经网络，其loss function是比这更复杂的一类函数，不是单纯地凸函数。上面的图形告诉我们这个loss function不是处处可导的，但是我们
可以利用函数subgradient(局部可导)的性质，来优化这个函数。

$W$ 的搜寻是属于一个优化问题，由于我们后面介绍的神经网络的loss function并不是凸函数，虽然我们现在看到的SVM loss function是一个凸函数，但是我们并不打算
直接用凸优化的相关方法来找这个 $W$ ，我们要介绍一种在后面的神经网络也能用到的优化技术来优化这个SVM loss function。

方案一：随机搜索
最简单，但是最糟糕的方案就是随机搜索，我们对 $W$ 赋予一系列的随机值，然后看哪个随机值对应的loss最低，这样肯定是耗时而且低效的。

方案二：随机局部搜索
在随机搜索的基础上，加上一个局部搜索，即 $W+\sigma W$ ，我们会判断这个更新是有助于loss减小还是增大，如果是减小，那么我们就更新，反之就不更新，而继续做
局部搜索。

方案三：梯度下降
最简洁高效的算法就是梯度下降法，这种方法也是神经网络优化方法中用的最多的一种方法。

一般来说，我们会Back-propagation去计算loss function对 $W$ 的偏导数, 这是利用链式法则(chain-rule)来计算梯度的一种方式.

声明：lecture notes里的图片都来源于该课程的网站，只能用于学习，请勿作其它用途，如需转载，请说明该课程为引用来源。课程网站： http://cs231n.stanford.edu/

Convolutional Neural Networks for Visual Recognition 3

标签：

原文地址：http://blog.csdn.net/matrix_space/article/details/46573669

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行