卷积神经网络(一）

时间：2016-05-08 19:34:26 阅读：461 评论：0 收藏：0 [点我收藏+]

标签：

摘自UFLDL教程，链接：http://deeplearning.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B

一. 概述

以监督学习为例，假设我们有训练样本集 $技术分享$ ，那么神经网络算法能够提供一种复杂且非线性的假设模型 $技术分享$ ，它具有参数 $技术分享$ ，可以以此参数来拟合我们的数据。

为了描述神经网络，我们先从最简单的神经网络讲起，这个神经网络仅由一个“神经元”构成，以下即是这个“神经元”的图示：

这个“神经元”是一个以 $技术分享$ 及截距 $技术分享$ 为输入值的运算单元，其输出为 $技术分享$ ，其中函数 $技术分享$ 被称为“激活函数”。在本教程中，我们选用sigmoid函数作为激活函数 $技术分享$

$技术分享$

可以看出，这个单一“神经元”的输入－输出映射关系其实就是一个逻辑回归（logistic regression）。

虽然本系列教程采用sigmoid函数，但你也可以选择双曲正切函数（tanh）：

$技术分享$

以下分别是sigmoid及tanh的函数图像

$技术分享$ 函数是sigmoid函数的一种变体，它的取值范围为 $技术分享$ ，而不是sigmoid函数的 $技术分享$ 。

注意，与其它地方（包括OpenClassroom公开课以及斯坦福大学CS229课程）不同的是，这里我们不再令 $技术分享$ 。取而代之，我们用单独的参数 $技术分享$ 来表示截距。

最后要说明的是，有一个等式我们以后会经常用到：如果选择 $技术分享$ ，也就是sigmoid函数，那么它的导数就是 $技术分享$ （如果选择tanh函数，那它的导数就是 $技术分享$ ，你可以根据sigmoid（或tanh）函数的定义自行推导这个等式。

神经网络模型

所谓神经网络就是将许多个单一“神经元”联结在一起，这样，一个“神经元”的输出就可以是另一个“神经元”的输入。例如，下图就是一个简单的神经网络：

我们使用圆圈来表示神经网络的输入，标上“ $技术分享$ ”的圆圈被称为偏置节点，也就是截距项。神经网络最左边的一层叫做输入层，最右的一层叫做输出层（本例中，输出层只有一个节点）。中间所有节点组成的一层叫做隐藏层，因为我们不能在训练样本集中观测到它们的值。同时可以看到，以上神经网络的例子中有3个输入单元（偏置单元不计在内），3个隐藏单元及一个输出单元。

我们用 $技术分享$ 来表示网络的层数，本例中 $技术分享$ ，我们将第 $技术分享$ 层记为 $技术分享$ ，于是 $技术分享$ 是输入层，输出层是 $技术分享$ 。本例神经网络有参数 $技术分享$ ，其中 $技术分享$ （下面的式子中用到）是第 $技术分享$ 层第 $技术分享$ 单元与第 $技术分享$ 层第 $技术分享$ 单元之间的联接参数（其实就是连接线上的权重，注意标号顺序）， $技术分享$ 是第 $技术分享$ 层第 $技术分享$ 单元的偏置项。因此在本例中， $技术分享$ ， $技术分享$ 。注意，没有其他单元连向偏置单元(即偏置单元没有输入)，因为它们总是输出 $技术分享$ 。同时，我们用 $技术分享$ 表示第 $技术分享$ 层的节点数（偏置单元不计在内）。

我们用 $技术分享$ 表示第 $技术分享$ 层第 $技术分享$ 单元的激活值（输出值）。当 $技术分享$ 时， $技术分享$ ，也就是第 $技术分享$ 个输入值（输入值的第 $技术分享$ 个特征）。对于给定参数集合 $技术分享$ ，我们的神经网络就可以按照函数 $技术分享$ 来计算输出结果。本例神经网络的计算步骤如下：

$技术分享$

我们用 $技术分享$ 表示第 $技术分享$ 层第 $技术分享$ 单元输入加权和（包括偏置单元），比如， $技术分享$ ，则 $技术分享$ 。

这样我们就可以得到一种更简洁的表示法。这里我们将激活函数 $技术分享$ 扩展为用向量（分量的形式）来表示，即 $技术分享$ ，那么，上面的等式可以更简洁地表示为：

$技术分享$

我们将上面的计算步骤叫作前向传播。回想一下，之前我们用 $技术分享$ 表示输入层的激活值，那么给定第 $技术分享$ 层的激活值 $技术分享$ 后，第 $技术分享$ 层的激活值 $技术分享$ 就可以按照下面步骤计算得到：

$技术分享$

将参数矩阵化，使用矩阵－向量运算方式，我们就可以利用线性代数的优势对神经网络进行快速求解。

目前为止，我们讨论了一种神经网络，我们也可以构建另一种结构的神经网络（这里结构指的是神经元之间的联接模式），也就是包含多个隐藏层的神经网络。最常见的一个例子是 $技术分享$ 层的神经网络，第 $技术分享$ 层是输入层，第 $技术分享$ 层是输出层，中间的每个层 $技术分享$ 与层 $技术分享$ 紧密相联。这种模式下，要计算神经网络的输出结果，我们可以按照之前描述的等式，按部就班，进行前向传播，逐一计算第 $技术分享$ 层的所有激活值，然后是第 $技术分享$ 层的激活值，以此类推，直到第 $技术分享$ 层。这是一个前馈神经网络的例子，因为这种联接图没有闭环或回路。

神经网络也可以有多个输出单元。比如，下面的神经网络有两层隐藏层： $技术分享$ 及 $技术分享$ ，输出层 $技术分享$ 有两个输出单元。

要求解这样的神经网络，需要样本集 $技术分享$ ，其中 $技术分享$ 。如果你想预测的输出是多个的，那这种神经网络很适用。（比如，在医疗诊断应用中，患者的体征指标就可以作为向量的输入值，而不同的输出值 $技术分享$ 可以表示不同的疾病存在与否。）

二. 反向传导算法

假设我们有一个固定样本集 $技术分享$ ，它包含 $技术分享$ 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲，对于单个样例 $技术分享$ ，其代价函数为：

$技术分享$

这是一个（二分之一的）方差代价函数。给定一个包含 $技术分享$ 个样例的数据集，我们可以定义整体代价函数为：

$技术分享$

以上公式中的第一项 $技术分享$ 是一个均方差项。第二项是一个规则化项（也叫权重衰减项），其目的是减小权重的幅度，防止过度拟合。

[注：通常权重衰减的计算并不使用偏置项 $技术分享$ ，比如我们在 $技术分享$ 的定义中就没有使用。一般来说，将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。如果你在斯坦福选修过CS229（机器学习）课程，或者在YouTube上看过课程视频，你会发现这个权重衰减实际上是课上提到的贝叶斯规则化方法的变种。在贝叶斯规则化方法中，我们将高斯先验概率引入到参数中计算MAP（极大后验）估计（而不是极大似然估计）。]

权重衰减参数 $技术分享$ 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义： $技术分享$ 是针对单个样例计算得到的方差代价函数； $技术分享$ 是整体样本代价函数，它包含权重衰减项。

以上的代价函数经常被用于分类和回归问题。在分类问题中，我们用 $技术分享$ 或 $技术分享$ ，来代表两种类型的标签（回想一下，这是因为 sigmoid激活函数的值域为 $技术分享$ ；如果我们使用双曲正切型激活函数，那么应该选用 $技术分享$ 和 $技术分享$ 作为标签）。对于回归问题，我们首先要变换输出值域（译者注：也就是 $技术分享$ ），以保证其范围为 $技术分享$ （同样地，如果我们使用双曲正切型激活函数，要使输出值域为 $技术分享$ ）。

我们的目标是针对参数 $技术分享$ 和 $技术分享$ 来求其函数 $技术分享$ 的最小值。为了求解神经网络，我们需要将每一个参数 $技术分享$ 和 $技术分享$ 初始化为一个很小的、接近零的随机值（比如说，使用正态分布 $技术分享$ 生成的随机值，其中 $技术分享$ 设置为 $技术分享$ ），之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 $技术分享$ 是一个非凸函数，梯度下降法很可能会收敛到局部最优解；但是在实际应用中，梯度下降法通常能得到令人满意的结果。最后，需要再次强调的是，要将参数进行随机初始化，而不是全部置为 $技术分享$ 。如果所有参数都用相同的值作为初始值，那么所有隐藏层单元最终会得到与输入值有关的、相同的函数（也就是说，对于所有 $技术分享$ ， $技术分享$ 都会取相同的值，那么对于任何输入 $技术分享$ 都会有： $技术分享$ ）。随机初始化的目的是使对称失效。

梯度下降法中每一次迭代都按照如下公式对参数 $技术分享$ 和 $技术分享$ 进行更新：

$技术分享$

其中 $技术分享$ 是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法，它是计算偏导数的一种有效方法。

我们首先来讲一下如何使用反向传播算法来计算 $技术分享$ 和 $技术分享$ ，这两项是单个样例 $技术分享$ 的代价函数 $技术分享$ 的偏导数。一旦我们求出该偏导数，就可以推导出整体代价函数 $技术分享$ 的偏导数：

$技术分享$

以上两行公式稍有不同，第一行比第二行多出一项，是因为权重衰减是作用于 $技术分享$ 而不是 $技术分享$ 。

反向传播算法的思路如下：给定一个样例 $技术分享$ ，我们首先进行“前向传导”运算，计算出网络中所有的激活值，包括 $技术分享$ 的输出值。之后，针对第 $技术分享$ 层的每一个节点 $技术分享$ ，我们计算出其“残差” $技术分享$ ，该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点，我们可以直接算出网络产生的激活值与实际值之间的差距，我们将这个差距定义为 $技术分享$ （第 $技术分享$ 层表示输出层）。对于隐藏单元我们如何处理呢？我们将基于节点（译者注：第 $技术分享$ 层节点）残差的加权平均值计算 $技术分享$ ，这些节点以 $技术分享$ 作为输入。下面将给出反向传导算法的细节：

进行前馈传导计算，利用前向传导公式，得到 $技术分享$ 直到输出层 $技术分享$ 的激活值。
对于第 $技术分享$ 层（输出层）的每个输出单元 $技术分享$ ，我们根据以下公式计算残差：
$技术分享$
[译者注：
$技术分享$
]
对 $技术分享$ 的各个层，第 $技术分享$ 层的第 $技术分享$ 个节点的残差计算方法如下：
$技术分享$
{译者注：
$技术分享$
将上式中的 $技术分享$ 与 $技术分享$ 的关系替换为 $技术分享$ 与 $技术分享$ 的关系，就可以得到：
$技术分享$
以上逐次从后向前求导的过程即为“反向传导”的本意所在。 ]
计算我们需要的偏导数，计算方法如下：
$技术分享$

最后，我们用矩阵-向量表示法重写以上算法。我们使用“ $技术分享$ ” 表示向量乘积运算符（在Matlab或Octave里用“.*”表示，也称作阿达马乘积）。若 $技术分享$ ，则 $技术分享$ 。在上一个教程中我们扩展了 $技术分享$ 的定义，使其包含向量运算，这里我们也对偏导数 $技术分享$ 也做了同样的处理（于是又有 $技术分享$ ）。

那么，反向传播算法可表示为以下几个步骤：

进行前馈传导计算，利用前向传导公式，得到 $技术分享$ 直到输出层 $技术分享$ 的激活值。
对输出层（第 $技术分享$ 层），计算：
$技术分享$
对于 $技术分享$ 的各层，计算：
$技术分享$
计算最终需要的偏导数值：
$技术分享$

实现中应注意：在以上的第2步和第3步中，我们需要为每一个 $技术分享$ 值计算其 $技术分享$ 。假设 $技术分享$ 是sigmoid函数，并且我们已经在前向传导运算中得到了 $技术分享$ 。那么，使用我们早先推导出的 $技术分享$ 表达式，就可以计算得到 $技术分享$ 。

最后，我们将对梯度下降算法做个全面总结。在下面的伪代码中， $技术分享$ 是一个与矩阵 $技术分享$ 维度相同的矩阵， $技术分享$ 是一个与 $技术分享$ 维度相同的向量。注意这里“ $技术分享$ ”是一个矩阵，而不是“ $技术分享$ 与 $技术分享$ 相乘”。下面，我们实现批量梯度下降法中的一次迭代：