今天开始学Pattern Recognition and Machine Learning (PRML)，章节5.2-5.3，Neural Networks神经网络训练（BP算法）

时间：2015-02-01 14:41:45 阅读：348 评论：0 收藏：0 [点我收藏+]

标签：

这一篇是整个第五章的精华了，会重点介绍一下Neural Networks的训练方法——反向传播算法（backpropagation，BP），这个算法提出到现在近30年时间都没什么变化，可谓极其经典。也是deep learning的基石之一。还是老样子，下文基本是阅读笔记（句子翻译+自己理解），把书里的内容梳理一遍，也不为什么目的，记下来以后自己可以翻阅用。

5.2 Network Training

我们可以把NN看做一种通用的非线性函数，把输入向量x变换成输出向量y，可以类比于第一章中的多项式曲线拟合问题。给定输入集合，目标集合，sum-of-squares error function定义为：

这一节主要主要是想说明error function也可以从最大似然估计的角度推导出来的。见（5.12-14）。这一部分从简了，有时间完善。

（case 1）上面的y可以是identity，即

（case 2）当然也可以是二分类问题逻辑回归模型（可以参考第4章逻辑回归的内容），处理单一的2分类问题。

针对一个样本的类别的条件概率是一个伯努利分布Bernoulli distribution：

定义在数据集上的error function是cross-entropy：

有人证明，采用cross-entropy作为分类问题的目标函数可以比最小均方差泛化能力更强，以及训练更快。

（case 3）如果我们要做的分类是K个独立二分类分体，那么上面的条件分布修改为：

error funciton：

这里讲一讲参数共享，第一层的神经网络的参数实际上被output层所有神经元所贡献，这样的贡献可以减少了一定的计算量同时提高了泛化能力。

（case 4）当我们考虑不是独立二分类，而是1-of-K的分类问题，也就是说每一个结果是互斥的，我们需要采用softmax分类：

在数据集上error function定义：

其中，softmax的激励函数定义为

上面这一段说明了softmax的一个平移不变性的特性，但是会在regularization框架下消失。

总结一下：

下面讲一讲优化的方法：

5.2.4 Gradient descent optimization

梯度下降（GD）的公式是这样的：

这个也叫做batch model，梯度是定义在整个数据集上的，也就是是每一步迭代需要整个数据集。参数优化过程中每一步都是朝着error function下降最快的方向前进的，这样的方法就称为梯度下降算法，或者最速梯度下降。但是这样的方法比较容易找到局部最优（local optima），比如下面的图示，来自leftnoteasy

技术分享

初始的时候我们在一个随机的位置，希望找到目标值最低的谷底，但是事实上我们并不知道我们找到的是不是global optima。上述batch model的优化方法，还有更快捷的方法，如conjugate gradients和quasi-Newton methods。如果要得到足够好的最小值，就需要多进行几轮GD，每次都选用不同的随即初始点，并在validation set中验证结果的有效性。

还有一种on-line版本的gradient descent（或者称为sequential gradient descent或者stochastic gradient descent），在训练神经网络的时候被证明非常有效。定义在数据集上的error function是每个独立样本的error function之和：

那么，on-line GD的更新公式是：

每次更新一个样本，方式是每次sequential取一个样本，或者有放回的random取。在onlineGD和GD之间还存在着中间形态，基于一个batch的数据。onlineGD的好处有：计算量小，同时更容易从有些local optima中逃出。

5.3 Error Backpropagation误差反向传导

在这一节中，我们会讨论一种快速计算前向网络误差函数E(w)梯度的方法——也就是著名的Error backpropagation算法，或者简称 backprop。

值得一提的是，backpropagation在其他地方也有类似的名称，比如在multilayer perceptron（MLP）经常也叫做backpropagation network。backpropagation在其中的意思是通过梯度下降的方法来训练MLP。事实上，大部分算法（训练）涉及一个迭代过程来最小化目标函数，在这个过程中基本上有两个阶段：一是计算error function的对于参数的导数，BP正是提供了一种计算所有参数导数的快速、有效方法；二是通过求出的导数来更新原来的参数，最常见的方法就是梯度下降方法。这两个阶段是相互独立的，这意味着BP算法的思想并不是只能用于MLP这样的网络，也不是只能用于均方误差这样的error function，BP可以被用于很多其他算法。

5.3.1 Evaluation of error-function derivatives

接下来我们来推导一下BP算法，条件是在一个任意拓扑结构的前向网络中，任意的可导的非线性激励函数，以及支持一系列error function（基本是很通用的了）。推导过程会用一个具有一个隐层的神经网络，以及均方误差的error function来说明。

常见的error function，定义在一个i.i.d（独立同分布）数据集上，有如下的形式:

下面我们会考虑针对error function其中的一项来求梯度，。这个结果可以直接用于序列优化（sequential optimization），或者把结果累加起来用于batch优化。（注：其实这个所谓序列优化就是现在广为人知的随机梯度下降。）

首先，我们先来考虑最为简单的线性output函数的情况：

y_k是对样本x的第k个输出（假设输出层有多个node），是x所有维度的一个线性组合。更一般性而言，我们定义在任意一个样本x_n上error function：

其中，上面error function针对参数的梯度是：

这个结果可以看做是一种“局部计算”——这个乘积一部分是误差连接在权重的输出端，另一部分是变量连接在权重的输入端。上面的形式在逻辑回归中也出现过（章节4.3.2），在softmax中也是类似，下面来看在更一般的多层前向网络中是怎么样的。

在一个一般结构的前向网络中，每个神经元（不算输入层）计算它输入的加权和：

其中zi是前面一个神经元（后面叫做节点或者node之类的都是同一个意思）的激励值输出，也是一个输入值输入到了节点j，是这个连接的权重。在前面一篇今天开始学PRML-5.1节，我们介绍过，可以通过引入一个额外的输入节点且固定激励值是+1，我们可以把bias项合并在上面的累加中。因此，我们对待bias项是和对待其他的待估权重是一样的。然后得到节点j的激励函数的形式：