稀疏自动编码之反向传播算法（BP）

时间：2014-10-13 02:27:02 阅读：310 评论：0 收藏：0 [点我收藏+]

标签：style blog http io ar for sp 2014 on

假设给定m个训练样本的训练集 $bubuko.com,布布扣$ ，用梯度下降法训练一个神经网络，对于单个训练样本(x,y)，定义该样本的损失函数：

$bubuko.com,布布扣$

那么整个训练集的损失函数定义如下：

$bubuko.com,布布扣$

第一项是所有样本的方差的均值。第二项是一个归一化项（也叫权重衰减项），该项是为了减少权连接权重的更新速度，防止过拟合。

我们的目标是最小化关于 W 和 b 的函数J(W,b). 为了训练神经网络，把每个参数 $bubuko.com,布布扣$ 和 $bubuko.com,布布扣$ 初始化为很小的接近于0的随机值（例如随机值由正态分布Normal(0,ε²)采样得到，把 ε 设为0.01）, 然后运用批量梯度下降算法进行优化。由于 J(W,b) 是一个非凸函数，梯度下降很容易收敛到局部最优，但是在实践中，梯度下降往往可以取得不错的效果。最后，注意随机初始化参数的重要性，而不是全部初始化为0. 如果所有参数的初始值相等，那么所有的隐层节点会输出会全部相等，因为训练集是一样的，即输入一样，如果每个模型的参数还都一样，输出显然会相同，这样不论更新多少次参数，所有的参数还是会相等。随机初始化各个参数就是为了防止这种情况发生。

梯度下降每一次迭代用下面的方式更新参数W 和 b：

$bubuko.com,布布扣$

其中 α 是学习率。上述迭代的关键是计算偏导数。我们将给出一种方向传播算法，能够高效地计算这些偏导数。

由上面的总体的损失函数公式, 很容易得到偏导数公式如下：

$bubuko.com,布布扣$

反向传播算法的思想是：给定某个训练样本(x,y)，首先进行“前向传播”计算出整个网络中所有节点的激活值，包括输出节点的输出值。那么对于 l 层的节点 i ,计算它的“残差” $bubuko.com,布布扣$ ，这个残差用来衡量该节点对输出的残差产生了多大程度的影响。对于输出节点，我们可以直接比较出网络的激活值与真正的目标值之间的残差，即 $bubuko.com,布布扣$ （n_l层就是输出层）。对于隐层节点，我们用 l+1 层残差的加权平均值和 l 层的激活值来计算 $bubuko.com,布布扣$ .