深度学习面试题21：批量归一化(Batch Normalization,BN)

时间：2019-07-24 22:32:39 阅读：150 评论：0 收藏：0 [点我收藏+]

标签：数据分布 width 作者面试题 inception 区域 cin 计算公式 2014年

BN是由Google于2015年提出，论文是《Batch Normalization_ Accelerating Deep Network Training by Reducing Internal Covariate Shift》，这是一个深度神经网络训练的技巧，主要是让数据的分布变得一致，从而使得训练深层网络模型更加容易和稳定。所以目前BN已经成为几乎所有卷积神经网络的标配技巧了。

返回目录

BN的作用

Internal Convariate shift是BN论文作者提出来的概念，表示数据的分布在网络传播过程中会发生偏移，我们举个例子来解释它，假设我们有一个玫瑰花的深度学习网络，这是一个二分类的网络，1表示识别为玫瑰，0则表示非玫瑰花。我们先看看训练数据集的一部分：

技术图片

直观来说，玫瑰花的特征表现很明显，都是红色玫瑰花。再看看训练数据集的另一部分：

技术图片

很明显，这部分数据的玫瑰花各种颜色都有，其特征分布与上述数据集是不一样的。

通俗地讲，刚开始的数据都是同一个分布的，模型学习过程中，模型的参数已经适合于一种分布，突然又要适应另一种分布，这就会让模型的参数发生很大的调整，从而影响到收敛速度和精度，这就是Internal covariate shift。

而BN的作用就是将这些输入值或卷积网络的张量进行类似标准化的操作，将其放缩到合适的范围，从而加快训练速度；另一方面使得每一层可以尽量面对同一特征分布的输入值，减少了变化带来的不确定性。

返回目录

BN的操作阶段

某一批次的张量通过卷积层并加上偏置后，relu激活之前，即

技术图片

返回目录

BN的操作流程

假设某一批次的数据为2个2行2列2深度的张量，BN的过程如下：

技术图片

第一步：

计算每一层深度的均值和方差

技术图片

第二步：

对每一层设置2个参数，γ和β。假设第1深度γ=2、β=3；第2深度γ=5、β=8。

计算公式：

技术图片

返回目录

BN可以防止梯度消失吗

BN可以防止学习过程中梯度消失，这一点论文中有阐述，作者说可以如果使用sigmod激活函数的时候，如果不用BN的话，会让反向传播的过程中梯度消失（当输出值较大或较小时，sigmod函数就会进入饱和区域，导致其导数几乎为零），但是可以通过使用Relu激活函数来解决，那就意味着BN主要还是让数据分布变为一致。

返回目录

为什么归一化后还要放缩和平移

如果激活函数选择的sigmod函数，我们知道多层线性神经网络其实可以用一层线性网络来表示，那我们使用BN算法将输入值投射到激活函数的线性区域，会不会使得深度网络效果下降呢？答案是肯定的，如果仅仅是归一化各层输入值到一个近似的线性区域，我们的深层网络能力将大大降低。

技术图片