深度学习--深入理解Batch Normalization

时间：2020-04-16 15:19:25 阅读：76 评论：0 收藏：0 [点我收藏+]

一、简介

　　Batch Normalization作为最近一年来DL的重要研究成果，已经广泛被证明其有效性和重要性。虽然有些细节处还解释不清其理论原因，但是实践证明好用才是真的好，别忘了DL从Hinton对深层网络做Pre_Train开始就是一个经验领先于理论分析的偏经验的一门学问。带着导读《Batch Normalization: Accelerating Deep NetWork Training by Reducing Internal Covariate Shift》的色彩组织本篇文章。

　　机器学习领域有个很重要的假设：IID独立同分布假设，就是假设训练数据和测试数据是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得较好的结果的一个基本保障。那么BatchNorm的作用是什么呢？BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。

　　接下来一步一步理解什么是BN

二、Internal Covariate Shift问题

　　为什么深度神经网络随着网络深度加深，训练起来越困难，收敛越来越慢？这是个在DL领域很接近本质的好问题。很多论文都是解决这个问题的，比如ReLU激活函数，再比如Residual NetWork，BN本质上也是解释并从不同的角度来解决这个问题的。

　　从论文名字可以看出，BN是用来解决"Internal Covariate Shift"问题的，那么首先解释什么是"Internal Covariate Shift"：深度神经网络涉及到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化。通过层层叠加，高层的输入分布变化会非常剧烈，这就使得高层需要不断去重新适应底层的参数更新。为了训好模型，我们需要非常谨慎地去设定学习率、初始化权重、以及尽可能细致的参数更新策略。Google将这一现象总结为Internal Covariate Shift，简称ICS。

　　论文首先说明Mini-Batch SGD相对于One Example SGD的两个优势：梯度更新方向更准确；并行计算速度快；（为什么要说这些呢？因为BatchNorm是基于Mini-Batch SGD的，所以先夸下Mini-SGD，当然也是大实话）；然后吐槽下SGD训练的缺点：超参数调起来很麻烦（作者隐含的意思是用BN就能解决很多SGD的缺点）

　　接着引入Covariate shift的概念：如果ML系统实例集合<X,Y>中的输入值X的分布老是变，这不符合IID假设，网络模型很难稳定的学规律，这不得引入迁移学习才能搞定吗，我们的ML系统还得去学习怎样迎合这种分布变化啊。对于深度学习这种包含很多隐层的网络结构，在训练过程中，因为各个参数在不停变化，所以每个隐藏层都会面临covariate shift的问题，也就是在训练过程中，隐藏的输入分布老是变来变去，这就是所谓的"Internal Covariate Shift"，Internal指的是深层网络的隐层，是发生在网络内部的事情，而不是covariate shift问题只发生在输入层。

　　然后提出了BatchNorm的基本思想：能不能让每个隐层节点的激活输入分布固定下来呢？这样就避免了"Internal Covariate Shift"问题了。

　　BN不是凭空拍脑袋拍出来的好点子，它是由启发来源的：之前的研究表明如果在图像处理中对输入图像进行白化操作的话---所谓的白化，就是对输入数据分布变换到0均值，单位方差的正态分布--那么神经网络会较快收敛，那么BN的作者就开始推论了：图像是深度神经网络的输入层，做白化能加快收敛，那么其实对于深度网络来说，其中某个隐藏层的神经元是下一层的输入，意思是其实深度学习神经网络的每个隐藏层都是输入层，不过是相对下一层来说而已，那么能不能对每个隐藏层都做白化呢？这就启发BN产生的原初想法，而BN也确实就是这么做的，可以理解为对深层神经网络的每个隐层单元的激活值做简化版本的白化操作。

三、BatchNorm的本质思想

　　BN的基本思想其实相当直观：因为深层神经网络在做非线性变换前的激活输入值（就是那个x=WU+B,U是输入）随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动，之所以训练收敛慢，一般是整体分布逐渐往非线性函数取值区间的上下两端靠近（对于Sigmoid函数来说，意味着激活输入值WU+B是最大的负值或者是正值），所以这导致反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因，而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，其实就是把越来越偏的分布强行拉回到比较标准的分布，这样使得激活函数值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习兽栏速度快，能大大加快训练速度。

　　THAT‘S IT。其实一句话就是：对于每个隐层神经元，把逐渐向非线性函数映射后的取值区间极限饱和区靠拢的输入分布强行拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以避免梯度消失的问题。因为梯度一直都能保持比较大的状态，所以很明显对神经网络的参数调整效率比较高，就是变动大，就是说向损失函数最优值迈动的步子大，也就是说收敛的快。BN说到底就是这么个机制，方法很简单，道理很深刻。

　　上面说的还是比较抽象，下面更形象地表达下这种调整到底代表什么含义。

技术图片

　　假设某个隐层神经元原先的激活输入x取值符合正态分布，正态分布均值是-2，方差是0.5，对应上图中最左端的浅蓝色曲线，通过BN后转换成均为0，方差为1的正态分布，意味着什么，意味着输入x的取值正态分布整体右移2（均值的变化），图形曲线更平缓了（方差增大的变化）。这个图的意思是，BN其实就是把每个隐层神经元素激活输入分布从偏离均值为0方差为1的正态分布通过平移均值压缩或者扩大曲线的尖锐程度，调整为均值为0方差为1的正态分布。

　　这意味着在一个标注差范围内，也就是说64%的概率x其值落在【-1，1】的范围内，在连个标准差范围内，也就是说95%的概率x其值落在了【-2，2】的范围内。那么这又意味着什么？我们知道，激活值x=WU+B，U是真正的输入，x是某个神经元的激活值，假设非线性函数是sigmoid，那么看下sigmoid（x）其图形

技术图片

及sigmoid（x）的导数为：G‘=f(x)*(1-f(x))，因为f(x)=sigmoid(x)在0到1之间，所以G‘在0到0.25之间，其对应的图如下：

技术图片

　　假设没有经过BN调整前x的原正态分布均值是-6，方差是1，那么意味着95%的值落在了【-8，-4】之间，那么对应的sigmoid（x）函数的值明显接近于0，这是典型的梯度饱和区，在这个区域里梯度变化很慢，为什么是梯度饱和区？请看下面的sigmoid（x）如果取值接近0或者接近确定时候对应的导数函数取值，接近于0，意味着梯度变化很小甚至消失。而假设经过BN后，均值是0，方差是1，那么意味着95%的值落在了【-2，2】区间内，很明显这一段是sigmoid（x）函数接近于线性变化的区域，意味着x的小变化会导致非线性函数值较大的变化，也即是梯度变化较大，对应大叔函数图中明显大于0的区域，就是梯度非饱和区。

　　从上面的几个图应该看出来BN在干什么了吧？其实就是把隐层神经元激活输入x=WU+B从变化不拘一格的正态分布通过BN操作拉回到了均值为0，方差为1的正态分布，即原始正态分布中心左移或者右移到以0为均值，拉伸或者缩减形态成以1为方差的图形。什么意思？就是说经过BN后，目前大部分Activation值落入非线性函数的线性区内，其对应的函数远离导数饱和区，这样来加速训练收敛过程。

　　但是很明显，看到这里，稍微了解神经网络的读者一般会提出一个疑问：如果都通过BN，那么不就跟把非线性函数替换成线性函数效果相同了？这意味着什么？我们知道，如果是多层的线性函数变换其实这个深层是没有意义的，因为多层线性网络跟一层线性网络是等价的。这意味着网络的表达能力下降了，这也意味着深度学习的意义就没有了。所以BN为了保证非线性的获得，对变换互的满足均值为0方差为1的x又进行了scale加上shift操作（y=scale*x+shift），每个神经元增加了两个参数scale和shift参数，这两个参数是通过训练学习到的，意思是通过scale和shift把这个值从标注正态分布左移或者右移一点并长胖一点或者变瘦一点，每个实例挪动的程度不一样，这样等价于非线性函数的值从正中心周围的线性区域往非线性区域动了动。核心思想应该是想找到一个线性和非线性较好的平衡点，既能享受非线性的较强的表达能力的好处，又避免太靠近非线性区两头使得网络收敛速度太慢。当然，这是我的理解，论文作者并未明确这样说。但是很明显这里的scale函数是和shift操作会具有争议的，因为按照论文作者里写的理想状态，就会通过scale和shift操作吧变换后的x调整回未变换的状态，那不是绕了一圈又绕回去原始的"Internal Covariate Shift"问题里去了吗，感觉论文的作者并未能够清楚地解释scale和shift操作的理论原因。

四、训练阶段如何做BatchNorm

　　上面是对BN的抽象分析和解释，具体在Mini-Batch SGD下做BN怎么做？其实论文里面这块写得很清楚也容易理解。为了保证这篇文章的完整性，这里简单说明下。

　　假设对应一个深层神经网络来说，其中两层结构如下。

技术图片

　　要对每个隐层神经元的激活函数做BN，可以想象成每个隐层又加上一层BN操作层，它位于X=WU+B激活值获得之后，非线性函数变换之前，其图如下。

技术图片

　　对于Mini-Batch SGD来说，一次训练过程里面包含m个训练实例，其具体BN操作就是对于隐藏层内每个神经元的激活值来说，进行如下变换：

技术图片

　　要注意，这里t层某个神经元的x（K）不是指原始输入，就是说不是t-1层每个神经元的输出，而是t层这个神经元的线性激活函数x=WU+B，这里的U才是t-1层神经元的输出。变换的意思是：某个神经元对应的原始的激活x通过减去mini-Batch内内阁实例获得的m个激活函数x求得的均值E（x）并除以求得的方差Var（x）来进行转换。

　　上文说过经过这个变换后某个神经元的激活x形成了均值为0，方差为1的正态分布，目的把值往后续要进行的非线性白阿虎年代线性区域拉动，增大导数值，增强反向信息流动性，加快训练收敛速度。但是这样会导致网络的表达能力下降，为了防止这一点，每个神经元增加两个调节参数（scale和shift），这两个参数通过训练来学习得到的，用来对变换后的激活范斌阿混，使得网络表达能力增强，即对变换后的激活函数进行如下的scale和shift操作，这其实是比那换后的反操作：

　　技术图片

BN的具体流程，如论文中的描述一样：

技术图片

过程非常清楚，就是上述公式的流程化描述，这里不解释了，直接应该能看懂。

五、batchNorm的推理（Inference）过程

　　BN在训练的时候可以根据Mini-Batch里的若干训练实例进行激活数值调整，但是在推理过程中，很明显输入就只有一个实例，看不到Mini-Batch其它实例，那么这时候怎么对输入做BN呢？因为很明显一个实例是没法算实例集合求出的均值和方差的。这可如何是好？

　　既然没有从Mini-Batch数据里可以得到的统计量，那就想其它办法来获得这个统计量，就是均值和方差。可以用从所有训练实例中获得的统计量来代替Mini-Batch里面m个训练实例获得的均值和方差统计量，因为本来就打算用全局统计量，只是因为计算量太大所以才会用Mini-Batch这种简化方式的，那么在推理的时候直接用全局统计量即可。

　　决定了获得统计量的数据范围，那么接下来的问题是如何获得均值和方差的问题。很简单，因为每次做Mini-Batch训练时，都会有那个Mini-Batch里m个训练实例获得的均值和方差，现在要全局统计量，只要把每个Mini-Batch的均值和方差的统计量记住，然后对这些均值和方差求其对应的数学期望即可得出全局统计量，即：

技术图片