神经网络（十一）残差网络

时间：2018-01-19 11:55:33 阅读：225 评论：0 收藏：0 [点我收藏+]

前言

我们都知道增加网络的宽度和深度可以很好的提高网络的性能，深的网络一般都比浅的的网络效果好，比如说一个深的网络A和一个浅的网络B，那A的性能至少都能跟B一样，为什么呢？因为就算我们把A的网络参数全部迁移到B的前面几层，而B后面的层只是做一个等价的映射，就达到了A网络的一样的效果。一个比较好的例子就是VGG，该网络就是在AlexNex的基础上通过增加网络深度大幅度提高了网络性能。

技术分享图片

但事实真的是这样的吗？不然，通过实验我们发现，当网络层数达到一定的数目以后，网络的性能就会饱和，再增加网络的性能就会开始退化，但是这种退化并不是由过拟合引起的，因为我们发现训练精度和测试精度都在下降，这说明当网络变得很深以后，深度网络就变得难以训练了。

介绍

ResNet的出现其实就是为了解决网络深度变深以后的性能退化问题。

技术分享图片

ResNet就是用这种跳跃结构来作为网络的基本结构。为什么要使用这种结构呢？作者认为，本来我们要优化的目标是H(x)=F(x)+x（x就是该结构的输入）但是通过这种结构以后就把优化的目标由H(x)转化为H(x)-x。

那么问题又来了，优化目标转化后又有什么用呢，为什么可以通过这种方式来解决退化问题呢？我们之前说到，深网络在浅网络的基础上只要上面几层做一个等价映射就可以达到浅网络同样的效果，但是为什么不行呢，就是因为我们的算法很难将其训练到那个程度，也就是说没办法将上面几层训练到一个等价映射，以至于深网络最后达到了一个更差的效果。那么这时，我们把训练目标转变，由原来的H(x)转为H(x)-x(残差网络本质)，因为这时候就不是把上面几层训练到一个等价映射了，而是将其逼近与0（resnet学习的是残差函数F(x) = H(x) - x, 这里如果F(x) = 0, 那么就是上面提到的恒等映射），这样训练的难度比训练到一个等价映射应该下降了很多。

也就是说，在一个网络中（假设有5层），如果前面四层已经达到一个最优的函数，那第五层就是没有必要的了，这时我们通过这种跳跃结构，我们的优化目标就从一个等价映射变为逼近0了，逼近其他任何函数都会造成网络退化。通过这种方式就可以解决网络太深难训练的问题。

事实上，resnet是“shortcut connections”的在connections是在恒等映射下的特殊情况，它没有引入额外的参数和计算复杂度。假如优化目标函数是逼近一个恒等映射, 而不是0映射，那么学习找到对恒等映射的扰动会比重新学习一个映射函数要容易。从下图可以看出，残差函数一般会有较小的响应波动，表明恒等映射是一个合理的预处理。

技术分享图片