VGG:VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION学习

时间：2017-09-03 14:14:48 阅读：1436 评论：0 收藏：0 [点我收藏+]

牛津大学 visual geometry group（VGG）Karen Simonyan 和Andrew Zisserman 于14年发表的论文。论文地址：https://arxiv.org/pdf/1409.1556.pdf。与alex的文章虽然都采用层和每层之间用pooling层分开，最后三层FC层(Fully Connected全连接层）。但是AlexNet每层仅仅含有一个Convolution层，VGG每层含有多个(2~4)个Convolution层。AlexNet的filter的大小7x7（很大）而VGG的filter的大小是3x3（最小）。它通过降低filter的大小，增加层数实现更佳的效果。以下为论文解读。

ABSTRACT

研究了卷积网络深度对其大型图像识别的精准度的影响。主要贡献是使用非常小（3×3）卷积滤波器，将神经网络层次深度推到16-19层。2014年ImageNet分别在localisation和classification赛中获得了第一名和第二名。同时模型对其他数据集很好地泛化。

1 INTRODUCTION

本文介绍了ConvNet架构的另一个重要方面设计 - 深度。很多人尝试改善2012年提出的AlexNet来实现更好的效果,ZFNet在第一卷积层使用更小的卷积(receptive window size)和更小的步长(stride)2，另一种策略是多尺度地在整张图像上密集训练和测试。

2 CONVNET CONFIGURATIONS

受到Ciresan et al.(2011); Krizhevsky et al. (2012).启发。为了公平测试深度带来的性能提升，VGGNet所有层的配置都遵循了同样的原则。

2.1 ARCHITECTURE

输入fixed-size 224 × 224 RGB image。数据预处理：每个像素上减去RGB的均值。在卷积层中小的Filter尺寸为3*3，有的地方使用1*1的卷积,这种1*1的卷积可以被看做是对输入通道的线性变换。卷积步长(stride)设置为1个像素，3*3卷积层的填充（padding）设置为1个像素。池化层采用max-pooling,共有5层，池化是2*2，步长为2。通过Relu进行非线性处理，增加网络的非线性表达能力。不使用局部响应标准化(LRN)，这种标准化并不能在ILSVRC数据集上提升性能，却导致更多的内存消耗和计算时间。

2.2 CONFIGURATIONS

技术分享

2.3 DISCUSSION

与AlexNet和ZFNet不同，VGGNet在网络中使用很小的卷积。用多个小filter代替大的filter更有好处。例如三个3*3卷积而不是一个7*7的卷积，因为每层后都有ReLU，我们结合了三个非线性整流层而不是单一层，这使得决策功能更具区分性。同类的网络例如Goodfellow et al的11层网络及GoogLeNet都采用的小的filter。