Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

时间：2014-08-15 17:50:59 阅读：899 评论：0 收藏：0 [点我收藏+]

一、本文的主要思想

考虑到传统的CNN构架的输入图像的尺寸都是固定的（例如：256*256），这种人工改变输入图像的尺寸破坏了输入图像的尺度和长宽比例。作者认为卷积层的输入的尺寸可以是任意，全连接层的输入是固定不变。针对这个问题，作者提出了spatial pyramid pooling（SPP-net）结构，在目标检测方面，比R-CNN快30-170倍。

bubuko.com,布布扣

二、spatial pyramid pooling（SPP-net）的优势

1、针对不同尺寸的输入可以得到相同维度的输出，而siding window pooling 做不到；

2、SPP使用multi-level spatial bins, 而siding window pooling采用的单一的窗口，multi-level对目标变形非常鲁棒；

3、由于输入尺寸的可变性，SPP可以提取不同尺度的特征。

三、Deep Networks with Spatial Pyramid Pooling

特征提取的过程其实很简单，就是将SPP放在卷积层的最后一层，pooling层以前，将相当于用SPP代替最后一层pooling。假设最后一层卷积层有256个maps，每个maps的尺寸为a*a，n*n个bins。那么采用窗口win=ceil（a/n）和步长str=floor（a/n）的max-pooling。最后将所有的特征级联起来作为全连接层的输入。这样就保证了无论输入图像的尺寸，输入全连接层的输入都有同样的大小。示意图如下：

bubuko.com,布布扣