码迷,mamicode.com
首页 > Web开发 > 详细

Resnet论文翻译

时间:2018-02-04 12:39:55      阅读:855      评论:0      收藏:0      [点我收藏+]

标签:本地   nbsp   导出   标识   分析   相等   sgd   应该   定义   

Resnet

Abstract

更深的神经网络更难以训练。我们提出了一个残差的学习框架,以减轻网络的训练,比以前使用的网络要深得多。我们明确地将层次重新定义为参照层次输入学习残差函数,而不是学习未引用的函数。我们提供了全面的经验证据表明,这些残余网络可以大大增加深度,从而优化和提高准确性。在ImageNet数据集上,我们评估残留网络,最多可达152层,比VGG网络深8倍[40],但复杂度较低。在个人网站上,个人网站上出现了3.57%的错误。这是ILSVRC 2015分类任务的第一步。我们还分析了100和1000层的CIFAR-10。表示的深度对许多视觉识别任务来说是至关重要的。仅仅由于我们极其深刻的表示,我们在COCO目标检测数据集上获得了28%的相对改进。深度残留是我们参加2015年度VRC&COCO竞赛的基础,也是我们在ImageNet检测,ImageNet本地化,COCO检测和COCO分割方面获得的第一名。

1.Introduction

深度卷积神经网络[22,21]导致了图像分类的一系列突破[21,49,39]。深度网络自然地以端到端的多层方式集成了低/中/高级特征[49]和分类器,并且特征的“水平”可以通过堆叠层数(深度)来丰富。最近的证据[40,43]揭示了网络深刻的重要性,以及在具有挑战性的ImageNet数据集[35]中的主要结果[40,43,12,16]都利用“非常深”[40]模型,深度为16 [40]三十[16]。

 

许多其他非平凡的视觉识别任务[7,11,6,32,27]也从很深的模型中受到很大的好处。在深度意义的驱使下,一个问题就出现了:学习更好的网络就像堆叠更多层一样简单吗?回答这个问题的一个障碍是臭名昭着的梯度消失/爆炸的问题[14,1,8],这阻碍了从一开始的融合。然而,这个问题主要是通过归一化初始化[23,8,36,12]和中间正规化层[16]来解决的,同时有更多的网络通过反向传播[22]使随机梯度下降(SGD)继续收敛。当更深的网络能够开始收敛时,一个退化问题已经暴露出来:随着网络深度的增加,准确性变得饱和(这可能不令人意外),然后迅速退化。出乎意料的是,这种退化并不是由于过度配合造成的,如果在适当深度的模型中增加更多的层次会导致更高的训练误差,正如我们的实验[10,41]所报告的那样。

 

 

技术分享图片

图1. CIFAR-10上的20层和56层“普通”网络的训练错误(左)和测试错误(右) 较深的网络有较高的训练错误,从而测试错误。 ImageNet上的类似现象如图4所示。

 

图1显示了一个典型的例子。退化(训练准确性)表明并非所有的系统都可以很容易地进行优化。 让我们考虑更浅层的建筑和更深入的建筑,增加更多的层次。在深层模型中存在一个解决方案:增加的层次是身份映射,其他层次是从学习的浅层模型复制的。这种构建的解决方案的存在表明,与其较浅的对应方相比,但是实验表明,我们目前的解决方案无法找到解决方案,而且解决方案在构建解决方案时(或在可行时间内无法这样做)是相当好的。在本文中,我们通过引入深度残差学习框架来解决退化问题。我们不是希望每个堆叠的图层直接适合所需的底层映射,而是明确地让这些图层进行残差映射。

 技术分享图片

形式上,将所需的底层映射表示为H(x),我们让堆叠的非线性层进一步映射为F(x):= H(x)-x。 原始的映射被重新写入F(X)+ X。我们假设这比优化原始的,未引用的映射更容易优化残差映射。在极端情况下,如果一个身份映射是最优的,那么通过非线性层次的推导可以更容易地推导出个体之间的相似性。

 

 

 

F(x)+ x的形式可以通过具有“捷径”的前馈神经网络实现(图2)。快捷方式连接[2,33,48]是那些跳过一个或多个层次的连接。在我们的例子中,快捷方式连接只执行标识映射,并将其输出添加到堆叠层的输出中(图2)。身份快捷连接既不增加额外的参数,也不增加计算复杂性整个网络仍然可以通过反向传播以SGD进行端对端培训,并且可以使用通用库(如Caffe [19])轻松实现,而无需修改求解器。

 

我们在ImageNet上展示全面的实验[35]来展示退化问题并评估我们的方法。 Weshowthat:1)当前深度网格容易优化,但对应的“简单”网络(即简单堆栈层)在深度增加时表现出较高的训练误差; 2)深度残余网络可以很容易地从深度增加中获得准确性收益,产生的结果大大好于以前的网络。类似的现象也显示在CIFAR-10集[20],这表明最优化的困难和我们的方法不正确的影响不相关的数据集。我们在这个数据集上成功地训练了超过100层的模型,并探索超过1000层的模型。

 

在ImageNet分类数据集[35]中,我们通过非常深的残差网络获得了极好的结果。我们的152层残留网络是有史以来在ImageNet上提供的最深的网络,但仍然比VGG网络复杂度低[40]。我们的集合在ImageNet测试集中有3.57%的前五名错误,并在ILSVRC 2015分类竞赛中获得了第一名。极其深刻的表现力在其他识别任务上也有着非常好的综合性能,使我们在ILSVRC&COCO2015竞赛中进一步获得了第一名:ImageNet检测,ImageNet本地化,COCO检测和COCO分割。这一证据表明,个别学习原则是一般的,并且可以用于其他视觉和非视觉问题。

2.Related Work

Residual Representations.在图像识别中,VLAD [18]是一个由残差向量对字典进行编码的表示,Fisher Vector [30]可以表示为VLAD的概率版本[18]。它们都是图像检索和分类的强大的浅层表示[4,47]。对于矢量量化,编码残差矢量[17]显示比编码原始矢量更有效。

 

在低层视觉和计算机图形学中,为了求解偏微分方程(PDE),广泛使用的多重网格方法[3]将系统重新定义为多尺度的子问题,其中每个子问题负责粗糙和精细之间的剩余解规模。多重网格的一个替代方法是层次基础预处理[44,45],它依赖于代表残差向量的变量。它显示[3,44,45],这些解决方案越来越接近那些不知道解决方案的剩余性的标准求解器。这些方法最适合重新配置或预处理可以简化优化。快捷连接。导致捷径关系的实践和理论[2,33,48]已经被深入研究。培训多层感知器(MLPs)的早期实践是添加从网络输入连接到输出的线性层[33,48]。

 

在[43,24]中,几个中间层直接连接到辅助分类器,以处理消失/爆炸梯度。 [38,37,31,46]的论文提出了通过快捷连接实现层中响应,梯度和传播错误的方法。在[43]中,“起始”层由一个快捷分支和几个更深的分支组成。与我们的工作同时,“高速公路网络”[41,42]提供了与门控功能的快捷连接[15]。这些门是依赖于数据的,并且具有参数,与我们的无参数的身份快捷键相反。当门控捷径“闭合”(逼近零)时,高速公路网络中的层代表非残余功能。相反,我们的表述总是学习剩余的功能;我们的身份捷径永远都不会关闭,所有的信息都会一直传递下去,还有额外的剩余功能可供学习。另外,高分辨率网络还没有表现出在深度增加的情况下(例如超过100层)的准确性增益。

3.DeepResidualLearning

3.1.ResidualLearning

让我们把H(x)看作一个底层映射,由几个堆栈层(不一定是整个网络)来表示,其中x表示第一层的输入。如果假设多个非线性层可以渐近逼近复杂函数2,则等价于假设它们可以渐近地逼近残差函数,即H(x)-x(假设输入和输出具有相同的尺寸)。因此,不要期望堆叠层逼近H(x),我们明确地让这些层接近残差函数F(x):= H(x) - x。原来的函数因此变成F(x)+ x。虽然这种形式应该可以渐近地接近理想的功能(假设),但学习的难易可能不同。这种改写是由于降解问题的反常现象所驱动的(图1,左)。

 

正如我们在引言中所讨论的那样,如果增加的层次可以被构建为独立映射,那么模式的训练错误不会比其较浅的对手更大。退化问题表明求解器在通过多个非线性层近似身份映射方面可能有困难。随着残差学习的重新表达,如果身份映射是最优的,那么解算器可以简单地将多个非线性层的权重推向零,以接近身份映射。在实际情况下,这种不太可能的影响是最理想的,但是我们的改写可能有助于预先解决这个问题。如果最佳函数比零映射更接近身份映射,那么解算器应该比参考身份映射更容易发现扰动,而不是学习函数作为新函数。我们通过实验(图7)表明,一般的个体功能反应较少,说明身份映射提供了合理的预处理。

3.2.Identity Mapping by Shortcuts

我们对每几个堆叠层采用残差学习。一个构建块如图2所示。形式上,在本文中,我们考虑一个构建块定义为:y = F(x,{Wi})+ x。

 

 (1)这里x和y是所考虑的层的输入和输出向量。函数F(x,{Wi})表示要学习的残差映射。对于图2中有两层的例子,F =W2σ(W1x)其中σ表示ReLU [29],为简化符号省略了偏差。 F + x的操作是通过快捷连接和元素相加来完成的。我们采用加法后的第二个非线性(即σ(y),见图2)。

 技术分享图片

(1)     介绍了这些参数和计算的复杂性。这不仅在实践中很有吸引力,而且在我们对纯网络和剩余网络进行比较时也很重要。我们可以公平地比较同时具有相同数量的参数,深度,宽度和计算成本的平原/剩余网络(除了适用的元素明智的加入之外)。公式(1)中x和F的维数必须相等。如果不是这种情况(例如,当改变输入/输出通道时),我们可以通过快捷连接执行线性投影Ws以匹配尺寸:y = F(x,{Wi})+ Wsx。

(2)    技术分享图片

 

 

(2)在(1)式中,我们可以用式子来表示矩阵W.但是通过实验证明,身份映射足以解决退化问题,并且是经济的,因此只有在匹配维度时才使用Ws。剩余函数F的形式是灵活的。本文的实验涉及一个有两层或三层的函数F(图5),而更多的层可能。但是,如果F只有一层,方程(1)可以简化为:y = W1x + x,因为它们是不可取的。我们也注意到,虽然上面的符号是为了简单而关于完全连接的层,但它们适用于卷积层。函数F(x,{Wi})可以表示多个卷积层。元素相加是在两个功能图上逐个通道执行的。

3.3.NetworkArchitectures

我们测试了各种平原/残余网络,并观察到一致的现象。 为了提供讨论的实例,我们描述了ImageNet的两个模型,如下所示。 平原网络。 我们的基线(图3,中间)主要由VGGnets的理论[40](图3左)所启发。

 

 

 

 技术分享图片

 

 

卷积层主要有3×3的滤波器,并遵循两个简单的设计规则:(i)对于相同的输出特征图大小,层具有相同数量的滤波器; (ii)如果特征映射大小减半,则滤波器的数量加倍以保持每层的时间复杂度。 我们直接采用步长为2的卷积层进行下采样。网络以全局平均池层和softmax的1000路完全连接层结束。 图3(中)的加权图层总数为34。值得注意的是,我们的模型具有较少的滤波器和较低的VGGnets复杂度[40](图3左)。 我们的34层基线有36亿个FLOP(乘加),仅为VGG-19(196亿FLOP)的18%。

 

剩余网络。 基于上述普通网络,我们插入快捷连接(图3,右),将网络变成其对应的剩余版本。 当输入和输出具有相同的尺寸(图3中的实线快捷方式)时,可以直接使用身份快捷方式(方程(1))。 当尺寸增加(图3中的虚线短划痕)时,我们考虑两个选项:(A)快捷方式仍然执行标识映射,为增加尺寸填充额外的零条目。 此选项不会引入额外的参数; (B)公式(2)中的投影快捷方式用于匹配尺寸(通过1×1卷积完成)。 对于这两个选项,当快捷键跨越两个尺寸的特征映射时,它们将以2的步幅执行。

3.4.Implementation

我们对ImageNet的实现遵循[21,40]中的实践。图像的缩放比例为[256,480]随机采样,用于比例增加[40]。一个224×224的作物从图像或其水平随机采样,每像素均被提取[21]。 standardcoloraugmentationin [21]被使用。 Weadoptbatch归一化(BN)[16]紧接在每个卷积之后和激活之前,[16]。我们如[12]初始化权重,并从头开始训练所有平原/残差网络。我们使用SGD,最小批量为256.学习率从0.1开始,在错误平均时为10,模型经过60×104次迭代。我们使用0.0001的重量衰减和0.9的动量。按照[16]的做法,我们不使用辍学[13]。在测试中,为了进行比较研究,我们采用标准的10作物测试[21]。为了获得最好的结果,我们采用[40,12]中的完全卷积形式,并且在多个尺度上平均得分(图像被调整大小,使得短边在{224,256,384,480,640}中)。

4.Experiments

4.1.ImageNetClassi?cation

我们在由1000个类组成的ImageNet 2012分类数据集[35]上评估我们的方法。该模型在128万训练图像上进行训练,并在50k验证图像上进行评估。我们还从测试服务器上报告的100k测试图像上获得最终结果。我们评估top-1和top-5的错误率。平原网络。我们首先评估18层和34层平原网。图3(中)是34层平网。 18层平原网的形式相似。详细体系结构见表1。

 

 技术分享图片

表1. ImageNet的体系结构 括号内显示了积木(也见图5),积木的数量。下采样

由conv3 1,conv4 1和conv5 1执行,跨度为2。

 

 技术分享图片

表2. ImageNet验证中的Top-1错误(%,10-crop测试)。在这里ResNets没有额外的参数相比,他们的平原同行。 图4显示了训练程序。

表2的结果表明,深层网络的验证误差比较浅的18层平面网络要高。为了揭示原因,在图4(左)我们比较他们在训练过程中的训练/验证错误。我们已经观察到了退化问题 –

 

 技术分享图片

图4.在ImageNet上进行培训 细曲线表示训练错误,粗体曲线表示中心作物的验证错误。 左:平原18层和34层网络。 右:18层和34层的ResNet。 在这个图中,残差网络与之相比没有额外的参数他们明显的同行。

 

尽管18层平面网络的解空间是34层平面网络的子空间,但在整个训练过程中34层平面网络的训练误差较大。我们认为这种优化难度不大可能是由渐变消失引起的。这些普通网络用BN [16]训练,这确保了正向传播的信号具有非零差异。我们还验证了向后传播的梯度与BN有良好的规范。所以前进和后退信号都不会消失。事实上,34层平网仍然能够达到竞争的精度(表3),这表明求解器在一定程度上起作用。我们猜测,深平原网络可能具有显着的低收敛性,这就影响了它减少训练错误

 

3。未来将研究这种优化困难的原因。剩余网络。接下来我们评估18层和34层剩余网络(ResNets)。基线架构与上述普通网络相同,期望如图3(右)所示,在每对3×3滤波器上添加一个快捷连接。在第一个比较中(表2和图4右),我们使用身份映射的所有快捷方式和零填充增加尺寸(optionA).Sheyvenvenxtra参数比较明显的对应。

 

 

从表2和图4中我们可以看到三个主要的观察结果。首先,剩余学习情况相反--34层的ResNet是18层ResNet(2.8%)。更重要的是,34层ResNet展示了大量的低效率的数据,并且通过了验证数据。这表明降解问题在这个环境中得到了很好的解决,我们设法通过增加深度来获得准确性。ResNet将前1的错误减少了3.5%(表2),成功减少了传输错误(Fig.4rightvs。left)。 这种比较验证了在极深系统中残差学习的有效性。 最后,我们还注意到,18层平原/残差网络相当准确(表2),但是18层ResNet更快地收敛(图4右边与左边)。 当网络“不太深”(18层以上)时,当前的SGD能够找到平坦网络的良好解决方案。 在这种情况下,ResNet通过在早期提供更快的收敛来简化优化。

 技术分享图片

 

表3. ImageNet验证的错误率(%,10-crop测试)。VGG-16是基于我们的测试。 ResNet-50/101/152是选项B.只使用预测来增加尺寸。

 

 

 技术分享图片

表4. ImageNet上的单模型结果的错误率(%)验证集(除了在测试集上报告的?)。

 

 

 技术分享图片

表5.集合的错误率(%) 前5名的错误是在测试集ImageNet并由测试服务器报告。

 

 

最后,我们还注意到,18层平原/残差网络相当准确(表2),但是18层ResNet更快地收敛(图4右边与左边)。 当网络“不太深”(18层以上)时,当前的SGD能够找到平坦网络的良好解决方案。 在这种情况下,ResNet通过在早期提供更快的收敛来简化优化。参数无关,身份快捷键有助于训练。接下来我们研究一下预测的方法(公式(2))。在表3中,我们比较了三种选择:(A)零填充短切口用于增加尺寸,所有快捷方式都是无参数的(与表2和图4相同); (二)投影短切用于增加维度,其他捷径是身份; (C)所有捷径都是预测。表3显示,所有三个选项都比普通计数器部分好得多。我们认为这是因为A中零填充的维数确实具有个人学习能力。一般比B好,我们把它归因于许多(十三)投影捷径引入的额外参数。但A / B / C之间的微小差异表明投影捷径对增加降解问题至关重要。所以我们不使用Cintherestoft的论文来减少内存/时间复杂度和模型大小。身份快捷键对于不增加下面介绍的瓶颈体系结构的复杂性非常重要。

 

更深的瓶颈架构。 接下来我们介绍一下ImageNet的深层网络。 由于担心我们可以承受的培训时间,我们修改构建模块作为瓶颈设计4。 对于每个残差函数F,我们使用3层而不是2层(图5)。 三层是1×1,3×3,1×1卷积,其中1×1层负责减小和增加(恢复)尺寸,使3×3层成为输入/输出尺寸较小的瓶颈。 图5显示了一个例子,其中两个设计具有相似的时间复杂度。

 

 技术分享图片

图5. ImageNet的更深的残余函数F. 左:a(如56×56特征图),如图3中的ResNet34所示。右图:ResNet-50/101/152的“瓶颈”构件。

 

 

无参数的身份快捷键尤为重要为瓶颈架构。 如果身份的捷径在图5(右)被替换为投影,一个可以显示时间复杂度和模型大小增加了一倍,作为快捷方式连接到两个高维结束。 因此,身份快捷键导致更有效的模式为瓶颈设计。50层ResNet:我们用这个3层瓶颈块替换34层网络中的每个2层块,产生一个50层ResNet(Table1)。我们使用选项B来增加维度。这个模型有38亿FLOP。

 

101层和152层ResNets:我们使用更多的3层块(表1)构建101层和152层ResNets。值得注意的是,虽然深度显着增加,但152层ResNet(113亿个FLOP)的复杂性仍然低于VGG-16/19网络(15.3 / 196亿个FLOP)。 50/101/152层ResNets比34层更精确(表3和表4)。我们没有观察到退化问题,因此可以从深度上获得显着的准确性。所有的评估目睹了深度的好处

指标(表3和4)。

 

与最先进的方法进行比较。在表4中,我们将比较以前最好的单模型结果。我们的基准34层ResNets已经实现了非常有竞争力的准确性。我们的152层ResNet具有4.49%的单模式前5验证错误。这个单一模型的结果优于以前的所有集合结果(表5)。我们将六个不同深度的模型组合成一个集合(在提交时只有两个152层的集合)。这导致了测试集中的3.57%的前5个错误(表5)。本项目获得ILSVRC 2015第一名。

 

4.2.CIFAR-10 and Analysis

我们对CIFAR-10数据集进行了更多的研究[20],其中包括50k的训练图像和10k测试

10个班的图像。我们提出训练的实验在训练集上并在测试集上进行评估。我们的重点是极深网络的行为,但不是推动最先进的成果,所以我们故意使用简单的架构如下。平原/剩余结构遵循图3的形式中间/右)。网络输入是32×32图像每像素平均值减去。第一层是3×3卷积。然后我们使用3×3卷积的6n层堆叠在尺寸为{32,16,8}的特征图上,每个特征图大小为2n个图层。数字过滤器分别为{16,32,64}。子采样被执行通过与2的跨度卷积。网络结束与全球平均水池,10路完全连接层和softmax。总共有6n + 2堆叠加权层。下表总结了架构:所以我们的剩余模型具有与普通模型相同的深度,宽度和参数数量。我们使用0.0001的权重衰减和0.9的动量,并采用[12]和BN [16]中的权重初始化,但没有丢失。这些模型在两个GPU上以小于128的小批量进行训练。

 技术分享图片

我们以0.1的学习率开始,在32k和48k迭代时将其除以10,并且以64k迭代终止训练,这是在45k / 5k训练/ val分裂确定的。我们按照[24]中简单的数据增量进行训练:每边填充4个像素,从填充图像或其水平面随机抽取32×32裁剪。对于测试,我们只评估原始32×32图像的单一视图。我们比较n = {3,5,7,9},导致20,32,44和56层网络。图6(左)显示了平网的行为。深平网的深度增加,深度越深,训练错误越严重。这个现象类似于ImageNet(图4,左侧)和在MNIST上(见[41]),暗示了这样的优化困难是一个根本问题。图6(中)显示了ResNets的行为。也类似于ImageNet的情况(图4,右),我们的ResNets设法克服了优化难度,并展示深度增加时的准确性收益。我们进一步探索导致110层的n = 18RESNET。在这种情况下,我们发现初始学习率0.1稍大,开始收敛5。

 

 

 技术分享图片

 

表6. CIFAR-10测试装置上的分类错误。 所有的方法与数据增强。 对于ResNet-110,我们运行了5次并显示如[42]中的“最佳(平均值±标准差)”。所以我们使用0.01加热训练,直到训练误差低于80%(约400次迭代),然后回到0.1并继续训练。

 

剩下的学习计划完成先前。这个110层网络收敛良好(图6,中间)。它比其他深度和精细网络如FitNet [34]和Highway [41](表6)的参数少,却是最先的结果(6.43%,表6)。分层响应。标准如图7所示层响应的偏差(std)。答复是BN和之的每个3×3层的输出非线性(ReLU /加法)。对于ResNets,这个分析揭示了剩余函数的响应强度。图7显示ResNets通常具有较小的响应比普通的同行。这些结果支持我们的基础动机(第3.1节)剩余功能可能通常比非残留函数更接近零。我们也注意到ResNet越深,幅度越小的反应,由比较证明图7中的ResNet-20,56和110层,ResNets的一个单独的层倾于修改信号少。探索超过1000层。我们积极探索超过1000层的深层模型。我们设置n = 200那个导致一个1202层的网络,如上所述进行训练以上。我们的方法没有显示优化的难度

 

这个103层网络能够实现训练错误<0.1%(图6,右)。它的测试错误还是相当不错的(7.93%,表6)。但是这样的积极进取还存在一些悬而未决的问题深刻的模型。这个1202层网络的测试结果

 

 

 技术分享图片

图6. CIFAR-10的培训 虚线表示训练错误,粗线表示测试错误。 左:普通网络。 错误

平原110高于60%,并没有显示。 中:ResNets。 右:ResNets 110和1202层。

 

 技术分享图片

图7. CIFAR10上图层响应的标准偏差(std)响应是每个3×3层的输出,在BN和B之后在非线性之前。 上图:图层显示为原始图层订购。 底部:响应按降序排列。

 

分层响应。图7显示了层响应的标准偏差(std)。响应是每个3×3层的输出,在BN之后和其它非线性(ReLU /加法)之前。对于ResNets,这个分析揭示了剩余函数的响应强度。图7显示了网络比普通网站有更普遍的反应。这些结果支持我们的基本动机(Sec.3.1),即残差函数可能比非残差函数更接近零。我们也注意到,更深的ResNet具有较小的响应幅度,通过图7中的ResNet-20,56和110的比较得到证实。当层数较多时,单个ResNets层倾向于更少地修改信号。探索超过1000层。

我们探索一个超过1000层的深度模型。我们设置了n = 200的leadstoa1202层网络,如上所述。我们的方法没有显示最优化难度,这个103层网络能够达到<0.1%的训练误差(图6,右)。它的测试错误还是相当不错的(7.93%,表6)。

但是,这种积极深入的模式仍然存在一些问题。 这个1202层网络的测试结果比我们的110层网络差,尽管两者都有相似的训练错误。 我们认为这是因为过度配合。 对于这个小数据集,1202层网络可能会不必要的大(19.4M)。 为了获得这个数据集中最好的结果([9,25,24,34]),使用了诸如maxout [9]或dropout [13]的强正则化。

在本文中,我们没有使用maxout / dropout,只是简单地通过设计深度和精简的体系结构来强化正则化,而不注重优化的难度。 但是,加强正规化可能会改善我们将来研究的结果。

 

 技术分享图片

表7.使用基线更快R-CNN的PASCAL VOC 2007/2012测试集上的对象检测mAP(%)。 另请参阅附录以获得更好的结果。

 

 

 技术分享图片

表8.使用baselineFasterR-CNN的COCO验证集中的对象检测mAP(%)。更多附件以获得更好的结果。

 

4.3.Object Detection on PASCAL and MSCOCO

我们的方法在其他识别任务上具有很好的泛化性能。 表7和表8显示了PASCAL VOC 2007和2012 [5]和COCO [26]的物体检测基线结果。 WeadoptFasterR-CNN [32] asthedetectionmethod。 在这里我们感兴趣的是用ResNet-101代替VGG-16 [40]的改进。 使用这两种模型的检测实现(参见附录)是相同的,对于更好的网络来说是不可能的。 最显着的是,在具有挑战性的COCO数据集中,我们在COCO的标准度量(mAP @ [5,.95])上增加了6.0%,这相对提高了28%。 这个收益完全是由于学习的表示。 基于深度残留网络,我们在多个行业中首次获得了ISSVRC&COCO2015竞争优势:ImageNet检测,ImageNet本地化,COCO检测和COCO分割。

 

Resnet论文翻译

标签:本地   nbsp   导出   标识   分析   相等   sgd   应该   定义   

原文地址:https://www.cnblogs.com/ansang/p/8412760.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!