解读 | 2019 年 10 篇计算机视觉精选论文（下）

时间：2020-09-18 04:05:34 阅读：35 评论：0 收藏：0 [点我收藏+]

https://mp.weixin.qq.com/s/f9YpIfqqdCI1Bd_el4pCIQ

By 超神经

内容一览：2019 年已经接近尾声，在这一年里，计算机视觉（CV）领域又诞生了大量出色的论文，提出了许多新颖的架构和方法，进一步提高了视觉系统的感知和生成能力。我们精选了 2019 年十大 CV 研究论文，帮你了解该领域的最新趋势，继之前推出的上系列和中系列之后，这是该系列的最后一个部分。Enjoy~

关键词：计算机视觉 精选论文 解读

近年来，计算机视觉（CV）系统已经逐渐成功地应用在医疗保健，安防，运输，零售，银行，农业等领域，也正在逐渐改变整个行业的面貌。

今年，CV 领域依然硕果累累，在各个顶尖会议中诞生了多篇优秀论文。我们从中精选了 10 篇论文以供大家参考、学习。限于篇幅，我们将解读分为了上、中、下三个篇章分期进行推送。

以下是这 10 篇论文完整的目录：

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
EfficientNet：卷积神经网络模型缩放的反思
Learning the Depths of Moving People by Watching Frozen People
通过观看静止的人来学习移动的人的深度
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation
增强的跨模态匹配和自我监督的模仿学习，用于视觉语言导航
A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
非视线形状重构的费马路径理论
Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection
Reasoning-RCNN：将自适应全局推理统一到大规模目标检测中
Fixing the Train-Test Resolution Discrepancy
修复训练测试分辨率差异
SinGAN: Learning a Generative Model from a Single Natural Image
SinGAN：从单个自然图像中学习生成模型
Local Aggregation for Unsupervised Learning of Visual Embeddings
视觉聚合的无监督学习的局部聚合
Robust Change Captioning
强大的更改字幕
HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models
HYPE：人类对生成模型的 eYe 感知评估的基准

本文是序号 8-10 的详细解读，前面的内容请查看往期内容：

解读 | 2019 年 10 篇计算机视觉精选论文（上）
解读 | 2019 年 10 篇计算机视觉精选论文（中）

8

技术图片

论文摘要

神经网络中的无监督学习方法对于促进 AI 的发展具有重大的意义，一方面是因为这种方法，不需要进行大量的标记，就可进行网络训练，另一方面，它们将是人为部署中，更好的通用模型。

但是，无监督的网络的性能长期落后于有监督网络，尤其是在大规模视觉识别领域。但最近有一种新的方法，可以弥补这一差距，它是通过训练深度卷积嵌入，以最大化非参数去进行实例分割和聚类。

这篇论文中，描述了一种训练嵌入函数以最大化局部聚合度量的方法，该方法可让相似的数据实例在嵌入空间中相互靠近，同时允许不同实例分开。该聚合指标是动态的，允许不同规模的软聚类产生。

该模型在几个大型视觉识别数据集上进行了评估，在 ImageNet 中的对象识别，Places 205 中的场景识别，以及 PASCAL VOC 中的对象检测方面，均实现了最先进的无监督转移学习性能。

核心思想

本文介绍了一种新颖的无监督学习算法，该算法可在潜在特征空间中对相似图像进行局部非参数聚合。

技术图片

所提出的本地聚合（ Local Aggregation，LA）过程的总体目标，是学习一种嵌入功能，该功能将图像映射到表示空间中的特征，在该表达空间中，相似的图像分组在一起，而不同的图像则会分开：

对于每个输入图像，使用深度神经网络将图像嵌入到低维空间中。
然后，该模型识别嵌入相似的近邻和背景近邻，这些特征用于设置判断邻近度的距离尺度。
通过优化，当前嵌入向量被推到更靠近其近邻，并进一步远离其背景近邻。

引入的过程产生的表示形式支持下游计算机视觉任务。

关键成就

在以下方面，本地聚合明显优于其他架构：

目标识别：经过 LA 培训的 ResNet-50 在 ImageNet 上，达到了 60.2％的 top-1准确性，高于直接在监督任务上进行训练的 AlexNet ；

场景分类： LA 训练的 ResNet-50 在 Places 数据集，达到了 50.1％的精度，展现了其强大的迁移学习性能。

目标检测：在 PASCAL 检测任务的无监督转移学习中，取得了最先进的性能（在ResNet-50 上的平均精度为 69.1％）。

技术图片

所获荣誉

该论文在计算机视觉领域顶级会议 ICCV 2019 中，收获了最佳论文奖。

后续研究

探索使用基于非局部流形学习的先验检测相似性的可能性。
通过分析学习的多个步骤中的代表变化来改善差异检测。
将 LA 目标应用于其他领域，比如视频和音频。
将 LA 程序与生物视觉系统进行对比。

应用场景

这项研究对于计算机视觉研究而言，是将无监督学习用于现实世界中的重要一步，且使物体检测和对象识别系统，能够在不花费昂贵的注释费用的情况下正常运行。

代码获得

在 GitHub 上提供了 Local Aggregation 算法的 TensorFlow 实现。
地址：https://github.com/neuroailab/LocalAggregation

9

技术图片

论文摘要

描述场景中发生的变化是一项重要的工作，但前提是生成的文本只关注语义相关的内容。因此，需要将干扰因素（例如视点变化）与相关变化（例如物体移动）区进行区分。

此文提出一种新颖的双重动态注意力模型（DUDA），以执行强大的变化文本描述。该模型学会了将干扰因素与语义变化区分开，通过对前后图像进行双重关注来定位变化，并通过自适应地关注必要的视觉输入（例如「之前」），通过动态扬声器准确地用自然语言描述它们。（或之后的图片）。

为了进一步探究此问题，我们收集了基于 CLEVR 引擎的 CLEVR-Change 数据集，其中包含 5 种类型的场景变更。我们以数据集为基准，并系统地研究了不同的变化类型和干扰因素的鲁棒性。在描述变化和本地化方面都展示了 DUDA 模型的优越性。

结果表明此方法是通用的，它在没有干扰因素的 Spot-the-Diff 数据集上，获得了最先进的性能。
技术图片

核心思想

研究团队提出了用于变化检测和字幕说明的双重动态注意力模型（DUDA）：

该模型包括用于更改本地化的 Dual Attention 组件，和用于生成更改描述的 Dynamic Speaker 组件。
这两个神经网络都是使用字幕级监督进行联合训练的，并且没有有关更改位置的信息。
给出「之前」和「之后」图像后，模型将检测场景是否已更改；如果已改变，它将在两个图像上定位变化，然后生成一个描述变化的句子，该句子是基于图像对在空间和时间上的信息。

本文还介绍了一个新的 CLEVR-Change 数据集，该数据集：