本文来自《Image-to-Image Translation with Conditional Adversarial Networks》,是Phillip Isola与朱俊彦等人的作品,时间线为2016年11月。
图像处理,计算机图形学,计算机视觉中很多问题可以看成是将输入图像“转换”到输出图像上。如将RGB图像转换到梯度图像,边缘图像,或者语义标签map等等。而传统解决image-to-image的问题是将该问题划分成几个子问题(如[15, 24, 19, 8,10, 52, 32, 38, 17, 57, 61]),其实都是一样的,即从pixels预测pixels。
- 证明条件GAN可以解决很多这类问题,并生成可以接受的结果;
- 提出一个简单的框架去得到好的结果,并分析几个重要的结构选择。
image-to-image变换问题通常被整理成逐像素分类或者回归问题[27,34,38,57,61]。这些形式化描述将输出空间视为“非结构化”,即在给定输入图像的情况下,每个输出像素被视为在条件上独立于所有其他输出像素。条件GAN是学习一个结构化loss(structured loss),结构化loss会惩罚输出的联合设置。大量的文献都考虑这种loss,如条件随机场[9],SSIM指标[55],特征匹配[14],非参数化loss[36],卷积伪先验[56],基于匹配协方差统计的损失[29]。条件GAN不同于学到的loss,理论上,其实惩罚介于输出和目标之间任何可能的不同结构。
不同于之前的几种生成器和判别器的结构选择,本文的生成器使用的是U-Net结构[49];判别器使用的是卷积“PatchGAN”分类器,其只惩罚在图像块尺度规模上的结构。一个类似的PatchGAN结构在文献[37]中早就有所提及,其实为了抓取局部类型统计。本文展示该方法可以适用更广泛的问题,还分析了更改patch size带来的影响。
GAN是生成模型,可以学习一个随机噪音向量\(z\)到输出图像\(y\)的映射:\(G:z \rightarrow y\)。而条件GAN是基于观测的图片\(x\)和随机噪音向量\(z\),学习映射到\(y\):\(G:\{x,z\}\rightarrow y\)。该训练过程如图2.
众所周知L2 loss(看图4,L1也会模糊)会让图像生成问题中生成的图像变得模糊,虽然这些loss不能准确的抓取高频纹理,可是他们还是能够抓取低频轮廓的。对于这种情况,不需要一个全新的框架来强制低频的正确性,L1就够了。
这样鉴别器有效地将图像建模为马尔可夫随机场,其是假设像素之间的独立可分性性超过了块的直径。这种联系在文献[37]中有所探讨,同样对纹理模型[16,20]和风格[15,21,24,36]也有常见假设。PatchGAN因此可以理解成一种纹理/风格 loss形式。
为了优化该网络,遵循标准方法:交替的迭代,先在D上迭代一次,然后在G上迭代一次。如最初始GAN中所述,训练G时,不最小化\(log(1-D(x,G(x,z)))\),而是最大化\(\log D(x,G(x,z))\)。另外,在优化D时,将目标除以2,这让D相对G而言减慢了速度。本文使用minibatch SGD和Adam解析器,学习率为0.0002,动量参数分别为\(\beta_1=0.5,\beta_2=0.999\)。
在推论阶段,运行生成器,其配置如训练过程一致。这不同于传统的,在测试时候也还是用dropout,并且基于测试batch使用BN,而不是用训练时候的batch。当batchsize设置为1时,BN被称为“实例标准化”,并且已被证明在图像生成任务中有效[53]。 在本实验中,根据实验使用1到10之间的batchsize。
- 语义 labels$\leftrightarrow $photo, 基于Cityscapes数据集[11];
- 建筑 labels$\leftrightarrow $photo,基于CMP Facades[44];
- Map$\leftrightarrow $aerial photo, 从谷歌地图爬取的数据;
- BW$\rightarrow $color photos,基于[50]训练;
- Edges$\rightarrow $ photo, 训练数据来自[64,59];二值边缘使用HED边缘检测器[57]加上后处理完成的;
- Sketch$\rightarrow \(photo,测试 edges\)\rightarrow $photo 人类绘制的模型来自[18];
- Day$\rightarrow $ night,基于[32];
- thermal$\rightarrow $color photos,训练数据来自[26];
- photo withmissing pixels $\rightarrow $ inpainted photo,基于Paris streetview,来自[13].
而day to night训练集之包含91张图片(结果在图14)。这种量级的数据集下,训练自然是很快的;例如图13中的结果只需要在单张titian x gpu上训练小于2个小时就够了,在测试阶段,所有的模型之需要少于1s的时间。
- 首先,在亚马逊标注平台上(Amazon Mechanical Turk,AMT)运行"real vs fake"项目,其中涉及的图形问题,如着色和照片生成,让真人来给出结果,这里的map生成,aerial photo 生成和图像着色都是用这个方法;
- 其次,基于现有的识别系统测量是否生成的cityscapes足够真实。该指标相似于[51]中的"inception score",[54]中的目标检测评估,[61,41]中的“semantic interpretability”评估。
AMT perceptual studies
在着色实验中,真实和假的图片都从同样的灰度输入上生成;对于Map$\leftrightarrow $aerial photo,真实和假的图片不是从同样的输入上生成的,为了让任务变得更困难,和避免floor-level现象,是基于256x256分辨率图片训练的,但是利用全卷积变换在512x512的分辨率上测试,然后下采样并以256x256分辨率呈现给Turker。对于着色,是在256x256分辨率上训练和测试,并以同样的分辨率呈现给Turker。
图4表示在\(labels \rightarrow photo\)问题上不同变化的影响,L1会生成合理但是很模糊的结果。cGAN(此时式子4中\(\lambda=0\))会生成更锐化的结果,但是在某些应用上会引入视觉造假的情况。将这两项合起来(\(、lambda=100\))可以减少这种造假现象。
作者在cityscapes \(labels \rightarrow photo\)任务上使用FCN-score方式进行评估质量(如表1)。
条件GAN的一个影响是它还能生成清晰的图片,超分辨空间结构即使在输入label map中并不存在。我们可以想象cGAN在空间维度上有类似"锐化"的效果,即让图像更具色彩性。就如L1在某个位置不确定是什么边缘纹理时会赋予模糊一样,当不确定像素应该采用的几个合理颜色值中的哪一个时,它也会赋予平均的浅灰色。具体而言,L1会通过选择基于可能的颜色基础上条件概率密度函数的中值来达到最小化的目的。另一方不,对抗Loss可以在实际中对那些非真实浅灰色输出变得敏感,并倾向匹配真实颜色分布。
作者测试了变化判别器感受野的patch size N带来的影响,从1x1的PixelGAN到一个完整的286x286的ImageGAN。
PatchGAN的一个优势是一个固定size的patch 判别器可以应用到任意大小的图像上。同样作者会将该生成器应用在比训练时候更大的图像上。作者在\(map \leftrightarrow aerial photo\)任务上。在256x256图像上训练好一个生成器,在512x512上进行测试。图8展示了该方法的效果。
作者在\(map \leftrightarrow aerial photograph\)和\(grascale \rightarrow color\)任务结果上进行了感性真实性的验证。基于AMT对\(map \leftrightarrow aerial photograph\)进行评估的结果在表4。
为了做该任务测试,在cityscape \(photo \rightarrow labels\)上训练cGAN(分有和没L1 loss)。图10就是对应结果,定量分类准确度在表6.
