标签:难度 nsf ubi com 尺寸 结合 消失 csdn res
这是今年CPVR2020 一篇关于超分辨率的论文。这篇文章的创新点在于它将零次学习 (Zero-Shot Learning)和元转换学习(Meta Transfer Learning)进行结合,提出了新的超分算法 MZSR 。
ZSSR最早被提出,将图像内部学习用于图像超分辨率。它能够很好地学习图像内部的先验信息,从而利用这些内部信息恢复图像高频信息。由于 ZSSR 从一张图像中学习,因此需要几千次的梯度更新迭代,也就是说测试时推理时间很长。
而 MZSR则是通过元转换学习解决测试推理时间长的问题,MZSR 在测试时只需要一次梯度更新就可以取得可观的结果。
论文:https://arxiv.org/pdf/2002.12213.pdf
github: https://github.com/JWSoh/MZSR
单幅图像超分,它是基于图像的退化模型:
其中 $I_{LR}^{k}$ 为LR图像,$I_{HR}$ 为HR图像,$k$ 为模糊核(blur kernel),$s$为下采样的尺度因子,$n$为高斯白噪声。
在SISR(单幅图像超分)领域,大多数CNNs方法的缺点:
ZSSR是一种完全无监督或者说自监督的方法,用于学习图像特有的内部信息。对于任意测试图像 $I_{LR}$ 模型都会经过训练和测试,从而得到高分辨率图像。在训练时,首先将测试图像$I_{LR}$ 用期望的下采样核进行下采样,生成更小的低分辨率子图像 $I_{son}$ 。于是,$I_{LR}$ 也就成了$I_{son}$ 高分辨率的监督样本。然后,用单个图像生成的LR-HR对训练CNN网络。训练仅仅依赖测试图像,因此 CNN 网络能够学习到图像特有的内部信息。测试时,输入测试图像$I_{LR}$ ,CNN 模型就能够生成超分辨率图像 $I_{SR}$ 。虽然ZSSR能够SISR的两个问题,但它在超分过程中需要上千次的梯度更新(即需要很长的推断时间),而且ZSSR只使用了图像的内部信息(相似的结构、模式等),没有使用大量的外部数据信息。
Meta-Learning的目标是使网络能够在少量样本的情况下快速学习一个新的任务(如人可以在只观察几张图片的情况下认识一种新的动物)。meta-learning 分为 meta-training 和 meta-test 阶段,meta-training 使得模型能够适应大量不同的任务(各种不同的模糊核 ),meta-test使得模型在几次更新后就能适应一个新的任务(未知的特定核 )。
因此本文在meta-learning和ZSSR的基础上提出了MZSR(基于元-迁移学习的零样本超分),MZSR首先通过大量的外部数据找到适合进行内部学习(Internal Learning)的通用初始参数,然后再进行ZSSR,即同时使用了外部和内部的信息。这样能够使得ZSSR只用一次梯度更新就能取得很好的超分结果,即该网络能够快速适应任一给定的图像条件。
本文主要受到MAML(与模型无关的元学习,meta-learning)和ZSSR的启发,提出MZSR,其流程如下,主要分为三步:
大规模数据训练 Large-scale Training
这一阶段使用 大规模图像数据集 DIV2K,并使用已知 Bicubic 降采样生成低分辨率图像组成成对的训练集$(I_{HR}, I^{bic}_{SR})$。网络采用 L1 Loss进行训练。
这样做的好处:
元转换学习 Meta Transfer Learning
用meta-learning(元学习)的思想,用不同的任务(模糊核$(k)$不同,基于大量外部数据生成不同的LR-HR数据对)来学习任务层面的知识(task-level knowledge),此时得到模型参数 (称这时网络权重为最优的初始状态,能够在meta-test阶段通过几次梯度更新,就可以快速地适应各种特定的任务)。
用大量不同模糊核k合成训练数据集$D_{meta}(I_{HR},I_{LR}^{k})$,模糊核分布$p(k)$:
基于$D_{meta}$训练元训练器,$D_{meta}$分为任务级别训练集task-level training $D_{tr}$和任务级别测试集task-level test $D_{te}$。
对于里面每一个新任务$T_i$,参数$\theta_i$ 适用于该任务需要一次或多次梯度下降更新:
优化好的$theta_i$要能达到以下的最小损失:
更新$θ$即图中$θ_M$:
Meta-Test
元测试阶段就是 ZSSR, 这个阶段使用模型能够直接学习单个图像内部信息。给定 LR 图像,通过降采样核生成子图像$I_{son}$,用于训练。但是只需要少量的梯度更新就能得到很好的效果,得到最终的模型参数 $\hat{\theta}_{k}$ (ZSSR需要数千次的更新)。
CNN 采用8层网络架构,参数量为225K。对于元转换训练,使用DIV2K数据集作为外部数据集。对于内部循环,使用5次梯度更新,去获得自适应参数。训练时输入图像尺寸为64x64,为了应对由于基础学习器展开过程而导致的梯度消失或爆炸问题,利用每个步骤的加权损失总和,即对每个展开步骤的其他损失进行监督。
最初始的点,除最后展开步骤外,论文平均权衡损失并降低权重。最后,加权损失收敛到最终的训练任务损失。论文采用ADAM 优化器作为元优化器。论文也针对了不同的二次采样方法训练了两种模型:直接和双三次。
论文针对不同的降采样方式,对模型进行分析。
测试数据集为 Set5,BSD100和 Urban100。论文分析YCbCr 空间下的 Y 通道的图像PSNR 和 SSIM值。MZSR 虽然PSNR 数值与有监督学习方法有较大差距,但是MZSR在测试阶段经过一次梯度更新后就能够取得ZSSR 相当的性能表现。经过10次梯度更新后,性能能够进一步的提升。
论文分析了四种场景:严重混叠,各向同性高斯,非各向同性高斯和各向同性高斯,随后进行Bicubic 下采样。
从下表中可以看到,MZSR 在不同Kernel 上都能够取得出色的性能。可以认为MZSR是一种快速,灵活且准确的超分辨率方法。
下图进一步说明了 MZSR 的优势,可以看到尽管在初始点上 MZSR 生成的图像具有明显的伪影和噪声,但是经过一次迭代后,MZSR 能够生成接近HR 图像的结果,并且在 PSNR 值上获得了明显的提升。相比之下预训练网络经过一次迭代之后,并不能有效改善图像质量。
最后是一些测试图像局部细节的对比,验证了MZSR 的有效性。
标签:难度 nsf ubi com 尺寸 结合 消失 csdn res
原文地址:https://www.cnblogs.com/ai-tuge/p/13054207.html