标签:动态 时间序列 不同 深度 高级 连接 wan 基于 接受
在本文中,我们提出了一种端到端的多阶段特征融合网络,
该网络在前馈神经网络架构的不同阶段融合了支持框架的时间对齐特征和原始参考框架的空间特征。
在我们的网络中,时间对齐分支被设计为帧间时间对齐模块,用于减轻支撑框架和参考框架之间的错位。
具体来说,我们应用多尺度扩张可变形卷积作为基本操作来生成支撑框架的时间对齐特征。之后,调制特征融合分支,我们网络的另一个分支接受时间对齐的特征图作为条件输入,并在分支主干的不同阶段调制参考帧的特征。
这使得在特征融合过程的每个阶段都可以参考参考帧的特征,从而导致从 LR 到 HR 的增强特征。
利用从参考帧和每个支撑帧中提取的特征来预测采样卷积核的偏移量,
通过将学习到的动态核应用于支撑特征的特征以进行时间对齐。
基于支撑帧和参考帧的对齐特征,进行融合操作,将所有特征聚合成整个时间序列的整体特征表示,然后作为输入用于重建 HR 帧。
主要问题是特征融合操作没有考虑融合特征与原始 LR 参考帧中的视觉信息之间的差异。
这种差异可能是由于视频中的强烈运动导致的不完美的特征对齐或严重模糊造成的,
如果处理不当,可能会在上游 HR 帧重建操作中进一步放大,导致 VSR 性能下降,
理想情况下,特征融合应该以渐进的方式进行,其中原始 LR 参考帧可以在融合过程的多个阶段介入融合,使融合的特征能够忠实地保留参考帧中的视觉信息,并用于准确地重建 HR 帧(参见图 1 中的我们)。
多阶段特征融合网络
该网络在前馈神经网络架构的不同阶段融合了支撑框架的时间对齐特征和原始参考框架的空间特征.
图 2说明了我们的多阶段融合方法与现有的单阶段融合方法[1]、[16]、[17]、[20]之间的区别。
在我们的网络中,时间对齐分支在帧间时间对齐模块中设计,可用于在特征级别减轻支撑帧和参考帧之间的错位。
给定一个参考框架和一个支撑框架,我们采用VSR [16]、[17] 中常用的 DConv [21 ]来对齐它们的特征。
为了有效地探索视频帧中的上下文信息,我们建议使用多尺度扩张卷积作为基本操作来学习采样卷积核的偏移量,以便不同尺度的对象/场景可以更好地跨帧对齐(参见第 III 节-B)。
我们的实验结果表明,这样一个简单的多尺度扩张可变形对齐模块优于现有的金字塔、级联和可变形 (PCD) 对齐[17](见表 V,在 Vid4 数据集上 PSNR 得分的显着增益 = 0.14 dB)。时间对齐分支的输出是所有支持帧的特征图。
该经过调节后特征融合科接受上述时间对准特征映射作为条件输入到多个经过调节后的残余块的融合(MRFB) 作为分支主干级联。
每个 MRFB 都接受参考帧的空间变换特征图和时间对齐的条件输入特征图作为输入。
时间对齐的条件特征图用于学习一对调制参数,这些参数可以作为参考帧的空间特征图上的仿射变换应用。
在空间特征图上应用调制参数,我们最终得到一个时间调制的空间特征图,它保留了原始参考中的视觉信息(通过跳过连接),并且可以传递给下一个 MRFB 以进行下一阶段的融合。我们还将最后一个 MRFB 的输出反馈给第一个,以有效地结合低级和高级融合特征图。我们方法的优点是参考帧的视觉信息可以在特征融合过程的不同阶段流动,允许空间和时间特征在 VSR 学习目标的指导下进行深度交互。我们将通过实验证明,当在基准 VSR 数据集上进行评估时,所提出的方法可以实现优于现有技术的良好性能。
我们强调了我们工作的主要贡献:
一种新颖的 VSR 特征融合方法,允许在网络主干的不同阶段聚合空间和时间特征。
一个多尺度可变形对齐模块,用于在特征级别对齐帧。
在基准 VSR 数据集上的最先进性能。
EDVR
为了区别对待框架和其中的空间位置,Wang等人。[17]提出了一个时间和空间注意 (TSA) 特征融合模块来合并多个帧,这些帧的特征通过 PCD 对齐模块对齐,其灵感来自[16] 中提出的 TDAN 方法. 然而,这些现有方法的问题在于它们只是以一阶段的方式进行特征融合,可能无法忠实地保留参考帧中的原始视觉信息。
读后:Multi-Stage Feature Fusion Network for Video Super-Resolution
标签:动态 时间序列 不同 深度 高级 连接 wan 基于 接受
原文地址:https://www.cnblogs.com/ming-michelle/p/14902715.html