基于时空注意力的双分支视频超分辨率网络

2022-03-16刘翠微丁彩胤石祥滨

沈阳航空航天大学学报 2022年1期

刘翠微，丁彩胤，李侃，颜卓，石祥滨

(沈阳航空航天大学计算机学院，沈阳 110136)

超分辨率技术用于对低分辨率图像进行清晰化处理从而提升图像分辨率。根据输入的不同，超分辨率技术可分为单幅图像超分辨率技术和视频超分辨率技术。前者以单幅图像为输入，后者以来自相同场景的多幅图像为输入，两者的目标皆为重建一幅包含更多细节信息、画质更清晰的高分辨率图像。该技术在通信、娱乐、遥感、监控和医学等诸多领域具有广阔的应用价值。

与单幅图像超分辨率任务[1-9]相比，视频超分辨率技术能够利用相同场景下多幅图像的数据冗余性更好地恢复高频细节信息。随着深度学习技术在单幅图像超分辨率任务中的成功应用，近年来涌现出了一些基于深度学习的视频超分辨率方法，大致可以分为两类。第一类方法[10-14]利用多帧的长期时间依赖性来重建视频片段中丢失的高频细节。BRCN[10]采用双向RNN来保持相邻帧之间的长期相关性。RBPN[11]通过循环编码和解码模块构成了连续视频帧的空间和时间背景。TDAN[12]引入了一个时间变形对齐模块，用来对齐不同帧的特征，从而获得更好的性能。文献[13-14]充分利用视频多帧图像间的空间和时间信息提高当前帧的超分辨重构精度。另一类视频超分辨率方法[15-21]通过显式的运动补偿对相邻帧进行对齐，然后用补偿后的多幅图像重建一幅高分辨率图像。文献[15-16]首先采用单独的光流估计方法来补偿相邻帧中的运动，然后对运动补偿后的低分辨率视频帧执行超分辨。为了实现网络的整体优化，文献[17-21]提出将运动补偿和视频超分辨率构成一个端到端的网络模型。VESCPN[17]利用空间转换器估计帧间的运动，并设计了3种合并低分辨率视频帧的策略。SPMC[18]引入亚像素运动补偿层，共同进行运动补偿和上采样。FRVSR[19]是一个循环的超分辨率网络，利用先前超分辨出的高分辨率帧来重构后续的高分辨率帧。文献[20]提出一种用于视频超分辨的SOF-VSR网络，包括OFRnet和SRnet。OFRnet实现了光流的超分辨率，用高分辨率光流图对输入视频帧进行运动补偿，然后将运动补偿后的视频帧送入SRnet中构建高分辨率视频帧。文献[21]进一步扩展了这项工作。目前第二类视频超分辨率方法均是平等地对待运动补偿后的相邻视频帧，缺乏对不同源信息的区分能力，会降低模型的泛化能力。事实上，相邻的几个图像帧对于恢复高频图像细节信息的贡献是不同的，如果能够提高网络模型对高贡献视频帧的敏感性，使其专注于学习更重要的视频帧特征，那么网络的表示能力将得到增强。另一方面，在视频超分辨率过程中往往存在几何结构畸变和尖锐的边缘，进而导致高频细节丢失、图像模糊。因此需要额外的约束来进一步提高重构后的高分辨率视频帧的结构一致性。

为解决以上问题，本文提出了基于时空注意力的双分支视频超分辨率网络，该网络由图像分支和梯度分支构成，整体框架结构如图1所示。图像分支的目标是利用一组相邻的视频帧重构一幅高分辨率图像，为此，提出时空注意力残差块(Spatial-Temporal Attention Residual,STAR)来构建超分辨率网络。STAR能够生成空间和时间注意力图，指示不同局部区域和时间通道的重要性。因此图像超分辨网络可以选择性地聚焦于运动补偿后的低分辨率视频帧中的信息，例如边缘和纹理部分。梯度分支采用与图像分支相同的网络结构，不同的是，它以运动补偿后的低分辨率视频帧的梯度图作为输入，重建一幅高分辨率梯度图。由于梯度图能够有效表达局部区域的显著性，因此梯度分支可以更好地保持高分辨率图像的几何结构。图像分支和梯度分支通过融合不同层次的中间特征相互提供先验知识，达到增强高频特征图的目的。最后，将梯度分支重构的高频结构信息反馈到图像分支，进一步提高重构出的高分辨率图像的结构一致性。

1 时空注意力的双分支视频超分辨率网络

1.1 网络总体框架

图1描述了基于时空注意力的双分支视频超分辨率网络的整体框架。低分辨率视频表示为{I1,I2,…,IT}，以视频帧It作为中间帧，首先使用OFRnet[20]分别评估前一帧It-1和后一帧It+1相对于It的高分辨率光流图。然后将每个高分辨率光流图应用亚像素卷积层的逆操作分解成16个低分辨率光流图，再分别与对应的低分辨率视频帧做运动补偿，从而得到16个运动补偿后的低分辨率视频帧。最后将来自It-1和It+1的32个运动补偿后的低分辨率视频帧和中间视频帧It沿通道维度相连，送入双分支视频超分辨率网络中。

图1 时空注意力的双分支视频超分辨率网络整体框架

图像分支包含两个用于特征转换的卷积层，5个用于编码高频特征表示的STAR块以及一个用于分辨率增强的亚像素卷积层。STAR块由并行连接的空间注意力模块(Spatial Attention Module,SAM)和时间注意力模块(Temporal Attention Module,TAM)组成。因为平滑区域通常包含更多的低频信息，而非平滑区域通常包含更多的高频信息。所以，空间注意力模块突出显示纹理和边缘以增强网络恢复高频细节的能力。此外，时间注意力模块主要探索不同时间通道的重要性，以便更好地利用运动补偿后低分辨率视频帧中的冗余信息。

梯度分支以运动补偿的低分辨率视频帧的梯度图作为输入，使用与图像分支相同的结构来恢复高分辨率梯度图。这两个分支在不同的层次上交替融合中间特征。梯度分支的最后一个STAR块输出的高频细节信息输入到图像分支，从而增强超分辨率视频帧的结构一致性。

1.2 时空注意力残差块(Spatial-Temporal Attention Residual,STAR)

图2展示了时空注意力残差块的具体结构。空间注意力模块会生成与输入特征图大小相同的注意力图，以强调信息丰富的局部区域。时间注意力模块为每个时间通道生成一个权重，并且该权重在不同的局部像素之间共享。为了稳定深层网络的训练，引入了长跳跃连接。

图2 STAR结构图

(1)

其中W1∈RC/r×C和W2∈RC×C/r分别表示两个缩放层的变换。最后将输入特征图F与时间权重图Mt(F)相乘，对特征图赋予不同的重要性。

(2)

其中σ为sigmoid激活函数，W3表示使用7×7内核的卷积运算。最后，空间注意力图通过逐元素乘积运算作用于原始输入特征图F之上，对不同的空间像素赋予不同的权重。

受文献[22]的启发，本文设计了STAR模块构建时间和空间注意力图，并行连接空间注意力模块和时间注意力模块，并将输出的带有权值的特征图沿通道维度相连。然后使用1×1卷积层将通道数量减少一半。此外，添加长跳连接构造残差块，以实现深度网络的稳定训练。

1.3 梯度分支

在视频超分辨率图像中往往存在几何结构畸变和尖锐边缘等问题，进而导致高频细节丢失，图像模糊。梯度分支利用梯度图中保留的几何结构来指导图像分支的超分过程。为此，梯度分支以运动补偿后的低分辨率视频帧的梯度图作为输入，将中间特征表示与图像分支中的特征进行融合，提高重构高分辨率图像的结构一致性。受单幅图像超分辨率[8]的启发，本文将梯度信息的思想推广到视频超分辨率任务中，设计了一种新的特征融合策略，并通过实验验证了该策略的优越性。

首先计算运动补偿的低分辨率视频帧I的梯度图G(I)，公式如式(3)～(4)所示。

∇I(x)=(I(x+1,y)-I(x-1,y),

I(x,y+1)-I(x,y-1))

(3)

G(I)=‖∇I‖2

(4)

G(I)显示了I中每个像素的显著性，只关注梯度强度，忽略了方向信息，大部分区域的值趋近于0。因此，梯度分支更注重轮廓、边缘、纹理等图像结构信息。此外，它能够捕捉连续帧中的结构相关性，从而更好地恢复丢失的高频细节。

如图1所示，梯度分支中的第1、第3和第5层的中间特征被送到图像分支中的相应层。同时，将图像分支中第2层和第4层的中间特征返回到梯度分支。这种融合策略可以从两个方面提高视频超分辨率网络的性能：一方面，图像分支含有丰富的纹理信息，这对于梯度图的恢复具有重要意义；另一方面，将梯度分支的特征融合到不同层次的图像分支中，可以实现早期监督与指导，使网络能够尽快学习到梯度信息。

2 实验对比分析

2.1 实验配置与数据集

本模型采用4×SR缩放因子，即重构高分辨率视频的大小是输入低分辨率视频大小的4倍。与文献[20-21]类似，本模型使用从CDVL数据库中收集的145个视频作为训练数据集，以端到端的方式进行训练。这些视频涵盖了不同的自然和城市场景。在文献[18]的基础上，利用双三次插值对原始视频进行下采样，得到540×960大小视频，作为原始高分辨率视频；然后进一步向下采样，生成135×240大小的低分辨率视频。在Vid4数据集[23]和SPMCS-11数据集[18]上进行测试，验证了本模型的有效性。

在训练阶段，从一个低分辨率视频片段中随机提取T个连续帧，并随机裁剪一个32×32的色块作为输入。同时，在高分辨率视频片段中裁剪相应的色块作为ground truth监督信息。在测试阶段，使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似性指数(Structural SIMilarity,SSIM)来评价超分出的高分辨率视频帧的准确性。然后统计视频片段中所有帧的PSNR/SSIM来表示视频整体的PSNR/SSIM值。

本模型是在Pytorch框架中实现的，所有实验都在装有NVIDIA TITAN RTX GPU的PC上完成。在训练过程中，使用β1=0.9和β2=0.999的Adam优化器[24]，批量大小设置为32。初始学习率设置为0.000 1，每5万次迭代后降低为原来的一半，迭代次数为40万次。

2.2 消融实验

为验证模型的有效性，在Vid4数据集上进行消融实验，构建了几种不同的视频超分辨网络进行比较。首先分析STAR块中空间注意力模块(Spatial Attention Module,SAM)和时间注意力模块(Temporal Attention Module,TAM)的不同组合，以寻找最有效的连接方式。SAM和TAM模块可以按3种方式连接：顺序SAM-TAM，顺序TAM-SAM和TAM & SAM并行连接。在只包含图像分支的简化网络中应用SAM和TAM的3种组合方式，并比较网络的视频超分性能，结果如表1所示。与顺序连接相比，TAM & SAM并行连接的峰值信噪比(PSNR)和结构相似性(SSIM)可分别达到26.33 dB和0.789。这是因为并行连接方式使每个注意力模块从原始输入特征图中计算出注意力权重值，能够充分发挥两个模块各自的优势。

表1 不同连接方式使用简化网络在Vid4数据集的实验结果

基于时空注意力的双分支视频超分辨率网络包含图像分支和梯度分支，两者在不同层次进行特征融合，该融合策略称为图像分支与梯度分支交替融合。为了验证本文特征融合策略的有效性，与两种其他融合策略构建网络变体进行对比。第一个网络变体采用文献[8]中的融合策略，称为从图像分支到梯度分支的融合。梯度分支合并了图像分支中前4个STAR块的中间特征表示，最后一个STAR块的输出反馈到图像分支以指导高分辨率帧的重构。该策略是图像分支首先为梯度分支提供先验知识，梯度分支又在最后一个STAR块处提供结构信息。第二个网络变体采用从梯度分支到图像分支的融合策略。梯度分支中所有5个STAR块的中间特征表示将被馈送到图像分支中的相应STAR块中。该策略是将梯度信息从梯度分支转移到图像分支，不需要图像分支提供先验知识。所有网络变体都经过40万次迭代训练，以输出高分辨率帧的平均峰值信噪比(PSNR)和平均结构相似性(SSIM)作为评价指标，结果如表2所示。可以看出，图像分支与梯度分支交替融合策略的峰值信噪比(PSNR)和结构相似性(SSIM)分别是26.53 dB和0.799，优于其他两种策略。这说明，将两个分支的中间特征进行交替融合比将先验知识从一个分支传递到另一个分支更加有效。这是因为在交替融合中，图像分支包含丰富的纹理信息，这对于梯度图的恢复具有重要意义。其次，将梯度分支的特征融合到不同层次的图像分支中，可以实现早期监督与引导，使网络能够尽快学习到梯度信息。

2.3 实验结果分析

将基于时空注意力的双分支视频超分辨率网络与现有的典型视频超分辨率方法进行比较，在Vid4和SPMCS-11数据集上的结果分别如表3和表4所示。

从表3可以看出，在Vid4数据集上，基于时空注意力的双分支视频超分辨率网络的PSNR值和SSIM值分别为26.53 dB和0.799。这一结果明显优于BRCN[10]、VSRnet[16]、VESCPN[17]、B123+T[25]、DRDVSR[18]、FRVSR-3-64[19]、SOF-VSR[20]和SOF-VSR-BD[21]。其主要原因是空间注意力机制为运动补偿后的低分辨率视频帧的不同局部区域分配不同的权重，使网络更关注纹理和边缘的部分，而时间注意力机制使网络关注贡献高的时间通道，二者并行连接能够充分发挥各自的优势。此外，本文中的图像分支和梯度分支交替融合中间特征，为网络提供了丰富的结构信息，能够有效地避免几何结构畸变和尖锐边缘，进而提升超分辨率的效果。

表3 不同算法在Vid4数据集的实验结果

与Vid4数据集相比，SPMCS-11数据集的视频片段中存在更显著的运动，如大位移等复杂的运动模式，会导致视频超分辨率方法的退化。如表4所示，基于时空注意力的双分支视频超分辨率网络在SPMCS-11数据集上的性能远远优于所有列出的方法，PSNR值和SSIM值分别达到29.09 dB和0.848。

表4 不同算法在SPMCS-11数据集的实验结果

图3与图4分别展示了不同模型在Vid4数据集和SPMCS-11数据集上的视觉效果。从图3j中可以看出，基于时空注意力的双分支视频超分辨率网络能够重构出清晰的超分图像，较为准确地恢复出圆圈所指部分中的字母细节，并且字母招牌下方的纹理区域也比较清楚，没有模糊成难以区分的一片。从图4中也可以看出，在基于时空注意力的双分支视频超分辨率网络重构的图像中，第一排的楼梯区域和第二排的建筑楼角都具有丰富的纹理细节，视觉效果更清晰。本模型利用时空注意力机制和梯度信息引导网络准确地学习特征信息，有效补充低分辨率图像丢失的高频信息，使得网络模型能够恢复出边缘清楚、纹理细腻的高分辨率视频帧。

图3 Vid4测试数据集中Calendar 视频序列第 2 帧使用不同模型的超分辨结果

图4 SPMCS-11测试数据集中第2个视频序列第10帧使用不同模型的超分辨结果

3 结论

针对视频超分辨率的难点，本文提出一种基于时空注意力的双分支视频流超分辨率网络。时空注意力机制使得网络更加关注于边缘和纹理等重建困难的区域，并充分利用多幅图像所提供的冗余信息来恢复高频信息。梯度分支与图像分支相辅相成，利用梯度图中的显著结构信息来提高超分辨率视频帧的结构一致性。Vid4和SPMCS-11数据集上的实验表明，基于时空注意力的双分支视频流超分辨率网络能够有效恢复视频中丢失的高频信息，重构出清晰的高分辨率图像。