APP下载

基于多尺度时域3D卷积的视频超分辨率重建

2022-03-21唐晓天

图学学报 2022年1期
关键词:时域分辨率尺度

唐晓天,马 骏,李 峰,杨 雪,梁 亮

基于多尺度时域3D卷积的视频超分辨率重建

唐晓天1,2,马 骏2,李 峰1,杨 雪1,梁 亮3

(1. 钱学森空间技术实验室,北京 100086;2.河南大学软件学院,河南 开封 475004;3. 清华大学电子工程系,北京 100084)

视频超分辨率是一项很有实用价值的工作。针对超高清产业中高分辨率资源较为匮乏的问题,为了有效利用视频序列帧间丰富的时间相关性信息及空间信息,提出一种基于多尺度时域3D卷积的视频超分辨率重建算法。该算法将输入的低分辨率视频序列帧分别通过不同时间尺度的3D卷积进行时空特征提取,3D卷积能够同时对空间与时间建模,相较于2D卷积更加适用于视频任务的处理,通过不同尺度时域下提取的2种时空特征自适应运动补偿后,由亚像素卷积层执行分辨率的提升并与上采样后的输入帧相加后得到最终重建的高分辨率图像。在标准数据集上的实验结果表明,该算法无论在视觉效果上,还是峰值信噪比与结构相似性等客观质量评价指标上,均有显著地提升,优于FSRCNN和EDSR等算法。

视频超分辨率;深度学习;3D卷积;多尺度时域特征;亚像素卷积

图像超分辨率(super-resolutio,SR)重建技术能够将低分辨率(low-resolution,LR)、细节模糊的低质量图像重建为高分辨率(high-resolution,HR)且具有更多细节信息的高质量图像。近年来随着电子显示技术的发展,分辨率能达到4 k甚至更高,而与之对应的HR影像资源则较匮乏,这时就需要视频SR技术来获取更多的高质量视频资源。此外在摄像监控、航空航天、医疗诊断等领域中,清晰度高、细节信息丰富的HR影像也能提供更多地帮助。相较于单帧图像,视频影像中的连续帧之间拥有单帧图像所没有的时间信息,如何更高效地利用序列帧之间的时间相关性信息成为视频SR重建的重中之重。

传统图像SR重建技术包括基于插值、重构及经典学习的方法。插值方法中如经典的最邻近插值法、双线性插值法和双三次插值法,这些算法复杂度低、简单易实现,但也存在诸如重建图像边缘模糊、图像细节信息丢失等问题。重构方法是利用图像亚像素精度对齐实现的,主要分为频域法与空域法。如在频域中建立LR图像与HR图像的线性关系来重建HR图像,但其迭代次数过多,计算成本较大。

近年来深度学习异军突起,卷积神经网络(convolutional neural networks,CNN)为图像SR重建等众多的图像处理任务带来了新的突破。DONG等[1]提出的超分辨率重建卷积神经网络(super- resolutio CNN,SRCNN),利用卷积网络完成从LR图像到HR图像的非线性映射。其在图像重建的质量与速度上均优于传统超分方法,但其感受野较小,且不能很好地利用图像的信息;KIM等[2]提出更深层次的网络(very deep convolutional networks,VDSR),其采用了更多的卷积层,增加了感受野,并采用残差法训练使得收敛速度更快。SHI等[3]使用一种亚像素卷积并将通道重新排列,从而得到HR图像,与以往将LR图像插值后再输入网络不同的是,可以在LR图像上直接经过卷积计算得到HR图像,在超分效率上得到了显著提高;FSRCNN[4]对SRCNN改进后也可以直接将LR图像通过Deconv超分重建。SRGAN[5]将生成对抗网络应用于图像的超分重建,在4倍分辨率等较大放大因子重建上能够生成更多的图像细节。

视频SR重建是输入多个序列帧,利用帧间关联的时间、空间信息来重建图像。常见的视频超分方法依托于运动估计与运动补偿将序列帧对齐,以对齐后的序列帧作为输入,在超分网络中进行重建。VSRnet[6]是处理视频超分重建的首个深度网络。CABALLERO等[7]认为VESPCN是ESPCN的改进版,可将图像的超分重建改进为视频序列的超分且可进行实时处理。HARIS等[8]设计了一种循环编码器-解码器模块处理视频中连续帧的时间和空间信息,从而可以更大范围地评估视频。TIAN等[9]提出一种可在时间上变形的对齐网络。LIU等[10]利用动态局部滤波器网络来执行隐式运动估计和补偿。SOFVSR[11]网络通过HR光流进行重建。多数运用光流补偿模块的视频超分算法受限于光流估计的准确性。此外还有一种利用3D CNN提取视频序列帧间的时空特征完成重建的方法,在视频处理中3D CNN相比于2D CNN拥有更多的优势[12]。LI等[13]提出一种快速时空残差网络(fast spatio-temporal resolution network,FSTRN)结合特征提取与运动补偿的方法;YING等[14]通过引入一种可变性的3D卷积(D3Dnet)合并多个时空维度进行超分重建。

受3D CNN能够提取视频序列帧时空特征的启发,本文提出一种利用视频不同尺度时域下的时空特征自适应运动补偿并进行SRCNN。不同尺度时域下的时空特征可以更好地帮助学习帧间跨度大及复杂运动时的帧间时空信息,且多尺度时域的视频帧拥有更为丰富的空间信息帮助重建,之后由多个残差块生成的深层特征以及亚像素卷积完成分辨率的提升。

1 本文算法

1.1 整体网络结构

本文算法的整体网络结构如图1所示。输入视频序列帧中的7帧数据(LR),每帧图像大小为,其中和分别为输入图像的高和宽。Conv3D-3T表示以时间尺度为3对输入图像进行3D卷积,卷积核为3×3×3;Conv3D-5T表示以时间尺度为5对输入图像进行3D卷积,卷积核为5×3×3;输入影像分别经过Conv3D-3T和Conv3D-5T提取到不同尺度时域下的2种时空特征,并连接(Concat)2种特征进行特征融合,通过8个残差块(Resb)生成深层特征;之后馈送到亚像素卷积层(Sub-pixel-Conv)进行分辨率的提升并生成HR图像(×),其中为上采样因子;最后将生成的HR图像与上采样后的LR图像残差连接得到最终的超分辨率重建图像SR;LR与HR图像中的低频信息相近,只是缺乏高频部分的残差,将亚像素卷积层的输出结果与双三次上采样的结果相加,在训练时仅训练HR与LR的高频残差部分,那么就不需要在低频部分花太多的时间。

图1 视频超分辨率重建网络结构

1.2 尺度时域时空特征融合

与单帧图像相比,视频序列帧拥有更为丰富的时间和空间信息,如何将其有效地利用在SR重建上是视频超分中的重点问题。常见的方法是利用光流估计与运动补偿将视频序列帧对齐后利用2D CNN完成分辨率的提升,不过该方法受限于光流模块的精度。另一种是直接利用3D CNN提取序列帧间的时空特征用以重建的方法,其同样简单有效。

常用的3D卷积时间尺度较小且固定不变,在遇到帧间跨度大的运动或复杂运动时不能很好地学习视频帧间的时空信息。本文提出一种多尺度时域时空特征结合的方法,不仅采用时间尺度为3的小尺度3D卷积,并结合时间尺度为5的3D卷积,更大时间维度的卷积可以识别帧间跨度大的运动信息,且更多的帧图像拥有更丰富的空间信息,2种步长的卷积形式如图2所示。

Conv3D-3T与Conv3D-5T的输入相同,均是7帧LR图像,在Conv3D-3T中对输入帧进行时间维度为3的3D卷积,卷积核大小为3×3×3;空间维与时间维的填充与步长均设置为1,经过5次残差后输出。Conv3D-5T中对输入帧进行时间维度为5的3D卷积,卷积核大小为5×3×3,时间维的填充设置为2,空间维的填充为1,步长均设置为1,经过5次残差后输出。Conv3D-3T与Conv3D-5T的残差块结构均为2次对应的维度卷积和一个激活函数。成对输入视频序列,在不同尺度时域下的时空特征提取后将2种时空特征结合为

图2 多尺度时域时空特征

((a) Conv3D-3T; (b) Conv3D-5T)

其中,为多尺度时域时空特征;为维度连接操作concat。得到多尺度时域时空特征后便可以进行重建与分辨率提升工作了。

1.3 亚像素卷积

亚像素卷积[3]可将多个通道的特征图重新排列为1张特征图,对多通道特征的单一像素进行再组合,并实现了从LR图像到HR图像的重构,即

其中,和分别为图像的高和宽;为上采样因子。

将得到的多尺度时域时空特征在送入亚像素卷积层前,先通过8个残差块生成深层特征,残差学习能有效缓解随着网络深度增加引发的梯度消失现象,并在提高网络深度的同时还能保持很好的性能与效率。每个残差块由2个卷积层与一个LeakyRelu激活层组成,卷积核大小为3×3,步长与填充均设置为1。再通过亚像素卷积层对分辨率进行提升,亚像素卷积层的结构如图3所示。

图3 亚像素卷积层

其中,1×1 conv可获取像素的多个通道特征;PixelShuff[3]则将这些特征重新排列组合成一幅HR深度图像,经过激活层与3×3卷积进行输出。之后将亚像素卷积层的输出与上采样后的初始LR图像残差得到最终的重建结果,即

其中,为超分辨率重建结果;()为亚像素卷积;F为多尺度时域时空特征的深层特征;⊕为矩阵求和操作;()为双线性插值;为初始低分辨率图像。

1.4 网络训练

本文将通过重建的SR图像与真实图像HR间的差值最小化来训练网络,损失函数上选择均方误差(mean squared error,MSE)函数,即

其中,L为均方误差函数;为样本数;为超分辨率重建结果;为真实图像。通过反向传播不断对网络进行训练。

2 数据集及实验环境

训练网络采用的训练集是CDVL[11]数据集,挑选了32组视频进行训练,包含自然景色、城市建筑、车辆行人等场景。每组视频中包含31帧图像,图像的分辨率为960×540。为了得到HR与LR对应的训练数据,将原始视频序列帧作为HR真实图像,下采样后的视频序列帧作为LR图像。在进行网络训练时会从LR图像中随机地裁切32×32大小的块作为网络输入,并在HR图像中裁切相对应的块。输入图像会从RGB转换为YCbCr色彩空间,并提取出其中的亮度通道Y输入网络进行处理。训练批次大小batch-size设置为32,利用旋转等操作进行数据扩充,以此来提高网络的泛化能力。训练时的梯度优化算法采用自适应矩估计Adam优化器[15],很适合应用于大规模的数据及参数的场景,初始学习率设置为1×10-3,并且每迭代5 000次,学习率都会乘10-1;训练总迭代次数为2×104次,更多的迭代次数无法为网络带来有效地提升。

测试网络时使用的是视频超分中常用测试数据集Vid4[8],其包含4组视频(calendar,city,foliage和walk),每组视频中又包含31帧图像。数据评测指标使用SR重建中常用的峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity index,SSIM)。PSNR用来计算原始图像与重建图像间的像素误差(单位为dB),数值越大则表明重建图像失真越小,效果越好;SSIM用来计算原始图像与重建图像的相似度程度,数值越大则表示重建图像与原始图像差距越小,重建效果越好。

本文实验所使用的深度学习框架为PyTorch;硬件环境为NVIDIA GTX 1650Ti,RAM 16 GB,Intel(R)Core(TM)i5-10200H。

3 实验结果与分析

为本文算法设计了2组对比实验,第1组实验针对多尺度时域时空特征的有效性进行验证,设计了2D卷积特征与多尺度时域时空特征重建效果的对比实验;第2组针对算法的先进性进行验证,设计了与当前先进图像SR重建算法重建效果的对比实验。

3.1 多尺度时域时空特征有效性验证

对本文算法的多尺度时域时空特征进行有效性验证,设计了常规2D卷积特征重建网络与多尺度时域时空特征重建网络的对比实验,见表1。

常规的2D卷积中卷积核大小设置为3×3,填充和步长均设置为1。多尺度3D卷积将不同尺度时域特征进行结合,网络分别对输入序列帧进行时间步长3和5的3D卷积,各个时域卷积的步长与填充见表1。

常规2D卷积特征与多尺度3D卷积特征重建的图像在Vid4数据集上的评测结果见表2。主要就PSNR与SSIM进行了对比分析。从表中可以看出,利用常规2D卷积特征重建的结果无论在PSNR还是SSIM上都没有使用多尺度3D卷积特征好,使用多尺度3D卷积特征较常规2D卷积在PSNR上提升了0.49 dB。

表1 不同卷积方式网络结构

表2 不同卷积方式在Vid4上重建结果定量分析(PSNR/SSIM)

3.2 算法先进性验证

对本文算法与图像SR重建领域中较为先进的算法进行评测对比,以验证本文算法的先进性。上采样因子分别为2,3和4倍,选取的对比算法包括一个传统算法双三次插值(Bicubic)以及5个深度学习算法:LapSRN[16],FSRCNN[4],ESPCN[3],EDSR[17]和SRGAN[5]。LapSRN利用金字塔结构通过不同scale的残差与重构获得重建结果,FSRCNN是对SRCNN的改进,ESPCN中的亚像素卷积处理在当前的很多超分重建算法均有引用,EDSR是NTIRE2017[18]超分辨率挑战赛的第一名,有很好的超分重建效果,SRGAN使用对抗生成网络进行HR的重建。

表3为本文算法与各对比算法在上采样倍数为2,3和4倍时在Vid4数据集上的重建结果。从表中可以看出,无论是2倍还是3倍或4倍上采样,本文算法的PSNR以及SSIM均高于其他算法。2倍上采样较Bicubic算法PSNR值提升了2.82,SSIM提升了0.058,与重建效果较好的FSRCNN和EDSR算法相比在PSNR上也提升了1.97和1.28。当选择较高的上采样倍数时,一部分算法无法取得较好的重建效果。如ESPCN在3倍和4倍重建时的PSNR及SSIM均低于Bicubic算法,本文算法在3倍上采样时较Bicubic算法PSNR值提升了1.46,较EDSR算法提升了0.81;在4倍上采样时较Bicubic算法PSNR值提升了1.03,较EDSR算法提升了0.63,由此看出在较高上采样倍数时本文算法依然有效。经过本文算法与其他5种算法比较,说明本文算法在重建效果上有显著提升,证明了其先进性。

表4为在2倍上采样时各算法模型的规模及在Vid4测试数据集上的运行时间,其为测试集中各视频(31帧图像)的平均运行时间。其中EDSR模型最大且运行时间最长,ESPCN模型运行时间最短,FSRCNN模型最小,本文模型大小及运行时间适中,在重建图像质量上最好。

表3 不同算法在Vid4数据集上的定量分析(PSNR/SSIM)

注:黑体数据为最优数据

表4 不同算法模型规模与运行时间

图4为2倍上采样时各算法在Vid4数据集上的重建效果对比。在calendar与walk重建效果上,Bicubic,LapSRN,FSRCNN和ESPCN算法可以重建出真实图像的大体轮廓,但整体重建效果模糊;EDSR算法虽清晰度有所提升,但依然存在一定的模糊;本文算法的重建结果无论是轮廓结构还是清晰度均表现良好,与真实图像的视觉效果十分接近。

图5为4倍上采样时各算法在Vid4数据集上的重建效果对比。可以看出较高倍数的上采样因子重建时Bicucic等算法重建结果模糊,细节信息有所丢失,本文算法较对比算法在视觉效果上拥有更多的细节信息,清晰度有了显著提升。不过在4倍上采样时对比真实图像仍存在一定的失真,生成了较多的人工痕迹。在高上采样因子重建上本文算法还有待提升,在最近的研究中注意力机制[19]以及改进的GAN[20-21]对图像的恢复均有帮助,后续将继续研究失真原因并改进。

图4 上采样2倍时各算法在Vid4上的重建结果对比

图5 上采样4倍时各算法在Vid4上的重建结果对比

4 结束语

本文提出了一种利用多尺度时域时空特征对视频超分辨率重建的神经网络,通过结合不同时间尺度下的时空特征能够有效地提升视频中重建图像帧的质量。通过与其他算法的对比实验,本文算法在重建图像的视觉效果上更佳,且在PSNR与SSIM等客观评价指标上也优于对比算法。在较高上采样因子重建时虽然优于对比算法,但仍有失真现象,下一步将针对视频高上采样因子重建进行研究,探索利用视帧间关系生成清晰度高的高倍重建图像。

[1] DONG C, LOY C C, HE K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.

[2] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1646-1654.

[3] SHI W Z, CABALLERO J, HUSZÁR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1874-1883.

[4] DONG C, LOY C C, TANG X O. Accelerating the super-resolution convolutional neural network[C]//2016 European Conference on Computer Vision. Heidelberg: Springer Press, 2016: 391-407.

[5] LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 105-114.

[6] KAPPELER A, YOO S, DAI Q Q, et al. Video super-resolution with convolutional neural networks[J]. IEEE Transactions on Computational Imaging, 2016, 2(2): 109-122.

[7] CABALLERO J, LEDIG C, AITKEN A, et al. Real-time video super-resolution with spatio-temporal networks and motion compensation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2848-2857.

[8] HARIS M, SHAKHNAROVICH G, UKITA N. Recurrent back-projection network for video super-resolution[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3892-3901.

[9] TIAN Y P, ZHANG Y L, FU Y, et al. TDAN: temporally-deformable alignment network for video super-resolution[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020: 3357-3366.

[10] LIU X H, KONG L S, ZHOU Y, et al. End-to-end trainable video super-resolution based on a new mechanism for implicit motion estimation and compensation[C]//2020 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2020: 2405-2414.

[11] WANG L G, GUO Y L, LIU L, et al. Deep video super-resolution using HR optical flow estimation[J]. IEEE Transactions on Image Processing, 2020, 29: 4323-4336.

[12] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// 2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 4489-4497.

[13] LI S, HE F X, DU B, et al. Fast spatio-temporal residual network for video super-resolution[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 10514-10523.

[14] YING X Y, WANG L G, WANG Y Q, et al. Deformable 3D convolution for video super-resolution[J]. IEEE Signal Processing Letters, 2020, 27: 1500-1504.

[15] KINGMA D P, BA J. Adam: a method for stochastic optimization [EB/OL]. (2017-01-30) [2021-06-23]. https:// arxiv.org/abs/1412.6980.

[16] AI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5835-5843.

[17] LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2017: 1132-1140.

[18] AGUSTSSON E, TIMOFTE R. NTIRE 2017 challenge on single image super-resolution: dataset and study[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2017: 1122-1131.

[19] 李彬, 王平, 赵思逸. 基于双重注意力机制的图像超分辨重建算法[J]. 图学学报, 2021, 42(2): 206-215.

LI B, WANG P, ZHAO S Y. Image super-resolution reconstruction based on dual attention mechanism[J]. Journal of Graphics, 2021, 42(2): 206-215 (in Chinese).

[20] LEI S, SHI Z W, ZOU Z X. Coupled adversarial training for remote sensing image super-resolution[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(5): 3633-3643.

[21] LEI S, SHI Z W. Hybrid-scale self-similarity exploitation for remote sensing image super-resolution [EB/OL]. [2021-04-12].https://ieeexplore.ieee.org/document/9400474.

Video super-resolution reconstruction based on multi-scale time domain 3D convolution

TANG Xiao-tian1,2, MA Jun2, LI Feng1, YANG Xue1, LIANG Liang3

(1. Qian Xuesen Space Technology Laboratory, Beijing 100086, China; 2. College of Software, Henan University, Kaifeng Henan 475004, China; 3. Department of Electronic Engineering, Tsinghua University, Beijing 100084, China)

Video super-resolution was a work of great practical value. In view of the lack of high-resolution resources in the ultra-high-definition industry, to efficiently utilize the rich temporal correlation information and spatial information between video sequence frames, a video super-resolution reconstruction algorithm based on multi-scale time-domain 3D convolution was proposed. The algorithm extracted the spatiotemporal features of the input low-resolution video sequence frames through the 3D convolution of different time scales. 3D convolution can simultaneously model space and time, which is more suitable for processing video tasks than 2D convolution. After the adaptive motion compensation of two spatio-temporal features extracted in different scales and time domains, the sub-pixel convolutional layer performed resolution enhancement, which was added to the up-sampled input frame to obtain the final reconstructed high-resolution image. The experimental results on the standard data set show that the algorithm can significantly boost visual effects and objective quality evaluation indicators such as peak signal-to-noise ratio and structural similarity, outperforming algorithms such as FSRCNN and EDSR.

video super-resolution; deep learning; 3D convolution; multi-scale time domain features; sub-pixel convolution

23 June,2021;

TP 391

10.11996/JG.j.2095-302X.2022010053

A

2095-302X(2022)01-0053-07

2021-06-23;

2021-08-06

6 August,2021

科技部重点研发计划项目(2020YFA0714100)

Key R&D Program of the Ministry of Science and Technology (2020YFA0714100)

唐晓天(1997–),男,硕士研究生。主要研究方向为视频超分辨率重建。E-mail:631719950@qq.com

TANG Xiao-tian (1997–), master student. His main research interest covers video super-resolution reconstruction. E-mail:631719950@qq.com

李 峰(1975–),男,研究员,博士。主要研究方向为图像重建、压缩感知等。E-mail:lifeng@qxslab.cn

LI Feng (1975–), researcher, Ph.D. His main research interests cover image reconstruction, compressed sensing, etc. E-mail:lifeng@qxslab.cn

猜你喜欢

时域分辨率尺度
基于生成对抗网络的无监督图像超分辨率算法
改进的浮体运动响应间接时域计算方法
财产的五大尺度和五重应对
基于复杂网络理论的作战计划时域协同方法研究
网络分析仪时域测量技术综述
原生VS最大那些混淆视听的“分辨率”概念
一种用于高速公路探地雷达的新型时域超宽带TEM喇叭天线
宇宙的尺度
9
从600dpi到9600dpi