

计算机应用 2019年5期

聂可卉 刘文哲 童同 杜民 高钦泉

摘 要:针对目前视频质量增强和超分辨率重建等任务中常采用的光流估计相关算法只能估计像素点间线性运动的问题, 提出了一种新型多帧去压缩伪影网络结构。该网络由运动补偿模块和去压缩伪影模块组成。运动补偿模块采用自适应可分离卷积代替传统的光流估计算法,能够很好地处理光流法不能解决的像素点间的曲线运动问题。对于不同视频帧,运动补偿模块预测出符合该图像结构和像素局部位移的卷积核,通过局部卷积的方式实现对后一帧像素的运动偏移估计和像素补偿。将得到的运动补偿帧和原始后一帧联结起来作为去压缩伪影模块的输入,通过融合包含不同像素信息的两视频帧,得到对该帧去除压缩伪影后的结果。与目前最先进的多帧质量增强(MFQE)算法在相同的训练集和测试集上训练并测试,实验结果表明,峰值信噪比提升(ΔPSNR)较MFQE最大增加0.44dB,平均增加0.32dB,验证了所提出网络具有良好的去除视频压缩伪影的效果。


中图分类号:TP391; TP183


Abstract: The existing optical flow estimation methods, which are frequently used in video quality enhancement and superresolution reconstruction tasks, can only estimate the linear motion between pixels. In order to solve this problem, a new multiframe compression artifact removal network architecture was proposed. The network consisted of motion compensation module and compression artifact removal module. With the traditional optical flow estimation algorithms replaced with the adaptive separable convolution, the motion compensation module was able to handle with the curvilinear motion between pixels, which was not able to be well solved by optical flow methods. For each video frame, a corresponding convolutional kernel was generated by the motion compensation module based on the image structure and the local displacement of pixels. After that, motion offsets were estimated and pixels were compensated in the next frame by means of local convolution. The obtained compensated frame and the original next frame were combined together as input for the compression artifact removal module. By fusing different pixel information of the two frames, the compression artifacts of the original frame were removed. Compared with the stateoftheart MultiFrame Quality Enhancement (MFQE) algorithm on the same training and testing datasets, the proposed network has the improvement of Peak SignaltoNoise Ratio (ΔPSNR) increased by 0.44dB at most and 0.32dB on average. The experimental results demonstrate that the proposed network performs well in removing video compression artifacts.

英文關键词Key words: video quality enhancement; optical flow estimation; motion compensation; adaptive separable convolution; video compression artifact removal

0 引言


在过去几年中,随着深度学习的发展,许多方法已成功应用于去除图像压缩伪影:首先,伪影减少卷积神经网络(Artifacts Reduction Convolutional Neural Network, ARCNN)[1]已经证明了深度卷积神经网络(Convolutional Neural Network, CNN)在去除图像中JPEG(Joint Photographic Experts Group)压缩伪影的有效性; 随后,深度双域卷积网络(Deep Dualdomain Convolutional Network, DDCN)[2]采用在频域和像素域上同时对图像进行处理来去除压缩伪影; 近年来,随着生成对抗网络[3]被提出并被广泛使用后,Guo等[4]和Galteri等[5]采用生成对抗网络来去除图像的压缩伪影。上述提及的方法都验证了深度神经网络对于去除单一图像压缩伪影的有效性。


现有的对视频的质量进行增强的研究主要分布在视频去噪去模糊、视频超分辨率重建等工作[6-10]上。近来, Wang等[11]提出深层卷积自动解码器(Deep CNNbased Auto Decoder, DCAD)网络用于压缩视频质量恢复, 该网络由10层卷积层组成,由于网络体积较小,重建效果因此受限。Yang等[12]提出了解码侧卷积神经网络(DecoderSide Convolutional Neural Network, DSCNN)用于视频质量增强,该网络由两个子网络组成,其中帧内解码侧卷积神经网络(IntraDecoderside Convolutional Neural Network, DSCNNI)用来减少帧内编码的压缩伪影而帧间解码侧卷积神经网络(InterDecoderside Convolutional Neural Network, DSCNNB)用来减少帧间编码的压缩伪影。由于以上两种方法均未使用到相邻视频帧间的信息,故而均可看作是单帧图像去伪影算法。Yang等[13]提出了分别通过两个不同网络处理HEVC(High Efficiency Video Coding)帧内和帧间编码帧的质量增强卷积神经网络(Quality Enhancement Convolutional Neural Network, QECNN)方法。由于该方法仅考虑到去除HEVC编码的视频,不适用于全部场景,故而Yang等[14]提出多帧质量增强(MultiFrame Quality Enhancement, MFQE)网络结构。MFQE包含四部分: 一个支持向量机(Support Vector Machine,SVM)用于對高质量帧(Peak Quality Frame, PQF)和非高质量帧(nonPeak Quality Frame, nonPQF)进行分类,运动补偿网络用来实现帧间运动补偿,两个不同的质量增强网络分别用来减少PQF和nonPQF帧的压缩伪影。若压缩视频不存在PQF和nonPQF时(例如压缩质量系数设置为CRF(Constant Rate Factor)),该网络将不能很好地发挥作用。

光流估计算法是利用图像序列中图像在时间域上的变化以及相邻帧之间的相关性来找到上一帧和当前帧之间存在的对应关系从而计算相邻帧之间物体运动的一种方法。对于传统的光流估计法[15-18]来说,需要通过光流图估计和像素形变这两个阶段得到预测帧,由于缺乏光流图的真实值,故而以上方法存在较大误差。文献[19]指出光流图估计法被看作是点到点的固定的变换图(transmission map),也即假定像素点A到像素点B的移动是一条直线(反之亦然),而并未考虑像素点的曲线运动,并且在视频运动过程中出现遮挡和模糊的情况时,光流法可能会由于找不到相邻帧中对应的像素点而无法得到较为准确的运动路径。

空间转换网络(Spatial Transformer Network)[20]的提出使得网络可以学习到两张图片像素的空间映射关系,并将这种点对点的映射关系以网格转换(grid transform)的形式表现,该形式可以类似表示光流场中矢量运动,很快该空间转换网络被用于编码运动视频中的光流图特征[14,21]进行运动补偿操作。





3 结语

本文提出一种新型多帧去压缩伪影网络结构, 其中:运动补偿模块以自适应可分离卷积方式实现对后一帧像素的运动偏移估计和缺损像素补偿; 去压缩伪影模块通过融合含有不同像素信息量的补偿帧和对应的原始视频帧,最终得到去视频压缩伪影结果。在本文实验中,运动补偿网络得到的补偿帧较对应压缩帧的PSNR平均提升了0.03dB,与对应未压缩视频帧的帧间差较压缩帧平均减少了0.04dB,由此证明了运动补偿网络对缺损像素的补偿作用,并且,结合了运动补偿网络后去伪影结果比仅去压缩伪影网络结果在视觉效果上有显著提升。本文中结合了运动补偿网络的去压缩伪影结果较目前先进的ARCNN、DCAD、DSCNN和MFQE增强算法结果在相同测试序列上平均ΔPSNR分别提高了1.58dB,1.55dB,1.42dB以及0.32dB,较MFQE算法在测试序列上最大ΔPSNR提升了0.44dB,并且本文网络去伪影后视觉效果较上述算法均有显著提升,这表明本文所提出的网络具有良好的去除视频压缩伪影的作用。


参考文献 (References)

