图像视频质量增强综述

2021-10-27陈中平徐迈刘铁

中国传媒大学学报(自然科学版) 2021年3期

陈中平，徐迈，刘铁

（北京航空航天大学，北京 100191）

1 绪论

1.1 研究背景和意义

在如今信息化时代下，各种互联网数据在互联网中传播时会耗费大量的互联网流量，其中图像和视频数据占据的比例越来越大。图像和视频在带宽受限的互联网中传播时，为了降低图像视频码率，节省传输带宽，通常会使用有损压缩算法对图像视频进行压缩，对于图像有JPEG［1］、JPEG-2000［2］等，对于视频有MPEG-1［3］、MPEG-2［4］、MPEG-4［5］、H.264/AVC［6］和HEVC［7］等。但是图像和视频经过有损压缩就会出现失真现象，例如块效应、纹理模糊、振铃现象、形状畸变等，而图像视频中存在这些失真会严重影响到观看者的主观感受。因此，对于经过有损压缩后的图像视频进行质量增强十分必要。

1.2 研究现状

对于有损压缩图像的质量增强，在早期有很多基于传统方法进行处理的工作。比如，2004年Liew 等人［8］提出了利用过完备的小波表示方法去除压缩后图像的块效应；2013年Wang 等人［9］又提出通过对块边界进行滤波处理来消除JPEG 图像的块效应。近年来随着深度学习在图像处理和计算机视觉等领域的广泛应用，Dong 等人［10］在2015年根据他们之前的超分辨率工作中的重建网络，设计了一个用于提升JPEG 图像质量的四层的卷积神经网络（Convolutional Neural Network，CNN)；除了卷积神经网络的应用，Galteri 等人［11］于2017年提出了一种用生成对抗网络（Generative Adversarial Network,GAN）训练的完全卷积残差网络，可以产生更适合人眼视觉的高质量图像；2020年Jin 等人［12］提出了一种包含了残差学习和递归学习的网络，还采用了横向连接传输在不同频率流中提取特征用于图像增强。

关于视频增强，考虑到视频的每一帧都是一幅图像，因此图像质量增强方法是视频质量增强的基础，在图像质量增强中采用的卷积神经网络和生成对抗网络经过改进同样可以运用于视频质量增强中。例如，Yang 等人［13］于2018年提出了一种叫QE-CNN 的卷积神经网络用于视频质量提升，此种网络模型对于视频帧中的I 帧和P 帧同样适用；同年他们还提出了一种名为MFQE［14］的网络，利用视频多帧信息进行质量增强，充分利用了视频帧间的信息相关性，提高了视频质量提升效果。另外，在2019年Yu 等人［15］设计了一种具有递归框架的对抗学习网络VRGAN，其中包含了一个具有递归框架的生成器和一个相对判别器。最近，Wang 等人［16］提出了一个包含了多级小波变换的生成对抗网络。除了图像处理中的卷积神经网络和生成对抗网络，由于视频中的一帧不仅具有帧内信息相关性，而且视频帧是连续的，还可以考虑利用视频帧间的信息相关性，Meng 等人［17］设计了一种名为MGANet的深度网络，采用一个双向的长短时记忆网络［18］充分利用多帧信息来增强当前帧。在2019年，Xu 等人［19］提出了NL-ConvLSTM 网络，不仅考虑到帧间的信息相关性，还考虑了低质量帧内也存在高质量块的情况，提出用非局部的思想来利用连续多帧中的高质量块的信息。

图1展示了过去几年中图像视频质量增强的经典工作，依据所使用的深度神经网络不同进行分类。

图1 图像视频质量增强的经典工作分类

2 图像质量增强

基于深度学习的图像处理方法近年来发展迅速，从2015年至今有越来越多的工作利用深度学习进行有损压缩图像的质量增强。根据所用的深度学习网络的不同基本可以分为两类：基于卷积神经网络（CNN)［20］和基于生成对抗网络（GAN)［21］的图像质量增强。图2 和图3分别为多种基于卷积神经网络和生成对抗网络的图像质量增强方法。

图2 基于CNN的图像质量增强网络，其中（a）为［10］,(b）为［45］,(c）为［22］的网络结构图

图3 基于GAN的图像质量增强网络，其中（a）为［11］,(b）为［27］的网络结构图

2.1 基于CNN的图像质量增强

卷积神经网络的一般结构组成包括输入层，隐藏层，输出层，其中隐藏层中有卷积层、池化层、全连接层等常见部分。

2015年Dong 等人［10］根据他们之前的超分辨率重建网络，设计了一个用于提升JPEG 压缩图像质量的四层卷积神经网络（Artifacts Reduction Convolutional Neural Network，AR-CNN），这是第一个利用卷积神经网络进行图像质量增强的工作，AR-CNN 的四个卷积层分别起到特征提取、特征去噪、非线性映射和图像重构的作用。AR-CNN 存在的问题是难于训练，所以在训练时采用了从简单到难的迁移学习。2016年Svoboda等人［22］结合了残差学习、跳跃连接等结构，设计了一个可以在较短时间内用单个步骤完成训练的8层卷积网络，其中残差学习可以加快训练过程，跳跃连接能够使信息更容易从输入端传输到输出端。Vu等人［23］在2018年设计了一个快速高效质量增强的网络（FEQE），解决了三个方面的问题：a）可以在低分辨率上完成计算，b）使用的卷积层通道数很小，从而可以增加网络深度，c）采用的去亚像素下采样不会导致信息丢失。通常在考虑图像质量增强时主要针对亮度通道进行处理，而2017年Fuyà Espinar 等人［24］提出针对彩色图像进行质量增强处理，且Cui 等人［25］在2018年提出考虑到不同通道信息相关性的基于3阶段CNN 的方法。为了适用于多种图像任务，2019年Jin等人［12］设计了一个包含残差学习和递归学习的网络，残差学习可以加快学习速度，递归学习可以减少参数量，同时采用了一个横向连接传递不同通道提取的特征。另外还有一些实现网络模型更加优化的工作，例如2019年Chen 等人［26］提出采用各向同性的卷积核来减少参数量，在对称位置使用相同的权重从而为图像增强提取旋转不变性特征。

2.2 基于GAN的图像质量增强

2014年Goodfellow 等人提出了生成对抗网络［21］，之后便被广泛应用。它的基本结构主要是由一个生成器和一个判别器组成，判别器的目的是判别输入的样本是属于真实样本集还是假样本集，而生成器作用是生成样本，使自己生成的样本让判别器无法判断真假。

2017年Galteri 等人［11］提出了一种用生成对抗结构训练的卷积残差网络模型，其中生成器采用的是深度残差网络，判别器是在子块级别完成判别的。2018年Mao 等人［27］提出了更加注重块边缘信息的生成对抗网络——边缘保存生成对抗网络，同时实现边缘保存和纹理生成。Upadhyay 等人［28］考虑到训练数据的问题，在2019年设计了一种可以利用多种质量水平的训练数据的生成对抗网络，根据以较低的设备成本且更容易获取的中等质量图像对低质量图像进行增强。另外还有一些工作针对特定的图像类型，比如Guo 等人［29］提出了多尺度密集生成对抗网络去增强水下图像，Tang等人［30］设计的叠加生成对抗网络处理CT 图像，其中的第一个GAN 用于去噪，第二个GAN用于生成高质量图像。

图像增强一般采用峰值信噪比（Peak Signal to Noise Ratio,PSNR）和结构相似性（Structural Similarity,SSIM)。表1为图像质量增强中不同方法的结果比较。

表1 图像质量增强方法的结果比较

3 视频质量增强

视频的每一帧都可以认为是一幅图像，但是相对于图像压缩，视频的压缩过程更复杂，因此视频在有损压缩过程中产生的失真也会更加复杂。随着深度学习方法在图像质量增强中的应用，这些方法同样可以应用于有损压缩视频的质量增强［31］［32］［33］［34］。除了图像中常用的基于卷积神经网络和生成对抗性网络的质量增强方法，由于视频帧间是连续的，帧间信息存在相关性，可以利用其它帧的信息来增强当前帧，所有对于视频有基于长短时记忆网络（Long-Short Term Memory,LSTM）的方法［34］［35］。图4、图5 和图6为基于不同神经网络的视频质量增强方法的网络模型。

图4 基于CNN的视频质量增强网络，其中（a）为［13］,(b）为［14］的网络结构图

图5 基于GAN的视频质量增强网络［16］

图6 基于LSTM 的视频质量增强网络，其中（a）为［40］,(b）为［19］的网络结构图

3.1 基于CNN的视频质量增强

图像处理是视频处理的基础，所以基于卷积神经网络的图像质量增强方法经过改变也可以应用于视频增强。2017年Hou 等人［36］采用了一个两层的卷积神经网络对视频进行质量增强。2018年Yang 等人［13］提出了一种针对HEVC 编码标准压缩视频的质量增强方法QE-CNN，由于视频I 帧和P 帧的压缩编码方式存在区别，产生的失真也不同，因此对于视频中的I帧和P 帧分别以不同的模型进行增强。考虑到视频和图像的区别是视频帧间存在信息相关性，同年Yang等人［14］又提出了利用多帧信息增强当前帧的视频质量增强方法MFQE，他们在文中指出视频压缩过程中会在连续多帧上产生质量波动，因此可以利用离当前帧最近且质量较高的帧帮助恢复当前帧的信息。之后，Guan 等人［37］于2019年基于MFQE提出了MFQE2.0，采用了基于双向LSTM 网络的高质量帧检测方法，并且在质量增强网络中加入多尺度信息提取和密集连接的映射结构来提升增强效果。2019年Tong 等人［38］也设计了一种基于深度学习的多帧质量增强方法，利用光流进行帧间运动补偿，并考虑了相邻帧的质量和与当前帧距离的权衡问题，用一个中等质量帧和高质量帧来增强当前帧。

3.2 基于GAN的视频质量增强

基于生成对抗网络的视频质量增强方法的主要结构是一个生成器和一个判别器。2019年Yu 等人［15］设计了一个名叫VRCNN 的视频质量增强方法，考虑到压缩视频的帧间不连续会降低视觉质量，所以采用了递归网络来保持相邻帧之间的一致性，并引入了相对判别器［39］评估生成帧和高质量帧之间的关系。2020年Wang等人［16］设计了一个基于多层小波变换的生成对抗网络，用于增强有损压缩视频的主观质量，研究发现恢复小波域中的高频子带对于提升视频主观质量非常关键，因此他们提出了一个具有小波密集残差结构的小波重构网络来恢复高频细节，使主观质量得到提升。

3.3 基于LSTM 的视频质量增强

长短时记忆神经网络最早是在1997年由Hochreiter 等人［18］提出的，它是递归网络的一种。递归神经网络无法学习具有长时间间隔的信息，而长短时记忆神经网络可以用于解决具有长距离依赖的问题，它的主要结构包括输入门、遗忘门和输出门。

2018年Meng等人［17］设计了一种多帧引导注意力网络MGANet，因为视频中短时间间隔内的背景通常不会改变，只有其中的物体有一些小的变化，这表明在连续的帧中大部分低频成分是相同的，所以在文献［17］中提出了一个双向残差卷积长短时记忆网络（BRCLSTM）用于处理各帧的变化，利用多帧信息进行质量增强。考虑到有损压缩视频各帧存在质量波动，为了利用更大范围内多帧的有利信息来增强当前帧的质量，2019年Yang 等人［40］提出了具有双向递归结构的质量门控卷积长短时记忆网络QG-ConvLSTM，包含空间网络、门发生器、质量门控单元和重建网络四部分。2019年Xu 等人［19］发现在一个高质量帧中可能会存在一些低质量的块，而在低质量帧中也可能存在高质量的块，仅仅使用邻近的高质量帧有可能会丢失低质量帧中的高质量块的信息，在此发现的基础上基于非局部策略来捕获全局运动模式和利用视频中的时空依赖性，提出了新颖的端到端的深度神经网络NL-ConvLSTM，充分利用连续多帧的非局部信息来增强当前帧的质量。

4 总结与展望

本文综述了基于深度学习的图像视频质量增强方法，根据不同的神经网络种类将图像增强方法分为

基于卷积神经网络和生成对抗网络的方法，将视频质量增强方法分为基于卷积神经网络，生成对抗网络和长短时记忆网络的方法。近来的文献表明，基于生成对抗网络的质量增强方法可以生成更满足观看者主观感受的图像视频，基于长短时记忆网络的质量增强方法能够利用更大范围连续多帧的信息，取得了更好的增强效果，这两类方法的应用也越来越广泛。尽管目前深度学习在图像视频质量增强上取得了非常显著的提升效果，未来还有很多可以改进的方向，比如现有工作都是只针对客观或主观质量进行增强的，如何实现客观和主观质量同时提升是将来发展方向；以及如何更好的利用编码端的信息作为先验知识，对解码端的压缩视频进一步提升增强效果。因此，未来还会有更多可以继续研究的深度学习方法来更好的实现有损压缩图像和视频的质量增强。