基于深度学习的图像超分辨率研究

2021-11-28陈锦伦王勇王瑛

电脑知识与技术 2021年30期

陈锦伦王勇王瑛

摘要：图像超分辨率是由低分辨率图像重建生成高分辨率图像的过程，是计算机视觉领域的一个研究热点。近年来，随着图像超分辨率技术理论的不断创新，从传统的插值法、重构法发展到主流的深度学习算法。文中从图像超分辨率的定义出发，梳理了图像超分辨率各个时期的代表性算法，详细介绍了基于卷积神经网络、残差网络与生成对抗网络三个主流的超分辨率模型，并讨论了各个模型的网络结构、学习策略以及损失函数等问题。最后，对图像超分辨率当前的研究情况进行总结。

关键词：图像超分辨率; 深度学习; 神经网络; 计算机视觉

中图分类号：TP18 文献标识码：A

文章编号：1009-3044（2021）30-0024-02

开放科学（资源服务）标识码（OSID）：

Image Super Resolution Based on Deep Learning

CHEN Jin-lun，WANG Yong，WANG Ying

（School of Computer， Guangdong University of Technology， Guangzhou 510006， China）

Abstract：Image super resolution is the process of generating high resolution image from low resolution image. It is a research hotspot in the field of computer vision. In recent years， with the continuous innovation of the technical theory of image super resolution， the traditional interpolation and reconstruction methods have developed to the mainstream algorithms based on deep learning. In this paper， starting from the definition of image super-resolution， representative algorithms of each period are sorted out.Then， three main super-resolution models based on convolutional neural network， residual network and generative adversarial network are introduced in detail.Also， the network structure， learning strategy and loss function of each model are discussed in particular. Finally， the development of image super-resolution is summarized.

Key words：image super-resolution; deep learning; neural network; computer vision

1 引言

近年來，随着智能手机、平板电脑的普及，人们对高分辨率图像的需求日益扩大，如何获取高质量图像越来越受到关注。在图像形成过程中，环境噪声、欠采样、光学模糊、运动模糊等因素都会造成图像成像质量较差、分辨率较低[1]。在实际应用中，由于受到开发成本、工艺水平等原因，单纯通过改善硬件设备来提高图像分辨率是不现实的。为了解决这一问题，图像超分辨率（Super-resolution）[2]技术应运而生，通过计算机软件算法提高分辨率，获取高质量图像。

图像超分辨率是将给定的一张低分辨率（LR）图像恢复为对应的具有更高视觉质量的高分辨率（HR）图像的任务。高分辨率图像细节清晰、色彩丰富，被广泛应用于安全监控、医疗成像、卫星图像、视频直播等[3]领域。早期的研究人员通过基于插值的方法、基于重构的方法进行超分辨率图像重建，得到的图像较为模糊，缺少细节信息。传统方法在LR与HR空间之间建立的映射定义不清晰，算法效率较低。基于深度学习的方法拥有强大的特征学习、特征提取能力，构建的神经网络在理论上可以模拟任何一种函数，通过端到端的模型训练，直接从数据中学习LR图像与HR图像之间的映射关系，相比传统方法在性能、各项评估基准上都有着显著的提升。

2 图像超分辨率简介

图像超分辨率的目标是将一张低分辨率图像恢复为对应的高分辨率图像。通常，用[y]表示低分辨率图像，用[x]表示相应的高分辨率图像，图像下采样过程建模为：

[y=（x?k）↓s+n] （1）

其中[k]表示模糊内核，[x?k]为高分辨率图像与模糊内核的卷积运算，[↓s]表示缩放系数为s的下采样运算，[n]为独立的噪声项。下采样过程通常是未知的，可能会受到压缩伪影、散焦模糊、传感器噪声等因素影响。在图像超分辨率模型中，要求尽可能从低分辨率图像[y]中恢复真实高分辨率图像[x]的近似值[x]。

[x=F（y;θ）] （2）

其中[F]为超分辨率模型函数，[θ]为函数[F]的参数。本质上，求解公式（2）不满足“解的唯一性”，属于一个经典的不适定问题。对于同一张LR图像，始终存在若干张可能对应的HR图像，而不是唯一一张对应的HR图像。目前，图像超分辨率的主流算法可分为两大类：基于插值、基于重构的传统方法与基于深度学习的方法。

3 研究现状

3.1 传统方法

传统的图像超分辨率方法主要分为基于插值的方法与基于重构的方法。插值法利用图像相邻像素点之间的连续性和关联性，选择合适的像素坐标进行图像插值。常见的插值法有最近邻插值法、双线性插值法、双三次插值法等。其中，双三次插值法利用16个相邻像素点的信息来计算待插入的像素值，在原图像两个轴上分别进行三次插值。与双线性插值法相比，双三次插值法利用的像素点信息更多，输出的图像效果更平滑。基于插值的方法简单易实现，仅利用原图像相邻像素点间的信息去提高分辨率，而没有考虑整张图像的语义信息。插值法重建速度较快，可以在线性时间内实时重建高分辨率图像，虽然增加了图像的像素点，但是输出的图像质量较低，容易出现模糊伪影。

基于重构的方法，对光学模糊、运动模糊等成像因素建立数学优化模型，利用图像的先验知识来约束解空间，从图像下采样模型中得出低分辨率与高分辨率图像之间的内在关系，逆推生成高分辨率图像。常见的重构法有迭代反向投影法、凸集投影法、最大后验概率估计法[4]等。其中，最大后验概率估计法基于概率统计理论，通过贝叶斯定理求解问题，使重建图像的统计后验概率最大。与插值法相比，重构法更关注图像下采样的实际情况，同时也获得较好的重建效果。但是随着放大系数的增大，重构法的性能会急剧下降，重建过程非常耗时。

3.2 基于深度学习的方法

深度学习是机器学习的一个分支，可以处理大量非结构化数据，自动学习数据的层次表示。近年来，随着计算机硬件的高速发展，深度学习在计算机视觉、自然语言处理等领域均取得了较好的效果。大多数深度学习模型都是基于神经网络的，具有较好的非线性学习能力，这点在图像超分辨率中有很大的优势。基于深度学习的图像超分辨率方法，通过在大量的低分辨率、高分辨率圖像对中进行端到端的训练学习，提取有效的高频特征，解决了传统方法难以学习图像深层特征的瓶颈。

3.2.1 基于SRCNN及其改进方法

Dong等人[5]提出的SRCNN模型，是深度学习应用于图像超分辨率领域的开山之作。SRCNN通过三层结构的卷积神经网络，完成图像块提取、非线性映射、图像重建等过程。网络第一层为图像块提取层，输入经过双三次插值预处理的LR图像，应用9x9的卷积核提取[n1]个特征图。第二层为非线性映射层，将[n1]维的LR图像特征图映射到[n2]维HR图像特征图的映射空间。第三层为重建层，通过全连接的方式聚合[n2]维的HR特征图重建生成HR图像。SRCNN采用逐像素损失为优化目标，通过最小化重建图像[Y]与原始高分辨率图像[X]间的均方误差（MSE）训练网络。

[L（θ）=1ni=1n∥Yi;θ-Xi∥2] （3）

其中[L（θ）]为损失函数，[θ]为网络模型的参数，[n]为训练样本的数量，[F]表示LR与HR空间之间的映射函数，[Y]为重建图像，[X]为相应的原始高分辨率图像。通过不断的迭代训练，SRCNN以端到端的方式学习LR图像到HR图像的抽象映射。与传统方法相比，SRCNN在峰值信噪比（PSNR）与结构相似度（SSIM）等评价指标上均取得了更好的表现。随后，Dong等人[6]继续改进SRCNN，提出了FSRCNN模型。FSRCNN使用反卷积来进行图像上采样，解决了SRCNN输入图像前需要进行插值预处理的问题，减少了输入误差;使用1x1的卷积核进行降维并且加深了网络深度，最终取得了更好的图像重建效果。

3.2.2 基于残差学习的方法

Kim等人[7]提出的VDSR模型，首次将残差结构应用于超分辨率重建。该模型的网络深度达20层，更深的网络结构拥有更大的有效感受野，VDSR的有效感受野为41x41，可以在特征提取中融合更多的上下文信息。但是网络模型越深，随之而来的是梯度爆炸问题。残差网络[8]中的跳跃链接（skip conections）可以巧妙避免该问题。由于图像超分辨率是从图像到图像的转换任务，其中输入图像与输出图像是密切相关的，因此VDSR模型提出仅学习原始HR图像和输入LR图像之间的残差，从而避免了学习从完整图像到图像的复杂转换任务。残差图像[r]的定义如下：

[r=y-x] （4）

其中[r]为残差图像，[y]为原始HR图像，[x]为插值后的LR图像。网络的优化目标为最小化残差图像[r]与输出图像[f（x）]之间的误差，损失函数[L]的定义如下：

[L=12∥r-f（x）∥2] （5）

其中[L]为损失函数，[r]为残差图像，[f（x）]为网络输出的预测图像。由于网络只需要学习图像的残差，而大多数图像块的残差值接近于0，因此大大降低了网络的复杂度与训练成本。相比线性网络，VDSR模型的训练速度更快，输出结果能够保留较好的图像高频细节。此外，该模型将不同缩放系数的LR图像混合在一起训练，将单一倍数的超分模型改进为适应多倍数的超分模型，并取得了较好的泛化效果。

3.2.3 基于生成对抗网络的方法

生成对抗网络（GAN）是由Goodfellow 等人[9]提出的无监督学习模型，主要包括一个生成器网络和一个判别器网络，两个网络同时训练，以相互博弈的方式去竞争学习。Ledig等人[10]提出的SRGAN模型，将生成对抗网络应用于图像超分辨率。该模型的生成器网络G通过输入的低分辨率图像，不断生成高分辨率图像。判别器网络D则需要判断输入的图像是生成的高分辨率图像，还是真实的高分辨率图像。两个网络不断迭代训练，直至判别器网络D无法判断输入的图像来自生成图像还是真实图像，两者达到了博弈均衡，最后生成器网络G输出逼真的高分辨率图像。

大多数的超分模型都是以均方误差作为损失函数，导致生成的高分辨率图像过于平滑，与人的视觉感知不一致。SRGAN在损失函数中引入感知损失（perceptual loss），尝试从人类观感的角度去评估图像质量。在4倍放大图像时，SRGAN输出图像的平均PSNR值虽然略低于SRCNN，但是生成图像的纹理细节清晰，视觉效果逼真，更符合人类的观感需求。

4 总结

图像超分辨率的发展经历了基于插值、基于重构和基于深度学习的三个阶段。近年来，随着深度学习技术的蓬勃发展，基于深度学习的超分辨率模型已经成为图像超分辨率领域的主流算法，并广泛应用于各个领域。相比传统方法，深度学习模型拥有强大的特征提取能力，能够在数据中自动学习从LR图像到HR图像的复杂映射，重建出纹理清晰、细节丰富的高分辨率图像，有效解决了传统方法难以学习图像高频信息、生成图像含有模糊伪影等问题。

参考文献：

[1] 谢海平，谢凯利，杨海涛.图像超分辨率方法研究进展[J].计算机工程与应用，2020，56（19）：34-41.

[2] Nasrollahi K，Moeslund T B.Super-resolution：a comprehensive survey[J].Machine Vision and Applications，2014，25（6）：1423-1468.

[3] 王威，张彤，王新.用于图像超分辨率重构的深度学习方法综述[J].小型微型计算机系统，2019，40（9）：1891-1896.

[4] Liu C，Sun D Q.On Bayesian adaptive video super resolution[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2014，36（2）：346-360.

[5] Dong C，Loy C C，He K M，et al.Image super-resolution using deep convolutional networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2016，38（2）：295-307.

[6] Dong C，Loy C C，Tang X O.Accelerating the super-resolution convolutional neural network[C]//Computer Vision - ECCV 2016，2016：391-407. DOI：10.1007/978-3-319-46475-6_25.

[7] Kim J，Lee J K，Lee K M.Accurate image super-resolution using very deep convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.June 27-30，2016，Las Vegas，NV，USA.IEEE，2016：1646-1654.

[8] He K M，Zhang X Y，Ren S Q，et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.June 27-30，2016，Las Vegas，NV，USA.IEEE，2016：770-778.

[9] Goodfellow I， Pouget-Abadie J， Mirza M， et al. Generative adversarial networks[C]. Proceedings of the Advances in Neural Information Processing Systems， Quebec， Dec 8-13， 2014：2672-2680.

[10] Ledig C，Theis L，Huszár F，et al.Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.July 21-26，2017，Honolulu，HI，USA.IEEE，2017：105-114.

【通聯编辑：唐一东】