深度学习的图像超分辨率重建技术综述
2022-09-15杨才东李承阳李忠博谢永强孙方伟
杨才东,李承阳,2,李忠博+,谢永强,孙方伟,齐 锦
1.军事科学院 系统工程研究院,北京 100141
2.北京大学 信息科学与技术学院,北京 100871
图像超分辨率重建技术(super-resolution reconstruction,SR)是将输入的模糊、包含信息较少的低分辨率(low-resolution,LR)图像重建为清晰、包含更多信息的高分辨率(high-resolution,HR)图像,是计算机视觉领域的一个重要方向。生成图像还可以为下游的计算机视觉相关任务提供服务,如目标检测、目标定位等,可以增强任务效果,提高识别正确率。在现实生活中,图像超分辨率重建应用前景十分广泛,如医学成像、安全监测、图像压缩等领域。
传统的图像超分辨率重建方法主要有以下三种:基于插值的超分算法,如双三次插值、最近邻插值等;基于退化模型的超分算法,如迭代反投影法、凸集投影法和最大后验概率法等;基于学习的超分算法,包括流形学习、稀疏编码方法等。传统的超分算法已经取得了很大的成功,但是随着尺度因子的放大,从×2 到×4、×8,用于超分重建所需要的信息越来越多,人为定义的先验知识已经不能满足需求,很难实现重建高质量图像的目的。
随着深度学习在计算机视觉领域取得了巨大成功,2014 年Dong 等人首次将深度学习方法引入图像超分重建任务,借助神经网络强大的学习能力,取得了优于传统方法的成绩。随后研究者们提出了一系列不断优化的算法模型,从最早的基于卷积神经网络的SRCNN(super-resolution convolutional neural network)模型,到基于生成对抗网络的SRGAN(superresolution generative adversarial network)模型,再到基于最新的Transformer的TTSR(texture transformer network for SR)模型,基于深度学习的图像超分重建技术不断取得新的突破,并且已经提出了很多适用于超分领域研究的专有数据集。
本文从输入图像数量的角度,将基于深度学习的图像超分辨率重建方法分为两种,分别是仅输入一张图像的单图像超分辨率重建方法(single image super-resolution reconstruction,SISR)和输入多张图像的基于参考的图像超分辨率重建方法(referencebased super-resolution reconstruction,RefSR)。
1 单图像超分辨率重建方法
SISR 方法输入一张低分辨率图像,利用深度神经网络学习LR-HR 图像对之间的映射关系,最终将LR 图像重建为一张高分辨率图像。SISR 方法的经典模型发展如图1 所示。最早基于深度学习的SISR方法模型是2014 年提出的SRCNN 模型,利用卷积神经网络来学习LR 图像到HR 图像之间的映射关系,得到了比传统方法更高的峰值信噪比(peak signal-tonoise ratio,PSNR)和结构相似度(structure similarity index measure,SSIM)指标。这个阶段的SISR 方法的改进方向主要以增加神经网络的深度,从而提高PSNR和SSIM 指标为导向。2017年提出的SRGAN模型中,首次提出要提高图像的感官质量,引入了感知损失函数。随后提出的模型开始以优化重建图像纹理细节为目标,不断推动着图像超分领域的发展。
图1 典型的SISR 模型Fig.1 Typical SISR model
目前已经提出了很多性能较好的SISR 模型,尽管各模型之间存在一定的差异,但本质依然是在超分框架的基础上,对一系列组件进行改进和组合,得到一个新的超分模型。这些组件包括上采样模块、非线性映射学习模块以及损失函数等,本文分别对超分框架及各组件进行介绍和分析。
1.1 超分框架
SISR 方法的框架由两部分构成,分别是非线性映射学习模块和实现图像放大的上采样模块。非线性映射学习模块负责完成低分辨率图像到高分辨率图像的映射,这个过程中利用损失函数来进行引导和监督学习的进程;上采样模块实现重建图像的放大。两个模块共同协作,最终完成输入图像的超分辨率重建。根据上采样模块的位置不同,可以将SISR 方法总结为以下四种超分框架:
(1)前端上采样超分框架:这种框架最早被采用,如图2 所示。前端上采样可以避免在低维空间上进行低维到高维的映射学习,降低了学习难度,是一种简单易行的方法。但是同时噪声和模糊等也被增强,并且在高维空间进行卷积运算将会增加模型计算量,消耗更多的计算资源。
图2 前端上采样框架Fig.2 Pre-upsampling framework
(2)后端上采样超分框架:如图3 所示,针对前端上采样超分框架存在的问题,提高计算资源利用效率,研究者提出了后端上采样超分框架,将上采样模块放置在网络后面部分。该框架下的大部分卷积计算在低维空间进行,最后再利用端到端可学习的上采样层,如转置卷积和亚像素卷积,进行上采样放大。这样的好处是进一步释放了卷积的计算能力,降低模型复杂度。
图3 后端上采样框架Fig.3 Post-upsampling framework
(3)渐进式上采样超分框架:随着超分的发展,超分尺度不断增大,常规的上采样模型已经不能满足要求。在这样的需求下,渐进式上采样超分框架被提出,如图4所示。在该框架中,图像放大是逐级进行的,中途生成的图像继续输入后续模块,直到达到目标分辨率。常用方法是采用卷积级联或者Laplace金字塔的方式,再结合多级监督等学习策略,就能完成大的超分倍增系数下的超分重建任务。
图4 渐进式上采样框架Fig.4 Progressive upsampling framework
(4)升降采样迭代式超分框架:Timofte 等人借鉴了反向投影的思想,提出了升降采样迭代式超分框架,具体如图5所示。随后Haris等人采用了这种超分框架,在DBPN(deep back-projection networks)中交替使用上、下采样,结合得到的所有特征图来完成低分辨率图像的重建。这种方法通过反复进行LRHR 的映射学习,能充分学习出两者之间的映射关系。但是目前这种超分框架的结构复杂,设计标准也不明确,仍需要进一步地探索。
图5 升降采样迭代式框架Fig.5 Iterative up-and-down sampling framework
1.2 上采样方法
在神经网络占据主导地位的情况下,部分传统的上采样方式因其可解释性以及容易实现,在深度学习的超分模型中经常见到,并且取得了让人满意的效果。本节主要介绍基于插值的传统上采样方法和端到端可学习的上采样方法。
(1)基于插值法的上采样方法
插值法的原理就是利用一定的数学策略,从相关点中计算出待扩展点的像素值,这在数学上很容易实现,因此在超分重建领域最早采用插值法进行。但是因为插值函数本身的连续性,导致了重建图像较为平滑而模糊。图像纹理处常常是各种突变,这与函数的连续性互为矛盾,这正是基于插值的方法的局限性以及本质问题所在。
(2)端到端可学习的上采样方法
为了解决基于插值法的上采样方法存在的问题,研究者们提出了端到端可学习的上采样方法:转置卷积和亚像素卷积。
转置卷积又称为逆卷积,即卷积过程的逆过程。转置卷积通过卷积学习来增大图像分辨率,实现了端到端的放大,避免了人工设计带来的干扰,并且可以与卷积神经网络保持很好的兼容,因此被广泛应用在图像超分辨率重建领域中。
亚像素卷积又称为像素清洗。成像系统在利用感光元件对现实连续的世界离散化表示的过程中,每一个像素点之间比像素更小一级的存在,这就是“亚像素”。
亚像素卷积具体过程就是利用卷积计算对图像进行特征提取,再对不同通道间的特征图进行重组,从而得到更高分辨率的特征图。由于每个像素的扩展都是通过卷积完成,相应的参数都需要学习产生,解决了插值方法中存在的人工痕迹问题,更好地拟合了像素之间的关系。
目前,端到端可学习的放大方法已经被广泛使用,尤其是在网络模型的后端进行上采样,将大部分的数据计算工作在低维空间进行,大大提高了模型的计算速度,空间复杂度也大幅降低。
1.3 非线性映射学习模块
非线性映射学习模块在训练过程中利用LR-HR图像对学习,使模型获得从低分辨率图像到高分辨率图像的映射能力。在重建过程中,低分辨率图像在该模块完成分辨率的映射变换,再结合上采样模块实现超分辨率重建。
根据该模块结构的不同分为以下四种:基于卷积神经网络的模型、基于生成对抗网络的模型、基于强化学习的网络模型以及基于Transformer 的网络模型。网络结构如图6 所示。
图6 四种不同网络结构Fig.6 Four different network structures
(1)基于卷积神经网络的SR 方法
卷积神经网络早在1989 年就被提出,但直到近几年随着计算机技术的发展以及训练样本的增加,CNN 网络在计算机视觉领域广泛使用。
2014 年Dong 等人提出SRCNN算法,第一个将卷积神经网络网络模型引入到超分辨率重建领域,如图7 所示。
图7 SRCNN 结构图Fig.7 SRCNN structure
SRCNN 先对图片进行下采样预处理得到低分辨率图像,利用双三次插值放大到目标分辨率,再用卷积核大小分别为9×9、1×1、5×5 的三个卷积层,分别进行特征提取,拟合LR-HR 图像对之间的非线性映射以及将网络模型的输出结果进行重建,得到最后的高分辨率图像。SRCNN 虽然结构简单,但是依托于对大样本数据的学习,重建效果超过了传统算法,从而掀起了深度学习在超分领域的研究热潮。
随后Dong等人继续对SRCNN 进行改进,提出了FSRCNN(fast super-resolution convolutional neural network)。与SRCNN 相比,FSRCNN 主要有三点改进:(1)直接用LR 图像作为输入,降低特征维度;(2)使用比SRCNN 更小的滤波器,网络结构加深;(3)采用后端上采样超分框架,在网络最后加入反卷积层来将图像放大至目标分辨率。FSRCNN采用更小的卷积核、更深的网络层数,训练速度提高,重建的HR 图像质量效果进一步得到提高。
此时基于卷积神经网络的模型的主要改进方向在卷积层的层数上,理论上来说,增加模型深度,可以提取到更高级的特征,提供更好的表达能力。2014 年VGGNet算法层数达到19 层时,取得了当时最先进的结果。但是随着模型深度的继续增加,算法会出现模型退化、难以训练等问题。这个问题直到2015 年何恺明提出ResNet算法后,才得到真正解决。随后提出的VDSR(very deep convolutional networks)、EDSR(enhanced deep residual networks for SR)、DBPN以及RCAN(residual channel attention networks)等模型,不断加深了网络深度,进一步提高了模型的性能。
(2)基于生成对抗网络的SR 方法
随着图像超分辨率重建技术的发展,研究者们发现,尽管重建出来的高分辨率图像的PSNR/SSIM指标越来越高,但是生成的图像过于平滑,高频纹理信息丢失,重建图像缺乏人眼感官上的照片真实感,并且在工业界的实际使用效果依然很差。为了解决这个问题,研究者们将生成对抗网络引入超分领域,重建出了令人满意的纹理细节。
2017 年Ledig 等人首次将生成对抗网络引 入超分重建领域,最早开始将超分研究的注意力从PSNR/SSIM 指标上转移到图像感知质量上,并提出了SRGAN算法。Ledig等人利用生成对抗网络来对照片进行重建,同时摒弃了像素级的均方误差(mean square error,MSE)损失,利用VGG 网络提取出来的特征计算损失函数作为内容损失,使得生成的图片具有更多的纹理信息,更具有人眼感官上的真实感。内容损失加上对抗网络本身的对抗损失,共同构成了感知损失函数。
基于生成对抗网络的超分模型已经取得了很好的性能,但是依然存在几个严重的问题。首先,生成对抗网络的训练很不稳定,训练过程中很容易崩溃;其次,生成的图像缺乏多样性。基于生成对抗网络结构的超分方法训练难度大,设备要求高。
(3)基于深度强化学习的SR 方法
深度强化学习是将深度学习与强化学习结合,从而实现从环境感知到行为映射的端到端可学习的一种算法。强化学习在现有数据的基础上,循环利用学习得到的新的数据,不断提高模型的学习能力。该方法已经被证明在不监督每一步的情况下对序列模型进行全局优化的有效性。
在图像超分领域早期,利用深度学习算法学习LR 图像到HR 图像所有块之间的映射时,没有考虑到块与块之间的相关性。2017 年Cao 等人受人类感知过程的启发,从整体图像开始,对不同区域的相关关系进行建模,并按照各个区域的关联线索进行融合,探索具有注意力转移机制的区域序列,结合深度学习强大的学习能力,提出了基于深度强化学习的注意感知人脸超分方法。
(4)基于Transformer的SR 方法
循环神经网络使得模型记忆能力,用以往的记忆和当前的输入来共同生成下一步的输出,但是因为其计算过程被限制为顺序的,循环神经模型的并行能力受到了制约。当信息跨度比较大时,在序列计算过程中会出现信息丢失。2017 年Vaswani 等人提出了Transformer,利用注意力机制打破RNN 计算顺序限制,将序列中的任意位置距离缩小,可以很好地进行并行处理上的优化。
2020 年Yang 等人最早将Transformer 引入图像超分领域,提出了基于Transformer 网络结构的TTSR超分算法。为了充分利用参考图像的纹理信息,Yang等人在TTSR中提出了特征融合机制,利用上采样方式实现不同层级间的特征互相融合。大量的实验表明,TTSR在客观和主观评价方面都取得了显著的进步。
1.4 损失函数
损失函数在非线性映射学习模块的学习过程中,指导着超分模型向着预期的方向学习和前进,通过损失函数的变化可以知道当前模型的训练与预期之间的差距,同时调控模型学习方向。
(1)像素损失函数
像素损失函数包括MSE 损失函数、像素L1 损失函数,它们表示的都是重建图像与目标图像之间像素的损失。
将深度学习引入超分领域的初始阶段,都是采用MSE 作为损失函数。MSE 损失函数表达式如下:
MSE 损失函数(L2 loss)中,当误差较小时,MSE会进一步对误差进行缩小,因此对较小的误差无能为力;当误差大于1 时,MSE 会将误差进一步放大,导致模型对这种误差更为敏感,即使是一些异常值,模型也会进行调整以适应,这就使得最终重建图像更为平滑、模糊,缺乏高频的纹理细节。为了提高模型的重建效果,陆续改用L1 损失。
L1 损失函数即平均绝对误差,表达式如下:
在实践中,L1 损失函数的实际效果要比MSE 更好,更能提高模型性能,得到更高的指标。
(2)内容损失
为了提升图像的感知质量,引入了内容损失函数。相对像素损失来说,内容损失不再要求像素层面上的精确,而是追求人眼感官层面的相似。为了提升感知质量,利用神经网络中生成的图像特征与真实图像特征之间的距离来进行计算,表达式如下:
(3)对抗损失
对抗损失来源于具有强大学习能力的生成对抗网络。2017 年Ledig 等人提出了图像超分领域的经典模型SRGAN,生成的图像包含更多高频信息,在感官上更符合人眼的要求。对抗损失在SRGAN中的定义如下:
其中,()是基于交叉熵得到的生成器的损失函数,(,)是鉴别器的损失函数,()表示生成器生成的图像是自然图像的概率。
但是,使用这个损失函数时网络难以训练且容易崩溃。为了解决这个问题,在WGAN(Wasserstein generative adversarial network)模型中对该函数进行了改进,在输出层中去掉了sigmoid 或softmax 层,将权值限定在一定的范围内,定义如下所示:
在WAGN-GP中,研究者认为将权值进行限定不合理,将限定去掉后使用梯度惩罚对鉴别器进行约束,如下所示:
(4)感知损失
感知损失通过衡量提取的特征之间的距离来进行优化,可以很好地改进图像的感知质量,使得超分重建的图像更加符合人眼的感官感受。在SRGAN 中将感知函数定义成内容损失和对抗损失的加权和:
其中,为感知损失,为内容损失,()为对抗损失。
2 基于参考的图像超分辨率重建
RefSR 方法借助引入的参考图像,将相似度最高的参考图像中的信息转移到低分辨率图像中并进行两者的信息融合,从而重建出纹理细节更清晰的高分辨率图像。目前的参考图像可以从视频帧图像、Web 检索图像、数据库以及不同视角的照片中来获取。RefSR 在重建图片纹理细节方面有着很大的优越性,近几年来受到越来越多的关注。
RefSR 方法可以分为两步:第一步将参考图像中有用的信息与输入图像中的信息进行匹配,能准确对应两者的信息是重建令人满意的细节纹理的关键。第二步将匹配到的信息进行提取,并与输入图像进行融合,进而重建出满意的图像。因此,RefSR方法性能好坏的决定性因素就是LR 图像与高分辨率参考图像之间的匹配和融合的准确性。
本文根据纹理细节在神经网络中的匹配方式,将RefSR方法分为像素对齐和Patch匹配两类,如图8所示。
图8 典型的RefSR 模型Fig.8 Typical RefSR model
2.1 像素对齐
利用额外的高分辨率参考图像来辅助LR 图像的超分重建过程,这就要求两者图片具有一定的相似性,如具有相同或相似的事物,或者是两者的拍摄角度改变,同一事物但背景不同等。图像对齐是实现利用参考图像辅助重建的前提条件,先从LR 图像中检测稀疏的特征,再在参考图像中进行特征匹配,最后基于这些匹配特征将原LR 图像映射到另一个图像中,从而实现图像对齐。
在早期的工作中,Landmark提出了检索相关网络图像作为参考图像的方法。如图9 所示,为了解决检索出来的参考图像的HR细节的不确定性,Landmark通过全局配准来将参考图像与上采样后的LR 图像进行对齐,从而识别出这些图像中各自对应的区域,减少失配或错配的情况。最后通过求解能量最小化问题来将匹配的HR 细节信息与输入图像进行混合,以恢复期望的SR 图像。
图9 Landmark 结构图Fig.9 Landmark structure
引入参考图像来促进低分辨率图像的超分重建过程,尽管参考图像与LR 图像具有相似的细节信息,但是两者的分辨率差距较大,有时达到了8 倍甚至更大的差距。同时因为之前的方法通常是采用级联方式连接,往往是具有独立定义的目标函数的合成流水线,从而导致生成图像发生块间错位、网格效应等问题。
为了解决这个问题,2018 年Zheng 等人提出了CrossNet模型,模型结构如图10 所示。CrossNet 模型是一种端到端的完全卷积的深度神经网络,通过预测光流量来进行跨尺度变换,包括了图像编码器、跨尺度变换层以及融合解码层。其中跨尺度变换层负责将编码层提取的参考特征图与LR 特征图在空间上对齐,有了参考图像的特征互补,有效缓解了参考图像中巨大的分辨率差距问题。由于使用了跨尺度变换,CrossNet网络能够以端到端的方式在像素级上实现对齐。
图10 CrossNet结构图Fig.10 CrossNet structure
2018年Zhao等人提出了高频补偿超分辨率(highfrequency compensation super-resolution,HCSR)模型。该模型引入了SISR 图像的中间视图,得到与HR 图像分辨率相同的LR 图像,此LR 图像在该分辨率下缺失的高频细节在SISR方法下无法得到,仅仅将其中的信息作为需要超分重建过程中的低频信息。HCSR为了解决跨尺度输入之间的显著分辨率之差引起的变换问题,需要计算从参考图像到所有LR 光场图像的多个视图差,然后利用混合策略对精化的视差图进行融合,最后得到高质量的超分图像。
利用光流预测的方法仅限于小视差的条件,尽管在光场数据集上可以达到很高的精度,但处理大视差情况的效果迅速下降。这些采用像素对准的RefSR 方法在很大程度上依赖于LR 和HR 基准之间的像素级对准质量。
2020 年Shim 等人在堆叠的可变性卷积的基础上提出了可实现端到端的新颖高效的参考图像特征提取模块——相似性搜索与提取网络(similairity search and extraction network,SSEN),可以从参考图像中提取对齐的相关特征,并且可以插入到任何现有的超分辨率网络中。Shim 等人使用非局部块作为偏移量估计来积极地搜索相似度,可以以多尺度的方式执行像素对齐。与使用暴力搜索或光流估计的方法相比,SSEN 无需任何额外的监督或繁重的计算,只需要一次网络操作就可以预测最佳匹配,极大地提高了RefSR 方法的鲁棒性。
2.2 Patch 匹配
Patch 匹配是一种纹理合成的方法,利用自身图片或参考图片中其他区域来恢复目标图片的边缘区域,这与RefSR 的目的完全吻合。
2017 年Zheng 等人利用Patch 匹配的方法,提出了SS-Net 模型。具体来说,SS-Net 首先设计了一个跨尺度对应网络来表示参考图像和低分辨率图像之间的跨尺度Patch 匹配。这个跨尺度对应网络就是一个分类网络,它从搜索范围内的候选Patch中预测正确的匹配,再利用扩张卷积,有效地实现了训练以及特征图的生成。跨尺度对应网络选择了需要的Patch之后,在多个尺度上对低分辨率图像的Patch与参考图像的Patch进行融合,最终合成HR图像并输出。
利用参考图像促进LR 图像有效超分重建的前提是两者需要具有一定的相似度,这直接关系到重建图像质量的高低。当相似度很低时,生成图像质量急剧下降。
为了解决这个问题,增强模型的鲁棒性,2019 年Zheng 等人提出了端到端可学习的SRNTT(superresolution by neural texture transfer)网络模型,模型结构如图11 所示。Zheng 等人将RefSR 问题表述为神经纹理转移问题,模型根据纹理相似度自适应地完成纹理转换,丰富了HR 纹理细节。与原始像素空间进行匹配不同,SRNTT 对预先训练的VGG 中提取的参考特征与LR 特征在自然空间中进行多级匹配,促进了多尺度神经传输,这样模型就可以从相关的参考纹理中获得更多的收益,并且即使在参考图像极不相关的情况下,模型性能也只会降低到SISR的性能。
图11 SRNTT 结构图Fig.11 SRNTT structure
2020 年Yang 等人进一步将Transformer架构引入RefSR 任务,提出了TTSR 模型。如图12 所示,TTSR 以跨尺度的方式堆叠纹理转换器以融合多层信息,Transformer中的硬注意和软注意有助于更精准地传递参考图像中的纹理特征。TTSR 总共有四个模块,分别是可学习的DNN(deep neural networks)纹理提取器、相关嵌入模块、用于纹理转移的硬注意力模块和用于纹理合成的软注意力模块。通过这样的设计,硬注意力模块可以发现深层的特征并完成对应,准确地将纹理特征传递到软注意力模块实现纹理合成,完成跨越不同图像的特征联合学习。整个模型可以通过跨尺度的方式进行堆叠,满足不同放大尺度的超分重建的同时得到令人满意的恢复纹理。
图12 TTSR 结构图Fig.12 TTSR structure
SRNTT 和TTSR 结合深度学习框架和Patch 匹配,获得令人满意的视觉效果的同时,进一步扩展了在没有视图约束的情况下对高分辨率图像的参考。SRNTT 将RefSR 问题重新考虑为神经纹理转移问题,以风格转移的方式对预训练的VGG 特征进行合成。TTSR 设计了一个充分利用注意力机制来完成Patch 匹配和信息合成的纹理转换器。SRNTT 和TTSR 都需要对提取的Patch进行彻底的比较,当纹理较少或图像区域重复时,两者都不能很好地处理,这就导致两者的Patch 匹配方法计算成本很高。
现有的RefSR 方法普遍存在一个问题,当低分辨率图像和高分辨率参考图像的分辨率差异较大时,如两者相差8 倍,很难实现高保真超分辨率。
针对这个问题,2021 年Zhou 等人从解决实际多尺度相机系统中的RefSR 问题出发,受到多平面图像(multiplane image,MPI)表示的启发,提出了一个端到端可学习的RefSR 网络模型——Cross-MPI 模型。Cross-MPI 模型由平面感知MPI 机制、多尺度引导的采样模块以及超分辨率融合模块三部分组成。模型中提出的平面感知MPI 机制充分利用了场景结构进行有效的基于注意机制的对应搜索,不需要进行跨尺度立体图像之间的直接匹配或穷举匹配。在此基础上,Cross-MPI 进一步结合从粗到精的引导上采样策略,实现了精准的细节传输,同时增强了模型的稳定性。
利用高分辨率参考图像来恢复低分辨率图像的高频纹理细节,实现高质量的匹配成为生成图像质量好坏的关键。除此之外,现有方法忽略了参考图像和低分辨率图像在分布上存在巨大的差异,这对信息的有效性产生了一定的影响。
针对这些问题,2021 年Lu 等人提出了MASA(matching acceleration and spatial adaptation)模型。MASA模型中设计了两个新的模块来解决上述问题,分别是特征匹配与提取模块和空间自适应模型。特征匹配与提取模块在保持高质量匹配的同时,通过由粗到精的对应匹配方案,利用自然图像的局部相关性,针对LR 图像特征图中的每个Patch,将其搜索空间从整个参考图像特征图缩小到一个特点的参考块,显著降低了计算成本。空间自适应模块学习低分辨率图像和参考图像之间的分布差异,有效处理两者在颜色、亮度等分布上存在较大差异的情况,并以空间自适应的方式将参考图像特征的分布重新映射到低分辨率图像特征的分布中。有了这些设计,参考图像中真正有用的信息可以更有效地转移和利用。最后提出了双残差聚合模块(dual residual aggregation module,DRAM)来完成参考图像特征和LR 图像特征的融合。
纹理传输的关键步骤就是找到低分辨率图像和参考图像之间的对应关系。常见的RefSR 方法都是基于内容和外观相似度进行计算的,这忽略了高分辨率参考图像与低分辨率图像之间的底层转换关系,如缩放和转换等,尽管有着相同的对象或者相似的纹理,当发生底层转换时往往会导致外观发生变化。再加上分辨率上的差距,这在真实情况下将很难准确计算两者之间的对应关系,此时仅仅利用外观去计算对应关系是不准确的。除此之外,高分辨率参考图像在进行下采样时也不可避免地丢失信息,这阻碍了网络对纹理精细区域的搜索。上述原因导致的最终结果是参考图像的有用信息不能得到充分利用,纹理传输不理想。
为了解决上述问题,2021 年Jiang 等人提出了C-Matching 模型。C-Matching 模型由三个模块组成,分别是对比网络模块、教师-学生蒸馏模块以及动态聚合模块。对比网络模块解决了底层变换之间的差距,利用输入图像的增强视图来学习底层变换之后的对应关系,增强模型鲁棒性。师生相关蒸馏模块用于解决分辨率差距问题,从HR-HR的匹配中提取知识来指导不明确的LR-HR 匹配。动态融合模块用来解决潜在的错位问题。大量实验表明,C-Matching模型的性能显著优于现有技术1 dB以上,同时对大尺度和旋转变换具有较强的鲁棒性。
已经证明,在恢复图像细节纹理方面,RefSR利用参考图像信息来补偿低分辨率图像中丢失的细节信息,比SISR 具有更大的优势,可以生成更真实的令人视觉满意的纹理。即使两者图像纹理相似度很低,RefSR也可以达到同等程度的SISR的效果。
但是RefSR 的网络模型结构比较复杂,需要消耗更大的计算资源,同时RefSR 网络模型的性能取决于信息的对齐和匹配,因此探索更好的对齐方法和匹配准则,是该领域的研究热点也是难点。除此之外,引入的参考图像与输入低分辨率图像的相关程度也会对最终生成图像的质量产生相应影响。
3 超分数据集和图像质量评估
3.1 常用数据集
benchmark 数据集是同一领域内的对比标准,表1 主要列举了该领域的benchmark 测试数据集,即Set5、Set14、BSD100、Urban100 以及DIV2K 数据集。除此之外,Flickr2K 也是超分领域主流的训练数据集,以及后续提出的具有LR-HR 图像对的真实数据集City100、RealSR、DRealSR。
表1 benchmark 数据集介绍Table 1 Introduction to benchmark datasets
3.2 图像质量评估
为了更好地对图像超分辨率重建结果进行评估,需要引入图像质量评估指标。目前的评估主要分为客观评估和主观评估两种。客观评估是对超分重建结果的定量评价,直接定量地反映图像质量,从数据上可以直接得出结果的好坏。主观评价是对超分重建结果的定性评价,是以人为主体,邀请受访者对重建的图像质量进行对比和评估,这种评价方法依赖于人的判断。目前来说,主观评价和客观评价的结果往往是不同的,客观评价是从数学角度出发,并没有考虑到人的感官感受,这使得客观评估指标较好但又不符合人眼的感官感受,因此还存在一定的争议。
(1)峰值信噪比
峰值信噪比(PSNR)是图像进行有损变换时最常用的度量指标之一,也是目前超分领域使用最广泛的客观评价指标。PSNR由图像的最大像素值和均方误差(MSE)来定义,如式(11)所示:
其中,为均方误差,MAX指表示图像点颜色的最大数值,图像的最大像素值由二进制位数决定,如8 位二进制表示的图像的最大像素值就是255。
由于PSNR 与MSE 有关,没有考虑到人的视觉感知,虽然模型能达到比较高的PSNR 指标,但在真实场景中的实际效果依然不能使人满意。尽管如此,由于缺乏更为准确的感知评价指标,PSNR 依然被研究者广泛使用。
(2)结构相似度
结构相似性(SSIM)也是目前图像超分领域被广泛使用的性能指标之一。SSIM从人类视觉系统中获得灵感,将图像的组成分为亮度、对比度以及结构三部分,并用均值作为亮度的估计,标准差作为对比度估计,协方差作为结构相似程度估计,数学表达式如下:
其中,(,)表示图像的亮度比较,(,)表示图像的对比度比较,(,)表示图像的结构比较,代表均值,表示标准差,σ表示协方差,为常数,避免出现分母为0 导致系统错误。在工程中,常常令===1,=/2,得到简化后的SSIM:
(3)平均意见评分
平均意见评分(mean opinion score,MOS)是一种常用的主观图像质量评估的方法,通过邀请接受过训练的普通人以及未接受过训练的普通人来对重建的图像进行评分,并且两者人数大致均衡。通过给重建图像打分,再对最后的得分进行平均,在视觉感知方面远远优于其他评价指标,可以准确测量图像感知质量。
目前普遍采用PSNR/SSIM 作为图像质量指标,这也导致模型以刷新PSNR/SSIM 指标为目的,忽略了图像超分辨率重建最初的目标,即重建出包含更多细节、更为清晰的图像。现在的研究者们发现采用PSNR/SSIM 作为唯一评价指标带来的问题,尽管该评价指标达到了一定的高度,但重建出来的图像变得平滑、模糊,不符合人眼感官。研究者们开始注重图像感官质量,提出了主观图像质量评价指标。但是到目前为止,除了耗时耗力的人为主观评分,仍然没有被该领域统一公认的指标出现,因此这也是目前该领域需要取得突破的方向之一。
4 模型分析
4.1 SOTA 模型统计
表2 对SISR 中具有代表性的模型进行了统计,表3 对RefSR 中具有代表性的模型进行了统计。
表2 SISR 模型统计Table 2 SISR model statistics
表3 RefSR 模型统计Table 3 RefSR model statistics
4.2 模型性能分析
本节对具有典型代表性的超分模型进行性能对比,利用PSNR/SSIM 指标来进行性能评估,表4 和表5 分别是SISR 方法和RefSR 方法的性能对比。表中数据来自相关文献中的实验数据。
表4 SISR 算法性能评估Table 4 Algorithm performance evaluation of SISR
结合表2和表4来看,目前SISR方法性能的提升除了增加模型深度和宽度外,主要集中在以下几个方面:
(1)更复杂的损失函数。从最早的MSE 损失,到L1 损失,再到后来的对抗损失、梯度加权损失、内容损失、感知损失以及重构损失等,越来越复杂的损失函数不仅仅可以在指标上提升模型性能,更能提高重建图像的纹理细节。
(2)多种网络模型的结合。最早的SRCNN 模型直接进行CNN 卷积直连,获得了超过传统算法的结果。随着神经网络的发展,性能越来越好的网络结构被提出,残差网络、稠密网络以及注意力机制网络等模型逐渐应用到了超分领域,多种网络结构的结合,越来越复杂的超分模型,大大增强了超分算法模型的性能。
(3)充分利用图像全局特征。神经网络通过感受野来获取相应范围内的图像特征,增加模型深度可以增大感受野范围。虽然通过残差可以在一定程度上解决模型的训练问题,但是仍不可避免地带来巨大的计算量以及庞大的模型结构。RCAN、SAN(secondorder attention network)、CDC(component divide-andconquer)以及HAN(holistic attention network)和DFCAN(deep Fourier channel attention network)等模型通过结合残差网络和注意力机制,使得模型可以充分利用全局特征进行学习和重建。并且从超分的实现来说,对所有对象一视同仁不利于计算资源的充分利用,也不符合实际,一张图像中不同区域学习超分重建的难度也不相同。
(4)增强特征信息流的流动和融合。全局特征、局部特征、不同层之间的特征以及不同通道之间的特征都有利于超分图像的重建。HAN 模型通过注意力模块实现了对不同层、通道以及位置之间的特征关系的学习,增强了特征表达能力。SAN 通过二阶注意力通道模块来学习中间层特征之间的关系,结合非局部操作来提取图像的上下文信息,大大提高了模型性能。多尺度信息提取也大大增强了模型对特征的利用效率。
结合表3 和表5,对RefSR 方法进行如下总结:
表5 RefSR 算法性能评估(4 倍放大)Table 5 Algorithm performance evaluation of RefSR(×4)
解决参考图像与输入图像的对应关系,是RefSR方法面临的关键问题,这在很大程度上决定了RefSR模型的性能。早期的主要是通过图像对齐的方式完成两者的对齐,因为参考图像与输入图像之间较大的分辨率差距,影响了模型的学习能力。CrossNet方法利用融合解码层来解决分辨率差距的问题,但是也只能用于小视差的条件。除了图像对齐,还可以通过Patch 匹配来获得与输入图像纹理相似的参考图像纹理,再对两者进行融合进而生成纹理清晰的图像。与图像对齐相比,基于Patch 匹配的模型拥有更好的性能,PSNR/SSIM 指标上也获得了很大的提升。但是这就要求输入图像与参考图像的纹理具有一定的相似度。在SRNTT 中,模型在特征空间进行多级匹配,促进了多尺度神经传输,使得模型即使在参考图像与输入图像不相关的条件下也只是降低到相应的SISR 级别。
如图13 所示,虽然RefSR 方法可以重建出令人满意的纹理细节,但是其结构复杂,需要消耗大量的计算机资源。单图像超分辨率重建问题本身的不适应性决定了解决该问题的难度,但是同时SISR方法在输入仅为一张低分辨率图像的情况下自动生成高分辨率图像,具有很强的实用性和很高的研究价值。
图13 两种方法对比Fig.13 Comparison of two methods
4.3 改进方向
通过上述总结,可以得到以下超分模型的改进和提升方向:
(1)提出更加复杂的损失函数。最早在SRCNN模型中采用像素损失函数MSE 和L1 损失函数,虽然很轻松就提高了图像的PSNR/SSIM 指标,且易于实现,但是重建的图像平滑而模糊,不符合人眼感官。在SRGAN 中,首次采用VGG 网络中的特征信息作为内容损失,再结合GAN 网络中的对抗损失,提出了感知损失函数,大幅提升了重建图像的感知质量,重建了图像中的部分细节纹理,取得了质的发展。随后的网络中,损失函数越来越复杂,在感知损失的基础上,加入了重构损失、内部监督损失等函数,进一步提升了图像的感知质量。
(2)实现任意尺度下的超分重建。在图像重建过程中,放大倍数越大,需要重建的细节信息就越多,同时重建所需的信息也更多,困难程度也随之增大。早期的模型方法只能实现×2、×3 以及×4 的倍数放大,在2017 年提出的LapSRN模型中,采用了渐进式上采样超分框架,利用前向推理过程中生成的图像继续进行重建,实现了×8 的放大,并且一次前向推理便可以得到×2、×4 以及×8 的放大图像。后续提出的模型大多都能实现×8的放大,但是随着尺度因子的增加,重建效果变得不太理想。在2021 年提出的LIIT模型中,通过连续表达学习,最终实现了×30的放大。可见,实现大尺度重建是目前的研究趋势之一。
(3)提升模型性能的同时,追求模型的轻量化。直接增加模型深度,增加模型参数数量,可以更好地对数据进行拟合,进而重建出更好的图像。但是这样也会导致网络结构规模过大,需要巨大的算力,不符合实际使用情况,只能在实验室算力条件下才能进行。在2016 年提出的DRCN(deeply-recursive convolutional network)模型中,将递归学习引入超分模型中,利用递归结构参数共享的特点,可以在增加模型深度的同时不增加参数。随后的DRRN(deep recursive residual network)、MemNet等模型中,都加入了递归结构,DSRN(dual-state recurrent network)、SPFlow等模型不仅仅加入了递归结构,还加入了自注意机制,能够实现对有用信息的放大和无用信息的抑制,进一步轻量化超分模型。
(4)多种网络模块的有效组合。在最早的SRCNN 中仅仅用了三层卷积层,在VDSR 中加入了残差块,加深了网络模型;在SRResNet中直接加入了残差网络,大大增加了模型的深度,同时网络性能也得到很大提高,PSNR/SSIM 指标达到了当时最高。SRDenseNet模型结合了残差网络和稠密网络,RCAN模型中结合了残差网络和注意力机制网络,多种网络的组合使得模型性能进一步提升。基于参考的图像超分辨率重建技术可以重建出令人满意的纹理细节,但是因为本身网络结构复杂,占据大量的计算资源,如果能解决模型的轻量化问题,模型的实用性将会得到大大提高。
(5)采用降质方式更加复杂的数据集进行训练,利用相机获得同一场景下不同分辨率的图像,这也更符合图像超分的实际需要。深度学习在训练过程中需要大量包含LR-HR 图像对的训练样本,通过下采样这种方式获取低分辨率图像本身就决定了降质方式的单一。然而,现实中的低分辨率图像的产生方式多种多样,如风霜雨雪雾等天气原因以及物理采集设备造成的目标不清晰等,这也是超分重建技术实际需要解决的问题。2018 年的Learning to Zoom中,Zhang 等人利用相机制作了真实场景下具有LRHR 图像对的数据集Raw Data,让模型自己学习如何缩放。随后提出的RealSR 和DRealSR 数据集也都是具有LR-HR 图像对的真实场景数据集,且内容更多样化,覆盖面更广。目前,针对于已知退化模型的超分方法研究,盲超分作为解决未知退化模型问题的方法,成为当前比较热的研究方向。
5 总结展望
本文对基于深度学习的图像超分辨率重建技术进行了综述,包括单图像超分辨率重建技术和基于参考的图像超分辨率重建技术,分别对两者进行分析和论述,总结了目前该领域的研究现状。最后对图像超分领域研究的未来进行展望,总结了以下几点发展趋势:
(1)真实场景下的图像超分重建
深度学习在训练过程中需要大量的数据集作为样本进行训练,训练样本的质量高低在很大程度上会对模型的性能产生影响。自然条件下低分辨率图像的获取和收集存在一定难度,目前大多数模型都是通过降采样获取,虽然这解决了训练样本有无的问题,但是同时也大大减弱了模型对真实场景的图像的重建能力。在接下来的研究中,真实场景下的低分辨率图像的获取和收集会成为该领域的研究热点,针对真实场景的超分重建研究将大大提高图像超分的实际应用价值。
(2)无监督超分辨率重建
有监督的图像超分辨率重建需要LR-HR 图像对作为数据集,在模型中需要设计降质模块来对HR 图像进行降质。这种降质方式固定且单一,与实际复杂多变的降质情况不符,严重影响了图像超分的发展和应用价值。无监督图像超分不需要成对的训练样本,降低了训练样本的要求,更符合实际情况的超分需要,但是这也对模型的学习能力提出了更高的要求。因此,如何实现无监督的超分辨率重建,即在不需要构建LR-HR 图像对的情况下进行超分辨率重建,是未来很有发展前景的方向。
(3)特殊领域的超分重建研究
目前大多数的图像超分重建研究都是针对自然图像,虽然具有普适性,但是从专业和实用的角度来说,这大大减弱了超分的研究价值。不同应用场景下的图像之间的特征差距十分明显,甚至不同场景下的图像特征会对模型正确的特征表达产生反向抑制的效果。从视频监控、卫星遥感到医学成像、刑侦分析等,对特殊领域的超分研究,将使模型变得简单而专业,可以充分满足该领域的实际需求。
(4)交叉模态信息下的超分研究
不同模态的信息在超分重建过程中能提供不同的信息,如在人脸超分重建的过程中,目标的性别、身份以及其他属性信息也能对重建过程产生帮助,甚至还可以利用声音信息来引导重建。除了音频信息之外,深度、近红外光谱信息也可以用于超分重建。多模态信息融合下的超分研究将会成为该领域的研究方向之一。