一种融合多尺度特征的改进RDN图像超分辨率重建网络

2022-11-11李志蒙朱奇伟樊雯雪

西安工程大学学报 2022年5期

朱磊，李志蒙，朱奇伟，樊雯雪，冯达

(1.西安工程大学电子信息学院，陕西西安 710048；2.杭州昇擎科技有限公司，浙江杭州 310052)

0 引言

SISR作为计算机视觉任务中的研究热点，旨在从低分辨率图像上重建出对应的高分辨率图像[1-2]，在医学图像增强[3]、遥感成像[4]、视频感知[5]等方面具有广泛的应用。文献[1]系统地总结了SISR算法，根据各类算法获取图像细节的方式差异，将其分成基于插值、基于重建和基于学习的算法等3种类型。

基于插值的算法主要是通过一定的基函数计算或插值核建立原图像与目标图像的映射关系，完成重建过程。文献[6]利用双三次插值(Bicubic)算法重建图像，虽然计算过程简单，但重建结果缺乏细节信息，块效应明显且视觉效果模糊。基于重建的算法则主要依靠添加先验信息约束解空间，重建结果能够恢复更多的高频细节，例如凸集投影算法[7]等。虽然添加了先验信息约束重建过程，能够取得较好的SR结果，但依然存在收敛不理想等问题。

基于学习的算法是使用机器学习技术，通过大量训练样本中低分辨率图像与高分辨率图像的映射关系实现SR重建。近年来，随着卷积神经网络(convolutional neural network, CNN)在多个领域中取得的显著成效，众多学者纷纷关注到其优秀且强大的图像表征能力，基于CNN的图像SR算法因应而生。文献[8]提出的三层网络结构SRCNN成为以CNN完成SR任务的开创性工作，与传统算法相比细节信息更加丰富，视觉效果有明显改善。基于CNN的方法由此开始逐步主导图像SR领域的相关研究[9]。文献[10]对残差模块进行改进并提出EDSR，通过去除批归一化操作，将计算资源用以堆叠更深的网络或者提取更多的特征，从而改善SR结果。在此基础上，文献[10]还提出一种多尺度模型，使不同尺度的SR任务间能够共享绝大部分参数，与单尺度网络具有相近表现力的情况下消耗的资源更少。EDSR曾经是规模最大SISR模型并且在NTIRE2017[11]图像超分辨率大赛上包揽全球冠亚军。为了充分挖掘图像细节信息，文献[12]从网络结构角度出发提出RDN，构造出更深的密度网络，通过密集连接方式使特征充分融合以提取有用的高频信息，并采用残差结构保证网络训练的稳定性。文献[13]则注意到基于CNN的超分辨方法在平坦区域存在计算冗余问题，认为对低分辨率图像的纹理区域、边缘等信息应给予更多关注。因此，探索了图像超分辨中的稀疏性问题[14]，提出SMSR学习稀疏掩码以剪枝冗余计算量，并取得了SOTA性能，具有更好的感知质量与视觉效果。然而，SR重建是一个不适定问题[15]，无法求得唯一解。上述各类算法虽然都能够出色地完成SR任务，但均未充分利用图像的尺度特征，对图像的高频细节信息的生成还有待进一步打磨。

为了充分挖掘并提取图像的尺度特征，重建细节丰富、视觉感知效果更好的SR图像，本文提出一种融合多尺度特征的改进RDN图像超分辨率重建网络MSRDN。构建了特征提取模块，并通过不同尺度的模块多路组合结构，以充分提取图像的多尺度细节特征，强化网络对不同尺度图的语义信息感知能力；构建了自顶向下与自底向上相结合的特征融合模块，对采集的多尺度特征进行充分融合与关联，有利于重建图像恢复出更丰富的细节信息。

1 RDN网络结构

RDN[12]网络结构主要由浅层特征提取网络、残差密集块(RDBs)、密集特征融合(DFF)以及上采样网络(UPNet)等4个部分构成，如图1所示。

图 1 RDN网络结构

浅层特征提取网络由2个卷积层构成。残差密集块是残差块和密集块的集成，包含密集连接层、局部特征融合与局部残差学习3个部分。该模块形成了连续记忆机制，将前面所有层的输出叠加连接到当前层，保证前后层特征信息的紧密融合与积累。密集特征融合由全局特征融合和全局残差学习构成，连接方式与残差密集块类似，即将每一个RDB模块的输出特征以分层连接的方式全局融合，并将前面提取的浅层特征连接到残差模块，以输出最后的稠密特征。上采样网络即网络末端的上采样和卷积部分完成图像的放大操作。

2 MSRDN算法

2.1 退化模型

图像SR是一个逆向病态的重构问题[16-17]，因此对图像退化过程做准确的建模是保证SR结果符合预期的重要因素。图像的退化模型[18-20]可以表述为

ILR=(IHR⊗k)↓s+n

(1)

式中：ILR为低分辨率图像；IHR为高分辨率图像；k为运动模糊核；⊗为卷积操作；↓s为尺度因子s的下采样操作；n为带入的加性高斯噪声。本文提出MSRDN首先对仿真图像的退化模型逆向重构学习得到SR结果，然后采取像素重组的方式进行后上采样得到目标图像，最后在真实世界的退化图像上测试。

2.2 MSRDN网络结构

为了重建出高频细节更丰富的高质量复原图像，MSRDN会对低分辨率图像的特征进行更加充分、有效提取。MSRDN的整体结构包括多尺度特征提取模块和特征融合模块，2个模块对于MSRDN的积极影响将在消融实验体现出来。

所提出的融合多尺度特征的改进RDN图像超分辨率重建网络结构如图2所示。

图 2 改进RDN图像超分辨率重建网络结构

该模型由浅层特征提取模块、多尺度特征融合模块与图像重建模块等3个部分组成。输入图像通过浅层特征提取模块生成浅层特征，该特征携带更多的空间特征但蕴含的语义信息较弱。多尺度特征融合模块作为编码网络的主体部分，负责生成高质量特征。具体地，通过三路卷积核大小不同的多个RDB模块提取不同尺度的特征，并通过自顶而下和自底而上的方式将不同分支的特征充分融合后输出更高质量的特征。图像重建模块包含1个亚像素卷积层和2个卷积层，提取到的所有特征都会送入图像重建模块重建出SR图像。

提出的MSRDN将低分辨率图像(ILR)作为输入，预测输入图像的高分辨图像(ISR)，然后使用输出SR图像和真实高分辨图像(IHR)之间的距离作为预测误差指导MSRDN的训练。该过程可以表述为

ISR=fMSRDN(ILR)

(2)

L=fl(ISR,IHR)

(3)

式中：fMSRDN(·)表示MSRDN的SR过程；fl(·)为损失函数。使用L(·,·)函数作为损失函数，其表达式为

(4)

浅层特征提取模块由2个卷积层构成，提取浅层特征的过程可以表示为

Fshallow=fc3(fc3(ILR))

(5)

式中：fc3(·)表示卷积核大小为3×3的卷积操作；Fshallow为提取到的浅层特征。由于浅层特征中的语义信息较少，使用多尺度特征融合模块对浅层特征进行深度编码，从而获取更高质量的特征。若fms(·)表示多尺度特征融合模块的编码过程,则

Fdeep=fms(Fshallow)

(6)

式中Fdeep表示深层特征。为了提高生成的SR图像的质量，使用深层特征与浅层特征相结合的方式对其进行恢复。该思想体现在2个方面：1)将多尺度特征融合模块推理过程中的每层特征进行融合；2)使用全局残差连接将浅层特征的位置信息传递到深层。

与RDN类似，在经过多尺度特征提取模块得到不同尺度的语义信息后进行密集特征融合，将所有层的特征信息紧密联系与利用，其输出特征可以表示为

FGF=fc1(F11,F21,F31,…,F1D,F2D,F3D)

(7)

式中：FGF为将所有层的特征信息进行密集特征融合后的输出特征图；fc1(·)表示卷积核大小为1×1的卷积运算。首先，使用式(7)复合运算将不同深度不同尺度的特征进行融合，然后，MSRDN使用全局残差连接将浅层特征传递到深层，并与深层特征融合。由于各个特征具有相同的尺寸，所以采取逐像素相加的方式融合特征，即

FDF=FGF⊕F-1

(8)

式中：F-1为模型中经过第一个卷积层后得到的浅层特征图；FDF为编码网络最终的输出。多尺度特征提取模块充分利用了特征提取网络在不同深度以及不同尺度所提取到的信息。该模块生成多尺度的局部密集特征，这些特征进一步自适应融合形成FGF，而后经过全局残差连接生成整个编码网络的最终输出特征FDF。将FDF输入到亚像素卷积层，实现从低分辨率图像到高分辨率图像的重构,即

ISR=fSR(FDF)

(9)

式中：fSR(·)为图像重建模块的复合运算函数，其目的在于将最终的图像特征图从高维空间转换回RGB空间，以得到最终的SR图像。

2.3 多尺度特征提取模块

不同尺度特征映射的感受野范围不同:小卷积核的卷积层输出特征的感受野范围小，几何细节信息表征能力强，但语义信息表征能力弱；大卷积核的卷积层输出特征则与之相反[21]。因此，如何充分利用多尺度特征信息对图像任务而言举足轻重。受目标检测任务中广泛应用的特征金字塔结构[22-23]的启发，MSRDN将多尺度特征提取思想引入SR任务中，提出多尺度特征提取模块，如图3所示。

图 3 多尺度特征提取模块结构

该模块包括多尺度特征提取和局部残差学习2个部分。

(10)

(11)

(12)

(13)

(14)

(15)

为了使多尺度特征提取部分在学习不同尺度特征时更加稳定可靠，在RDB末端应用了局部残差学习，使得前一个RDB模块提取的特征和当前RDB模块整个卷积层提取的特征进行自适应融合。具体地，将前一个RDB模块的输出以残差连接的方式引入到当前RDB模块的输出特征中，故3个分支网络中各RDB模块的最终输出可以表示为

(16)

(17)

(18)

局部残差学习相当于简单执行同等映射,可以进一步改善信息流。与单纯的增加网络深度相比，局部残差学习的引入缓解了梯度弥散或者梯度爆炸问题，能够保证模型训练过程的稳定性，有效地加速模型收敛。

2.4 多尺度特征融合模块

在每个RDB模块提取局部多尺度密集特征后，MSRDN进一步提出多尺度特征融合模块对不同尺度的特征进行融合，如图4所示。

图 4 多尺度特征融合模块

在模型中，多尺度特征融合采用自顶向下结合自底向上方式紧密融合各尺度特征，并且横向连接的2层特征尺度大小相同，可以充分利用底层细节信息。将此融合方式嵌入到每个RDB模块的后面，随着网络层数的加深，2种不同方向的多尺度特征融合模块交替使用，直至多尺度特征提取模块的最后一层。以自顶向下的融合方式为例，使用数学表达式描述这一过程：

F1=fMSF(F11⊕F21⊕F31)

(19)

式中：F1为融合后特征；fMSF(·)为多尺度特征融合运算。每个RDB模块输出特征整体融合后,即得到最终的高质量特征FGF,

FGF=fGFF([F11,F21,F31,…,F1D,F2D,F3D])

(20)

式中：[F11,F21,F31,…,F1D,F2D,F3D]表示将各个残差密集块输出的特征图进行拼接；fGFF为1×1和3×3卷积层的复合运算。1×1卷积层对一系列不同层次的特征自适应提取有用信息并过滤掉冗余信息，以此降低模型的运算复杂度；3×3卷积层则用于进一步提取特征进行全局残差学习。

3 实验结果与分析

3.1 实验设置

为充分评估所提的MSRDN，采用定性与定量实验对比方法，采用MSRDN与Bicubic[6]、SRCNN[8]、EDSR[10]、RDN[12]以及SMSR[13]的性能。采用DIV2K[10]作为训练数据集，该数据集是一个大型的高质量(2k分辨率)图像复原数据集，包含用于训练的800张高分辨率图像，用于验证的100张高分辨率图像和用于测试的100张低分辨率图像；采用Set5[24]、Set14[25]和BSD100[26]等3个被广泛使用的SR基准数据集作为测试数据集，涵盖多种多样的场景，能够充分评估模型的性能。此外，所有实验代码均基于MMEditing进行开发。MMEditing项目是基于PyTorch的图像和视频编辑开源工具箱，包含了SRCNN、EDSR、ESRGAN与RDN等众多经典网络。

3.2 定性评价

3.2.1 基准数据集实验

为了客观评价MSRDN的图像重建结果，图5展示了不同算法在×2、×3、×4等3个尺度因子测试图像的视觉结果。其中HR为高分辨率图像，重建的SR图与HR越贴近则质量越高。

图 5 MSRDN与其他5种模型基准数据集的视觉对比结果

由图5可以看出：MSRDN重建的图像在各个尺度因子的实验中较其他算法均具有更佳的视觉效果，图像几何结构更加清晰，没有发生严重的形变。在×2尺度因子的测试图像视觉结果中，MSRDN对于字体的重建没有出现严重的粘连情况；在×3尺度因子的测试图像视觉结果中，MSRDN重建的SR图像与其他算法相比更加贴近高分辨率图像，纹理较为清晰且视觉感知最好；在×4尺度因子的测试图像视觉结果中，MSRDN未受背景干扰影响，完整重建出了图像中的主体目标，而其余算法重建的图像中均出现了部分遮挡问题。从图5中还可以看出：神经网络方法中，SRCNN重建的图像几何结构效果最差，出现了严重形变；其余4种对比算法的重建图像视觉效果均较好，但几何结构仍难以避免地出现部分失真情况；相较之下，MSRDN能够更好地恢复图像结构，纹理细节也更加丰富。通过实验的视觉效果对比能够得出结论：MSRDN恢复图像几何结构信息的能力更强，重建图像的效果更佳。

3.2.2 真实退化图像实验

为证明所提MSRDN具有一定的泛化能力，将其应用到真实图像数据集RealSR[27]中。图6为MSRDN与SMSR等其他5种算法在RealSR数据集3张经典图像上的视觉效果对比图。从图6可以看出：MSRDN能够恢复出更丰富的高频细节，边缘轮廓也更清晰，拥有更佳的视觉感知。可见，对于未知的退化模型，多尺度特征提取与特征融合方式具备更强的鲁棒性。

图 6 MSRDN与其他5种模型在RealSR上的视觉对比结果

3.3 定量评价

3.3.1 消融实验

为探索所提出的多尺度特征提取模块与特征融合方式对网络模型性能的影响，采取控制变量法验证各个模块整体模型的贡献，进行了3种情形的对比实验：1) 去除多尺度特征提取模块和特征融合方式。2) 仅保留多尺度特征提取模块。3) 采用多尺度特征提取模块和特征融合方式。采取峰值信噪比(PSNR)和结构相似性(SSIM)等2个指标评估重建图像。PSNR是使用最广泛的一种图像质量评价指标，计算清洁图与含噪图对应像素点的误差，重点在于像素点差异，而未考虑人眼视觉感知特性。SSIM从亮度、对比度和结构3个方面衡量图像的相似性，取值越接近1，图像失真就越小，也更符合人眼视觉感知。实验结果如表1所示。

由表1可知：相比于实验3)，在去除多尺度特征提取模块和特征融合方式的情况下，PSNR与SSIM分别下降了0.1 dB和0.000 8；在仅保留多尺度特征提取模块的情况下，PSNR和SSIM分别下降了0.04 dB和0.000 2。可见，不论去除本文所提出的多尺度特征提取模块和特征融合方式中的任何一个均会导致模型的评价指标下降，即代表着网络模型性能变差。因此，本文提出的多尺度特征提取模块和特征融合方式对网络均起到积极影响。

表 1 多尺度特征提取模块与特征融合方式的消融结果

3.3.2 基准数据集实验

为了进一步比较算法的实验结果，将MSRDN与5种算法在3个基准数据集分别进行×2、×3与×4尺度因子的重建，采取PSNR与SSIM指标评估算法输出的重建图像。为了使实验结果足够客观公正，本文出现的所有算法模型均在统一的硬件平台上重新训练，并使用相同的测试算法进行指标计算。表2展示了MSRDN与其余5种经典且较出色的SR算法在3个SR基准数据集上，不同尺度的PSNR以及SSIM实验结果。

表 2 MSRDN与其他模型的峰值信噪比及结构相似性对比

从表2可知，学习方法中，SRCNN的图像重建结果评价指标最差。EDSR去除了残差结构中不必要部分，增强了模型的表现力；SMSR有的放矢，提出稀疏掩码模块剪枝冗余计算，聚焦于纹理区与边缘区。因此，2个网络的图像重建结果评价指标仍旧可观。RDN将残差结构与密集连接相结合，使得网络模型更深，故其图像重建结果评价指标更优。MSRDN在×2、×3与×4尺度因子上3个数据集的重建性能指标方面均展现了一定的优势，并优于上述4种对比的SR重建网络中表现最好的RDN。充分证明了MSRDN能够有效提升图像SR的性能。此外，本文还对MSRDN与SMSR等其他4种模型进行了复杂度对比，结果如表3所示。采用参数量(Params)和浮点运算数(FLOPs)2个指标衡量各个模型的推理效率。其中，FLOPs是在模型中输入160×90像素的图像计算所得。由表3数据可知，MSRDN模型规模最大，需要更多的计算资源，但伴随着硬件设备的不断发展，这一缺点也会日渐式微。

表 3 MSRDN与其他4种模型的复杂度对比

4 结语

本文提出的图像超分辨率重建网络MSRDN，利用具有不同感受野的不同尺度卷积核构建多尺度特征提取模块，强化网络对不同尺度图的语言信息感知能力。采用自顶向下与自底向上相结合的多尺度特征融合模块，融合形成具有更丰富细节信息的图像特征，从而使得改进网络能够重建出比SMSR等网络细节更丰富、视觉感知更好的SR图像。在未来的工作中，将考虑对MSRDN进行轻量化处理以提升模型的竞争力。