基于多窗口残差网络的单图像超分辨率重建
2021-02-05肖雅敏张家晨
肖雅敏,张家晨,冯 铁
(吉林大学计算机科学与技术学院,长春 130012)
0 概述
单图像超分辨率重建是计算机视觉领域中重要的图像处理技术,广泛应用于医学图像、视频监视、公共安全与遥感侦察等领域。在实际应用场景中,现有硬件条件的限制造成图像的分辨率质量较低,如以数字摄像机为监控设备时,其获取的图像通常缺少关键场景或人物细节信息。因此,为克服现有硬件系统的分辨率限制,使用单图像超分辨率重建技术来增强图像的空间分辨率。该技术的核心思想是通过分析低分辨率图像的关键语义信息或信号信息,推理出欠缺的真实细节并重建成具有高像素密度的超分辨率图像。
目前,单图像超分辨率重建的研究主要分为3个阶段。基于采样理论的插值方法[1-2]是出现较早且直观的方法,该类方法的优点是运行速度快且适合并行计算,但是存在不能引入额外有用的高频信息,从而难以得到锐化的高清图像的问题。基于此,研究人员提出利用低分辨率图像推测出对应的高分辨率部分信息的映射函数算法,该算法主要依赖邻域嵌入[3-4]、稀疏编码[5-7]等技术,但是当图像中未包含较多的重复样式时,其推断出的图像通常会产生非细节性的锐利边缘。
基于深度学习的方法已成为超分辨率算法中的热点方向。文献[8]提出的SRCNN模型采用卷积神经网络(Convolutional Neural Network,CNN)技术重建生成了清晰度更高的图像,它采用大量外部的高分辨率图像构造学习库,并经过训练生成神经网络模型,在对低分辨率图像重建过程中引入模型获取的先验知识,以此得到图像的高频细节信息,从而达到良好的图像重建效果。FSRCNN[9]、ESPCN[10]以及文献[11-13]模型均是在SRCNN的基础上对网络结构进行改进而得到的,这些模型增加了网络层数,并专注于学习低分辨率图像到高分辨率图像的端到端映射关系。由于随着构建网络层数的加深,训练模型的花销逐渐增大,同时由于通道数、过滤器尺寸与步长等超参数的增加,导致设计合理的网络结构更加困难,因此,文献[14]提出利用ResNet模型解决上述问题,虽然该模型适用于图像分类,但其残差思想和重复堆叠模块的策略能够适用于所有计算机视觉任务。此外,ResNet还证明了跳跃连接和递归卷积可有效缓解神经网络携带大量关键信息的负担。
基于残差网络的超分辨率重建模型DCRN[15]、DRNN[16]、LapSRN[17]、SRResNet[18]与EDSR[19]等被相继提出,这些模型都是通过单尺寸卷积模块的线性叠加来实现网络的纵向加深,以追求更高的表达能力和抽象能力。但对于超分辨率技术而言,从原始图像中提取到丰富完整的特征信息至关重要。如果继续纵向加深网络,在逐层卷积和过滤计算过程中将会出现高频信息丢失的问题,这对最终映射生成超分辨率图像的真实程度造成影响,且模型参数量也会呈指数级增长。如果训练数据集有限则易产生过拟合,且模型规格与计算量也随之增大,造成不易重构和移植以及训练难度成倍增加的问题,从而难以在实际过程中应用。
本文提出一种基于多窗口残差网络的单图像超分辨率重建模型MWSR。该模型的横向网络结构使用多个不同尺寸的窗口,同时提取同一特征图的关键信息,纵向网络结构将大尺寸窗口重构为多个串联的小窗口和非线性ReLU激活函数,并对输出的多尺寸特征图进行跨窗口融合,以优化通过网络的信息流。
1 MWSR实现方法
本文提出的基于多窗口残差网络的单图像超分辨率MWSR模型的目标是学习从低分辨率图像ILR到真实的高分辨率图像IHR的端到端映射,并生成一张清晰的超分辨率图像ISR。其中,ILR是IHR经过双三次插值方法下采样得到的低分辨率图像,且大小为H×W×C。此外,IHR和ISR大小为rH×rW×C。其中,H表示纵向像素数量,W表示横向像素数量,r为目标放大倍数,C为颜色通道。本文实验采用RGB格式的图像,因此C=3。
1.1 MWSR网络架构
MWSR的网络架构如图1所示,该架构主要分为特征提取、全局特征融合以及高倍数重建3个部分,具体步骤如下:
步骤1将ILR作为神经网络的输入,先经过一个3×3的卷积层提取初始特征,再使用激活函数ReLU调整神经元的活跃度,以增强网络的非线性,具体的特征提取函数可表示为:
其中,“⊗”表示卷积操作,“+”表示逐像素相加操作,变量的上标l指它所在的网络层,下标n表示卷积核的大小,变量w和变量b分别表示神经网络中的权重矩阵和偏倚矩阵,w是一个大小为fl-1×fl×n×n的张量。fl是第l层特征图的数量(f0=C),σ(x)=max(0,x)表示非线性激活函数ReLU。和P(x)均表示第l层卷积核大小为n的输出。
步骤2通过m个重复连续的多窗口残差模块逐层提取图像的高频与低频信息,并对初始特征图和上述m个残差模块的输出进行全局特征融合,对通过网络的信息流进行汇合并输入到重建模块中,具体表示方法为:
其中,[]表示特征之间的连接操作,Q13为初始特征图,Mm表示第m个多窗口残差模块的输出,T表示全局特征融合后的输出。
步骤3在高倍数重建部分,首先使用3×3卷积整理过滤冗余信息,重构出最优的稀疏网络结构,然后使用亚像素卷积操作[10]将特征图T上采样至目标倍数r。最后,通过一层3×3卷积完成ILR到ISR的映射,生成清晰的超分辨率图像,具体表示方法为:
其中,SF(x)表示重新排列组合像素的亚像素卷积操作,变量上标中的l表示网络中的最后一个卷积层,l-2表示重建部分的第一个卷积层。
图1 MWSR模型网络架构Fig.1 Network architecture of the MWSR model
1.2 多窗口残差模块
将ILR输入到网络中后,每经过一层纵向卷积操作提取特征信息的同时也会丢失相关的高频信息,进而造成完整的原始图像语义会随着网络层次的加深而逐渐缺失。因此,本文从浅层网络开始,当每次特征提取时尽可能提取出更丰富的原始图像特征。本文提出一种横向拓展网络结构的多窗口残差模块,如图2所示。同时使用3×3、5×5、7×7三种尺寸的窗口作为同一特征域的局部关键信息检测器,大幅提高检测到有效特征信息的概率。
图2 MWSR模型的残差模块Fig.2 Residual module of MWSR model
与单尺寸卷积模块堆叠而成的模型相比,本文所提MWSR模型使用更少的特征提取模块即可提取更全面的特征信息,从而避免了网络结构过深,同时训练过程中可以更早达到饱和的准确度。
为进一步优化模型规模大小,在保持模型的准确度和复杂度的前提下,本文使用k个串联的3×3小卷积核构成相应的大尺寸窗口。如图3所示,2个3×3的卷积核串联相当于一个5×5的卷积核,即一个像素会与周围5×5个像素产生关联。两者感受野大小相同,而前者的参数量为2×3×3=18,后者的参数量为5×5=25,这说明前者的参数量更少。
图3 两个串联的3×3卷积核感受野与一个5×5卷积核感受野示意图Fig.3 Schematic diagram of receptive field of two 3×3 filters in series and a 5×5 filter
除此之外,还可以在2个小卷积核之间增加一个非线性激活函数ReLU,使得整个网络变得更复杂,拥有更强的学习能力。以此类推,3个3×3的卷积层串联相当于1个7×7的卷积层,且还可以增加2个ReLU函数,具体表述方法为:
在获取输出的三种尺寸特征图后,将其与矩阵的第1维度连接融合,然后通过1×1滤波器逐维度过滤筛选出深层网络需要的特征信息,同时维持该模型输入输出维度的一致性以平衡模块规模大小。
为缓解随着网络加深造成准确度降低的问题,本文在特征提取模块中应用ResNet[11]模型的残差思想:
将浅层网络的输出x直接传递给深层网络H(x)作为输入,并在该过程中增加跳跃连接,使得无需将x映射成一个新的H(x),只需要学习x和H(x) 的差距F(x),显著减小需要学习的参数值,使得网络对反向传播时的损失值更加敏感,起到一定的正则化作用。
多窗口残差模块的具体操作表示方法为:
实验结果表明,本文提出的多窗口残差模块简洁且高效。当设置MWSR的残差模块数量为24时,重建成的超分辨率图像质量已经超越了当前流行的多数模型,此时MWSR的参数量仅为5.9 M,FLOPS低至13.64×109次的浮点计算。该轻量网络模型可以在几乎所有服务端内部署,包括移动端和嵌入式芯片等对模型大小有严格限制的服务端。此外,经实验对比可得,3×3、5×5、7×7三种尺寸的窗口组合为最优解,模型性能优于3×3、5×5组合。如果再增加一个9×9的窗口,则参数量会高达50.91M,计算量更会提高到117.37×109次的浮点计算。
1.3 亚像素卷积上采样层
在相机成像过程中,由于硬件方面的限制,生成的图像上每个像素都代表附近的一整块颜色,其实在微观上,实际物理像素之间还存在许多像素,即亚像素。在超分辨率领域中,无法被传感器检测出来的亚像素可以通过算法近似计算出来,相当于推理出图像缺失的纹理细节等高频信息。亚像素卷积在MWSR模型的高倍数重建部分用于完成低分辨率图像到高分辨率图像的映射,具体上采样过程如图4所示。假设目标倍数为r,输入的低分辨率特征图大小为H×W,将其与通道数为r2的H×W亚像素卷积核进行卷积,得到H×W×r2个像素值,再将其重新排列组合成大小为rH×rW的目标图像。
图4 亚像素卷积层上采样过程Fig.4 Upsampling process on sub-pixel convolution layer
2 实验与结果分析
2.1 数据集
DIV2K数据集[20]是广泛运用在超分辨率领域的分辨率为2 K的高质量数据集,其包含800张训练图像、100张验证图像以及100张测试图像。本文选择DIV2K作为模型的训练数据集,并在Set5[21]、Set14[22]、BSDS100[23]、Urban100[24]和Manga109[25]5个公开的基准数据集上进行测试与对比实验。这些数据集包含大量来自各个领域的图像,能够对模型性能进行有效验证。其中,Set5、Set14与BSDS100数据集主要由自然景观图像组成,Urban100数据集中包括不同频带细节的城市场景图像,Manga109为日本漫画数据集。
2.2 实验参数设置
本文使用从ILR裁剪出分辨率为48×48的RGB图像作为输入,并通过目标放大倍数的IHR评估所生成超分辨率图像的质量。为了提高模型的泛化能力和鲁棒性,通过随机使用水平翻转180°、垂直翻转180°与顺时针旋转90°3种方法操作将训练数据量增加至原来的8倍,且每种方法执行概率均为0.5。另外,使用Adam优化器[24],分别设置β1=0.9,β2=0.999,ε=10-8。本文设置每一次迭代的批大小为64,每迭代2 500次验证一次模型。学习速率初始化为0.000 2,且每迭代500 000次将其减少至原来的一半。
本文选择L1范数作为损失函数训练模型,与L2相比其具有的稀疏性可以实现特征的自动化选择,且参数量更少。同时,本文结合通用并行计算架构CUDA10.0与深度学习框架PyTorch1.0,使用Python编码实现MWSR的算法,并在NVIDIA GeForce RTX 2080Ti GPU和Ubuntu16.04操作系统上,通过大量实验对算法进行训练和评估。
2.3 评价指标
本文采用2个常见的客观评价指标来评估生成的超分辨率图像的质量,该指标分别为峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似度(Structural SIMilarity,SSIM)。
1)PSNR主要基于误差敏感来评估图像质量,计算方法如式(7)所示,单位为dB,且其数值越大,则说明图像失真程度越低。
其中,H×W为图像的大小,Χ表示真实的高分辨率图像,Y表示模型生成的超分辨率图像,变量t表示每个像素占用的比特数。
2)SSIM通过比较图像结构之间的差异来评估图像质量,其结果更符合人眼视觉系统,计算方法如式(8)所示,且其值越接近1,则说明两个图像之间的结构越相似,重建质量越高。
其中,变量x和y分别为真实的高分辨率图像和模型生成的超分辨率图像,μx,μy表示图像的灰度平均值,σx,σy表示图像的方差,σxy表示图像的协方差。C1和C2是避免公式分母为0的常数。
2.4 算法对比分析
实验对MWSR模型与目前主流的双三次插值(Bicubic)、A+[6]、SRCNN[8]、ESPCN[10]、DRNN[13]、LapSRN[14]6种超分辨率模型进行对比分析。与其他6种模型一致,MWSR模型生成的所有超分辨率图像转换成YCbCr色彩模式,仅在Y通道上计算PSNR和SSIM。
表1展示了7种超分辨率模型在5个公开测试数据集上分别放大2倍~4倍的评估结果。其中,最优结果加粗表示。从表1可以看出,本文提出的MWSR模型的性能均优于其他6种主流模型,且该模型不仅改善了图像感知质量,而且实现了模型轻量化及运行效率的优化。
表1 7种模型的PSNR和SSIM评估结果对比Table 1 Comparison of PSNR and SSIM evaluation results of seven models
表1展示的MWSR模型仅使用了24个多窗口残差模块,经实验表明,当MWSR中的模块数量从24增加至32或64时,训练效果仍继续提高。如图5所示,MWSR模型在DIV2K数据集上评估的PSNR值可高达37.390 dB,且即使有64个残差模块,参数量也仅为15.4M。
图5 残差模块数量分别为24、32、64的MWSR在DIV2K数据集上训练的PSNR收敛曲线Fig.5 PSNR convergence curves of MWSR with 24,32,64 residual modules trained on DIV2K dataset
从图6中可观察到MWSR模型中的残差模块数量分别为24(MWSR-24)和64(MWSR-64)时的重建图像,证明在合理的范围内增加模块数量可有效提升图像质量。然而,增加模块数量的同时也成倍增加了运算次数和内存读写的时间开销,如MWSR-24的训练时间为1.5天,而MWSR-64的训练时间为3.5天。另外在Set5数据集上测试可得,MWSR-24的平均运行时间为0.23 s,MWSR-64的平均运行时间为0.38 s。如果再继续增加残差模块以加深网络,仍会改善重建效果,但会造成训练成本和运行成本的快速增加。图7展示了各模型在不同数据集上进行4倍超分辨率重建的视觉效果对比。从图7可以看出,相比其他模型,MWSR模型重建出的图像更加准确且完整地补全了高频信息。无论是线形细节,结构细节还是文字细节,都可以根据图像的整体语义预测出其放大之后更真实的新像素值。
图6 MWSR-24、MWSR-64在DIV2K数据集上的超分辨率重建结果Fig.6 Super-resolution reconstruction results of MWSR-24 and MWSR-64 on DIV2K dataset
图7 7种模型的超分辨率重建结果对比Fig.7 Comparison of super-resolution reconstruction results of seven models
综合对比分析可知,在实际应用场景中,先根据需求对训练难度、模型大小、运行效率和重建质量等多种因素进行综合考虑,再对特征提取模块的数量进行选择,利用合适的网络深度使多窗口结构发挥更大的作用。
3 结束语
本文提出一种多尺寸窗口残差网络优化模型MWSR。该模型结合不同尺寸的窗口同时提取同一张特征图的关键信息,从浅层网络开始高效利用每一层的特征图,以提高高频信息的检测概率。这种横向扩展网络结构的方式与仅纵向加深网络结构相比,能够更快速地获取完整的目标特征。此外,针对较大尺寸窗口进行的分解及重构使得模型更易重构和移植。实验结果表明,与目前主流的图像超分辨率重建模型相比,本文模型能够有效提升生成超分辨率图像的清晰度。下一步将通过引入注意力机制,优化高倍数重建部分的上采样操作过程,使生成的图像更加逼真和自然。