APP下载

像素补偿的轻量级图像超分辨率重建*

2023-08-30李云红李丽敏李嘉鹏史含驰

西安工业大学学报 2023年4期
关键词:残差分辨率注意力

王 梅,李云红,李丽敏,李嘉鹏,史含驰

(西安工程大学 电子信息学院,西安 710048)

图像超分辨重建(Super-Resolution,SR)是计算机视觉的基本任务之一,目标是将给定的低分辨率(Low-Resolution,LR)输入图像恢复成高分辨率(High-Resolution,HR)图像[1]。该任务在人脸识别[2]和图像修复[3]等领域有着重要的作用。随着深度神经网络(DNNs)的快速发展,SR在性能上有了前所未有的飞跃。文献[4]首次在超分辨率领域中使用的深度学习,提出一种基于深度学习的超分辨率卷积神经网络(Super-Resolution Convolutional Neural Network,SRCNN),该结构采用三层卷积神经网络,重建出良好的效果。在此基础上,文献[5]在网络中加入残差链接构建20层基于残差学习的超分辨率网络(Accurate Image Super-Resolution Using Very Deep Convolutional Networks,VDSR),通过加入残差模块以及自适应梯度裁剪的方法提高了模型的收敛速度。DRRN[6]算法是在VDSR算法上提出,通过深度递归残差网络结构、残差连接和批归一化等关键设计,实现了高质量的图像超分辨率重建效果。文献[7]提出了超分辨率残差网络 SRResNet,学习低分辨率图像到高分辨率图像的映射关系,实现图像的超分辨率重建。文献[8]优化了传统ResNet中的不必要模块,提出增强深度超分辨率网络(Enhanced Deep Residual Networks for Single Image Super-Resolution,EDSR),采用多尺度参数共享的方式提升网络性能。文献[9]提出的金字塔超分辨率网络LapSRN用于将输入的低分辨率图像分解为不同尺度的子图像,每个子图像都对应着特定的分辨率级别,重建网络使用这些子图像来逐渐重建出高分辨率的图像。文献[10]考虑到不同通道特征的重要性不同,利用通道注意力(Residual Channel Attention Networks,RCAN)对不同通道赋予权重,通过通道间的依赖关系聚焦边缘纹理特征。基于注意力的反投影网络ABPN[11]在通过引入注意力机制自动捕捉和强化图像的局部细节信息。文献[12]提出的基于整体注意力的超分辨率重建网络(Single Image Super-Resolution via a Holistic Attention Network,HAN)利用了两种不同的注意力机制,该模型使用层次注意模块(LAM)来融合不同阶段的特征信息,同时利用通道-空间注意模块(CSAM)来调节通道和位置之间的整体关系,获得更好的超分效果。文献[13]采用非局部平均滤波的思想,提出非局部均值超分辨率重建算法,有效抑制了人工伪影,在视觉效果上取得了良好的结果。文献[14]提出生成式对抗网络重建算法,修改了残差网络结构和网络参数,使重建后的图像视觉效果更好。为了降低算法模型的复杂度,文献[15]设计了一种轻量级的自适应加权超分辨率网络(Adaptive Weighted Super-Resolution Net‐work,AWSRN),实现了准确率和计算消耗之间的平衡,减少图像的空间冗余。文献[16]提出多重蒸馏网络(Lightweight Image Super-Resolution with Information Multi-distillation Network,IMDN)采用多重蒸馏模块分离图像特征,在降低网络参数的同时提高重建性能。文献[17]提出一种像素注意力网络(Efficient Image Super-Resolution Using Pixel Attention,PAN),通过像素注意力模块引入了较少的附加参数,生成了更好的SR结果。文献[18]提出 AMGAN旨在解决多重降质情况下的超分辨问题。

以上算法取得了不错的重建效果,但多数网络模型倾向于将大量的卷积层堆叠的标准模式,不能充分利用中间层次的特征信息。针对上述问题,文中提出一种基于像素补偿的轻量级超分辨率重建网络(Lightweight super-resolution network based on pixel compensation,LSRNPC)。在网络模型方面,首先利用像素坐标注意力模块构建残差嵌套注意力网络,在减少模型参数的同时快速捕捉高频特征信息。其次,通过创建多分支网络来融合不同层次的特征,并采用全局级联和融合的方式来获取包含更全面信息的特征。然后设计了像素补偿机制来分配特征通道的权重比例,以较少的额外参数来保留更多深层信息特征,使得重建后的图像纹理更加丰富。在实验设计方面,将文中算法与SRCNN,FSRCNN,VDSR,IMDN,PAN等算法对比并进行定量和定性的评估,以验证文中算法的有效性,通过比较各个算法在重建图像质量、保留细节和提升视觉感知上的表现,可以评估论文算法的优势和改进之处。

1 像素补偿的图像超分辨率重建网络

图1展示了像素补偿的图像超分辨率重建网络整体框架。该网络框架包括三个模块:特征提取模块(Feature Extraction Module,FRM)、非线性特征模块(Nonlinear Feature Module,NFM)和最后的重建模块(Reconstruction Module,RM)。对于给定的数据对(ILR,IHR),首先利用特征提取模块对图像ILR提取浅层特征F0,具体过程为

F0=f0(ILR),

(1)

其中,f0(·)表示卷积核为3×3的卷积层。提取的浅层特征F0被输入到非线性特征模块来获取具有更加细致的深层特征。非线性特征模块由级联的残差嵌套注意力网络(Residual Nested Attention Network,RNAN)、多分支融合网络(Multi-branch Fusion Networks,MFN)以及长跳跃链接组成。NFM提取过程为

FDR=CNFM(F0),

(2)

式中:CNFM(·)为MFN的特征提取操作;FDR为该模块的输出。将提取到的深层特征FDR通过重建模块来得到高分辨率图像。不同于其他方法,重建模块由像素补偿网络(Pixel Compensation Network,PCN)和一个3×3的卷积层构成。该模块可以将提取出的高频特征进行细化,得到更精确的高频特征和更具有丰富纹理信息的重建特征,该过程为

ISR=fRE(FDR),

(3)

式中:fRE(·)为重建模块;ISR为网络重建出的高分辨率图像。

1.1 残差嵌套注意力网络

残差嵌套注意力网络(Residual Nested Attention Networks,RNAN)使用残差嵌套网络提取不同层次的信息,以聚焦更多边缘细节纹理特征。RNAN包含三个残差组(Residual Group,RG)和长跳跃连接,每一个残差组包含四个具有短跳跃连接的像素坐标注意块(Pixel Coordinate Attention Block,PCAB),这种结构可进一步优化网络的表征能力。

PCAB结构如图2所示。该结构使用像素坐标注意力模块(Pixel Coordinate Attention Mechanism,PCAM)代替传统的通道注意力模块,在降低参数的同时,得到更为优秀的注意力特征提取特征。当输入的特征经过第N个RG时,该过程为

FN=HN(FN-1),

(4)

式中:HN为第N个RG;FN-1、FN为第N个RG的特征输入与特征输出。当特征图经过残差组中的PCAB时,先通过两层3×3的卷积层、Relu激活函数,然后输入到PCAM中来捕获特征的方向感知和位置敏感信息,以此增强高频特征。

图3展示所设计的PCAM的结构。PCAM不仅考虑了通道间的信息,而且利用了特征的位置信息,这使得嵌套网络更准确地定位到并识别目标区域。同时该网络结构具有更少的参数量,从而降低网络的复杂度。

为了使得注意力模块通过像素位置信息在空间上实现交互,将全局平均池化分解为水平方向与垂直方向的两种操作分别得到对应的1D特征。具体而言,对于W×H×C的特征,分别在X轴Y轴上进行池化操作,以第C个通道特征为例,分别用下列公式来对水平方向与垂直方向生成的特征进行表示

(5)

(6)

f=∂(F1([Zh,Zw])),

(7)

式中:[,]为Concat操作;∂为Relu激活函数;f∈RC/r×(H+W)为对空间信息的映射结果。另外通过1×1的卷积层以及Sigmoid函数,得到与输入特征一样的通道张量,通过长跳跃连接与输入特征进行卷积,得到高频特征。具体为

(8)

式中:δ为Sigmoid函数;C2d(·)为卷积操作;yc为像素坐标注意力模块的输出。

1.2 多分支融合网络

如图4所示,多分支融合网络(Multi-branch Fusion Networks,MFN)使用一种顺序并联策略进行不同分支的特征融合。该网络采用多分支框架结构,将嵌套残差注意力网络中每个残差组的输出作为该模块的输入,先通过卷积层进行通道降维,去除大量冗余参数,再对不同分支进行特征融合,进一步提取图像高频特征。

图4 多分支融合网络

对于第i个残差组的输出特征Fi,首先把Fi输入到1×1的卷积层,将特征维度降低一半,以便于维持拼接后特征维度不变;之后通过Relu函数对特征进行激活;最后将激活后的特征通过Concatenation层与下个分支提取的特征融合,以此类推。特征Fi表示不同分支的输入特征,使用以下公式进行融合。

(9)

式中:xi为第i个融合特征的输出;f(·)为卷积和Relu操作。通过这种顺序级联的方式,特征融合模块可以整合来自所有中间特征,从而有助于提取更多层次的上下文信息。最后将RNAN和MFN输出特征输入Concatenation层、1×1卷积层,得到非线性特征模块输出的特征图,再与浅层特征F0求和后,输入重建网络,具体为

FDR=Conv1×1([x3,F3])+F0,

(10)

式中:Conv1×1(·)为1×1的卷积层;[,]为Concat操作;FDR为非线性特征模块的输出。

1.3 重建模块

目前,基于深度学习的超分辨率重建算法的重建模块基本由上采样(基于插值或基于亚像素卷积)和卷积层组成。基于亚像素卷积的上采样,实现从低分辨率特征到高分辨率特征的映射,使重建的图像更接近原始图像,但其运算参数较多,结构较为复杂。基于插值的上采样算法,降低了运算难度,但重建的图像存在边缘模糊,纹理错位的现象。因此,文中设计U-PB网络,U-PB网络由双线性插值层、像素补偿模块(Pixel Compensation Block,PB)以及两个卷积层的组成。其中PB结构如图5所示。

图5 像素补偿网络结构

为了实现网络的轻量化,PB结构采用深度可分离卷积(Depthwise Seperable Convolution,DSC)[19]以及sigmoid函数并联而成。DSC层利用卷积操作对输入特征的不同通道进行独立运算,对不同的通道提取不同的特征,不必扩展特征图的通道,节约运算成本。具体为

Fout=Fin+δ(Conv1×1DSC(Fin)),

(11)

式中:Fin为输入PB的特征;Conv1×1DSC为尺寸大小为1×1的DSC卷积核;Fout为PB的输出。由U-PB结构组成的重建模块在提高运算速度的同时进一步加强重建特征的高频信息,在一定程度上补充了由于上采样而导致的像素损失。

1.4 损失函数

在图像视觉领域,损失函数用来定义模型所生成的HR图像与真实的参考图像之间的差异,在基于深度学习的优化过程中起着不可缺少的作用。在超分辨率重建算法中,通常使用损失函数L1与损失函数L2作为重建过程的损失函数。其中,L2损失函数收敛速度较慢,对异常数据过于敏感,重建后的图像经常出现缺失高频细节和轮廓边缘过于平滑的问题,而L1损失函数可以防止重建过程中图像的失真现象[20]。因此文中使用L1损失函数作为优化函数,表达为

(12)

式中:yi为重建后的图像;f(xi)为对应的真值图;i为第i张训练图像。

2 实 验

实验环境:采用Pytorch深度学习框架搭建,在Ubuntu18.04 LTS 64-bit操作系统上实现,服务器拥有 12 GB 的运行内存,显卡为NVIDIA RTX 3060。文中的实验采用Adam优化器,设置β1=0.9,β2=0.999,ε=10-8。学习率初始值设为0.000 1,批次设置为8。利用DIV2K作为训练集,epoch设为300,每训练50个epoch学习率变为原来的一半。

2.1 数据集

采用DIV2K(DIVerse 2K)数据集对模型进行训练。该数据集一共包含1 000幅真值图像。其中含有800张训练集图片用于模型训练,100张验证集图像来验证模型效果以及最后100幅测试图像对模型进行测试。对于测试部分,采用了超分辨率重建任务中广泛使用Set5,Set14,BSD100,Urban100和Manga109共5个基准数据集。这些测试集包含生活中常见的图像种类,用于验证不同算法的模型性能。此外,在进行论文网络算法的训练之前,还需要对数据集中的训练图像进行预处理操作。将数据集中训练图像分别进行了2、3和4倍的双三次下采样处理之后,作为训练网络的输入图像。

2.2 评价标准

图像超分辨率重建任务中,通常使用两种角度对重建图像进行评价。一种是主观评价,由人的视觉感官系统直观地对重建图像的清晰度、边缘纹理细节部分进行评价。另一种为客观评价,通过各类指标数值评估重建后图像与真值图像的差异。为了有效地验证模型的重建效果,通常使用峰值信噪比(Peak Signal To Noise Ratio,PSNR)和结构相似性(Structure Similarity,SSIM)评估不同类型的模型生成图像的重建质量。

2.2.1 PSNR指标

(13)

(14)

式中:Xi为真值图像像素点;xi为重建后的图像的像素点;xmax为真值图像中的最大像素值;MSE为回归损失函数中最常用的误差。MSE是对应真实图像像素值与重建图像像素值之间差值的平方和,当MSE最小时,PSNR数值取最大。此时,像素点差异最小,但由于没有考虑到人眼的视觉感知能力,因此容易导致图像主观感知质量较差,所以需要与SSIM指标一起使用。

2.2.2 SSIM指标

(15)

式中:μxμy为图像像素的平均值;∂x∂y为图像像素的标准差;∂xy为两个图像的协方差;C1、C2为常数。SSIM指标没有特定单位,其取值范围在0到1之间,值越接近1表示重建图像与原图在结构上越相似,效果越好,反之重建图像的效果越差。

2.3 消融实验

为了验证论文算法各个模块的优越性,采用RCAB代替PCAB,用亚像素卷积代替像素补偿网络,去掉多分支特征融合模块(Multi-branch Fusion Module,MFM)。其中,RCAB是RCAN提出的一种考虑特征信道之间的相互依赖性自适应的调整特征的模块,亚像素卷积是SR算法中常见的上采样方法。

由表1可以看出,通过将“PCAB+RIR”和“RCAB+RIR”进行客观指标的比较,所设计模型参数量较小,同时在放大倍数为2时,PSNR/SSIM都有不错的提升。上述实验结果证明了PCAB可以利用像素位置注意力来捕获更多高频特征。“PCAB+MFM”组合与“RCAB+MFM”组合相比,参数量降低了32k,在2倍放大倍数下,PSNR/SSIM均有提高,PSNR平均提高了0.04 dB,SSIM提高了0.000 5。实验证明了“PCAB+MFM”在网络参数增加较少时,重建图像的数值更高,提升了网络的表达能力。为了体现所设计PB模块的有效性,文中设计了对应的消融实验。

表1 不同模块对网络模型的影响

从表1可以看出,当参数量增加65k时,在2倍放大倍数下,PSNR增加了0.08 dB,SSIM增加了0.006,证明了所提出PB模块的有效性。

在Set5数据集下,不同重建算法4倍上采样的参数量和性能如图6所示。可以直观看出,文中算法模型参数量仅有0.645 M,相比于CARN,参数量大小相差2.5倍,并且重建出来的效果优于CARN。与轻量级算法MemNet相比,参数量降低了16k,PSNR高了0.41 dB。

图6 不同网络参数量对比

2.4 实验结果与分析

为了证明所提出算法的有效性,在5个基准数据集上与对比算法进行不同倍数的客观对比,具体见表2~4。从表中可以看出,所提出的方法在放大倍数为2倍,3倍和4倍时所有的PSNR值均处于最优,最高可以提升0.26 dB。同时所提出方法的SSIM值也优于大多数算法,因此可以证明所提出算法的有效性。

表2 2倍尺度下不同算法的PSNR/SSIM对比

表3 3倍尺度下不同算法的PSNR/SSIM对比

表4 4倍尺度下不同算法的PSNR/SSIM对比

2.5 主观视觉分析

为了验证算法的有效性,在DIV2K数据集上进行放大因子为4的测试实验。如图7所示,在图像“0801.png”上不同算法的测试结果。可以看出在DIV2K测试集中,千万级参数的CARN算法重建出企鹅毛发的较为粗糙,存在结构形失真的现象。SRCNN以及FSRCNN算法无法重建出毛发的细节,重建效果较差。对比同为轻量级PAN算法,文中重建出的毛发数量和细节更加清晰,证实了文中重建算法的有效性。

为了进一步直观地比较不同算法的重建效果,在主观视觉方面进行细节分析。图8为不同算法在Set5数据集下放大倍数为2倍“baby”图像重建的可视化结果。从重建图像细节来看,论文提出的算法重建的图像瞳孔色泽鲜艳,睫毛形状与纹理更加清晰。与其他算法相比,文中提出的算法重建效果更加优异。图9为不同算法在Set14数据集下放大倍数为3倍“comic”图像的各算法的重建效果,其他算法对帽子银饰边缘部分较为模糊,重建效果并不理想。文中算法可以重建出银饰挂坠的形状,细节恢复更加清晰。图10为不同算法在Urban100数据集下放大倍数为4倍“img031”图像各算法的重建效果。对局部扩大后,可以看出夜光下灯丝的细节重建效果更加细腻。

图8 放大尺度为2倍的效果对比图

图9 放大尺度为3倍的效果对比图

图10 放大尺度为4倍的效果对比图

通过与其他算法进行对比,文中算法在不同尺度下重建的图像边缘清晰,纹理清晰,在色泽方面更接近原图,重建效果更加准确。

3 结 论

文中提出一种基于像素补偿的轻量级超分辨率重建网络。为了减少模型参数的同时恢复更多的高频信息,设计像素坐标注意力模块,通过利用通道间信息以及特征的位置信息得到包含有更多高频信息的特征。考虑到不同阶段特征所包含信息的差异性,设计多分支融合机制自适应的融合中间特征来获取到更具有表示性的特征。最后设计像素补偿网络避免上采样中的信息损失,提升重建效果。大量的对比实验证明所提出算法可以在较少的参数量下取得更优的PSNR/SSIM值,重建出的图像纹理清晰,具有更好的视觉效果。

猜你喜欢

残差分辨率注意力
基于双向GRU与残差拟合的车辆跟驰建模
让注意力“飞”回来
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
EM算法的参数分辨率
原生VS最大那些混淆视听的“分辨率”概念
“扬眼”APP:让注意力“变现”
基于深度特征学习的图像超分辨率重建
一种改进的基于边缘加强超分辨率算法
A Beautiful Way Of Looking At Things