APP下载

基于退化感知的盲超分辨率模型

2023-09-14蔡建枫蒋年德

液晶与显示 2023年9期
关键词:层级分辨率交叉

蔡建枫,蒋年德

(东华理工大学 信息工程学院,江西 南昌330013)

1 引言

20 世纪首次提出图像超分辨率重建后,图像超分辨率重建在医疗、航天、三维点云[1]等领域均取得了显著成就。单图像超分辨率重建(Signal Image Super-Resolution,SISR)是从低分辨率图像中恢复高分辨率图像的过程。重建过程一般可以分为4 个尺度i(i=2,3,4,8),i表示图像边长增加了i倍,即像素密度增加了i倍。Dong 等人[2]将卷积神经网络(Convolutional Neural Network,CNN)引入单图像超分辨率(SISR)以获得良好性能。为了进一步提高图像超分辨率(Super Resolution,SR)的性能,Kim 等人[3]提出了深度递归卷积的方法,其使用了递归监督与跳跃链接和不同的训练策略来解决网络出现的梯度消失问题。此外,Lim 等人[4]提出移除批量归一化层(BN)能提高模型性能。Dong[5]和Hui[6]等人考虑了模型轻量化。Qiu 等人[7]考虑了图像低频和高频有不同的处理复杂度,提出了一个分离高频和低频信息的网络。Liu 等人[8]提出了一种新的残差特征聚合框架。上述方法的输入图像都是基于固定退化模式生成,然而SR 是一个典型的逆问题,它严重依赖于退化模型[9-10],当实际退化模式与其假设不同时,这些方法的性能会严重退化[11-12]。因此,未知退化模式(Blind super-resolution,Blind SR)的问题使大多数SR 方法失效。此外,现有的基于深度学习的方法在真实世界图像中受到了很大的限制。近年来,除了盲SR 之外,有几种非盲方法被提出用来处理实际应用中的各种退化模式[13-14],具体来说,这些方法是使用一组退化组合进行训练,例如,不同的模糊和噪声的一些组合。此外,它还假定被测试的LR 图像的退化是已知的,当真正的退化是已知时,这些非盲方法产生了满意的SR 结果[15-16]。然而,这些非盲方法的性能高度依赖于退化信息估计的准确性,当估计误差较大时,会产生明显的假象。为了解决这一问题,Gu 等人[17]提出了一种迭代内核校正(Iterative Kernel Correction,IKC)的盲SR 方法,它可以通过观察以前的SR 结果来校正估计的退化。通过迭代校正估计的方法,可以准确估计退化信息。因为它们在测试时需要对退化估计方法和IKC 进行大量迭代,所以这些方法非常耗时。

上述应对真实世界图像退化的方法都是基于像素级的退化估计,其中需要对图像每个像素的退化进行估计,当估计的退化偏离真实图像时,SR 的性能就很差。Wang 等人[18]提出了区分各种退化来学习退化表征,降低了退化估计的难度。尽管Wang 等人提出的退化感知超分辨率(Degradation-aware Super Resolution,DASR)方法在盲超分辨率任务上取得了满意的性能,但设计的图像恢复网络仍有不足之处。首先,恢复网络里的退化感知模块只传入下一个模块,没有充分利用中间层的特征相关性,因此低分辨率图像(Low-resolution image)的纹理细节往往在超分辨率结果中被平滑化。其次,在SR 任务中,生成精细的纹理仍然是一个非常艰巨的问题。虽然DASR 通过使用通道注意力得到的结果保留了一些细节信息,但是这些基于通道注意力的方法只利用了退化表征,在保留信息纹理和恢复自然细节方面很困难,会损失恢复图像中的一些细节部分。

为了解决这些问题,本文提出了一个新颖的盲图像超分辨率重建模型。该模型由多个以退化感知块为基础的残差组构成,退化感知块使用一种基于图像特征和退化表征交叉的空间注意力计算方法,这种方法会融合图像退化表征和图像特征,学习特征图中不同位置的权重,加强纹理和边缘等高频信息的提取能力。此外,本文模型还引入了层级特征复用模块,通过考虑多层特征之间的相关性来学习特征层间的权重,增强图像超分辨率恢复能力。

2 本文方法

本文模型主要包括4 个模块:退化表征提取模块、基于退化表征交叉注意力的图像特征提取模块、层级特征复用模块和上采样模块。为了建模一个符合真实世界的复杂退化模型,本文对原图像使用随机生成的各向异性高斯核进行模糊处理。基于像素级退化估计的难度较大,用对比学习提取退化表征只需要区分开不同退化,更容易学习,而且不需要准确的模糊核作为标签帮助训练。学习到的退化表征和低分辨率图一起输入图像特征提取模块。图像特征提取模块主要由5 个残差退化学习模块(Residual degenrate learning block,RDLB)组成,在每个RDLB 内部包括5 个退化感知块(Degradationaware block,DAB),每个DAB 包括2 个退化感知卷积块(Degenerate-aware convolution block,DACB),DACB 能够充分结合退化表征来提取图像特征。层级特征复用模块(Layer feature reuse block,LFRB)提取不同深度的特征,为之分配不同的注意力权重,提高特征表示能力。上采样模块用亚像素卷积把图像特征放大目标上采样倍数,再用卷积获得恢复图像。具体网络结构如图1 所示。

图1 基于退化感知的整体结构图Fig.1 Overall structure diagram based on degradation aware

2.1 图像退化模型

盲SR 旨在从具有未知和复杂退化的低分辨率图像中恢复高分辨率图像。本文通过区分不同的退化来处理LR 图像。通常采用经典的退化模型[19]来合成低分辨率输入。LR 图像和退化信息可以表示为:

其中:⊗和↓代表着卷积操作和下采样操作,k代表模糊核,S代表下采样比例因子,n代表噪声,ILR是低分辨率图像,IHR是高分辨率图像。本文为了建模现实世界的退化,研究了一个带有各向异性的高斯核的更普遍的退化模型,即对每个低分辨率图像随机生成各自的模糊核k,并在模糊核后用双三次下采样方法进行下采样操作

2.2 退化表征的提取

本文使用MoCo[20]对比学习的方法进行退化表征学习。它根据一个样本的不同视图具有相似信息来捕捉类别特征,将同一样本的不同视图作为正样本,不断拉近这些视图的特征,其他样本的视图作为负样本尽量远离。本文将具有相同退化模式的图像作为正样本,不同退化模式的图像为负样本。详细来说,给定一批HR 图像,首先从每个图像中随机裁剪两个小块图像并对它们按缩放因子进行退化处理,得到小块图像列表,每个Pi是由同个退化模式处理得到的两个小块图像,需要注意的是,Pi之间的退化模式是不同的。由于具有不同的退化模式而被用来对比学习退化表征。无监督对比学习需要建立一个大型字典作为负样本,本文遵循MoCo 的做法,建立一个队列作为负样本字典,当前小批次的特征表示作为负样本入队时,最老的特征出队。退化表征提取模块的输入为P̂,模块由6 个卷积层组成,每一层在批量标准化后由LeakyRelu 激活,最后通过自适应平均池化获得退化表征R。最后,使用InfoNCE 损失进行对比学习:

其中:E(·)表示退化表征提取,Nque表示队列长度,是jth负样本,τ是温度超参数,B是批量大小。

2.3 基于退化表征的交叉注意力方法

真实世界中的退化可能是空间变化的,而DASR[17]假设图像在空间上具有同一退化。DASR直接将退化信息经过两层全连接层和Sigmoid 后作为通道注意力,但退化信息不同于SR 网络中传播的纹理特征,即退化信息和图像特征之间存在域差异,因此会干扰纹理特征的提取。Mobile-Former[21]的双向桥融合局部和全局特征后进行双向通信,充分发挥卷积在提取局部特征方面的效率和Transformer 在提取全局特征方面的能力。由此得到启发,本文同时考虑退化表征和图像的纹理特征,通过交叉注意力方法融合它们,然后学习每个像素特征的重要程度,识别空间变异的退化,提高纹理和边缘特征提取能力。本文的图像特征提取网络以退化感知块为基本块,如图2 所示。整体架构由5 个残差退化学习块RDLB 组成,如图1 所示。首先,低分辨率(Low resolution,LR)图像经过6 层卷积网络后,由avgpool 全局自适应平均池化编码为退化表征。然后,退化表征被输入到DAB。为了处理图像的退化信息,在DAB 中使用退化表征和图像特征计算交叉注意力。具体来说,退化表征和LR 图像特征F通过一层3×3 卷积初步提取特征后被一起输入到DAB,退化表征被传入两个分支,其中一个通过两层全连接层后生成动态卷积核W(C×1×3×3),然后使用F和W做深度分离卷积运算,最后通过一个1×1 的卷积层得到F1。图像经过复杂退化后,用第二个分支来学习像素特征的权重,采用交叉注意力方法将退化表征和图像特征F融合,它们的计算方法如式(3)所示。退化表征分别经过两个全连接层后生成K和V(退化表征经过计算转换后的新特征),图像特征F不做改变当作Q(图像特征经reshape 转换的特征),然后用公式(3)计算得到Zout,再经过1×1 卷积把通道数转成1 个,再经过sigmoid 函数得到维度是B×1×H×W大小的空间注意力,结构如图3 所示。

图3 退化表征交叉注意力块Fig.3 Degenerate representation cross attention block

该过程可表示为:

其中:d是图像特征F的通道数,z是退化表征。接下来将两个分支中的F1和F2执行元素求和并将它们向后传递。该方法充分利用对比学习提取的图像退化表征和LR 图像特征,分别对LR 图像特征进行卷积运算和空间权重调制,可以灵活地处理退化信息,加强空间变异退化的判别学习能力,进一步提高网络的表示能力。

2.4 层级特征复用方法

为了充分利用中间层的特征,提高网络性能,董等人提出了基于小波域的残差密集网络[22](Residual dense network based on the wavelet domain,WRDSR),该网络通过跳连接回收不同层特征,但仅使用concat 作为特征融合方法,平等对待不同层特征,这会阻碍模型的表示能力。本文提出层级特征复用方法LFRB,提取各残差退化学习块的输出特征,并通过考虑各层特征之间的相关性,自动为不同深度的特征分配注意力权重,提高提取特征的表示能力,所提出的结构如图4 所示。模块的输入是从N个RDLB 残差组中提取的中间特征组FGs,维度是N×C×H×W。LFRB 将特征组FGs 重新修整为一个维度为N×CHW的二维矩阵,并应用矩阵乘法与相应的转置来计算不同层之间的相关性,公式如式(7)所示:

图4 层级特征复用块Fig.4 Layer feature reuse block

其中:δ(·)和φ(·)表示softmax 和reshape 操作,wi,j表示第i和j个特征组之间的相关指数。最后,将重新修整形状后的特征组FGs 乘以带有比例系数的预测相关矩阵,并加入跳连接,如公式(8)所示:

其中α由网络自动学习。模块最后传入3×3 卷积,输出通道数与一个残差的通道数一致。因此,网络可以自动关注层级特征中的更重要特征。

2.5 损失函数

常用的损失函数有L2[23]、L1[24]、感知损失和对抗损失[25]。本文选择L1损失函数,给定一批图像,其中包含B个LR 图像和其对应HR,L1损失如式(9)所示:

其中:H指本文的SR 模型,整体损失函数定义为L=LSR+Lcl,Lcl是公式(1)的对比损失。

3 实验结果与分析

3.1 实验数据

本文根据公式(1)生成LR 图像用于训练和测试。将来自DIV2K 的800 张训练图像和来自Flickr2K 的2 650 张训练图像用作训练集,并对4 个基础数据集进行评估,这4 个数据集分别是Set5、Set14、B100 和Urban100。具体来说,本文使用各向异性高斯核作为退化方法进行实验,其特征为高斯概率密度函数N(0,∑)(具有零均值和变化协方差矩阵∑)。随机特征值的范围λ1和λ2为[0.2,4.0],随机旋转角度θ的范围设置为[0,π],这些可以确定协方差矩阵∑。

3.2 评价指标

本文选择峰值信噪比(Peak signal to noise ratio,PSNR)和结构相似性(Structural similarity,SSIM)两个客观指标来对比本文模型与其他先进模型的性能。

其中:Ii指HR 图像在第i位置的值,̂指SR 图像在第i位置的值,Imax为像素最大值255,μ指平均值,σI为方差,为协方差,c1=(0.01×Imax)2,c2=(0.03×Imax)2。

3.3 实验设置

在训练中,随机选择32 张图像通过随机旋转和翻转来增强数据。从上述范围中随机选择32 个高斯核来生成LR 图像。随机裁剪64 个大小为48×48 的LR 小块图像(第2.3 节,每个LR 图像中有2 个补丁)及其对应的HR 图像块。使用β1=0.9 和β2=0.999 的Adam 方法进行优化。本文对整个网络进行了500 个epoch 的训练。初始学习率设置为1×10-4,每100 个epoch 降低1/2。实验环境为:GPU 为NVIDIA V100,CPU 8 核,内存为32G,深度学习框架为Pytorch,编程语言为Python。

3.4 消融实验

为了探究本文提出的基于退化表征和图像特征的交叉注意力方法和层级特征复用方法在盲超分辨率领域对恢复结果的影响,本文对这两个模块进行了消融实验。将去掉了交叉注意力方法和层级特征复用模块作为基础模型,并在放大系数为4 的基础模型上面训练500 个epoch,“Baseline+ca”指在基础模型上添加了交叉注意力模块,“Ours”指本文提出的整个模型,即引入以上两个模块的模型。如表1所示,引入两个改进模块时,模型性能有所提高。实验结果表明,当在基础模型上引入基于退化表征和图像特征的交叉注意力方法时,在Set5 数据集上的PSNR 下降0.01,但是SSIM 提高0.001 1;而在Set14 数据集上,PSNR 提高了0.2,SSIM 提高了0.002 3。当同时引入两个模块时,模型比基础模型和只引入交叉注意力方法的模型均提升了性能,在Set5 数据集上比基础模型的PSNR 提高0.03,SSIM 提高了0.000 7,在Set14 数据集上比基础模型的PSNR 提高0.25,SSIM 提高0.004 7。综上所述,相较于基础模型,本文提出的交叉注意力方法和层级特征复用方法对图像的恢复效果提高显著。

表1 不同模块组合的实验结果Tab.1 Experimental results of different module combinations

3.5 交叉注意力机制分析

为了验证交叉注意力机制的有效性,本文可视化了不同层的注意力图。输入图像是从Set14挑选的,整体用图4 的模糊核1 执行模糊退化,再在中间小矩形用模糊核2 执行模糊退化,然后输出模型训练完成后的第8、20、28 和40 层注意力图。可以看出,不同的注意力层以不同的粒度识别图像。图5 表明,低层注意力能学习粗粒度的颜色变化和细粒度的颜色变化,如8 层的颜色块和20 层的点和线条,中间层注意力能学习区分前景和背景,高层注意力能学习区分空间变异退化。

图5 不同层的注意力图Fig.5 Attention map of different layers

3.6 现有先进模型的对比

3.6.1 定量比较

本文与RCAN[26]、DASR[18]、IKC[17]、HAN[27]、Bicubic 这几个算法的性能进行了比较,在数据集Set5、Set14、Urban100 和BSD100 上测试不同放大系数(×2,×4)的超分辨率恢复结果,用PSNR和SSIM 作为指标进行比较。测试数据集的LR图像生成设置使用各向异性的高斯模糊和双三次下采样,随机特征值的范围λ1和λ2为[0.2,4.0],随机旋转角度θ的范围设置为[0,π],随机种子固定设置为0,这样能确保不同图像使用不同的参数。如表2 所示,本文提出方法的性能领先于其他算法,表明交叉注意力方法和层级特征复用方法具有泛化能力,能提升图像恢复能力,并取得很好的客观评价指标。

表2 不同SR 算法在2 倍放大系数的测试结果Tab.2 Test results of different SR algorithms at 2X magnification factor

表3 不同SR 算法在4 倍放大系数的测试结果Tab.3 Test results of different SR algorithms at 4X magnification factor

3.6.2 视觉效果

不同模型的恢复结果可视化如图6、7、8 所示。图6 中HAN、RCAN 和Bicubic 算法几乎无法恢复出小鸟头部的轮廓边界,IKC 则有较好的提升,而本文方法恢复的图像有明显的提升,轮廓更加明显,最接近HR 图像。如图7 所示,在Set14的“pepper”图像上,Bicubic 算法恢复图像在边缘处有少许马赛克,HAN、RCAN 算法恢复的纹理在视觉上相近,IKC 则错误地恢复出蔬菜的边缘,而本文算法的恢复图像在红色部位的边缘有清晰的边界,更加接近HR 图像。如图8所示,在恢复字体方面,本文算法也是领先于其他算法,恢复文字更加清晰。综上可以看出,HAN、RCAN 和Bicubic算法在复杂退化的LR 图像上的性能并不理想。IKC 受益于迭代核,产生了较清晰的结果。在处理具有复杂退化的LR 图像时,本文模型的视觉效果和图像质量要更加优秀。

图6 Set5 中“bird”恢复结果对比图Fig.6 Comparison of “bird” recovery results in Set5

图7 Set14 中“pepper”恢复结果对比图Fig.7 Comparison of “pepper” recovery results in Set14

图8 Set14 中“ppt3”恢复结果对比图Fig.8 Comparison of “ppt3” recovery results in Set14

3.6.3 对真实世界图像的实验

为了进一步证明本文模型的有效性,本文对真实世界图像进行实验和可视化,在RealSR数据集上测试放大4 倍的超分辨率恢复结果。RealSR 数据集通过调整数码相机的焦距,在多个自然场景下拍摄成对的LR-HR 图像。如表4所示,本文模型在随机的模糊核条件下训练,在真实世界数据上测试,跟其他模型对比具有较好的性能。

表4 模型在RealSR 数据集上的定量比较Tab.4 Quantitative comparison of the models on RealSR

同时在没有HR 图像的真实退化图像上比较各模型性能,通过视觉对比进行评估。如图9 所示,HAN 和RCAN 都产生了很明显的模糊线条;IKC 具有多次迭代而产生了更高的清晰度,但右上角的线条仍然有少量模糊;本文模型的交叉注意力方法帮助产生比IKC 更清晰的线条边缘和细节。如图10 所示,在文字恢复方面,其他模型恢复的ADVISE 字母有各种程度的模糊。图11 中IKC 产生了较明显的振铃。本文的模型恢复了清晰的字母、尖锐边缘和高频细节。综上表明,本文模型在真实世界图像上具有良好的泛化能力。

图9 真实图像放大4 倍的对比图1Fig.9 Comparison chart 1 of the real image magnified 4 times

图10 真实图像放大4 倍的对比图2Fig.10 Comparison chart 2 of the real image magnified 4 times

图11 真实图像放大4 倍的对比图3Fig.11 Comparison chart 3 of the real image magnified 4 times

4 结论

为了处理真实世界中具有复杂未知退化的图像,本文提出了一种基于退化感知的盲超分辨率模型。首先它通过随机各向异性的模糊核生成LR 图像,建模一个尽量符合真实世界复杂退化的模型;接着用对比学习提取一个用来区分退化方法的表征,避免学习像素级别的退化估计;然后把退化表征经过全连接层后作为图像特征提取的卷积核,同时把退化表征和LR 图像特征做交叉注意力计算,生成的空间注意力图给图像特征分配权重,更好地恢复高频细节,同时此方法还能识别到空间变化的退化方法;最后为了更好地利用各残差组生成的层级特征,本文还提出了层级特征复用方法,用注意力方法计算不同深度的层级特征之间的相关性,并生成权重图来提取各层特征。消融实验证明了本文提出的交叉注意力方法和层级特征复用方法在评价指标上有所提高,能提升恢复图像的质量。通过与其他先进算法比较,本文提出的方法在评价指标和视觉效果上均有较好的结果。本文提出的算法在盲图像超分变率领域的性能较好,但模型参数量较大和运算速度较慢,未来的研究将在小型设备中提供快速运算功能。

猜你喜欢

层级分辨率交叉
军工企业不同层级知识管理研究实践
基于军事力量层级划分的军力对比评估
“六法”巧解分式方程
EM算法的参数分辨率
原生VS最大那些混淆视听的“分辨率”概念
基于深度特征学习的图像超分辨率重建
一种改进的基于边缘加强超分辨率算法
连一连
任务期内多层级不完全修复件的可用度评估
基于Fast-ICA的Wigner-Ville分布交叉项消除方法