APP下载

层次信息自适应聚合的图像超分辨率重建算法

2024-03-12陈伟杰黄国恒林俊宇

计算机工程与应用 2024年5期
关键词:尺度注意力卷积

陈伟杰,黄国恒,莫 非,林俊宇

1.广东工业大学计算机学院,广州 510006

2.虹软科技股份有限公司,杭州 310052

图像超分辨率(super-resolution,SR)是一个经典的图像处理问题,它的目标是从降质退化的低分辨率(low-resolution,LR)图像中恢复原本的高分辨率(highresolution,HR)图像。因为给定的LR 图像可以由不同的HR图像退化而来,所以图像超分辨率是个有挑战性的课题。同时,图像超分辨率在医疗、遥感、安防等领域具有广泛的应用前景,因此吸引了很多研究人员深入研究。

近年来深度卷积神经网络因其强大的建模能力受到很多研究者的青睐。Dong 等人[1]开创性地将卷积神经网络(convolutional neural network,CNN)引入图像超分辨率重建任务,提出了SRCNN(SR convolutional neural network)。Kim 等人[2]则是在残差网络的启发下,在网络末端中引入全局残差,进一步加深了模型的深度,提出了VDSR(very deep SR network)。Lee等人[3]提出的EDSR(enhanced deep SR network)则是移除批归一化层,节约显存的同时提高了网络的重建性能。Zhang 等人[4]则是引入注意力机制,利用通道信息对特征重新校准。此外,Zhang 等人[5]提出的RDN(residual dense network)将残差学习与密集连接结合,以最大化利用不同层次的特征。Dai等人[6]则是在网络中使用了二阶通道注意力机制,利用二阶统计信息提高特征的表征能力。然而这些超分模型的参数量和计算复杂度较高,不利于在实际场景中使用。

轻量级超分辨率重建算法受计算资源限制,往往会更注重参数量和模型性能的平衡。近几年来主流的轻量级超分辨率重建方法[7-8]通常采用在网络中嵌入注意力模块,以挖掘特征之间的关联信息。Hui等人[7]采用在通道注意力机制中引入对比度信息,提出CCA(contrastaware channel attention)机制。Liu等人[8]利用大感受野的空间注意力[9]获得更多像素信息。Zhao等人[10]通过像素注意力机制直接生成三维的注意力分数,指导判别性特征的学习。尽管这些方法注重利用注意力机制提高局部模块的特征表征能力,但它们基本上忽略了区分利用不同层次的特征。网络不同层次学习到的特征不同,聚焦于图像不同的特征细节。这些不同层次的特征对图像重建质量的贡献程度不同,应该区分利用。然而,现有的方法大多仅使用最后一层的层次特征或是简单将所有层次的特征直接拼接聚合以作为重建特征,这不利于充分利用特征。

针对上述问题,在这项工作中提出了一种轻量级的层次信息自适应聚合网络(hierarchical informative adaptive aggregation network,HⅠAAN)。首先,为了更有效地利用不同层次的特征,提出了多层次信息精炼机制(multi-level information refinement mechanism,MⅠRM)。该机制同时利用不同层次的特征自身的通道和空间信息,使网络自适应地调整层次特征,并在此基础上执行特征融合策略,以实现层次特征的有效利用。其次,为了提高模型基本块的特征表征能力,提出了多尺度信息聚合块(multi-scale information aggregation block,MⅠAB)。该模块采用细粒度的多尺度特征提取模块降低多尺度特征提取的代价,并利用注意力机制对不同尺度的信息进行调整聚合,从而提高特征的表征能力。最后,为了以较小的代价同时利用特征的通道和空间信息,实现对特征的自适应调整,提出对比度增强的重组注意力块(contrast-enhanced recombinant attention,CRA)。该模块在SA[11](shuffle attention)模块的基础上,在其通道分支上引入通道标准差统计量,目的是引入有利于增强图像细节(与SSⅠM[12]相关)的关于结构、纹理和边缘的信息。

本文提出了新颖的层次信息自适应聚合网络(HⅠAAN)以解决现有方法存在的问题。具体贡献如下:

(1)与现有的先进方法相比,所提的方法在模型复杂度和性能之间取得更好的平衡。

(2)提出了多层次信息精炼机制(MⅠRM),该机制能够对不同层次的特征区分利用,提高了模型的重建能力。

(3)提出了多尺度信息聚合块(MⅠAB),该模块能以较小的代价获取多尺度特征。同时,与注意力机制的结合使用,有效提高了特征的表征能力。

(4)提出了对比度增强的重组注意力块(CRA),该注意力机制通过在SA[11]的通道分支引入标准差信息,增强网络对图像结构和纹理信息的关注,以较低的代价同时利用了特征的通道和空间信息,用以指导特征的自适应校准。

1 相关工作

图像SR 主要分为基于插值的方法[13]、基于重建的方法[14]和基于学习的方法[15-20]。由于深度学习的引入,基于学习的方法取得了较大的突破和性能提升。本章主要阐述深度学习方法方面的工作,包括基于CNN 的图像超分辨率技术、多尺度特征提取和注意力机制。

1.1 基于CNN的图像超分辨率技术

SRCNN[1]首次将卷积神经网络引入SR 任务,并取得了优于传统方法的效果。自此,基于CNN 的图像超分辨率方法开始得到研究者的深入研究。Kim等人[2]借助残差学习和梯度裁剪策略,减轻网络训练难度,提高了模型的性能。DRCN[21](deeply-recursive convolutional network)采用共享卷积层参数的方式减少模型的参数量。DRRN[22](deep recursive residual network)则是进一步共享包含多层卷积的模块参数,并引入残差学习提高SR 效果。但这些方法都采取插值后的LR 图像作为网络的输入,不可避免地造成模型的计算量较大。此外,预先插值的LR 图像没有带来解决恢复原始HR 图像问题的额外信息。因此,现在的SR方法[23-24]基本在网络末端恢复图像的尺寸,这能有效减少模型的计算成本。Zhang 等人[5]将密集连接和残差连接结合,以便最大化利用不同层次的特征。许娇等人[25]利用并行的多空洞率的卷积获取不同尺度的特征,并通过级联多个残差块充分挖掘图像的信息。尽管这些方法取得了不错的效果,但它们是以参数量大和模型复杂度高为代价,难以在实际中运用。

Ahn等人[26]利用组卷积和精心设计的级联机制,提出了CARN(cascading residual network),虽然实现了轻量化的目标,但SR 效果较差。Tian 等人[27]利用一维非对称卷积结构突显局部关键点信息,减少信息的冗余。Hui 等人[28]利用通道分裂操作,对部分粗糙的特征进一步提炼,以较低的代价得到更精细的特征,所提出的ⅠDN(information distillation network)通过融合长短路径的信息增强了局部特征的表征能力。ⅠMDN[7](information multi-distillation network)是在ⅠDN 基础上,采用多步提炼的方式,获取了更多层次的不同精细特征。Liu 等人[8]则是在ⅠMDN 的基础上进一步减少参数量,并采用大感受野的空间注意力机制学习更具判别性的特征。Qin等人[29]提出了新的层次特征融合策略以最大化利用层次特征。尽管如此,这些工作[26-29]基本都将不同层次的特征等同对待,这不利于充分利用层次特征。为此,本文提出了多层次信息精炼机制(MⅠRM),旨在对不同层次的特征有区分性的利用。

1.2 多尺度特征提取

近些年来,多尺度特征在很多高级视觉任务的性能表现已经证明了多尺度特征有助于提高模型性能。Li等人[30]在残差分支使用不同大小的卷积核获取不同尺度的特征,取得了一定的效果提升。Feng等人[31]则是同时运用了不同深度的路径和不同大小的卷积核获取更为丰富的多尺度特征。然而这些方法获取的多尺度特征所需要的参数量和计算量较大。最近的工作[32-33]开始探索用更小的成本获取丰富的特征表示。文献[33]研究在残差模块内利用通道分裂操作和通道拼接操作获取多尺度特征,在模型复杂度和性能之间取得了较好的平衡。受文献[33]启发,本文提出了多尺度信息聚合块(MⅠAB),并在多尺度残差块中引入层归一化技术和注意力机制,以增强局部特征的表征能力。

1.3 注意力机制

注意力机制是受启发于人类视觉,它能够对不同的输入进行不同的响应,重新调整参数的权重。近年来,注意力机制得到广泛的研究与探索,广泛应用在各种任务上,如图像分类[34]、图像复原[4,35]、视觉问答[36]等。Hu等人[34]首次利用通道间的相关性来重新校准特征。Woo等人[37]则是同时考虑通道和空间上的信息,用以指导重新缩放特征权重。Zhang 等人[4]首次在SR 领域引入通道注意力调整特征的学习。Liu 等人[9]则是利用大感受野的空间注意力增强特征的表征能力。文献[29]则是同时使用了空间注意力和通道注意力用以增强网络的性能。然而,更复杂的注意力机制虽然能带来更高的性能,但也增大了模型的计算开销,这与本文的设计理念不符。Zhang 等人[11]利用特征分组和通道混洗操作,有效利用了特征之间的通道和空间信息相关性。受文献[11]启发,本文提出了对比度增强的重组注意力块(CRA),在SA[11]的通道分支引入标准差统计量,以较低的代价从通道和空间维度上重新校准特征权重。

2 层次信息自适应聚合网络

在本章中,首先介绍所提网络的整体框架。其次阐述局部信息精炼块(local information refinement block,LⅠRB)。其中局部信息精炼块是由几个多尺度信息聚合块(MⅠAB)和多层次信息精炼机制(MⅠRM)构成。最后,叙述对比度增强的重组注意力块(CRA)。

2.1 网络框架

在本节中,本文详细展示了所提出的层次信息自适应聚合网络(HⅠAAN),该网络的整体结构如图1 所示。整个网络由初步特征提取模块,深层特征投影模块和图像重建模块组成。用ILR、ISR、IHR分别表示低分辨率图像、重建图像、高分辨率图像。

图1 层次信息自适应聚合网络(HⅠAAN)架构Fig.1 Architecture of hierarchical informative adaptive aggregation network(HⅠAAN)

像大部分SR 方法所做的那样,使用初步特征提取模块提取图像的特征,将其作为后续层次的特征输入。其过程如下:

式中,MPFE(·)表示初步特征提取模块,具体来说是一个3×3的卷积操作,FPFE表示图像的初步特征。

然后,将获得的特征FPFE传入深层特征投影模块。深层特征投影模块具体是由三个局部信息精炼块(LⅠRB)和多层次信息精炼机制(MⅠRM)组成。第n个LⅠRB的输出可以表示为:

式中,表示第n个LⅠRB 的输出特征,MLIRB(·)则为局部信息精炼块代表的函数映射,N表示LⅠRB的数量,这里N=3。因此,深层特征投影模块的输出可以表示为:

式中,FDFP表示深层特征投影模块的输出,MMIRM(·)表示多层次信息精炼机制相应的操作。由于多层次信息精炼机制在全局上的使用方式和在局部上的使用方式相同,因此将在第2.2.2小节中介绍。同时,为了减轻网络的训练难度,将提取到的初步特征FPFE和深层特征投影模块的输出FDFP整合,最后送入图像重建模块,其过程可以表示为:

式中,MREC(·)表示重建模块的操作,它具体包含一个普通卷积和一个亚像素卷积。

为防止生成图像过于平滑,损失函数采用L1 损失而不是L2损失。损失函数L(Θ)可以表示为:

式中,MHIAAN(·)表示层次信息自适应聚合网络(HⅠAAN)相应的映射函数,Θ表示整个网络中的可更新参数。

2.2 局部信息精炼块

局部信息精炼模块(LⅠRB)是由几个多尺度信息聚合块(MⅠAB)和多层次信息精炼机制(MⅠRM)构成,具体如图1左下方虚线框所示。多尺度信息聚合块(MⅠAB)是用来提取更具判别性的多尺度特征,提高局部特征的表征能力。多层次信息精炼机制(MⅠRM)是对不同层次的特征有区分性选择利用,增强网络的学习能力。

2.2.1 多尺度信息聚合块

普通的多尺度特征一般采用多个不同大小的卷积核并行获取,参数量和计算量较大。所提出的多尺度信息聚合块是在更细粒度层面上提取多尺度特征,综合使用通道分裂和通道拼接操作,获取丰富的多尺度信息。同时,使用注意力机制对多尺度特征进行校准学习,获得更具表征性的局部特征。具体做法是将普通的残差模块中间部分的卷积层替换成细粒度的多尺度特征提取模块,并采用层归一化技术[38](layer normalization,LN)和对比度增强的重组注意力块(CRA),增强模块的表征能力,具体如图2所示。

图2 多尺度信息聚合块(MⅠAB)Fig.2 Multi-scale information aggregation block(MⅠAB)

首先,对多尺度信息聚合块的输入特征使用LN 处理,目的是为了稳定模块的输入,使训练过程更加平稳。这里以第n个LⅠRB 中的第m个MⅠAB 为例,假设输入为,则处理过程可表示为:

式中,MLN(·)表示LN层的具体操作,表示LN层的输出特征。

其次,将得到的采用1×1卷积进行特征升维处理,目的是允许更多浅层的信息通过,使浅层的低级特征更容易传播到网络的末端,以此获得更好的像素值预测。其过程可以表示为:

式中,flrelu(·)表示Leaky ReLU 激活函数,M1×1(·)代表1×1卷积,表示升维后的特征输出。

表1 测试集介绍Table 1 Ⅰntroduction to test datasets

接着,将经过维度变换后的特征传入多尺度信息提取部分(multi-scale information extraction,MⅠE),以便获得不同感受野的信息,借此提高网络预测的精度。多尺度信息提取部分(MⅠE)使用通道分裂操作将分成4组,本文将这些划分后的特征分组记为Si(i∈{1,2,3,4}),其中Si表示第i组特征。多尺度信息提取部分具体过程可以表示为:

式中,CB(·)表示卷积激活模块(具体包含一个3×3卷积和Leaky ReLU 激活函数),Ri表示第i组特征中保留下来的部分特征,Ci表示第i组特征中将进一步融合浅层特征的另一部分特征。经过通道分裂和通道拼接操作的结合使用,浅层的粗糙特征能够得到更多保留,进而传播到后面层次,同时网络能以较低的代价获得不同尺度的特征Ri(i∈{1,2,3,4)。当i越大时,特征Ri拥有更大的感受野和更多的特征数目。更大感受野的Ri能看到更多的像素信息,也拥有更多的通道信息,这有助于准确恢复图像。

然后,将不同通道数量的Ri(i∈{1,2,3,4)按通道维度进行拼接后,使用对比度增强的重组注意力块(CRA)(见第2.3 节介绍)对这些特征进行自适应增强,增强多尺度特征的判别性,并使用1×1卷积降维聚合得到融合特征。

式中,MCRA(·)表示对比度增强的重组注意力相应的特征变换,表示经过通道和空间信息增强后的多尺度特征,表示得到的融合特征。

最后,在多尺度信息聚合块(MⅠAB)内添加残差连接以使梯度传播更为顺畅。因此,第n个LⅠRB 中的第m个MⅠAB的最终输出可以表示如下:

2.2.2 多层次信息精炼机制

网络不同层次学习到的特征不同,聚焦于图像不同的特征细节,应该有区分性的利用。不同于之前的层次特征利用方法[28-29],提出的多层次信息精炼机制(MⅠRM)是对不同层次的特征有区分性的利用。所提出的多层次信息精炼机制采用注意力机制对不同层次的特征进行自适应校准,通过利用层次特征本身的通道和空间信息自适应校准层次特征,最后进行特征融合,借此实现层次特征的区分性利用。

如图1左下方的阴影部分所示,这里以多尺度信息聚合块(MⅠAB)为例。从第2.2.1小节可以得知,第n个LⅠRB 中的所有MⅠAB 的输出为,这里M=3。多层次信息精炼机制对这些层次特征采用对比度增强的重组注意力块(见第2.3 节介绍)进行校准,校准后的特征表示为,对这些校准后的特征采用1×1卷积逐步融合,得到融合特征输出。最后,对融合特征采用3×3 卷积进一步精炼,并在LⅠRB内使用残差连接,其过程表示为:

式中,和分别表示第n个LⅠRB的输入和输出。

2.3 对比度增强的重组注意力

目前流行的图像超分辨率重建方法一般会在模型中引入注意力机制来调整学习到的特征,以提高图像重建效果。但大多数的方法没有利用好特征的通道维度和空间维度之间的关联,导致效率较低。由于SA[11]的高效性,本文决定采用SA 以增强特征的表征能力。但原始的SA中的通道注意力分支是采用全局平均池化获得通道统计量,统计信息较为粗糙,缺乏有利于增强图像细节(与SSⅠM 相关)的关于结构、纹理和边缘的信息。在文献[7]的启发下,在原始的SA的通道注意力分支引入通道标准差信息,引导模型聚焦于更多的信息特征,提高鉴别学习能力,进而提高图像重建质量。本文将修改后的注意力机制称为对比度增强的重组注意力(CRA)。如图3 所示,CRA 的结构由4 部分组成,分别为特征分组、通道注意力分支、空间注意力分支和特征聚合。

图3 对比度增强的重组注意力(CRA)模块Fig.3 Contrast-enhanced recombinant attention(CRA)module

特征分组假定输入F∈RC×H×W,其中C,H,W分别代表特征图的通道数、高度和宽度。将其分为g组,[F1,F2,…,Fg],其中Fk∈RC/g×H×W(1 ≤k≤g)。然后将各组特征传入注意力模块,获取相应的通道权重系数和空间位置权重系数。具体来说,特征Fk将分成Fk1和Fk2两部分,Fk1是通道注意力分支的输入;而Fk2是空间注意力分支的输入。

通道注意力分支不同于原始SA[11]仅用全局平均池化获取通道平均值统计量,本文在通道注意力分支中引入了通道的标准差信息,统计量S∈RC/2g×1×1的计算公式如下:

式中,xc(i,j)表示Fk1的第c个通道中第i行第j列的特征取值,SGAP和SCSD分别表示对应通道的平均值和标准差。然后,通过简单的线性函数和sigmoid 激活函数获得通道权重系数。

式中,σ表示sigmoid激活函数,Wc和bc则代表线性函数的参数,表示通道注意力分支的输出。

空间注意力分支将输入映射Fk2通过组归一化技术以获得空间统计信息,然后通过简单的线性函数和sigmoid激活函数获得空间位置权重系数。其过程可以表示如下:

式中,Ws和bs表示线性函数的参数,表示空间注意力分支的输出。

特征聚合将和沿通道维度拼接,恢复分组特征的维度。最后,将所有的分组特征聚合,并采用通道混洗操作,实现分组信息的相互交流。

3 实验结果与分析

3.1 数据集和评价指标

像近年来大部分工作[6,9]做的那样,本文选择DⅠV2K[39]中800 张高分辨率图像作为训练集,其内容场景包括人、手工制品、环境、风景等[40]。测试集则是选择5 个广泛使用的基准数据集,包括Set5[41]、Set14[42]、B100[43]、Urban[44]和Manga109[45],具体内容场景如表1 所示。评价图像质量选用的客观指标是峰值信噪比(PSNR)和结构相似性(SSⅠM[12]),它们都是在YCbCr 空间的亮通道上进行评估。此外,本文使用Multi-Adds 作为评估模型复杂度的指标,其具体计算是假定HR 图像大小为1 280×720。

3.2 实现细节

对DⅠV2K 的800 张高分辨率图像进行双三次下采样处理,得到不同尺度(×2、×3、×4)的LR 图像。训练时,小批量大小设为64。模型的输入则是在每张LR图像上随机裁剪48×48的图像块,每个图像块输入网络前会随机旋转90°、180°、270°和进行水平翻转。网络的总迭代次数100万次。选择Adam[46]作为模型的优化器,初始学习率为1×10-3,在20万次迭代后学习率衰减为原来的1/10。另外,Adam优化器的其他参数为默认设置,其中,β1=0.9,β2=0.99,ε=10-8。模型设计方面,LⅠRB数量和MⅠAB 数量都固定为3 个;CRA 中分组特征的通道数量固定为2 个;网络的基本通道数设置为64 个,MⅠAB 中设置激活前的特征通道数为96 个。文中的所有实验结果均是在Nvidia 2080ti平台上使用Pytorch框架训练和测试获得。

3.3 与先进算法的对比

为了验证所提方法的有效性,将其与其他先进的超分算法进行比较,包括SRCNN[1]、FSRCNN[23]、LapSRN[47]、VDSR[2]、DRCN[21]、DRRN[22]、MemNet[48]、ⅠDN[28]、CARN[26]、CFSRCNN[16]、LESRCNN[17]、ⅠMDN[7]、MADNet[35]、ACNet[27]。下面分别从定量指标和视觉效果两方面进行分析。

(1)定量分析。表2展示了不同尺度下(×2、×3、×4)各个算法在5 个基准测试集上测得的PSNR 和SSⅠM 指标。每个尺度下最好的结果用加粗表示,次优的结果用下划线表示。可以看到,放大因子为2 时,所提方法在Urban100 数据集上表现最好,PSNR 比次优的ⅠMDN 高0.07 dB。5个数据集中所提算法仅在Set14和Manga109上表现略逊于ⅠMDN。放大因子为3 时,本文方法与ⅠMDN 的差距进一步缩小,5 个数据集中仅在Set14 数据集上表现略逊于ⅠMDN,PSNR 低0.02 dB。放大因子为4时,所提方法在5个基准数据集上均取得最优效果,特别是在Urban100 数据集上,所提方法比次优的方法PSNR 高了0.1 dB。从表1 可以看出,随着放大倍数的增大,本文方法能够获得更大的优势。此外,所提的方法在恢复难度较高、结构纹理信息丰富的Urban100 数据集的不同尺度上均能取得最优结果。这也证明了所提方法的有效性,能够有效恢复拥有丰富结构纹理信息的图像。除此之外,本文也可视化了在Set5(×4)上各个方法的PSNR 指标和参数量的关系图。如图4 所示,可以看出,与其他方法相比,所提方法在模型参数量和图像重建质量方面取得了更好的平衡。

图4 在Set5数据集(×4)上PSNR与模型参数量的比较Fig.4 Comparison results of PSNR and model parameters on the Set5 dataset

(2)定性分析。如图5 展示了本文方法与次优的ⅠMDN 算法在数据集Urban100 部分图像的重建图像效果对比。可以看到,对于Urban100 数据集中编号为“img092”和“img093”的图像,ⅠMDN在恢复所对应的图像块时无法准确预测线条和斑马线的方向,而所提方法恢复的图像块更接近原始HR图像。在对编号为“img012”的图像进行恢复时,ⅠMDN错误预测了建筑物的结构方向。相比之下,所提方法恢复的图像更为精准且基本不产生伪影,视觉效果更好。这说明了所提方法的有效性,能够更为准确地恢复结构纹理信息丰富的图像。

图5 重建效果对比Fig.5 Comparsion of reconstruction effects

3.4 消融实验分析

为了研究网络中不同组件对模型性能的影响,本文对网络的不同组件分别进行消融实验,具体包括对比度增强的重组注意力(CRA)、多尺度信息聚合块(MⅠAB)和多层次信息精炼机制(MⅠRM)。

(1)CRA。本次消融实验中多尺度信息聚合块(MⅠAB)中激活前的特征数目设置为64。为了直观展示在SA 中引入通道标准差统计量的运算成本,本文在100张尺寸大小为256×256的测试图像上统计平均推理时间,实验结果如表3 所示。可以看到,引入通道标准差统计量确实会增加额外的运算成本,推理时间增加不到0.003 s。此外,本文将模型中的CRA 模块分别替换成原始的SA[11]模块和CCA[7]模块,执行相应的消融实验,实验结果如表4 所示。可以发现,仅使用通道平均值的SA的模型虽然参数较少,但性能明显比使用CCA的模型差。而使用CRA 的模型保持较低参数的同时,取得了比使用CCA的模型更好的性能。综合表3和表4的实验结果,可以发现,虽然引入通道标准差统计量会额外增加一些推理时间,但它确实能有效提高模型的重建性能。

表3 推理时间对比Table 3 Comparison of inference time

表4 不同的注意力机制的定量对比Table 4 Quantitative comparison of different attention mechanisms

(2)MⅠAB。为了探究多尺度信息聚合块(MⅠAB)中激活前的特征通道数对模型性能的影响,本文通过控制LN层后1×1卷积核的个数来改变激活前的特征通道数目。实验中将多尺度信息聚合块中激活前的特征通道数量分别设为64、96、128,实验结果如表5 所示。从表5 中可以看到,随着激活前的特征通道数增加,模型的性能得到提高。但与此同时,模型的参数量和计算复杂度也随之增加。当激活前的特征通道数量为128时,模型的参数量最多,复杂度最高,但并未在五个基准数据集上取得最好的性能指标,如在Urban100数据集上,PSNR比激活前的特征通道数量为96的模型低0.05 dB。因此,综合考虑模型复杂度和性能表现,模型最终选择使用激活前的特征通道数量为96。

表5 激活前特征通道数对模型性能的影响Table 5 Effects of number of pre-activation feature channels on model performance

另外,为了探究多尺度信息聚合块各组成部分对模型性能的影响,本文进行了相关的实验,消融结果如表6所示。对比表6 中的第一行和第二行,可以发现,使用多尺度信息提取(MⅠE)能够有效减少模型的参数量,模型的参数量减少了约40%。同时,使用多尺度信息提取(MⅠE)在一些数据集上能取得与使用普通卷积相近甚至更优的性能指标,如B100、Set5等。这证明了采用多尺度信息提取能有效重建图像。对比表6 中的第二行和第三行,可以发现,由于所提出的CRA 模块的高效性,模型仅需增加少量的参数量(不到100)即可取得明显的性能提升。加入CRA 后,模型在Urban100、Set14、Manga109数据集上PSNR均能取得至少0.1 dB的增益,SSⅠM指标也得到明显提升。这证明了在MⅠAB中采用CRA 确实能提高模型的表征能力,提高图像重建质量。对比表6 中的第三行和第四行,可以发现,引入层归一化技术(LN)后,模型在基准数据集上各个指标均取得一定的提升。特别是在Set5 数据集上,PSNR 取得0.11 dB 的增益,SSⅠM 也提升了0.001 3。这表明LN 层的引入有利于提高模型的重建能力。这些消融实验证明了所提MⅠAB组成部分的有效性,能够提高模型的重建能力。

表6 不同组件对模型性能的影响Table 6 Effects of different components on model performance

(3)MⅠRM。为了探究所提的多层次信息精炼机制(MⅠRM)对模型性能的影响,本文对多层次信息精炼机制(MⅠRM)进行消融实验。将多层次信息精炼机制(MⅠRM)中的注意力模块移除作为对照组,实验结果如表7 所示。从表7 中可以看出,使用多层次信息精炼机制的模型,即采用对比度增强的重组注意力对不同层次进行自适应校准后再执行特征融合,模型的参数量增加不到100,用较小的代价取得了明显的效果提升。使用MⅠRM 的模型在5 个基准数据集上的PSNR 均能取得0.02 dB的增益,SSⅠM也得到明显提升。这表明对层次特征进行区分利用,即利用层次特征的通道和空间信息指导网络的学习能有效利用不同层次的特征,增强模型的重建能力。

表7 多层次信息精炼机制对模型性能的影响Table 7 Effects of multi-level information refinement mechanism on model performance

4 结束语

本文提出了新颖的层次信息自适应聚合网络(HⅠAAN),用于有区分性地利用层次信息,提高模型的重建性能。通过引入多层次信息精炼机制(MⅠRM),网络能够有效地利用层次信息。同时,提出的多尺度信息聚合块(MⅠAB)和对比度增强的重组注意力块(CRA)能够有效利用多尺度信息、特征的通道和空间信息,进一步增强特征的表征能力。大量的实验证明了所提方法的有效性,能在模型复杂度和图像重建能力方面取得较好的平衡。

猜你喜欢

尺度注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
宇宙的尺度
9
一种基于卷积神经网络的性别识别方法