基于隐式神经表示的图像超分辨率
2024-11-07谭明旺张选德
摘要:基于连续表示的图像超分辨可以实现任意倍数的图像分辨率缩放,目前已成为当前该领域研究的主流趋势。隐式神经表示方法将坐标信息与深度特征信息作为输入,给定坐标下的RGB值(红绿蓝值)作为输出,提供了构建局部连续表示的基本框架,是典型的连续表示方法。然而,隐式神经表示方法未能充分考虑图像的局部结构信息。为此,提出了基于权重学习和注意力机制的隐式神经表示方法。首先,引入权重学习模块,该模块借助梯度信息和多层感知机学习临近特征点的权重。其次,引入通道注意力机制,以此增强特征通道中的关键信息,提升图像局部连续表示的准确性。数值实验结果表明,通过这两种机制的共同作用,该算法的性能相较于现有算法有了显著提升,表现出强大的竞争力。
关键词:超分辨率重建;隐式神经表示;卷积神经网络;注意力机制
中图分类号:TP391.41文献标志码:A
0引言(Introduction)
图像超分辨率重建(ImageSuper\|Resolution,SR)是将低分辨率(LowResolution,LR)图像转换为高分辨率(HighResolution,HR)图像的过程,它作为计算机视觉领域的重要问题之一,近年备受瞩目。现有SR方法主要侧重处理整数倍的缩放因子,任意倍缩放因子的SR问题却一直被忽略。为了应对目前SR领域中难以实现任意尺度放大的问题,本文采用了隐式神经表示的方法用于连续图像表示,其中网络以图像坐标和像素点的深度特征信息作为输入,预测给定坐标处的RGB值。在使用欧氏距离衡量周围特征点对采样点影响的基础上,引入权重学习模块,该模块充分考虑图像梯度信息,通过网络学得的权重系数对RGB值进行高效而精准的调整;通过引入通道注意力机制[1]提高网络的感知能力,更有效地捕捉关键特征,进而显著提升了图像质量。在这两项改进措施的共同作用下,本文提出的SR算法在多个数据集上均实现了性能的提升。
1相关工作(Relatedwork)
在隐式神经表示中,使用隐式神经函数即数学模型多层感知机(MultiLayerPerceptron,MLP)[2]将坐标映射为图像信息。该思路在模拟三维物体[3]的形状、场景的外表和结构的外观上得到了广泛应用。MILDENHALL等[4]提出通过学习多个图片视角,创建了一个对特定场景的隐式表示。与传统的方法不同,这种连续的隐式表示可以用很少的参数描述物体的微小细节,而且它还可以被训练来生成新的图像视角。这种方法在计算机图形和视觉领域有着广泛的应用,可以更好地理解和呈现三维物体和场景。该方法通常使用一个函数进行表示,该函数接收输入的坐标信息和其他参数,并映射到一个输出,通常是图像或其他数据的特征或属性,即
本文网络框架如图1所示,通过卷积神经网络[5]的主干网络(CNNBackbone)对输入的LR图像进行深度特征提取。随后,经过基于注意力机制的特征扩充模块的作用,生成所需的像素特征。在坐标空间提取LR图像与HR图像像素点坐标之间的函数关系。将坐标信息、深度特征信息与考虑像素点大小的像素尺度感知模块进行拼接,共同传入隐式神经函数进行训练。同时,引入权重学习模块,通过像素点梯度信息调整网络结果,以提升网络的鲁棒性。
在基于局部隐式神经表示的SR处理方法中,首先对输入的图像进行深度特征提取,这一步骤通过特征提取网络,将每个连续的图像转化为一个二维特征图F(i)∈RH×W×D。其中,H×W个特征点均匀地分布在二维域中,每个特征点在F(i)中代表连续图像的局部部分,负责预测与自身最近的一组坐标的信号。引入隐式神经函数,将接收输入的坐标信息及其他相关参数一并用于预测图像中某个特定像素点的RGB值,即
Iq=(v,x)[JZ)][JY](2)
其中:v为二维特征图F(i)的特征点,x为像素点对应的坐标信息,Iq为经过隐式神经函数预测出像素点的RGB值信息。
通过隐式神经函数,成功建立了离散的像素信息和连续的坐标信息之间的关联,使得图像的每个像素点都具有空间位置的参考。对于一张连续的图片I(i),采样点p处的RGB值被定义为
I(i)(p)=(v,δ(p,x))[JZ)][JY](3)
其中:v为采样点p在F中最邻近(欧氏距离最小)的特征点;x为最邻近特征点的坐标信息;δ(·)表示采样点p与最临近x之间的坐标关系函数,对于关系函数δ(·)的建模方式有很多种,例如Transformer[6]中常用的点积和阿达玛积。本文中采用减法运算,使计算量更小,同时取得了令人满意的模型性能,即
δ(p,x)=γ(p)-η(x)[JZ)][JY](4)
其中:γ、η分别表示采样点与其邻近特征点的坐标信息映射函数,本文选择恒等映射实现映射函数。如图2所示,在采样点p处的RGB值由最近邻特征点v00、p点坐标与v00点坐标x之间的函数关系共同决定。这一步骤的目的是确保在HR图像中的每个像素点都能够对应到LR图像上的合适位置,从而保持了图像的几何一致性和空间关系。这种坐标空间的映射策略有助于保持图像的空间连续性,以便更准确地还原HR图像的像素信息,确保生成的HR图像具有更好的视觉质量和细节。
2.1基于注意力的特征信息扩充
在经过CNNBackbone进行特征提取处理后,LR图像中原本包含RGB三个通道的信息被转化成具有多个通道的特征图F(i)。为了有效学习每个通道对模型任务的贡献度,本文引入了通道注意力机制。该机制利用输出的F(i),综合分析每个通道的特征,生成一个实数表示每个通道的全局分布信息,增加了通道之间的相关性。通过全局池化结果,为每个特征通道分配权重,衡量其在当前任务中的重要性。最后,通过对原始特征进行加权运算,在通道维度上加强具有重要性的特征通道,并抑制不相关或不重要的特征通道,从而得到更优化的特征表示Fatt(i)。
为了增加Fatt(i)中每个特征点信息的信息量,本文采用了特征信息扩充的方法得到了[AKF-]att(i)。在[AKF-]att(i)中,每个特征点信息都是由其本身和周围3×3个像素特征区域内的其他8个特征点的通道特征信息进行拼接得到的,对于位于图像边界以外的特征点,使用零向量进行填充。基于注意力机制的特征信息扩充的操作如下:
[AKF-]att(i)lm=concat({Fatt(i)l+j,m+k}j,k∈{-1,0,1})[JZ)][JY](5)
其中,concat表示向量拼接操作,在进行特征信息扩充后,[AKF-]att(i)代替Fatt(i)进行后续计算。基于通道注意力的特征信息扩充操作如图3所示,本文的网络在通道注意力机制的引导下进行了特征信息扩充,通过引入通道注意力机制,更加有效地调控不同通道之间的相关性,使网络更专注于学习关键特征信息,同时进行特征信息扩充,以便更全面地捕捉图像局部结构和纹理信息,从而提高了模型的表达能力和性能。
2.2像素尺度感知
受到ViT[7](VisionTransformer)中使用[class]模块作为额外全局信息用于分类的启发,本文提出了像素尺度感知的[Scale]模块,用于扩充输入的坐标信息。[Scale]模块表示像素点的大小信息,通过添加该模块,隐式神经函数能够将查询像素的形状作为额外信息用于重构目标RGB值。将像素坐标信息与[Scale]进行拼接,随后将其馈送到隐式神经函数中,公式(2)被重新定义为
其中:s=(sh,sw)是一个二维特征,代表当前像素点的尺寸大小信息;concat(x,s)表示对当前像素点的坐标信息与尺寸信息进行拼接操作。
2.3权重学习
在公式(3)中,通过使用单一特征点预测采样点的RGB值可能导致预测结果的不连续性,尤其是当采样点在空间域上移动时,特征点的选择可能会发生突变。为了应对这一挑战,LIIF[8](LocalImplicitImageFunction)借鉴了双线性插值[9]的思想,使用每个采样点周围的4个特征点构成一个网格状的正方形区域,与采样点的坐标相对应,使用欧氏距离衡量每个特征点对采样点的影响,并通过区域面积量化这种影响。这样做的目的是使由局部特征点表示的局部片段能够与其周围的局部片段重合,从而确保每个采样点都有4个独立的特征点对其进行独立的预测。在实际应用中,单纯依靠距离信息评估特征点与采样点的相互影响并不够,梯度变化的角色同样关键。例如,一个像素点虽然距离某特征点较远,但是若该特征点的特征变化剧烈,那么它的特征信息可能受到梯度变化较大且距离较远的像素点的影响更大。
因此,本文通过运用Canny算子[10]获取图像中的像素点梯度信息,并将其与特征点与采样点的相对距离信息结合,通过网络训练,共同确定权重。相较于LIIF通过面积预测的人为权重,采用梯度信息通过网络进行预测的方法充分考虑了像素点的变化率,使得模型更加关注颜色或纹理变化明显的区域,从而能够更准确地指导信号估计。这种方式更贴近图像特性,有效地提升了对局部结构信息的捕捉和重建能力。对于采样点p处的RGB值的预测,对周围4个特征点的特征信息进行统筹考虑,每个特征点的权重大小由其梯度信息和与采样点的相对距离共同决定,即
其中:vt(t∈{00,01,10,11})是指二维空间中左上、右上、左下、右下子空间中距离采样点最近的特征点;wt(βt)表示其经隐式神经函数作用后,各自对应的权重系数,这里的权重系数是通过梯度调整网络训练得到的,即
t表示像素点的梯度信息,τt表示特征点与采样点的相对距离。综合考虑梯度和距离信息,可以更全面地捕捉特征点对预测结果的贡献,使得模型能够更好地适应图像中的各种变化。
3实验与结果分析(Experimentandresultsanalysis)
3.1数据集
本研究采用DIV2K[11]数据集,该数据集包含了高质量、现实世界背景下的2k分辨率图像(2048×1080像素)。这些图像的多样性体现在它们覆盖了各种场景、结构和纹理,为SR算法的训练和评估提供了一个全面且真实的样本库。在实验设计中,遵循了标准的数据分割方法,从DIV2K数据集中精选了800张图像用于训练。在测试阶段,采用DIV2K的验证集进行实验验证,该验证集共包含100张图像,除此之外,还在4个标准的基准数据集(Set5[12]、Set14[13]、B100[14]和Urban100[15])上对算法的性能进行了全面的评估。
3.2实验设置
在本研究中,所有实验均在精心配置的计算环境下进行,以确保实验结果的准确性和可重现性。实验环境基于Ubuntu18.04LTS操作系统,并利用了Python3.7作为主要的编程语言,深度学习实验主要依赖于PyTorch1.7.1框架。所有深度学习相关的模型训练和测试均在搭载NVIDIAA100GPU(具有40GB显存)的高性能计算机上执行。
实验中以随机裁剪48×48个像素区域的图像块作为特征提取网络的输入,并采用Adam优化器,初始学习率设置为1×10-4,模型经过1000个训练周期,批处理大小为16,每经过200个训练周期,学习率会衰减为原来的0.5倍。本文的模型具有高度的灵活性,可以与不同的特征提取网络相结合,隐式神经函数(·)和梯度调整网络φ(·)分别由具有ReLU激活函数的5层MLP和2层MLP组成,隐藏层维度均为256。在整个训练过程中,采用L1损失函数。
3.3消融实验
为验证基于注意力的特征信息扩充模块和权重学习模块对超分辨率性能的实际贡献,本文设计了消融实验。在Urban100数据集上,分别移除了基于注意力的特征信息扩充模块和权重学习模块,以评估它们对2倍、3倍、4倍、6倍和8倍放大倍数下超分辨率性能的影响,×和√分别表示移除和保留该模块。消融实验比较结果如表1所示。从表1中的数据可以观察到,在各个放大倍数下,移除基于注意力的特征信息扩充模块和权重学习模块导致测试得到的峰值信噪比(PeakSignal\|to\|NoiseRatio,PSNR)最低。随后,逐步添加基于注意力的特征信息扩充模块和权重学习模块后发现,在5种放大倍数下,PSNR均有增长,特别是在同时添加两个模块时,相较于没有这两个模块的情况,PSNR在2倍、3倍、4倍、6倍和8倍放大倍数下分别提升了0.06dB、0.06dB、0.07dB、0.08dB、0.06dB,进一步证明了两个网络模块的共同作用对提高模型精度具有积极效果。
3.4对比实验
实验中采用了EDSR[16](EnhancedDeepResidualNetworks)和RDN[17](ResidualDenseNetwork)两种深度特征提取网络,两种深度特征提取网络都是通过深度堆叠和残差学习的方式,以不同的方式有效地提取和传递图像特征。将这两种网络提取的特征与本文的SR方法进行融合,再将本文的SR方法分别与双三次插值[18](Bicubic)、采用EDSR和RDN网络进行特征提取的MetaSR[19]网络(EDSR\|MetaSR、RDN\|MetaSR)以及采用EDSR和RDN网络进行特征提取的LIIF网络(EDSR\|LIIF、RDN\|LIIF)进行评估,选择PSNR作为评价指标。在DIV2K验证集上进行方法性能的对比,对比结果如表2所示。由表2可得,本文算法在DIV2K验证集上的性能表现最出色,相较于其他算法,在8种放大倍数下都展现出更好的性能。在4个标准基准数据集Set5、Set14、B100和Urban100上的对比结果如表3所示。由表3中的数据可知,本文算法在4个数据集上的总体性能表现最优。特别是在Urban100数据集上,本文算法展现出卓越的性能,这主要归因于Urban100数据集中蕴含了丰富的细节、复杂的纹理及多样的特殊结构。在面对这些具有挑战性的图像内容时,本文算法能够更为出色地捕捉和重建图像中的关键信息。
除了进行定量评估,为了更直观地对比本文算法与其他算法在视觉上的有效性,在测试集中选择了照片,如图4和图5所示,展示了各种对比模型在6倍和10倍超分辨率重建下的部分图像效果。从图4中可以看出,采用本文提出的网络进行图像重建后,较好地呈现了完整的细节。在DIV2K_0835中,更清晰地呈现了花蕊的信息;在DIV2K_0879中,有效地保留了远处楼梯的细节;在DIV2K_0878和DIV2K_0888中,成功地消除了多余的伪影信息。这些结果表明本文算法在不同图像上能够有效地还原并增强图像的细节信息。
进行10倍重建的图像中(图5),本文算法在多个场景中均展现出显著的性能优势。在Set14_lenna中,方框标注区域显示本文算法明显消除了帽檐处的多余伪影信息;在B100_126007中,方框标注区域凸显了本文算法恢复出更为清晰的楼梯信息;在B100_103070中,方框标注区域表明本文算法使鸟儿的眼睛信息更加圆润清晰;在Set14_comic中,方框标注区域表明本文算法成功地消除了鼻尖处的伪影信息。这些观察结果进一步证实了本文算法在高倍数重建任务中的卓越性能,特别是在伪影去除和细节恢复方面相较于LWACEkK/R8aV19GRlbTpOYQ==IIF更为出色。在每个场景中,方框标注区域都凸显了本文算法相对于LIIF的优越之处。该方法提高了重建图像的整体质量。
4结论(Conclusion)
本文致力于解决连续图像超分辨率重建中存在的局部结构信息不足的问题,通过引入权重学习模块和通道注意力机制,提升了图像表示的连续性和质量。权重学习模块通过深度学习网络捕捉梯度信息与RGB值之间的内在关联,充分考虑图像局部结构的精细特征,从而实现对图像任意分辨率的高效、精准表示;通道注意力机制优化了关键信息在特征通道中的学习过程,进一步提升了图像表示的准确性。实验证明,本文的方法在不同放大倍数下均展现出卓越的视觉效果,显著提升了图像超分辨率重建的质量。这一创新性的解决方案不仅验证了其技术优越性,还为连续图像超分辨率重建领域开辟了一条新的、高效的研究路径。
[HJ]
参考文献(References)
[1]高艳鹍,刘一非,李海生,等.基于简单通道注意力机制的单图像超分辨率重建算法[J].计算机工程与设计,2023,44(7):2140\|2147.
[2]曾印,谢劭峰,张继洪,等.顾及季节和高程影响的青藏高原湿延迟神经网络预测模型[J].中国科技论文,2023,18(5):512\|517.
[3]CHENZQ,ZHANGH.Learningimplicitfieldsforgenerativeshapemodeling[C]∥IEEE.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.Vancouver:IEEE,2019:5939\|5948.
[4]MILDENHALLB,SRINIVASANPP,TANCIKM,etal.Nerf:[JP3]representingscenesasneuralradiancefieldsforviewsynthesis[J].CommunicationsoftheACM,2021,65(1):99\|106.
[5]李薇,杜东升,邓剑波,等.基于并联式卷积神经网络的遥感影像超分辨率重建[J].科学技术与工程,2023,23(27):11513\|11521.
[6]HASSANMM,HASSANMR,HUDAS,etal.Apredictiveintelligenceapproachtoclassifybrain\|computerinterfacebasedeyestateforsmartliving[J].Appliedsoftcomputing,2021,108:107453.
[7]YUANL,CHENYP,WANGT,etal.Tokens\|to\|tokenvit:Trainingvisiontransformersfromscratchonimagenet[C]∥IEEE.ProceedingsoftheIEEE/CVFinternationalconferenceoncomputervision.Montreal:IEEE,2021:558\|567.
[8]CHENYB,LIUSF,WANGXL.Learningcontinuousimagerepresentationwithlocalimplicitimagefunction[C]∥IEEE.ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognition.NewYork:IEEE,2021:8628\|8638.[HJ1.8mm]
[9]MASTYOM.Bilinearinterpolationtheoremsandapplications[J].Journaloffunctionalanalysis,2013,265(2):185\|207.
[10]于新善,孟祥印,金腾飞,等.基于改进Canny算法的物体边缘检测算法[J].激光与光电子学进展,2023,60(22):221\|230.
[11]AGUSTSSONE,TIMOFTER.Ntire2017challengeonsingleimagesuper\|resolution:Datasetandstudy[C]∥IEEE.ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognitionworkshops.Honolulu:IEEE,2017:126\|135.
[12]BEVILACQUAM,ROUMYA,GUILLEMOTC,etal.Low\|complexitysingle\|imagesuper\|resolutionbasedonnonnegativeneighborembedding[C]∥BMVAPress.BritishMachineVisionConference.London:BMVAPress,2012:1\|10.
[13]ZEYDER,ELADM,PROTTERM.Onsingleimagescale\|upusingsparse\|representations[M]∥Lecturenotesincomputerscience.Berlin,Heidelberg:SpringerBerlinHeidelberg,2012:711\|730.
[14]MARTIND,FOWLKESC,TALD,etal.Adatabaseofhumansegmentednaturalimagesanditsapplicationtoevaluatingsegmentationalgorithmsandmeasuringecologicalstatistics[C]∥IEEE.ProceedingsEighthIEEEInternationalConferenceonComputerVision.Vancouver:IEEE,2001:416\|423.
[15]HUANGJB,SINGHA,AHUJAN.Singleimagesuper\|resolution fromtransformedself\|exemplars[C]∥IEEE.ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.Boston:IEEE,2015:5197\|5206.
[16]LIMB,SONS,KIMH,etal.Enhanceddeepresidualnetworksforsingleimagesuper\|resolution[C]∥IEEE.ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognitionworkshops.NewYork:IEEE,2017:136\|144.
[17]ZHANGYL,TIANYP,KONGY,etal.Residualdensenetworkforimagesuper\|resolution[C]∥IEEE.ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.NewYork:IEEE,2018:2472\|2481.
[18]XIAP,TAHARAT,KAKUET,etal.Performancecomparisonofbilinearinterpolation,bicubicinterpolation,andB\|splineinterpolationinparallelphase\|shiftingdigitalholography[J].Opticalreview,2013,20(2):193\|197.
[19]HUXC,MUHY,ZHANGXY,etal.Meta\|SR:Amagnification\|arbitrarynetworkforsuper\|resolution[C]∥IEEE.ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognition.LongBeach:IEEE,2019:1575\|1584.