APP下载

基于多尺度和注意力模型的红外与可见光图像融合

2023-03-05黄玲琳李强路锦正贺贤珍彭波

红外技术 2023年2期
关键词:尺度红外注意力

黄玲琳,李强,2,路锦正,贺贤珍,彭波,2

(1.西南科技大学 信息工程学院,四川 绵阳 621010;2.西南科技大学 特殊环境机器人技术四川省重点实验室,四川 绵阳 621010)

0 引言

对多模态图像进行融合从而得到更全面的描述信息是国内外图像研究与应用关注的重点方向[1]。进行融合的源图像主要来自于视觉传感器,在光照条件良好的情况下,使用普通视觉传感器,当光照不足时就需要用到红外相机[2]。红外图像的抗干扰能力强,能够弥补可见光图像的缺点,但是红外图像的分辨率低和纹理细节模糊[3-4]。所以,考虑将红外图像与可见光图像进行融合,获得更加完整的场景信息。

目前,国内外已提出较多的图像融合算法,如陈潮起[5]等人提出了一种基于多尺度低秩分解的图像融合方法,通过多尺度低秩分解将红外与可见光图像分别分解为显著图和细节图,根据分解图像的特点,有针对地设计最优融合策略,通过此算法生成的融合图像目标清晰、细节丰富。林子慧[6]等人将显著性检测算法进行改进,得到一种能够提取红外图像显著图的算法,利用此算法指导高低频分解图像的融合策略,得到的融合图像有较好的视觉效果。但是,传统方法的数据量多,且往往根据图像的单一特征进行图像融合,导致融合图像信息量不多。随着神经网络在图像处理领域的发展,由于神经网络的计算能力强大,基于深度学习的图像融合算法被提出来,利用神经网络对源图像进行特征提取能够弥补传统图像融合方法的缺陷。马旗[7]等人提出了基于VGG(visual geometry group)网络的双波段图像融合方法,将源图像输入VGG 模型提取特征图,通过 ZCA(zero-phase component analysis)白化加归一化处理将特征降为二维,再通过3 次插值将特征恢复为源图像的尺寸,最后加权平均得到融合图。该方法的融合速度明显高于其他方法。Li[8]等人提出基于Resnet 和零相位分量分析的图像融合方法,首先用Resnet50 将源图像的特征提取出来,然后将提取到的样式特征和内容特征用零相位分析投影到同一空间,再通过零相位的反向操作得到最终的转换特征,最后通过解码网络获得融合图像,该方法在主客观评价上均具有较好融合性能。

基于深度学习的图像融合框架包括编码网络、融合层以及解码网络3 部分。在编码网络采用卷积神经网络提取源图像的特征;在融合层将提取到的特征图进行融合,获得融合的特征图;在解码网络将融合的特征图恢复为源图像大小。此框架有利于源图像特征的提取以及融合图像的生成,基于此框架,本文提出一种基于多尺度特征的图像融合框架(feature pyramid network fuse,FPNFuse),更好地提取源图像的特征以及融合多尺度特征。同时采用两阶段注意力模型的融合策略,突出融合图像的目标。

1 算法思想

本文通过编码网络提取红外与可见光源图像不同尺度的特征图,将两阶段注意力模型加入融合层,融合提取的特征图。在解码网络将融合层输出的多尺度特征图进一步融合,解码融合的特征图,得到最终的融合图像。

1.1 多尺度特征融合框架FPNFuse

采用深度学习框架进行图像融合,传统的方法是直接使用训练好的VGG[7]或者Resnet[8]深度卷积网络进行特征提取。这些网络的卷积层数多,且随着卷积层数的增加,特征图的空间分辨率减少,尺寸减小,高级语义特征被提取出来。但是只使用最后一层的深度特征进行图像融合,可能使小目标完全丢失,不利于图像中小目标的融合。因此借鉴特征金字塔结构[9],提出多尺度特征图像融合框架FPNFuse,进行图像特征的提取与多尺度特征的融合。

在编码网络通过不同倍数的下采样获得不同尺寸的特征图,在解码网络将不同尺寸的特征图融合在一起。尺寸大的特征图分辨率高,能够保留小目标的特征,尺寸小的特征图有较高语义信息,能够提取深度的特征信息,将多尺度特征图融合起来就能兼具这两种优点。

多尺度融合框架FPNFuse 如图1 所示,在编码网络,将红外与可见光图像分别进行2 倍下采样、4 倍下采样、8 倍下采样以及16 倍下采样,提取到5 种不同尺度的特征图。将每个尺度的红外与可见光特征图输入融合层进行融合,得到不同尺寸的融合特征图,使得源图像不同尺度的特征信息能够被提取出来。在解码层,将不同尺度的融合特征图进行相应倍数的上采样,然后与该尺度的融合特征图进行连接,使多尺度的融合特征图进一步被融合。最后,解码得到与源图像尺寸相同的融合图像。图中C1 表示步长为1 卷积核为3×3 的卷积操作,ECB10-ECB50 表示4 个下采样层组成的编码网络,FS 代表融合策略,DCB41-DCB11 表示4 个上采样层组成的解码网络。

图1 多尺度融合框架FPNFuseFig.1 Multi-scale image fusion framework FPNFuse

1.2 基于两阶段注意力模型的融合层

人眼在观察物体时容易被目标区域所吸引,这种现象被称为注意力机制。通过此原理得到的注意力模型通常作为一个单独的模块被加入卷积神经网络结构[10]用于目标检测,其使用可以提高目标检测的准确度。深度神经网络提取的特征图众多,为了更好地利用这些深度特征图,使目标在融合图像中更突出,并且融合图像更适合于人类视觉。因此,将注意力模型引入融合层[11]。目前融合层的融合策略主要是加权平均以及基于L1 范数,这两种策略几乎没有对将要融合的特征图进行筛选,融合图像容易引入噪声造成伪影,在融合层引入注意力模型能够尽量少地引入噪声。现今融合层添加的主要是空间注意力模型,但是卷积神经网络提取的特征是三维张量,对于特征图的通道信息也应该进行筛选。所以,将通道注意力模型和空间注意力模型结合起来共同对深度特征进行融合。

红外与可见光图像经过编码网络分别得到5 种尺度的特征图,将两类图像相同尺度的特征图同时输入融合层,得到融合两种图像特征的空间增强特征图与通道增强特征图,最后将两种增强特征图进行加权平均获得最终的融合特征图。这个过程见下式(1):

式中:m表示提取的深度特征级数,文中m=5;表示每个尺度融合层输出的特征图;γ=0.5 表示进行相加的空间注意力与通道注意力的特征权重相等;表示空间注意力模型得到的红外与可见光融合特征图;表示通道注意力模型得到的红外与可见光融合特征图。

1.2.1 空间注意力模型

将源图像的特征图输入到融合层,利用L1-norm计算特征图对应通道数维度向量的各元素之和,再根据软最大算子(soft-max)计算该尺度下深层特征的权重映射,将该权重与未经处理的特征向量相乘得到增强特征,最后红外和可见光图像的增强特征图相加得到空间融合特征图。其过程见下式(2):

式中:k=2,表示进行融合的红外与可见光图像;φKm(x,y)表示通道数维度的特征向量;(x,y)表示其对应的位置;表示对特征向量进行L1 正则化运算;表示利用空间注意力模型在同一尺度下融合两类图像得到的增强特征图。

1.2.2 通道注意力模型通道注意力模型的计算方式是使用全局池化计算初始加权向量,然后利用软最大算子(soft-max)计算初始加权向量的三维加权向量,最后将三维加权向量与各通道提取到的深度特征向量相乘得到增强特征,将红外和可见光图像的增强特征图相加得到通道融合特征图。其过程见下式(3):

式中:P()表示全局池化运算;K=2,表示进行融合的红外与可见光图像;n表示深度特征φKm(n)的通道索引。

2 实验结果分析

2.1 图像质量评价指标

融合图像的质量评价分为主观和客观两种方式,目前,图像融合的客观评价标准分为基于熵、互信息、边缘信息保持度、自然场景分析等[12]。本文选择熵(entropy,EN)、互信息(mutual information,MI)、标准差(standard deviation,SD)、小波特征互信息(feature mutual information based on wavelet,FMI_w、边缘保持度(Qab/f)和视觉信息保真度(visual information fidelity,VIF)等作为融合图像质量评价度量。En 越大,表示融合图像包含的信息越多。MI 越大,表示融合图像的信息越真实。SD 和FMI_w 越大,表示融合图像的有效信息越多。Qab/f越大,表示融合到结果图像的边缘信息越多。VIF 越大,表示越符合人眼视觉。除此之外,增加融合图像的平均用时(average time,AT)作为融合速率评价指标,平均用时越短表示融合效率越高。

2.2 实验设置

首先训练FPNFuse 图像融合框架,实验中学习率设置为lr=1×10-4,批处理大小batch_size=4,epoch=2,使用256×256 的红外与可见光图像进行测试。模型的损失为像素损失与结构相似性损失的加权和,结构相似性损失由结构相似性的值乘以权值λ。经过试验对比λ分别为1,10,100,1000,当λ=100时,模型的损失函数收敛的最快,于是在后续试验均基于λ等于100。将此模型与已有的经典图像融合模型作对比,验证所提图像融合算法和两阶段注意力模型的效果。

FPNFuse 框架的编码器网络与解码器网络每层的卷积核、步长、输入输出通道数如表1 所示,除池化层以外,编解码网络的激活函数均使用ReLu,步长均为1。解码网络的最后一个卷积层将融合特征图恢复为一张图像,因此将卷积核设置为1×1,最终的输出通道数为1。

表1 编码网络和解码网络的设置Table 1 The setting of encoder and decoder networks

由于配准好的红外与可见光图像数据集很少,同时训练阶段主要训练模型提取特征的能力,图像类型对模型提取图像特征的能力影响较小。所以使用Microsoft COCO 数据集[13]作为训练样本,从中选择80000 张图片作为训练集,直到损失函数达到收敛结束训练。每50 次记录一下损失值,选择前400 次迭代画出损失曲线如图2 所示,从图中可以看出在50次迭代后图像融合模型开始收敛。

图2 模型训练损失曲线图:(左)结构相似性损失(右)像素损失Fig.2 The loss curve during model training: (Left) SSIM loss;(Right): Pixel loss

2.3 注意力模型对融合性能的影响

为了验证注意力模型对图像融合的影响,使用TNO[14]红外与可见光图像数据集,随机选取23 组配准的红外与可见光图片作为测试集。使用FPNFuse 和DenseFuse[15]图像融合框架进行实验,改变模型的融合策略,融合策略包括加权平均(add),以及添加了两阶段注意力模型的融合策略,其中通道注意力模型的全局池化函数选择平均池化(avg)。

每个评价度量的平均值如表2 所示,在FPNFuse和DenseFuse 模型中添加注意力模块的图像融合模型在熵、标准差、互信息量、边缘保持度、小波特征互信息量以及视觉保真度等指标均优于直接加权平均策略。

表2 不同融合策略下融合图像质量评价均值Table 2 The mean value of image quality evalution under different fusion strategies

2.4 不同图像融合框架对比实验结果

将 FPNFuse 与 DeepFuse[16]、WLS[17]、Dense Fuse[15]等图像融合框架进行对比实验。DenseFuse 图像融合框架的融合层选择加权平均(DenseFuse_add),以及添加两阶段注意力模型的融合策略,其中通道注意力模型的全局池化函数选择平均池化(avg)。FPNFuse 图像融合框架的融合层添加两阶段注意力模型,其中通道注意力模型的全局池化函数选择平均池化(avg)、最大池化(max)和核函数(nuclear)。使用23 组测试图像在7 个质量评价标准上进行对比,每个评价度量的平均值如表3 所示,这7 个指标的最佳值均在FPNFuse_avg 和FPNFuse_nu-clear 中产生,最佳值在表中加粗。客观评价指标表明所提出的FPNFuse 框架能够使融合图像保留更多源图像的边缘信息,且融合效率更高,更适合人类的视觉系统。

表3 不同算法融合图像质量度量均值Table 3 The mean value of image quality evalution under different fusion algorithms

选择一张有代表性的融合图像“房子”作为示例,FPNFuse 与各图像融合框架所获得的融合图像如图3所示。对于天空中的云朵,DeepFuse、WLS 和使用加权平均的FPNFuse 算法得到的融合图像均产生了很多伪影,其效果如图3 的红色矩形框所示。WLS、DeepFuse、DenseFuse(add)以及FPNFuse(add)的融合图像的云朵部分均产生了伪影。只有添加两阶段注意力模型的FPNFuse(avg)算法得到的融合图像的亮度与源可见光图像最相似,且云朵的形状未产生伪影与源图像最接近。房子前的人,只有添加了注意力模型的算法在融合时以红外图像为主,在光线不足的条件下融合图像更能够突出目标的轮廓。这些表现与客观评价结果一致,因此,本文提出的算法在主客观评价上均优于对比算法。

图3 “房子”图像不同算法融合结果Fig.3 The fusion results of the same image of different fusion algorithms

多尺度特征融合结合注意力模型同样适用于近红外与热红外图像等异源图像的融合,融合结果如图4,该融合图像融合了两种图像的特征,保留很多细节部分且无伪影。

图4 近红外与热红外的融合图像Fig.4 The fusion image of near and thermal infrared images

3 结论

本文提出了一种基于多尺度和注意力模型的图像融合算法,通过对源图像多尺度特征的提取与融合,使得融合图像能够保留源图像的特征且不会产生伪影。在融合层加入了两阶段注意力模型,突出融合图像的轮廓。在公开数据集TNO 上进行实验,从主观上可以看出,融合图像的亮度合理,细节纹理清晰,满足预期效果。客观评价指标表明,多数指标接近或优于对比算法,尤其是标准差、边缘保持度、视觉信息保真度和平均用时等指标较对比算法具有较大提升。实验结果表明基于对尺度和注意力模型能够有效融合可见光与红外图像。

猜你喜欢

尺度红外注意力
网红外卖
让注意力“飞”回来
闪亮的中国红外『芯』
财产的五大尺度和五重应对
TS系列红外传感器在嵌入式控制系统中的应用
“扬眼”APP:让注意力“变现”
基于快速递推模糊2-划分熵图割的红外图像分割
A Beautiful Way Of Looking At Things
宇宙的尺度
9