基于拆分注意力残差网络的红外和可见光图像融合算法

2023-01-11钱坤李湉雨李喆陈美杉

西北工业大学学报 2022年6期

钱坤,李湉雨,李喆,陈美杉

(1.海军航空大学岸防兵学院,山东烟台 264000;2.中国人民解放军32127部队,辽宁大连 116100)

近年来,红外与可见光融合技术一直是研究的热点领域。红外成像是对景物的热辐射成像,适宜在低光照、强闪光和浓雾烟幕等极端条件下使用,缺点是容易丢失图像细节信息,成像不符合人眼视觉偏好等。可见光成像是对物体的反射成像,特点是具有丰富的色彩信息和大量的纹理细节,符合人类视觉习惯,但成像质量受制于光照和大气条件。将红外与可见光进行融合可以充分发挥二者优势,弥补单波段成像弊端,特别是在军事领域,融合图像对于分辨假目标(诱饵),提升全天候作战能力和提高精确打击能力等有着重要意义。

在传统的红外与可见光融合算法中,比较有代表性的有：①基于多尺度变换(multi-scale transformation,MST)理论的算法,包括基于交叉双边滤波器算法(cross bilateral filter,CBF)[1]、各向异性融合算法(anisotropic diffusion fussion,ADF)[2]等;②基于梯度信息理论的算法,如梯度转移融合算法(gradient transfer fusion,GTF)[3]、基于梯度结构相似性的多模态图像融合(GSF)[4]等;③基于显著性理论的算法,如潜在低秩表示算法(latent low-rank representation,LatLRR)[5]等;④基于稀疏表示的算法,如文献[6-7]所示等;⑤上述算法的组合算法,如多尺度分解算法(multi-scale decomposition,MSD)[8]等。

近年来,随着深度学习算法的不断发展,相关成果也应用在了红外和可见光图像融合领域,取得了较好的效果。比较有代表性的有Prabhakar等[9]提出的基于卷积神经网络(convolutional neural network,CNN)的融合方法(deepfuse),其最终的融合图像由一个3层的CNN解码重建而来,能够适应多种融合任务,但网络结构比较简单,难以充分保留源图像中的信息,融合质量一般。Zhang等[10]提出了基于卷积神经网络的通用图像融合框架(IFCNN),利用2个卷积层从多个输入图像中提取显著的图像特征,根据输入图像的类型选择适当规则进行卷积特征融合,最后使用2个卷积层重构融合特征,并生成融合图像,其优势在于多任务通用,但对于特定任务融合效果并非最优。Li等[11]提出了深度学习框架算法(deep learning framework,DLF),利用牛津大学计算机视觉组(visual geometry group,VGG)提出的VGG网络进行图像融合,其中的VGG-19网络在深度上胜过CNN,但融合方法相对简单,对于图像的深度信息挖掘不够,而且随着网络的加深,存在网络退化的现象。随后Li等[12]又提出了一种基于残差网络(residual network,ResNet)的红外和可见光图像融合框架,旨在改善深度网络性能,提高对图像细节信息的利用能力。文献[13]提出了一种将多尺度局部极值分解与ResNet152残差网络相结合的融合方法,使用多尺度局部极值分解将源图像分解为近似图像和细节图像,采用ResNet152网络提取显著性特征,设计了基于显著特征图和能量显著图加权的融合规则,取得较好效果,但算法复杂,时间开销较大。

针对深层网络退化与红外和可见光图像融合算法中的图像信息保留不完整等问题,进一步挖掘残差网络性能潜力和拓展应用范围,本文提出了一种基于拆分注意力残差网络(split-attention residual network,ResNeSt)[14]的红外和可见光图像融合算法,这是一种端到端的网络模型,输入红外和可见光图像,在特征提取、权重计算和图像重建等过程后,直接输出融合后的图像。

1 基于ResNeSt的红外和可见光图像图像融合算法

1.1 ResNeSt网络框架

基于ResNeSt的红外和可见光图像融合算法框架如图1所示。将红外图像和可见光图像分别送入训练过的ResNeSt-50网络进行特征提取,得到各自的特征图;对特征图使用零相位分量分析(zero-phase component analysis,ZAC)方法进行数据白化,使其投影在同一子空间;利用L1范数获得初始权重图,然后使用双三次插值算法进行上采样并使用softmax函数进行权重归一化,得到和原图像大小一致的权重矩阵；运用加权平均策略,对原始红外和可见光图像进行加权平均,得到最终的融合图像。

图1 算法框架

1.2 拆分注意力残差网络

在深度学习中,神经网络的深度和宽度对于性能的影响非常明显,但网络的层级不能通过简单的堆叠进行加深,原因是随着网络的加深会发生网络退化的现象,为此He等[15]提出了ResNet,通过加入跳跃连接,保证网络加深的最坏结果也不会比原网络性能更差,这个过程不显著增加计算负担,且网络依然可以通过反向传播进行训练学习,ResNet模块结构见图2。通过对残差模块的反复堆叠,可以产生深层的、无退化现象的残差网络,以便从输入数据中提取更为丰富的特征。ResNet解决了网络退化问题,但通过进一步研究发现,其性能依旧有提升的空间,ResNet主要存在的不足为:①感受野相对有限；②缺乏跨通道的信息融合,即缺少上下文之间的交流[16-17]。

图2 残差模块

为此,本文使用ResNeSt对输入的源图像进行特征提取,具体结构见图3。ResNeSt将特征图划分为K个基群(cardinal),基群内分为更细粒度R个切片(split),并在基群内加入拆分注意力模块(split-attention block),结构见图4。每个基群的特征通过上下文信息确定的权重进行组合。ResNeSt在分支网络中使用了不同尺寸的卷积核,可提供不同尺度的感受野,拆分注意力模块中的全局池化层能够进一步扩展感受野,Dense模块中的全连接层增加了计算的非线性,也能更好地拟合跨通道的相关性。

图3 拆分注意力残差模块

图4 拆分注意力模块

(1)

式中：k表示第k个基群,j表示第j个切片。

之后,通过跨空间维度的全局平均池化,获得每个通道上的统计信息,作为全局上下文信息,记作sk,sk∈RC/K,第c个通道上的信息可以表示为公式(2)。

(2)

(3)

(4)

最后将所有基群输出的特征进行拼接,得到最后的特征V,V=Concat{V1,V2,…,VK},与ResNet中含有一个恒等映射相同,在ResNeSt的最终输出里还包含了直接输入x,所以最终输出可以表示为Y=V+x。

本文所用的拆分注意力残差网络ResNeSt-50在结构上与ResNet-50保持一致,共有50层卷积,分为16组残差结构,见图5。用拆分注意力残差模块替换原有残差模块,得到ResNeSt-50网络,网络通过ImageNet 2012数据集[18]进行预训练。

图5 ResNet-50网络结构

1.3 平滑最大值单元函数

激活函数在神经网络有效性和训练过程中起到非常重要的作用,优化激活函数可以显著提升网络的综合性能。在ResNet-50网络的残差模块中,前向神经网络与跳跃连接叠加后使用线性整流函数(rectified linear unit,ReLU)作为激活函数,ReLU函数见公式(5)。ReLU函数优势在于简单易用,计算效率高,网络收敛快,但弊端在于当输入趋近于零或者为负时,函数梯度为零,网络无法反向传播,不能继续“学习”。

fReLU(x)=max(0,x)

(5)

在优化ReLU函数过程中,提出了多种激活函数,如带泄露线性整流函数(leaky ReLU)[19]、指数线性单元函数(exponential linear unit,ELU)[20]等,文献[21]提出了一种平滑最大值单元函数(smooth maximum unit,SMU),能够有效避免ReLU函数的缺陷,在分类、目标检测和语义分割等应用领域被验证效果优于ReLU。SMU函数见公式(6)。

fSMU(x,αx;μ)=

(6)

其中,erf(x)为高斯误差函数,见公式(7)

(7)

式中，α,μ为超参,本文中选取α=0.25,μ=0.5。

1.4 零相位分量分析和归一化

经过ResNeSt网络模型输出的是多维特征向量,运用ZCA方法可以将高维特征向量通过向量矩阵转换后进行去相关性操作[22],同时,保留主要信息,忽略掉偏差大的信息。假设在ResNeSt网络模型提取的是m条n维的向量数据,将数据组成n行m列的矩阵Y,ZCA白化计算过程如下:

①计算矩阵Y的协方差矩阵Σ,如公式(8)

(8)

②对Σ进行奇异值分解,得到向量U,计算得到UTy,即为数据经过坐标轴旋转之后得到的矩阵Z,如公式(9)

(9)

③对Z进行PCA白化,得到ZPCA,i

(10)

式中，λi是Z协方差矩阵对角元素的值。

④将ZPCA,i左乘U,得到经过白化后的特征图ZPCA。

将红外和可见光图像的特征图ZPCA通过一个大小为1×1的卷积核,得到初始权重ωI(红外图像)和ωV(可见光图像),这样一方面可以实现数据降维,减少参数量,实现对不同尺度特征进行尺寸的归一化,另一方面也能起到跨通道特征融合的作用。

1.5 图像融合

(11)

归一化的特征图通过双三次插值算法缩放到与输入图像一致大小,并按照各自权重通过加权平均算法得到最终的融合图像,如公式(12)所示。

(12)

2 实验结果与分析

2.1 数据集及实验环境

在图像融合研究中,需要使用经过配准后的红外和可见光图像作为输入数据,但公开并配准的双光数据集选择非常有限,本文采用TNO[23]中的40对红外和可见光图像作为主观视觉实验的输入数据,同时,为检验算法对于红外和彩色可见光图像的融合能力,还选取了部分红外和彩色可见光图像对进行融合实验。在多指标客观评价中,选取文献[24]的红外和可见光图像融合基准(visible and infrared image fusion benchmark,VIFB)中的21对图像进行测试,其中TNO数据集示例见图6,VIFB测试集示例见图7。

图6 TNO数据集示例图7 VIFB测试集示例

算法所用的ResNeSt-50网络已在ImageNet 2012数据集上进行了训练,但为进一步优化网络性能,使其在图像融合计算中更具针对性,还对ResNeSt-50进行了迁移学习,训练数据选自TNO数据集,按照3∶1的比例划分训练集和测试集,由于训练数据数量较少,需要对训练集数据进行数据增广处理[25],训练集中图像尺寸有280×280,360×270,595×328等多种,为避免裁剪过小导致训练出的模型对于大尺寸物体识别能力不足,统一按照180×180大小,步长20进行裁剪,经人工筛选后最终得到图像1 120对。迁移学习中使用Pytorch深度学习框架,使用Adam优化器,学习速率为2×10-4,每批训练图像为8幅,训练100轮。实验环境见表1。

表1 实验环境

2.2 主观视觉评价

将训练后的网络在TNO数据集的测试图像上进行实验,选取其中的6幅图像进行主观视觉对比,对比对象分别是GSF算法[4]、IFCNN算法[10]、LatLRR算法[5]、VGG算法[22]、DLF算法[11]和ResNet算法[12]。输入图像和各算法融合后图像见图8。

图8 红外与可见光图像融合主观评价对比

如图8c)所示，GSF算法在第4列中的交通标志边缘处融合失真,出现高亮光晕,标志牌中央的横杠几乎不可见,第5列中对于红外图像信息利用不佳,烟幕中的射手未能有效融合;第6列中对于色彩的还原不准确,整体偏灰白。如图8d)所示，IFCNN算法在整体对比度上相对偏低,导致纹理细节还原质量一般,在第1列灌木丛和第3列地形起伏处尤其明显,第5列色彩还原不够准确,明显偏灰。如图8e)所示，LatLRR算法处理后的图像整体过曝,第3列上表现尤其突出,第5列中烟幕遮挡下的射手未能有效融合显示,丢失了红外图像的热信息;在第6列上伪影明显,观感不自然。如图8f)所示，VGG算法在第5列中,对于烟幕的融合效果不佳,画面大面积过曝。如图8g)～8h)所示，DLF算法和ResNet算法整体效果较好,图像细节保留比较完整,从第4～5列中的树木效果看,ResNet算法优于DLF算法,其纹理更清晰,在彩色图像融合上2幅图像均有不同程度失真,DLF算法偏灰,ResNet算法颜色较深。在图8i)所示，本文算法在图像细节的提取和保留上表现最好,纹理边缘清晰锐利,在第3列中地形起伏处表现最为明显;在对烟幕的处理上,既保留了烟幕的轮廓,也清晰显示了被烟幕遮挡的人;同时,本文算法对于色彩的还原最为准确,相较其他算法表现优异。

2.3 多指标客观评价

客观评价需要计算相关指标,旨在定量模拟人眼视觉对图像质量的感知。相关指标种类繁多,本文选取比较有代表性的4种:①基于信息理论的峰值信噪比(peak signal-to-nosie ration,PSNR)[26],其值越大说明融合图片和原始图片之间差别就越小,细节保留越完整;②基于结构相似性理论的结构相似性指数度量(structural similarity index measure,SSIM)[27],SSIM数值在[0,1]之间,数值越大代表和原来2幅图像越接近;③基于图像特征的空间频率(spatial frequency,SF)[28],空间频率数值越大越好,越大图像质量越高,观感更清晰;④基于梯度的融合性能(gradient-based fusion performance,QAB/F)[29],QAB/F值越大图像质量越高,保留的原始图像的信息也就越多。

在4种常用指标中,只有SF的计算不依赖原始输入图像,即只需计算融合图像的SF后进行比较即可,其他3种指标都需要分别计算融合图像与原始输入的红外图像和可见光图像的指标数值,再将2个数值以适当方式求和得到最终融合图像的指标数值,具体实验结果如图9所示。

图9 7种算法的4项客观指标对比

实验结果表明,在PSNR、SSIM和QAB/F3项评价指标中,本文提出的基于ResNeSt的融合算法表现最优,对比其他6种算法分别至少提高了1.78%,2.00%和3.10%,在SF指标中排名第二,仅落后LatLRR算法2.73%,但对比传统ResNet算法,也有6.52%的提升。同时,为衡量各算法的执行效率,还将融合图像时间开销进行了比较,本文算法继承了传统ResNet算法执行效率高的优势,在算法复杂度提高的情况下,平均每对图像的融合时间相对ResNet算法小幅增加了4.5%,全部21组融合图像客观评价结果平均值如表2所示。

表2 21组融合图像5项客观评价结果平均定量值

2.4 消融实验

为验证算法的合理性,设计了3组消融实验,实验1是使用ResNeSt网络进行特征提取,内部使用ReLU函数作为激活函数;实验2使用传统的ResNet网络进行特征提取,在其内部使用SMU函数作为激活函数;实验3使用ResNeSt网络进行特征提取,并在内部使用SMU函数作为激活函数,即本文完整算法。消融实验也分为主观视觉评价和多指标客观评价两部分,选取了测试集中最具代表性的一组图像及其融合后图像进行具体说明,消融实验图像融合结果见图10。

图10a)为输入的红外图像,图10b)为输入的可见光图像,图10c)为实验1所得融合图像,图像保留了烟幕中的战士,能够呈现树干的纹理细节;图10d)为实验2所得融合图像,也较好地完成了融合任务,细节同样比较丰富,战士的轮廓边缘也更锐利;图10e)为实验3所得融合图像,效果最为理想,树干的纹理清晰,树丛细节保留更加丰富完整。表3为消融实验4项客观评价指标对比,4项指标中实验3均优于实验1和实验2,表明算法的多处改进均能对最终结果产生正向优化。

图10 消融实验示例

表3 消融实验4项客观评价指标对比

3 结论

本文充分利用深层网络对于图像特征提取的优势,提出了基于拆分注意力残差网络的红外和可见光图像融合算法,算法利用带有拆分注意力模块的深层残差网络分别提取红外和可见光图像多尺度特征,通过后续的权重计算和图像重建,得到融合后的图像。与经典的6种融合算法进行主客观对比,本算法融合图像细节丰富,既体现了红外图像中的热信息,又保留了可见光图像的纹理细节,在多项定量评价中表现突出。后续工作中,将继续优化网络结构及超参寻优,进一步提升融合图像质量,同时,针对配准的双光数据较少的实际,还将着手建立更为丰富的数据集,以方便开展后续研究工作。