APP下载

弹载融合图像深度卷积网络视觉解释

2022-12-16钱立志杨传栋

弹箭与制导学报 2022年5期
关键词:梯度偏差可视化

薛 松,钱立志,杨传栋

(1 陆军炮兵防空兵学院兵器工程系,合肥 230031; 2 陆军炮兵防空兵学院高过载弹药制导控制与信息感知实验室,合肥 230031; 3 陆军炮兵防空兵学院研究生队,合肥 230031)

0 引言

在过去十几年中,卷积神经网络(convolutional neural networks,CNN)等网络模型在计算机视觉领域得到了成功应用,解决了一系列复杂的问题并实现了显著的突破,具体表现在图像分类[1-3]、目标检测[4-5]、语义分割[6]等方面。虽然这些网络模型展现出了卓越的性能,但是由于缺乏可分解性,研究者们无法明确而直观地理解和解释其中的组成和功能[7]。因此又将这些深度网络称为 “黑盒”。

针对CNN难以理解的问题,研究者们开展了大量的工作,Zeiler和Fergus[8]开创了理解CNN学习内容的先河,但是该方法计算量大,过程复杂。此后,类激活映射(class activation mapping,CAM)系列方法崭露头角。 Zhou等[9]提出了CAM方法。CAM计算的结果为最后一个卷积层激活映射经过全局平均池化(global average pooling,GAP)层,并对倒数第二层的结果特征图进行加权组合。

随后Selvaraju等[7]提出了梯度加权类激活映射(gradient-weighted class activation mapping,Grad-CAM)的方法。Grad-CAM扩展了CAM中权重函数的描述。该方法将像素空间梯度可视化同CAM方法相结合,突出图像的细粒度细节,使得基于CNN的模型更加透明。但是该方法显著图对目标的捕获效果不够充分。

Chattopadhay等[10]为解决这一问题提出了一种更为通用的用于解释CNN决策的可视化技术,称为Grad-CAM++。该方法再次更改了权重函数的计算方法。此后研究者们深入研究,提出了多种CAM系列的改进方法,如Ablation-CAM[11]、XGrad-CAM[12]等。

这些方法在自然场景类图像上有着较为良好的效果,基本能够通过显著图对图像上目标区域进行较为准确的定位,但是对于图1(a)所示可见光-红外弹载融合图像的视觉解释效果较差。一方面就弹载图像本身而言,其导引头在获取图像过程中易受外部条件干扰,成像环境复杂,降质因素偶发性强[13]。另一方面对于其融合图像,是一种既有可见光图像的高分辨率细节信息,又能突出红外目标特征的信息互补图像[14],其在视觉感知上要差于传统自然场景图像。因此对于视觉解释,显著图往往存在噪声干扰和定位偏差。从图1可以看出Grad-CAM,Ablation-CAM,XGrad-CAM目标显著性表现不够良好,目标和背景的定位区分出现错误;Grad-CAM++虽然能较为准确区分目标和背景,但是目标的定位出现一定的偏差,有较多噪声存在。

图1 弹载融合图像视觉可视化显著图

因此为解决可见光-红外弹载融合图像的视觉解释效果较差的问题,实现该类图像目标的精确定位,参考经典理论及算法框架,提出了一种新的针对可见光-红外弹载融合图像的视觉解释方法。方法重新定义了神经网络的梯度表示方法,引入置信度提升实现神经网络重组梯度映射,最终通过权重参数和重组梯度映射的线性组合得到类激活映射。

1 算法模型

1.1 网络梯度表示

文献[7,9-10]通过使用最后一个卷积层的梯度信息来表示每个通道的激活映射。重新定义每个通道中的梯度信息。

定义具有偏差b∈RF的ReLU神经网络:f:RD→R,R表示网络单元,D表示维度。对于网络输入x∈RD,可得神经网络函数:

(1)

式中:b∈RF为网络中含有F个偏差b。研究表明该偏差由显式偏差和隐式偏差组成,且隐式偏差通常比显式偏差占比大得多[15]。因此对于x附近的第i个邻域内的隐式偏差进行线性化处理,可得:

(2)

1.2 基于梯度的置信度提升

(3)

(4)

1.3 网络激活映射

(5)

因此对于式(2)所表示的完整梯度,整个神经网络对于类c的激活映射计算为:

(6)

式中:U[B(·)]表示对输入梯度映射进行双线性差值后上采样,使其与偏差梯度映射具有相同大小的尺寸空间。

2 实验验证

为了表明算法的有效性,开展多种不同的实验进行算法验证。方法包括主观可视化评估、客观指标评价、目标定位。模型使用ResNet-50。

由于真实场景的可见光-红外弹载图像难以获取,因此参考弹载图像成像特点,采用公开的航拍图像数据库以及无人机弹载吊舱伪装目标实拍图组成的弹载图像数据集开展实验。选择6组不同场景的融合图像进行实验验证,实验图像如图2所示,场景包含河道、道路、车场、机场、战场1、战场2。其中图2(a)~图2(d)为VEDAI数据集融合图像,图2(e)~图2(f)为弹载吊舱实拍融合图像。参考文献[16]的方法将输入图像大小调整为224像素×224像素,并将其变换至范围[0,1],然后使用均值向量[0.485,0.456,0.406]和标准差向量[0.229,0.224,0.225]进行归一化。

图2 实验图像

2.1 主观可视化评估

将文中方法与对比方法在图2所示的实验图像上进行可视化对比测试,对比方法包括:Grad-CAM[7],Grad-CAM++[10],Score-CAM[16],XGrad-CAM[12],Ablation-CAM[11]。测试结果如图3所示。

图3 弹载融合图像可视化显著图结果

从图3可以看出,针对图2中的6幅不同场景的融合图像,文中方法和对比方法融合图像的显著图都能够针对融合图像的目标进行定位,但相较于对比方法,文中方法在视觉上表现出了明显的优越性。对于图2中VEDAI数据集融合图像,大部分对比方法的显著图对图2(a) 场景中的船只无法捕获,Score-CAM显著图虽然准确地标记了船只,但由于周围场景的干扰,存在错误标记现象,而文中方法显著图不仅能够准确地标记船只,同时对错误标记能够进行抑制。图2(b)和图2(d)场景中的道路车辆和机场的飞机,文中方法的显著图均能够准确标记,而对比方法则存在漏标、误标,如图3中(b),(c),(e),(f)列Grad-CAM,Grad-CAM++,XGrad-CAM和Ablation-CAM方法所示,甚至出现无法标记的情况,如图3(d)列Score-CAM方法所示。对于图2中(e),(f),由于其为伪装目标实拍图,图像中目标与周围场景存在一定的相似性,因此采用对比算法获得的可视化显著图存在目标漏标、误标、无法标记现象。而文中方法可视化显著图则能够准确地标记目标区域,且周围场景干扰现象较少,展现出了明显的优越性。

2.2 客观指标评价

选择两类不同的指标开展客观评价,分别为平均下降(average drop,AD)和平均提升(average increase,AI)。这两类指标是一组互补指标,AD计算的是当只有解释映射作为输入时,图像中特定类别的模型置信度的平均下降百分比,该值越小越好,表明分数下降程度低;AI计算的是当提供解释映射区域作为输入时,模型置信度增加时的百分比,其值越大越好,表明分数上升程度高。计算公式为:

(7)

表1为对弹载图像数据集的融合图像进行两类指标的计算结果。从表1可以看出文中方法的指标AD达到了37.6%,在指标AI上达到了31.7%,这两类指标数值均优于对比算法指标测试结果。指标数值结果表明文中方法构建的模型在识别任务上具有良好的表现,且能够成功地捕获目标对象的可分辨区域。表1的客观指标评价结果与图3所示的主观可视化结果相一致,表明了文中方法能更为准确真实地反映卷积神经网络模型的决策过程。

表1 客观指标评价对比测试结果

为了更为准确全面地比较,对图3中各方法获得的显著图开展了删除和插入测试[17]。删除指的是显著图中越来越多的与类别相关的像素删除将导致分类分数显著下降,预测概率降低;而插入指的是从模糊的图像开始,逐渐重新引入像素,使得预测概率升高。具体来说,对于删除测试,根据显著性图的值,每次逐渐用高度模糊的版本替换原始图像中的3.6%像素,直到没有剩余像素。与删除测试相反,插入测试将模糊图像的3.6%像素替换为原始像素,直到图像完全恢复。将计算ROC曲线下的面积(area under ROC curve,AUC)作为定量指标。较高的插入AUC和较低的删除AUC表明模型具有较好的解释能力。对比测试结果如图4所示。

图4 插入和删除测试对比曲线

从图4可以看出文中方法在删除和插入测试上大都达到了最优,表明其对于弹载融合图像具有较好的视觉解释能力。同时该方法在删除和插入测试上的数值表现都不够良好,说明其对融合类图像的解释能力还有待提高。

2.3 目标定位评价

通过目标定位评价可以衡量显著图的质量。通常从显著图中提取最大点观察该点是否落在目标边界框内[18]。文中只提取最大点扩展到整幅显著图,判断该显著图有多少能落入目标边界框内。具体来说,首先将图像与目标类别边界框进行二值化处理,其中内部区域赋值为1,外部区域赋值为0,而后将其与生成的显著性贴图逐点相乘,求和得到目标边界框中的能量,计算公式为:

(8)

式中:bbox表示目标边界框;(i,j)为像素点坐标;n(i,j)∈bbox表示显著区域落入目标边界框以内的像素点数量;n(i,j)∉bbox表示显著区域落入目标边界框以外的像素点数量。SLoc值越大表示显著图的定位性能越好。测试结果如表2所示。

表2 目标定位评价对比测试结果

3 结论

针对传统方法对弹载融合图像视觉解释效果较差、定位不准的问题,提出了一种神经网络视觉解释方法。方法重新定义了神经网络梯度表示方法,对每个激活映射引入了置信度提升,结合权重参数对网络梯度进行重组获得最终的类激活映射。实验结果表明文中方法在主观可视化、客观指标以及目标定位上均优于经典的视觉解释方法,可满足对弹载融合图像的深度网络视觉解释。后续将重点在完善算法框架和优化权重表示上加以研究,不断提高方法对融合类图像的解释能力。

猜你喜欢

梯度偏差可视化
基于CiteSpace的足三里穴研究可视化分析
一个带重启步的改进PRP型谱共轭梯度法
思维可视化
一个改进的WYL型三项共轭梯度法
如何走出文章立意偏差的误区
两矩形上的全偏差
一种自适应Dai-Liao共轭梯度法
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
一个具梯度项的p-Laplace 方程弱解的存在性