基于注意力机制的红外小目标检测方法

2023-05-05董亚盼高陈强刘芳岑

重庆邮电大学学报(自然科学版) 2023年2期

董亚盼,高陈强,谌放,刘芳岑

(1.重庆邮电大学通信与信息工程学院,重庆 400065; 2.信号与信息处理重庆市重点实验室,重庆 400065)

0 引言

红外小目标检测在红外成像系统研究中起着重要的作用,被广泛应用于预警、远距离目标跟踪等任务。然而,当存在云杂波或者海杂波时,小目标通常被淹没在具有低信噪比的复杂背景中。此外,由于成像距离远,小目标没有具体的形状和纹理。因此,红外小目标检测一直被认为是一个困难且具有挑战性的任务。

在早期的研究中,根据红外图像背景的连续性特征,一些学者提出了背景预测的方法[1-5]。随后,结合小目标与背景的差异特性,一些基于局部对比度测量的检测方法[6-7]被提出。此外,根据红外背景图像非局部相关性方法[8-10],文献[8]把红外小目标检测看作稀疏矩阵和低秩矩阵分解的问题,提出了IPI(infrared patch-images)模型。上述传统方法对符合一定先验知识的小目标具有不错的检测效果,但存在泛化性不强的问题。

在实际应用中,红外小目标的先验知识是未知的。因此,需要能够适应多种小目标特性的检测方法。基于数据驱动的深度学习方法能够通过学习大量数据赋予神经网络模型强大的拟合能力,部分学者也尝试利用深度学习的方法进行红外小目标检测的研究[11-21],通过让网络自动学习小目标的特征分布来进行红外小目标的算法设计。实验结果表明,这些方法可以提升红外小目标检测的泛化性。

受背景杂波的影响,小目标检测结果中通常会出现大量虚警。本文设计了一个注意力机制模块,该模块能够有效地抑制背景杂波信息,增强小目标的特征信息,以此减少检测结果中的虚警。红外小目标图像背景杂波信息重复度较高,导致网络容易出现过拟合的现象。针对此问题,文献[22]提出通过数据增强的方法有效提高网络的泛化能力,同时抑制过拟合现象。考虑到红外图像通常都伴随着高斯噪声,本文利用高斯噪声作数据增强,让网络自动分配不同的权值给噪声和原图,再进行相加,从而有效地保留了小目标的输入特征,增强了网络的鲁棒性。本文提出的方法包含注意力机制模块和红外小目标检测模块,在原图与噪声通道堆叠的数据增强输入方式下,注意力机制模块能够有效地抑制背景杂波和增强小目标特征,并使用红外小目标检测模块实现检测任务。

1 本文方法

1.1 高斯噪声通道堆叠模式

传统利用噪声的数据增强方法直接在红外小目标图像I上叠加高斯噪声Z,网络第1层中的卷积核ω分配给Z和I相同的权重值ω1,噪声叠加方式如图1a所示。本文将高斯噪声Z和红外小目标图像I通过通道堆叠的方式作为输入送入网络,噪声堆叠方式如图1b所示。图1b中,网络第1层中的卷积核ω会随机分配给Z和I不同的权重值ω1和ω2。

图1 噪声的两种增强方式Fig.1 Two ways of noise enhancement

网络的输入Iin可表示为

(1)

经过第1层卷积操作后为

(2)

(2)式中:Iin_1表示经过网络第1层卷积核的输出;*表示卷积操作。采用噪声与原图通道堆叠的方式,网络会给噪声和红外图像分配不同的卷积核参数,再进行相加。

通过网络的学习与参数更新,无须人为干预输入高斯噪声的强度,便可以保证在小目标信息不丢失的情况下,自适应地调整输入噪声的强度,有效地保留了小目标的特征,从而增强网络的鲁棒性。

1.2 网络结构

本文提出的基于注意力机制的红外小目标检测方法如图2所示。

图2中,网络注意力机制模块共有8层,红外小目标检测模块共有14层,每一层均由卷积层、归一化层和激活层组成。每层卷积核的初始大小为3×3,采用空洞卷积方式,通过填充补零的操作改变该层卷积核的尺寸,并使用膨胀系数表示在3×3卷积核中间填充零的个数。本文检测方法通过空洞卷积的方式扩大感受野,保留小目标的特征信息,增强目标的上下文信息,同时保持网络每层的输入输出大小一致,使得任何尺寸的图像都可以作为测试进行输入。另外,为了保证红外小目标检测模块更加精准地提取小目标特征,本文采用跨层连接的方式,使得网络深度可以更深,并在有效避免梯度消失的同时高效复用该模块的浅层信息。

图2 本文提出的基于注意力机制的红外小目标检测方法Fig.2 Proposed infrared small target detection method based on attention mechanism

网络对背景杂波进行抑制,得到输出结果Im的表达式为

Im=G(Z,I;wG)

(3)

(3)式中:G表示注意力机制模块;Z表示高斯噪声图像;I表示红外小目标原图;wG表示G模块的网络参数。G模块抑制了红外图像中大量的杂波信息,增强了关键目标信息。

注意力机制模块的输出与原图进行通道堆叠,送入红外小目标检测模块中,得到小目标检测结果Y为

Y=H(Im,I;wH)

(4)

(4)式中:H表示红外小目标检测模块;Im表示注意力机制模块的输出结果;wH表示H模块的网络参数,该模块在注意力机制模块输出信息的指导下实现小目标的精准检测。为防止两个模块之间误差的直接影响,Im和原图I采用通道堆叠输入的方式让网络自动学习两者不同的权重值。

1.3 损失函数

本文利用均方差损失函数loss对网络进行训练,定义为

(5)

1.4 网络的训练与测试

在训练阶段,基于注意力机制的红外小目标检测方法的输入样本包含两种形式:高斯噪声与原图的通道堆叠、全零图像与原图的通道堆叠。本文方法在损失函数的引导下,通过迭代方式得到最终的检测模型。

测试阶段,由于网络输入端设计的是两通道输入方式,因此本文采用全零图像与原图通道堆叠的方法,使得测试样本只包含原图像的信息。

2 实验结果与分析

2.1 数据集

本文使用MDvsFA[14]所提供的公开数据集来评估提出方法的性能。数据集包含10 000张训练图像(图像像素大小均为128×128)和100张测试图像(图像像素大小在128×128左右)。数据集中的图像包含真实合成的红外小目标图像,这些红外小目标图像由红外背景图像集和小目标图像集组成。红外背景图像集通过互联网和红外设备采集和拍摄得到,包含海天、树木、建筑、云层等场景的高分辨率图像。小目标图像集是从真实红外小目标图像中分离出来或是使用二维高斯函数生成的目标。

2.2 评价指标

本文采用IPI[8]中的评价指标,即检测率Pd和虚警率Fa,具体定义为

(6)

(7)

(6)—(7)式中:Na是在图像序列中检测到的真实目标个数;Nb是序列中真实目标的总个数;Nf是在序列中检测到的虚假目标个数;Nl为序列中图像的帧数。Pd和Fa通过对整个检测图像序列的实验结果进行统计得出。本文采用Pd(Fa=0.2/I)表示每种方法的检测性能,即平均每幅图像的虚警率Fa为0.2时的检测概率Pd,并根据Pd和Fa≤0.2/I的比值得出AUC(area under curve)[23]指标,更好地评价每种方法在一定虚警率下的平均检测性能。

另外,在实际性能评价中,本文将从目标级和像素级两方面分别对本文方法与其他红外小目标检测方法的检测性能进行全面评价,评价指标均包含准确率Pr、召回率Re和两者的调和平均值F1,F1的具体表达式为

(8)

用目标级评级指标target-level判断检测结果,要使判断是正确的必须满足两个条件:①检测的小目标与真实小目标有像素重叠;②小目标检测结果的中心点与真实小目标的中心点的距离要在一定阈值范围内(4个像素内)。

像素级评级指标pixel-level与大多数利用神经网络进行目标检测的实验指标设置一样,均采用以像素为单位的方式。标签图像中值为255的像素表示小目标在红外图像中的位置,将检测结果图像通过与标签图像做像素对像素的比对,就可以知道检测图像中被正确分割的像素个数。

2.3 实验细节

本文模型采用Python和Pytorch实现,并使用Adam[24]算法来进行迭代优化。Adam算法能基于训练数据迭代更新神经网络权重,参数的学习率设置为10-4, 用于计算梯度的平方系数为[0.5,0.999],网络每批次输入20张图像。整个网络一共迭代30轮。在未加说明的情况下,下文实验中所有模型的训练过程均不加载任何预训练参数。

2.4 实验结果与分析

2.4.1 定量分析

表1给出了本文方法与MaxMedian[1]、MaxMean[1]、IPI[8]、MPCM[16]、ADMD[17]、GST[18]、MDvsFA[14]等方法在数据集上的实验结果。

根据表1可以看出,基于神经网络方法的指标要明显高于传统的红外小目标检测方法,说明神经网络的方法更能适应多种背景的红外小目标检测。相比于MDvsFA[14]神经网络方法,本文方法在相同虚警率(Fa=0.2/I)的情况下,检测率Pd提升了5.9%,说明本文方法在误检率相同的情况下具有更高的检测率;本文的准确率、召回率的调和平均值F1分别比MDvsFA[14]方法都有提高,说明本文网络能更加精准检测到红外小目标;本文目标级的准确率Pr更是达到95.73%,说明网络通过对训练集的学习,对同分布的测试集具有更稳定的检测;本文AUC指标有提高,说明本文方法对小目标和背景的二分类能力显著高于MDvsFA[14]方法。

表1 不同方法实验结果

2.4.2 定性分析

图3所示为本文方法与MDvsFA[14]、Max-Mean[1]、IPI[8]、ADMD[17]方法的实验结果对比。本文采用背景信息干扰性强且复杂的红外小目标图像进行实验方法对比。传统方法中,MaxMean、IPI难以检测到图像中的小目标,容易出现漏检现象;ADMD方法对于图像中的小目标有一定的检测能力,但也出现了误检问题。神经网络方法MDvsFA容易受背景重复性信息和杂波的干扰,出现虚警现象。本文方法可以在虚警少的情况下,保持较高的检测率。

图3 5种方法在不同复杂背景的检测结果Fig.3 Detection results of five methods in different complex backgrounds

2.4.3 注意力机制模块的背景抑制效果

图4所示为注意力机制模块输出可视化结果。

由图4b可以看出,本文方法能够对背景杂波进行抑制,增强小目标的特征信息;由图4c可以看出,在注意力机制模块的输出信息指导下,红外小目标检测模块的输出结果中没有出现虚警,说明了该方法能够有效减少虚警。

2.4.4 消融实验

本文验证了高斯噪声不同的叠加方式、不同噪声种类、两模块的作用和注意力机制模块的输出作用方式对实验结果的影响。表2所示为本文网络的消融实验结果。

表2 消融实验结果

表2第1—2行表明,从高斯噪声的叠加方式上看,与不加高斯噪声相比,原图直接与高斯噪声图像进行像素叠加的方式在像素级的检测准确率、召回率和两者的调和平均值(Pr、Re和F1)上均有显著提升,但是在其他指标上没有。本文利用原图与噪声通道堆叠的方式进行图像叠加所取得的实验结果优于原图与噪声直接叠加,说明通道堆叠的噪声叠加方式更有利于保留小目标特征信息,增强网络鲁棒性。

图4 注意力机制模块输出可视化Fig.4 Attentional mechanism module output visualization

表2第3—4行表明,从堆叠不同的噪声种类来看,在利用通道堆叠的噪声叠加方式下,均匀噪声和泊松噪声的实验指标整体上要低于本文方法引入的高斯噪声,说明利用高斯噪声更适合红外小目标图像的数据增强任务。

表2第5行表明,从两模块的作用来看,仅使用单个红外小目标检测模块进行红外小目标检测任务的效果显著低于采用两模块的网络设计。图5比较了仅使用红外小目标检测模型进行检测与本文使用了注意力机制模块进行检测的结果。由图5可见,采用注意力机制模块的方法能够有效地抑制背景杂波,减少虚警,提高检测率。

表2第6—7行表明,从注意力机制的输出作用方式上看,采用注意力机制的输出与原图直接相加的方式比只使用红外小目标检测模块的方式在指标Pd(Fa=0.2/I)和AUC上都有较大提高,证明注意力机制模块对红外小目标检测任务起到正向作用,但是采用注意力机制的输出与原图相乘的方式出现了负向作用。对于本文的网络,直接相加的方式能有效增强小目标信息,但是也容易直接引入多余的背景;而直接相乘的方式能有效减少背景信息,但是容易漏检小目标。因此,本文提出的注意力机制的输出与原图通道堆叠的方式能有效复用注意力机制模块的输出,抑制背景杂波的同时提升小目标的检测精度。

图5 两模块的作用Fig.5 Function of two modules

表2第8行表明,本文方法在指标Pd(Fa=0.2/I)和AUC上分别达到了88.16%、85.42%,具有较好的检测性能,说明本文方法中高斯噪声与原图通道堆叠的数据增强方式,适用于红外小目标图像的数据增强任务,避免了小目标信息被淹没在背景与噪声中的问题。本文方法将注意力机制模块的输出与原图通道堆叠的融合方式,有效地抑制了背景杂波并增强了小目标信息,从而提高了小目标检测性能。

3 结束语

针对红外小目标检测网络容易受背景中大量杂波干扰的问题,本文提出了基于注意力机制的红外小目标检测方法。一方面,所提出的高斯噪声与原图通道堆叠的输入方式增强了网络的鲁棒性;另一方面,本文通过注意力机制模块抑制背景杂波,增强小目标特征,并使用红外小目标检测模块实现检测任务。经实验验证,本文所提出的方法在性能上优于其他传统红外小目标检测方法和基于卷积神经网络的方法。