基于全局感知机制的地面红外目标检测方法

2022-05-07赵晓枫徐叶斌牛家辉张志利

系统工程与电子技术 2022年5期

赵晓枫, 徐叶斌,*, 吴飞, 牛家辉, 蔡伟, 张志利

(1. 火箭军工程大学导弹工程学院, 陕西西安 710025;. 兵器发射理论与技术国家重点学科实验室, 陕西西安 710025)

0 引言

红外辐射是物体的固有属性,当物体温度高于绝对零度时,就会向外辐射热量,因此可以对目标的红外特征进行全天时的探测与识别。当前根据物体的红外特征对目标进行准确且实时的检测,已成为军事侦察、视频检测、伪装防护等领域重点关注的问题。

基于传统方法的红外目标检测,主要应用在空基小目标的侦察和预警,以单帧红外目标检测和多帧红外目标检测(又称序列红外目标检测)为主。近年来,深度学习的兴起,产生了基于卷积神经网络(convolutional neural networks,CNN)的目标检测方法,这类方法通过直接构造卷积神经网络对图像特征进行提取、分类和目标预测,提升了检测精度和检测速度,降低了误检和漏检率。基于CNN的目标检测算法主要分为区域CNN(region-CNN, R-CNN)、Fast R-CNN、Faster R-CNN、Mask R-CNN、Cascade R-CNN等基于候选区域的两阶段目标检测算法和SSD(single shot multibox detector)、RetinaNet、YOLO等基于回归的一阶段目标检测方法。两阶段的目标检测算法先将图像输入主干网络进行特征提取,选出待检测区域,再进行目标分类和预测框回归对目标进行检测。该类算法在增加网络计算复杂度和牺牲速度的前提下,使目标检测模型保持较好的检测精度,但实时性较差。以YOLO为代表的一阶段目标检测算法则是通过遍历将预测框与真实框相关联,利用IOU(intersection over union)机制将相关度量化并使用最大值抑制机制抑制关联度不高的预测框,采用该类目标检测算法对目标进行检测时,减少了候选区域提取过程,能够满足较多场景下实时检测的需求,被广泛应用。

将基于CNN的目标检测算法应用到红外目标的检测中,降低误检和漏检率,已经成为红外探测领域的研究热点。苗壮等提出了一种基于关键点的快速红外目标检测算法,通过压缩模型尺寸,提高了对红外小目标的检测速度。吴双忱等提出了基于全CNN的红外小目标检测算法,该算法实现了在复杂背景下对低信噪比且存在运动模糊目标的检测。刘俊明等提出了基于全CNN和视觉显著性的红外小目标检测,并引入注意力机制实现对空基复杂环境下的红外小目标检测。Dong等将视觉注意力机制应用到了海面红外目标的检测,明显降低了虚警率。Du等通过重新设计锚框,减小噪声的影响,针对空中目标进行检测。梁杰等通过网络特征层的合并和引入中心损失函数对YOLOv2算法进行改进,实现对烟幕遮挡的目标进行检测,提高制导精度。Hu等通过融合多尺度特征和局部二进制纹理分析的方法,对入侵的红外小目标进行检测。Zhao等将YOLOv3与双向特征融合的多尺度特征融合方式相结合,增强信息的重利用,实现对地面背景下的红外目标进行检测。

本文针对复杂地面背景下干扰因素多,目标检测易受影响的问题,通过多尺度池化对网络最后一层输出特征进行池化处理,并使用跳跃连接将池化前和池化后的特征融合,增强特征的重利用,从而增加模型的全局信息感知能力,减小环境背景对目标检测任务的干扰;以平滑标签的方式降低单目标置信度,提出平滑焦点损失函数(soft focal loss,S-FL)。从而避免对图像内其他目标造成忽视,产生漏检误检的情况,同时优化地面复杂环境对目标检测产生的干扰。最终构造了基于全局感知机制的Infrared-YOLO红外目标检测方法,提高了对地面背景下红外目标的检测精度,并实现了实时检测。

1 基于全局感知机制的目标检测模型

基于全局感知机制的目标检测模型如图1所示,包含骨干网络、特征融合网络和目标预测网络3个部分。输入图片首先在骨干网络中进行下采样操作,降低特征图大小,提取不同层次特征,并将最后一层输出使用全局感知模块进行全局池化。再使用特征融合网络进行不同尺度特征的融合,实现低维空间信息和高维语义信息的互补。最后，将融合后的特征图作为目标预测网络的输入,进行目标分类和边界框的回归,完成目标的检测。

图1 Infrared-YOLO网络结构Fig.1 Network structure of Infrared-YOLO

1.1 全局信息融合的金字塔池化模块

图2是部分红外图像和可见光图像的对比图,从图中可以看到,地面背景下可见光图像比红外图像具有更多的细节特征和纹理特征。对于地面背景下的红外车辆目标而言,可见光图像下目标特征比较明显。而红外图像中目标特征被背景特征淹没的情况,也存在背景特征与目标特征相似度较高,极易混淆的情况。因此,增加了对目标进行准确分类和定位的难度,出现漏检和误检等情况,导致检测精度不高。

图2 可见光图像与红外图像对比Fig.2 Comparison of visible light image and infrared image

为了提高模型对图像的整体感受域,减少背景和目标的误判,设计了具有全局信息融合的金字塔池化模块(spatial pyramid pooling module for global information fusion,GIF-SPP),如图3所示。全局信息融合的金字塔池化模块以主干网络最后一个卷积层产生的特征图作为输入,考虑到最后一层特征图经过主干网络32倍下采样后,为10×10大小的高维特征,特征信息较多,使用以区域最大值作为代表信息的最大池化机制会导致部分信息丢失。因此，使用以平均值作为区域代表信息,且能够对输入图像进行动态池化,产生特定大小输出的自适应平均池化操作对输入特征进行处理,减少重要信息的丢失,同时提升模型训练的稳定性。

图3 全局信息融合的金字塔池化模块Fig.3 Pyramid pooling module for global information fusion

将输入特征图划分为1×1、2×2、4×4、6×6共4个子区域进行平均池化。其中1×1子区域为第一层,在整个特征图上执行最粗略层次的池化操作,生成一个池化后的特征。蓝色为第二层,将特征图分割成2×2的子区域进行平均池化。其余层依次类推,将特征映射分割到不同的子区域并形成不同尺度的池化表示,灰色为最后一层,将特征图划分为6×6的子区域,执行最细层次的平均池化。经过不同尺度的池化,不同级别的输出形成多种尺度的特征映射。对不同层次池化特征,使用1×1的卷积进行通道和维度调整,再经过上采样以双线性差值的方式将尺度调整到原始特征图大小。再使原始特征与池化后的特征通过跳跃连接的方式完成特征融合,最终形成了具有原始特征信息和池化后信息的融合输出,使模型具有更强的全局感知能力。

1.2 S-FL

交叉熵是香农信息论中的重要概念,主要用于度量两个概率分布间的差异性信息,在神经网络中将其作为损失函数结合反向传播对模型进行优化。交叉熵损失函数会将所有样本的损失都进行求和计算,这样会带来两个问题:一是简单易分类样本的损失很低,但大量损失计算累加到一起,对小样本产生抑制作用,无法提取有效特征;二是在计算过程中,会激励概率较大的类,结合反向传播,使得模型对大样本过度自信,对小样本关注不足,导致泛化能力变差,降低模型的自适应能力。针对传统交叉熵损失函数存在的问题,焦点损失函数通过增加聚焦参数,对大样本的损失积累进行抑制,关注小样本目标,促使模型拥有更好的平衡能力。

针对红外图像的车辆目标检测任务中,存在背景特征与车辆特征相似度较高,以及红外图像中车辆目标被路面特征淹没,而导致误检、漏检和检测置信度不高的问题。本文将类别标记转换成独热向量形式,并将独热向量中置信度为1的项衰减,生成平滑标签。平滑后待检测目标的置信度降低,其他相邻目标获得更多被检测机会。独热向量的标签平滑定义如下:

′()=(1-),+()

(1)

式中:为衰减因子;为类别数;()为一个概率分布,此处采用均匀分布。,定义为

(2)

最终,得到本文提出的S-FL,定义如下:

(3)

式中:

(4)

()为类别概率;′()为经平滑后的指定类别;为聚焦参数,可以平滑地调整简单样本的权重;=20,=025,=2,=01。

2 实验结果与分析

2.1 红外数据集的构建

当前,红外图像的公开数据集较难获得,为了对提出的基于全局感知机制的红外目标检测模型进行训练和评估。本课题组使用光谱范围为75～14 μm的红外成像仪在不同时段、不同背景、不同气候条件下拍摄公交车和小汽车的红外图像。通过图像增强制成大小为320×320的待标注图像集,使用Labeling完成图像的标注,生成含有车辆位置和真实框宽高信息的xml文件,最终制成包含公交车图像761张、小汽车图像1 336 张的Infrared-VOC320红外数据集,并将训练集、验证集、测试集按7∶1∶2划分。

为了验证红外数据集的科学性和合理性,与公开的标准可见光数据集PASCAL VOC2007中各类样本数量进行对比。如图4所示,其中黑色为Infrared-VOC320数据集中目标类别和数量,灰色为PASCAL VOC2007数据集中目标类别和数量。从图4中可以看出,Infrared-VOC320数据集中小汽车和公交车的数量分别为1 336 张和761张,而PASCAL VOC2007数据集中数量少于761张图像的有16类,表明Infrared-VOC320数据集中小汽车和公交车的数量可以用来进行目标检测模型的训练和评估。

图4 数据集数量关系对比图Fig.4 Comparison of data set quantity relationship

2.2 评价指标与训练参数

为了评估本文改进算法的性能,从准确率、检测速度、平均检测精度(average precision, AP)和AP均值(mean AP, mAP)出发,对本文改进的算法和几种主流算法进行对比。同时引入空间复杂度、模型参数进行消融实验,探究各模块对改进模型的作用。

基于Infrared-VOC320数据集对Infrared-YOLO模型进行训练时,初始学习率为0.01,在迭代至第30次、第60次和第90次时分别缩小10倍,Batch size设为48,共迭代100次,完成模型的训练。文中实验平台使用系统为Linux18.04,CPU为Inter Core i9-9900K CPU @3.60 GHz,GPU为Nvidia P6000,24 GB,在pytorch1.7.1框架下采用CUDA11.0和cudnn8.0.4.30进行加速训练。

2.3 基于Infrared-VOC320数据集的对比实验

基于Infrared-VOC320数据集的不同目标检测算法实验结果如表1所示,Infrared-YOLO目标检测算法针对红外目标检测的mAP达到80.1个百分点,在一阶段目标检测算法中,比YOLOv3高出4.4个百分点,比SSD300高出9.7个百分点。通常一个具有实时性的模型,需要达到每秒30 FPS以上,本文检测模型检测速度达到56.4 FPS,能够满足实时检测的需求。同时比二阶段目标检测网络Faster R-CNN高出4.5个百分点,检测速度是其8倍。上述实验证明Infrared-YOLO保持实时检测速度的同时提升了针对地面红外目标检测的平均精度。

表1 基于Infrared-VOC320数据集的不同目标检测算法实验结果

2.4 基于Infrared-VOC数据集的消融实验

为了理解Infrared-YOLO中各改进模块对检测效果的影响,表2是逐步增加相关改进模块的消融实验,图5是训练过程损失函数曲线图。从表2中可以看到,YOLOv3目标检测模型的mAP为75.7个百分点,AP差值为4.2个百分点,基准模型结合平滑焦点损失后,mAP提升至77.7个百分点,AP间差值缩小至0.8个百分点,表明本文设计的平滑焦点函数具有关注难分样本的能力,并且提升了对目标的平均检测精度。基准模型结合GIF-SPP模块后,mAP提升了3.1个百分点,类间差值减小到0.5个百分点,验证了全局信息融合的金字塔池化模块通过不同尺度的池化,增大了模型的感受野,提高了尺度不变性,并且能够与原始特征进行特征信息的互相补充,有利于检测网络对全局信息的感知,提升了检测精度,此外全局感知模块还能够缓解样本的不平衡。最终Infrared-YOLO的mAP达到80.1个百分点,结合图5和表2可以看出,通过损失函数和特征表征两个方面的优化,能够提升模型的检测精度和数据集平衡能力,加速模型收敛。

图5 损失函数曲线对比Fig.5 Comparison of loss function curve

表2 基于Infrared-VOC320的消融实验

为了更进一步比较全局信息融合的空间金字塔池化模块与SPP模块对于模型检测精度提升的程度,进行关于这两种模块的消融实验。使用原始YOLOv3为基准模型,在相同位置使用不同的池化模块进行对比实验,对比实验结果如表3所示。通过表3中的数据可以发现,SPP模块通过5×5、9×9、13×13这3个尺度对最后一层的特征输出执行最大池化操作,增大了模型的感受野,与YOLOv3模型相比,mAP提升了0.8%,空间复杂度比基准模型提高了0.8,参数量几乎保持不变;使用全局信息融合金字塔池化模块的Infrared-YOLO目标检测模型,mAP比基准模型提升了3.1个百分点,参数量减少了20.4个百分点,空间复杂度增加了17.3个百分点。通过对比发现,本文中所使用的全局信息融合的金字塔池化模块虽然增加了空间复杂度,需要更多的显存对模型进行训练,但GIF-SPP使用较小的池化子区域和全卷积对池化特征进行连接,减少了模型的参数量,有利于模型后期的迁移和部署。

表3 SPP与GIF-SPP的对比实验

图6是Infrared-YOLO和YOLOv3在Infrared-VOC测试集中对目标的检测结果。在第1、2、3行中,单张图片内具有多个目标的情况,改进后检测模型的置信度明显高于原始的YOLOv3算法;对于第4、5行图片中,背景对目标干扰较严重场景下,改进后的目标检测模型依旧能够对目标进行较好的检测;对于第6、7行图片中远处相对较小的目标,原始YOLOv3算法存在因目标的相互遮挡产生漏检和将树荫当作目标造成误检的情况。检测结果对比表明,改进后的Infrared-YOLO目标检测模型能够有效提升红外目标检测的测置信度,优化了地面红外目标受背景干扰导致的误检和漏检问题。

图6 Infrared-VOC320测试集上对目标的检测结果对比Fig.6 Detection results comparison of targets on the Infrared-VOC320 dataset

3 结论

本文提出的基于全局感知机制的红外目标检测模型通过全局信息融合的空间金字塔池化模块,增强网络对所提取特征的全局联系,再结合S-FL降低单一目标置信度,有效优化了地面背景下红外车辆目标检测准确率不高、易漏检误检的问题。在Infrared-VOC320数据集上平均检测精度达到80.1%,与当前主流的几种目标检测模型相比表现出较好的检测性能。基于全局感知机制的目标检测模型对地面红外目标的检测具有较高检测精度的同时实现了实时的检测性能,对军事侦察、伪装防护等地面复杂背景下的红外目标检测研究有着较好的借鉴意义。