APP下载

基于Yolov4-Tiny 的复杂背景军事目标检测*

2023-10-26李志刚郭琪美宋晓婷韩国峰李莹琦

火力与指挥控制 2023年9期
关键词:张量残差军事

李志刚,郭琪美,宋晓婷,韩国峰,李莹琦*

(1.华北理工大学人工智能学院,河北 唐山 063210;2.河北省工业智能感知重点实验室,河北 唐山 063210;3.唐山市就业服务中心,河北 唐山 063210)

0 引言

近年来,军事战争越来越依靠尖端技术,传统战争已经逐步向智能化战争转变。准确高效的军事目标获取及检测,对快速掌握战场情况、目标精确制导以及军事侦察起着重要作用。目标检测已经成为军事战争中重要的一部分。此外,由于战争环境的复杂多变性,传统的目标检测算法在复杂背景下的检测效果不佳。因此,构建一种高效、轻量化的复杂背景下的军事目标检测模型具有重要意义。

由于军事战场的复杂多变,导致军事目标检测尤为困难。因此,许多研究人员将目标检测算法应用到军事领域中致力于获得精确的检测结果。PAN等提出了一种基于迁移学习和几何特征约束的级联卷积神经网络框架用于飞机检测[1]。该方法在少样本下实现了高精度、高效的检测。JANAKIRAMAIAH等介绍了一种基于深度学习的胶囊网络方法,用于检测复杂背景中的军事目标,该方法具有较高的识别精度[2]。朱家提出了一种改进的Faster-RCNN 算法[3]。在Faster-RCNN 的基础上,通过添加聚类算法来减少军事目标漏检、误检的发生,同时采用Soft-NMS 代替NMS,提高了检测率。但是针对光照不足或者遮挡目标,该算法的检测性能较差。于博文等提出一种复杂背景军事目标检测方法[4]。该方法结合了ResNet50-D 残差网络和双注意力机制等算法来抑制背景干扰,增强目标特征,从而来提升检测精度。此外,GUPTA 等还考虑了一种轻量型的Yolov3 模型用于复杂背景下的军用车辆分类和检测,实现了高效检测[5]。MENG 等考虑了一种基于视觉注意机制和改进的生成对抗网络算法用于复杂地面背景中的军事目标识别,该方法在低分辨率和复杂环境中具有较好的识别效果[6]。此外,刘茹茹等考虑了一种Light-Yolov3 模型用于复杂背景下的军事目标检测,有效解决了军事目标遮挡问题[7]。LUO 等针对复杂背景下遥感图像中飞机检测性能不足的问题,考虑了一种改进的Yolov5 算法,该算法能够有效提高遥感图像中飞机目标的检测精度和速度,同时更加易于收敛[8]。上述方法虽然在复杂背景下可以达到一定的检测效果,但都不能很好地同时满足高精度、高速度、低复杂度的要求。尤其是在资源受限的设备下进行检测任务时,庞大的网络结构是不切实际的,无法达到预期效果。

为了解决上述问题,在Yolov4-Tiny 框架下,本文提出了一种高效且轻量化的军事目标检测模型。特别地,为了使得模型更加关注目标信息,本文在特征金字塔(feature pyramid network,FPN)中引入了卷积注意力模块(convolutional block attention module,CBAM),将其与Yolov4-Tiny 模型进行有效整合,整合后的模型具有高检测性能、低复杂度的特点。可以将其部署在单兵作战头盔、无人机等资源受限的设备上,实现高效检测,为指挥员及时作出正确的战略部署提供准确信息。

1 复杂背景军事目标

1.1 复杂背景军事目标特征描述

在军事战争中,瞬息万变的战场环境总是伴随着强烈的光线变化以及障碍物、烟雾遮挡,而且军事目标所处的环境也较为复杂。因此,相比于传统目标的检测,军事目标检测更具挑战性。本文以电影《长津湖》为基础来构建数据集,重点考虑4 种战场环境下的复杂背景干扰类型和3 种军事目标的特征。图1 展示了不同复杂背景干扰下具有多种特点的军事目标图片。

图1 战场环境中的复杂背景Fig.1 Complex background in a battlefield environment

战场环境下的复杂背景包括飞石干扰、火光干扰、烟雾干扰和黑夜干扰。具体描述如下:1)飞石干扰:在军事战场环境中,对坦克、军用车辆、士兵存在大量的炮火攻击,从而引起军事目标周围产生大量的飞石、沙砾,以及炸弹碎片等干扰物,增加了军事目标的检测难度。2)火光干扰:在战场环境下,还会因为各种炮火攻击产生强烈的光线变化,导致目标周围的光线差异较大,使得军事目标检测困难。3)烟雾干扰:由于战场环境中大量使用导弹,火箭炮等装备来进行攻击,会产生大量的烟雾,它们充斥在目标周围,使得目标变得模糊。4)黑夜干扰:由于战场作战的连续性,经常会在黑夜情况下作战,此时的军事目标也会由于光线不足的影响导致难以被检测出来。

由于战场环境下的军事目标会受到光照、烟雾等各种类型的复杂背景干扰,这使得军事目标的特征变得极为不明显。本文分别从以下几个角度分析了军事目标的特征:1)战场环境是复杂多变的,而军事目标所处环境也极其丰富,丛林、荒漠等都是其藏身之处,而外部物体会对其造成一定的遮挡,常常使得目标变形,增加了军事目标的检测难度。2)由于拍摄设备以及拍摄距离的不同,会使得军事目标尺寸相差较大。大尺寸目标包含特征较多,而小尺寸目标的形状、边缘等纹理特征较为模糊,能给检测模型提供的信息很少。3)在战场中,还会出现军队大规模出动的情况,而此时的士兵以及一些武器装备是比较密集的,军事目标间也会出现互相遮挡的情况,增加了军事目标的检测难度。

1.2 数据预处理

由于军事数据的保密性和安全性,国内外没有公开的军事目标数据集。在进行军事目标检测算法研究时,缺乏专门的数据集。为了有效地解决这一问题,本文以电影《长津湖》为主,截取出其中的军事战争视频,再利用Adobe Premiere Pro 2020 软件对视频进行逐帧提取,然后筛选出存在军事目标的图片,将其保存为JPG 格式的图片。通过此操作,获取了含有飞机、坦克、战舰、士兵以及军用车辆这五大类军事战争图片。为了提高模型的泛化能力和鲁棒性,对获取到的军事图片采用了数据增强的方式,包括旋转、平移、cutout 等。图2 展示了同一张图片进行数据增强后的不同效果。其中,第1 张是原图,然后依次做了水平翻转、旋转、加噪、平移和cutout 操作。增强后的数据是原来数据量的8 倍,最终数据集图片总量为12 060 张。其中,属于复杂背景下的图片数约占70%。数据集划分为了3 部分,分别是训练集、验证集和测试集。其中,训练集图片数为9 768 张,验证集图片数为1 086 张,测试集图片数为1 206 张。(训练集+验证集)和测试集的比例为9∶1,训练集和验证集的比例为9∶1。本文利用了k-means 聚类算法获取到了数据集中目标的大小分布情况。从图3 中可以看出,数据集中存在少量小目标,主要集中为大中型目标。数据集中各类军事目标数量如下页表1 所示。

表1 军事目标类型及数量Table 1 Type and number of military targets

图2 军事目标增强效果展示图Fig.2 Illustration of military target enhancement effects

图3 军事目标尺寸大小分布情况Fig.3 Size distribution of military targets

1.3 数据标注

针对从《长津湖》中获取的复杂背景下的军事目标图片,利用Labelimg 软件对图片中的坦克、战船等军事目标进行标注,下页图4 左侧展示了标注界面,右侧展示了对应的xml 文件。在开始标注时,通过Open dir 和Change save dir 选项分别指定图片文件和存放标签文件的路径。从第1 张开始标注,首先选择Create Rectbox 选项,从目标左上角开始标注,确保标注的方框可以将目标准确地框出。然后在弹出的Boxlabels 中输入标注目标的类别。标注完成后点击Save 进行保存,即可生成对应的xml 标注文件。该标注文件中包含了图片名称、图片所属路径以及关于目标的具体信息等。

图4 军事目标标注及相应的xml 文件Fig.4 Military target annotation and corresponding XML file

2 方法论

本文在Yolov4-Tiny[9]的框架下,提出了一种高效且轻量化的复杂背景下的军事目标检测模型。其结构如下页图5 所示。从图中可以看出,该模型包含三大部分:CSPDarknet53-Tiny 主干特征提取网络、FPN+CBAM 加强特征提取网络、以及Yolo head。CSPDarknet53-Tiny 是用来对复杂背景下含有军事目标的图片进行初始特征提取,获得初始特征图。FPN+CBAM 加强特征提取网络是对特征图进行特征融合,以获得具有高语义信息的特征图。特别地,为了使得模型能更加关注目标信息,在FPN 中引入了轻量型注意力模块CBAM,以提高特征融合效果。Yolo head 是对具有高语义信息的特征图进行目标分类回归预测,得到模型分类预测结果。各模块的功能接下来会详细介绍。表2 展示了模型训练的伪代码。

表2 Yolov4-Tiny+CBAM 模型训练Table 2 Yolov4-Tiny+CBAM model training

图5 Yolov4-Tiny+CBAM 模型结构图Fig.5 Yolov4-Tiny+CBAM model structure diagram

2.1 CSPDarknet53-Tiny 主干网络

在本文提出的复杂背景下的军事目标检测模型中,CSPDarknet53-Tiny 主干网络是用来对复杂背景下的军事图片进行初始特征提取。该网络由3 个Darknet 层和3 个残差块组成。其中,Darknet 层是由卷积核大小为3*3 的卷积层、Batch_Norm 层和Leaky-Relu 激活函数构成。具体公式如下:

其中,p 表示初始输入张量;bn表示Batch_Norm 层;α 表示Leaky-Relu 激活函数;Conv3*3为卷积核大小为3*3 的卷积层;P1表示输出张量。

此外,每个残差块内包含4 个Darknet 层、两个Concat 层和一个最大池化层。残差块的内部还嵌套了小残差块。利用残差块既能保持精度又减少了模型计算量。残差块的公式可以简单表示为:

其中,F(x)表示要学习的残差映射;x 表示要学习的残差映射的输入;y 表示残差映射的输出。

从图5 中可以看出,输入图片首先经过两个Darknet 层生成208*208*32 大小的特征张量,再经过3 次残差块处理,在第2 次残差块之后输出大小为26*26*256 大小的初始特征图,在第3 次残差块之后再进行一次Darknet 操作,获得大小为13*13*512 大小的初始特征图。最终,通过该主干网络获得了两个不同大小的初始特征图。

2.2 加强特征提取网络

加强特征提取网络是对初始特征图进行加强特征提取。其是由FPN 加强特征提取网络和CBAM组成的。CBAM[10]是一种轻量型的注意力模块,它由通道注意力模块(channel attention module,CAM)和空间注意力模块(spatial attention module,SAM)组成,前者侧重于“是什么”,而后者侧重于“在哪里”,这两个模块存在互补关系,以充分获取目标信息,其结构如图5 所示。CAM 分别对输入特征进行平均池化和最大池化操作,以此来聚集特征图的空间信息。然后,分别采用两次卷积和一次Relu 激活函数,对获取的信息进行整合。最后,通过Sigmoid 函数激活操作进行数据归一化,获得通道注意力特征图。公式如下:

其中,I 表示输入特征;MC(I)表示通道注意力特征;⊗表示逐元素相乘;β 表示Relu 激活函数;б 表示Sigmoid 激活函数;Conv1*1为卷积核大小为1*1 的卷积层。I1 表示通道注意力特征和输入特征的逐元素相乘的结果。

SAM 的输入即通道注意力特征图和输入特征图进行逐元素乘法操作,然后对其进行平均池化和最大池化操作,聚合特征图的通道信息。再对它们进行连接、卷积等处理,得到空间注意力特征图。最后,将通道注意力特征图和空间注意力特征图进行逐元素相乘,得到最终的特征图。具体公式如下所示:

其中,Conv7*7表示卷积核大小为7*7 的卷积层;Ms(I)表示空间注意力特征;I2 即最终的特征输出。

FPN 结构较为简单,是由两个Darknet、一个上采样层以及一个Concat 层构成。其中,Darknet 层包括卷积核大小为1*1 的卷积层、Batch_Norm 层和Leaky-Relu 激活函数。从图5 中可以看出,首先将第2 个特征图输入到Darknet 中,然后获得一个具有高语义信息的特征张量。然后将其作为CBAM 的输入,得到施加注意力后的特征张量,再输入到Darknet+Upsampling 中,将该特征张量的宽高和第1个初始特征张量的宽高调整一致。接着再次施加CBAM 注意力模块,再将最后获取的特征张量与第1 个初始特征张量进行Concat 操作,得到第2 个具有高语义信息的特征张量。

2.3 Yolo head

Yolo head 是用来获取分类回归预测结果的模块。由一个Darknet 层和一个卷积核大小为1*1 的卷积层构成。其中,Darknet 层包括卷积核大小为3*3 的卷积层、Batch_Norm 层和Leaky-Relu 激活函数。Darknet 层用来进行特征整合,1*1 的卷积用来调整通道数。Yolo head 公式表示如下:

其中,t 表示输入特征张量;bn 表示Batch_Norm层,α 表示Leaky-Relu 激活函数;Conv3*3为卷积核大小为3*3 的卷积层;Conv1*1为卷积核大小为1*1 的卷积层,T1表示输出张量。最终,通过Yolo head 获得大小分别为13*13*36 和26*26*36 大小的输出张量,其中包含了军事目标分类回归预测结果。

3 实验与结果分析

本章在复杂背景下的军事目标数据集的基础上,对本文所提出的目标检测模型进行了综合的性能评估,来验证其有效性。同时,将其与当前主流的目标检测模型作了对比实验,包括Faster-RCNN[11]、Yolov3[12]等算法。相关的实验环境设置如下:实验平台包括64 位的Windows 操作系统;12 GB 显存的GPU NVIDIA GeForce GTX 2080Ti。训练过程和参数设置方面,模型包括冻结训练和解冻训练两个部分。每部分包含50 个epoch。冻结训练和解冻训练的BatchSize 分别设置为4 和2。初始学习率设置为0.000 1,权重衰减设置为0.000 5。评价指标方面,本文将精确率(precision,P)、召回率(recall,R)、平均精确率(average precision,AP)、均值平均精确率(mean average precision,mAP)、检测速率FPS(frame per second,FPS)、浮点运算数(floating point operations,FLOPs)和模型参数量作为评价指标。评价指标公式如式(8)~式(11)所示:

其中,tp 实际为正,预测为正的样本数;fp 实际为负,预测为正的样本数;fn 实际为正,预测为负的样本数。

图6 展示了Yolov4-Tiny 和Yolov4-Tiny+CBAM模型的训练损失对比,从图中可以看出,随着Epoch次数不断地增加,改进后的模型和原模型的损失在不断地降低。训练到最后,Yolov4-Tiny 模型和Yolov4-Tiny+CBAM 模型的训练损失值分别收敛于0.90 和0.88 左右。在整个训练过程中,改进后的模型训练损失明显小于原模型。值得注意的是,上述两个模型从第51 个epoch 开始解冻训练,因此,两个模型的训练损失略有提升。此外,表3 给出了不同模型的检测性能结果。其中,Pw、Pm、Pt、Ps和Pp分别代表战船、军用车辆、坦克、士兵、飞机的精确率,APw、APm、APt、APs和APp是战船、军用车辆、坦克、士兵、飞机的平均精确率。mAP 为5 类军事目标的平均精确率。从表中可以看出,所有模型在飞机、坦克和军用车辆的各项检测指标都比较低,这是由于飞机目标尺寸较小,而坦克和军用车辆的数量相比于其他类别的数量较少所导致的。相比于Yolov4-Tiny,Yolov4-Tiny+CBAM 模型在战舰、军用车辆、坦克上的P 值分别提高了2%、4%和2%。且该模型在这3 类目标上的AP 值在所有检测模型中达到了最高。但是,该模型在士兵和飞机等目标上的检测能力略有下降,不过也在可接受范围内。改进后的模型在所有模型中的mAP 值也达到了最高。进一步,表4 对比了7 种模型的参数量、FLOPs 和FPS 这3个指标。Yolov4-Tiny+CBAM 比Yolov4-Tiny 模型在参数量和FLOPs 指标上有所上升,检测时间也略有增加,但还是满足实时性需求。与Yolov3、Yolov4、Faster-RCNN 等模型相比来看,本文模型在检测速度和模型参数量上保持着绝对优势。这足以表明Yolov4-Tiny+CBAM 模型可以很容易部署到资源受限的设备上来完成检测任务。

表3 模型检测性能对比/%Table 3 Model detection performance comparison/%

表4 不同模型大小和检测速度对比Table 4 Comparison of different model sizes and detection speeds

图6 训练损失对比图Fig.6 Training loss comparison chart

下页图7 展示了不同模型PR 曲线图。从PR 曲线下的面积来看,本文模型对坦克、军用车辆和战船的检测性能优于其他模型。但该模型在飞机和士兵上的检测性能较弱。这是由于这两种目标尺寸相对较小。此外,图8 展示了不同检测模型在同一张图片上的检测效果。该图片展示了烟雾干扰下的遮挡军事目标。从图中可以看出,由于目标间存在一些遮挡,这导致每种检测模型对坦克和士兵都存在一定的漏检情况。尤其是SSD、Yolov3、Yolov4 等模型都有着较高的漏检数量,而且还漏检尺寸较大的坦克目标。相比较来说,Yolov4-Tiny+CBAM 模型的目标漏检数量最低,且模型对坦克和士兵的检测精度都较高,检测效果明显优于其他模型,这得益于CBAM 的引入,通过该模块使得模型更加关注目标信息,提高了特征融合效果。综上,Yolov4-Tiny+CBAM检测模型在检测精度和速度方面均优于目前典型的一些目标检测模型,且在火光、烟雾等复杂背景的干扰下仍保持着较高的检测能力。

图7 不同模型的PR 曲线图Fig.7 PR curves for different models

图8 不同模型的检测效果Fig.8 The detection effects of different models

4 结论

本文结合CBAM 和Yolov4-Tiny 算法提出了一种高效且轻量化的复杂背景下军事目标检测模型,通过在加强特征提取时融入CBAM,使得模型更加关注目标信息,减少目标细节丢失,在略微牺牲检测速度的前提下,提高了军事目标检测精度,更适合部署在资源受限的设备上来完成检测任务,具有较高的实用价值。该模型未来的相关工作包括以下几点:1)由于军事目标的常存在遮挡的情况,导致模型在检测过程中存在一定程度的漏检,如何使得模型减少漏检是未来的研究工作之一。2)在军事数据集中类别不均衡的情况下,如何提升数量少的目标检测精度也是需要进一步研究的工作。

猜你喜欢

张量残差军事
基于双向GRU与残差拟合的车辆跟驰建模
偶数阶张量core逆的性质和应用
四元数张量方程A*NX=B 的通解
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
扩散张量成像MRI 在CO中毒后迟发脑病中的应用
平稳自相关过程的残差累积和控制图
工程中张量概念的思考
军事幽默:局
军事