APP下载

改进PSPNet的炮弹火焰分割算法及应用

2023-12-11张雯玮傅启凡王营冠傅衡成丁华泽

计算机工程与应用 2023年23期
关键词:池化炮弹火焰

张雯玮,傅启凡,王营冠,傅衡成,魏 智,丁华泽

1.中国科学院上海微系统与信息技术研究所 中国科学院无线传感网与通信重点实验室,上海 201800

2.中国科学院大学,北京 100864

炮弹射击与空中投弹等训练效果评估是现代军事训练中的重要内容,目前仍以人工报靶方式为主,即需要相关人员进入靶场测量弹着点与靶标之间的偏移量实现训练效果评价,存在实时性差、效率低、危险系数高等问题。因此,在靶场环境下实现快速自动报靶,对于相关部队日常训练意义重大。

由于炮弹爆炸时会产生声音、震动、火焰等特征信号,通过分析该类信号确定炮弹落点位置成为目前自动报靶系统的主流手段。利用声音、震动信号[1]识别炮弹火焰的计算复杂度低,但是由于声音、震动信号易受噪声干扰和环境影响,导致定位结果偏差较大;同时声音、震动传感器部署受阵列孔径、阵型限制,部署难度大。而图像识别技术的硬件部署要求低,定位准确度高,且不受风力、风向、温度、地质条件等影响。因此利用图像识别技术准确捕捉爆炸产生的火焰,从而准确定位炮弹落点的方法成为目前的研究热点。由于图像识别技术针对炮弹火焰的定位主要依赖于所检测到的炮弹火焰轮廓的精确度,所以需要对爆炸火焰的外部轮廓进行高精度分割。因此,如何准确分割炮弹火焰,就成为自动报靶系统的核心关键技术问题。

基于图像方法的传统火焰分割技术大多使用多级模式识别,主要环节包括特征的检测、识别、分类等,火焰特征提取是算法流程的基础。其特征主要分为静态特征与动态特征,静态特征主要包括:火焰颜色[2-3]、纹理[4]、形状[5]等。火焰的动态特征主要体现为时域上的独特性质,比如火焰在燃烧时不断闪烁跳动并伴有形状的变化。前期研究中,通过帧间差分法[6]、小波变换[7]、傅里叶变换[8]等方法对火焰的动态特征进行提取。基于图像的传统火焰分割技术存在缺陷,需要研究者根据已有的信息手工进行特征的设计和调整,导致特征的抽取不够充分,造成了分割结果精度不高、场景适应性差等问题。

近年来,随着计算机视觉快速发展,基于深度学习的语义分割算法被广泛应用。该类算法主要采用深度神经网络对图像进行细粒度特征提取,对图像中每个像素点进行类别标记,分割出目标区域,与传统的基于特征的人工提取方法相比,该方法具有较强的鲁棒性。Zhao 等人[9]提出了金字塔场景解析网络(pyramid scene parsing network,PSPNet),利用层次全局先验结构减少不同子区域之间相关信息的损失。Chen 等人[10-13]提出Deeplab系列算法,通过空洞卷积层保留池化层的位置信息,同时引入空间金字塔池化模块,并利用编码器-解码器结构恢复空间信息获取目标边界。Yuan等 人[14]提 出OCRNet(object-contextual representations for semantic segmentation)算法,通过计算每个像素与各个目标区域之间的相关性,将像素分类问题转化为物体区域分类问题,显式地增强了同类别物体像素的贡献。Zheng 等人[15]提出SETR(segmentation Transformer)算法,设计了渐进式上采样以及多层次特征加总的编码器结构,提高像素恢复的能力。Xie 等人[16]提出了SegFormer(simple and efficient design for semantic segmentation with Transformers)算法,利用分层结构的Transformer编码器以及结合局部与全局注意力的MLP解码器,构成一种简单且性能强大的语义分割算法。Kirillov 等人[17]提出Pointrend 算法,针对边界中分类模糊的点进行迭代训练,达到高质量高像素的要求。YU等人[18]提出Bisenet v2 算法,利用语义分支与细节分支分别获取特征上下文信息以及局部细节,并通过聚合模块进行特征互补,保证一定精度的前提下,实现轻量级语义分割算法。随着基于深度学习的语义分割算法持续创新,火焰特征提取由最初的浅层特征演化到深层特征[19-20]。朱红等人[21]提出针对火焰图像,采用深度学习Unet+ResNet的方法得到最佳分割效果。谷世举等人[22]采用基于Unet[23]的语义分割模型对炮口火焰进行分割,该算法引入深度可分离卷积与残差结构,提升炮口火焰的分割效果。宁阳等人[24]提出的改进DeeplabV3+的火焰分割与火情分析方法,添加低层特征,使之与高层特征相结合以捕捉更多的细节信息。路茗等人[25]提出基于显著性目标检测的改进火焰检测算法,采用并列交叉的双分支ResNet 和注意力机制网络,使网络学习聚焦有用通道和空间位置的能力。

上述基于深度学习的语义分割算法中Unet、PSPNet、Deeplabv3、OCRNet等,均在整个图像上分割火焰,分割结果易受黑烟、扬尘等背景杂质的影响,因此无法满足准确分割炮弹爆炸场景中火焰的要求。而SETR 以及SegFormer 算法在网络中加入了注意力机制,能够解决背景杂质的影响,但是输入序列较长导致参数量过大,对硬件要求高,部署难度大。除此之外,由于火焰的动态特性,在同一区域采集到的是不同状态火焰的时间序列图像,导致火焰样本标记和结果验证较为困难;并且在大多数情况下,火焰在图像上所占的像素数量明显少于背景像素数量,需要处理样本不平衡问题。

针对上述问题,本文基于PSPNet算法提出PSP_FPT算法,用于挖掘图像中的深层语义信息,使不同感受野的语义特征得到充分融合,以提升炮弹火焰分割任务的鲁棒性、精确性以及场景实用性。本文的主要创新点:

(1)本文设计了双向特征融合模块(bidirectional feature pyramid network,Bi-FPN)促使全局池化模块输出的炮弹火焰图像各子区域特征,在空间和语义上得到充分融合,以增强各子区域目标空间结构之间的关联性,提高算法的准确率。

(2)本文设计并提出了基于全注意力机制网络的特征金字塔转换(feature pyramid with transformer,FPT)模块,利用全注意力机制网络,根据重要性对各个通道和空间特征进行自适应调节,聚焦有用信息,解决了火焰样本数据不平衡的问题;同时,由于全注意力机制网络中的不同多头注意力机制能够分别聚焦前、后景特征,因此可以提高炮弹火焰前景与黑烟、扬尘等背景杂质之间的判别力,即可以在预测过程中更有效地排除黑烟等背景干扰,提高炮弹火焰目标的分割能力。

(3)本文针对算法复杂度问题,设计将金字塔池化模块处理后的特征图传入全注意力机制网络中,缩短输入序列的长度,减少算法的参数量,提高算法的场景实用性。

1 基本原理

本文提出的PSP_FPT算法结构在PSPNet算法整体结构的基础上,设计了双向特征融合模块及基于全注意力机制网络的特征金字塔转换模块,对金字塔池化模块输出的特征进行优化处理,实现炮弹火焰的精准分割。

1.1 PSP_FPT算法框架

PSP_FPT 算法分为五个部分,分别为主干网络、金字塔池化模块、双向特征融合模块、基于全注意力机制网络的特征金字塔转换模块以及全卷积分类网络组成,算法框架结构图如图1所示,PSP_FPT算法由主干网络ResNet-34、金字塔池化模块、双向特征融合模块、基于全注意力机制网络的特征金字塔转换模块、全卷积分类网络组成,核心模块由双向特征融合模块以及基于全注意力机制网络的特征金字塔转换模块组成,其中双向特征融合模块对各池化特征进行上、下采样与特征融合的操作组成。

图1 PSP_FPT算法结构Fig.1 Pipeline of PSP_FPT algorithm

第一部分为主干网络,将原始图像剪裁为512×512的大小后,送入ResNet-34网络,提取Conv2_x、Conv3_x、Conv4_x、Conv5_x层,将后三层上采样至Conv2_x相同尺寸,连接4层特征图用于后续特征信息处理。

第二部分是金字塔池化模块,将主干网络输出的特征图传入金字塔池化模块。针对主干网络输出特征图的全局以及1/4、1/9、1/36子区域分别进行全局平均池化操作。为了更好地获得炮弹火焰的轮廓细节,本文增加了12×12的池化层,即进一步获得1/144子区域的目标特征。

第三部分是双向特征融合模块,将金字塔池化后的特征图传入双向特征融合模块,完成各池化特征图的上、下采样操作并与相应的原池化特征图连接。

第四部分是基于全注意力机制网络的特征金字塔转换模块,将双向特征融合模块的输出结果传入全注意力机制网络。网络输出带有多头注意力权重的特征图,将其通过1×1 Conv 进行融合,对融合特征按尺寸进行排序,并连接相同空间维度的特征,通过卷积操作使该特征与金字塔池化模块原始输出特征维度相同,最终得到新的特征金字塔。将该特征金字塔各层进行上采样,使它们与主干网络输出的原特征图尺寸相同,将各层特征连接后输出。输出特征为全局交互的结果,从而达到图像中各子区域目标的空间结构以及语义信息得到充分理解的目的。

第五部分为全卷积分类网络,将融合后的特征图经过全卷积分类网络输出最终分割结果。

1.2 PSPNet算法

PSPNet[9]算法通过提出金字塔场景分析网络,对不同区域的语境进行聚合,使算法拥有理解全局语境信息的能力。该算法使用扩展后的全卷积神经网络(fully convolutional network,FCN)进行像素级类别预测,同时扩展到全局金字塔池化模块(pyramid pooling module,PPM),模块结构如图2所示。

图2 Pyramid Pooling Module模块结构Fig.2 Pipeline of Pyramid Pooling Module

该模块针对主干网络输出的特征信息,基于不同尺度子区域进行全局平均池化操作,得到相应池化特征图,即1×1、2×2、3×3、6×6的特征图。各池化特征图经过卷积神经网络改变通道数,输出结果上采样至主干网络输出的原特征图尺寸并进行融合,以获取图像不同区域的特征信息,最后将融合结果通过卷积神经网络得到最终输出结果。

1.3 Bi-FPN模块

为了将金字塔池化模块中各子区域与全局目标特征进行相互关联,本文设计双向特征融合模块。该模块由上、下采样两部分组成。

上采样部分由自底向上特征融合(bottom-up feature fusion module,bottom-up FFM)模块进行实现,模块结构如图3所示。

图3 自底向上特征融合模块Fig.3 Bottom-up feature fusion module

其中,为了将低层特征图的像素属性植入高层特征图,该模块首先针对低层特征图进行双线性插值,即通过已知像素点填充未知像素点,将低层特征图放大至与对应高层特征图相同空间维度大小。由于低层池化特征图的像素点较少,仅利用双线性插值将空间维度为1×1、2×2 等低层池化特征图进行对应空间维度的像素恢复时,因低层池化特征图的像素点较少,已知的邻近像素点会出现严重缺失。这将导致图像邻域插值计算误差性较大,恢复效果模糊的问题。因此本文在上采样模块中添加一层卷积神经网络,新增一部分可学习参数,用于预测对应高层特征图,使算法能够通过参数学习,自适应学习上采样过程,尽可能还原特征图信息。假设输入特征数据为xi∈Rp×p×c(i=1,2,3,4,5),其中p×p为池化特征图的空间维度大小;c为特征通道数。针对第j层池化特征图xj(j=2,3,4,5),将第i层池化特征图xi(i <j)通过双线性插值上采样至与xj相同空间维度,采样结果与1×1×c的卷积核进行卷积,得到输出结果yi。

下采样部分由自顶向下特征融合模块(top-down feature fusion module,Top-down FFM)实现。其中,为了将高层特征图的概念属性融入低层特征图,该模块针对高层特征图采用卷积神经网络完成下采样操作,模块结构如图4所示。

图4 自顶向下特征融合模块Fig.4 Top-down feature fusion module

针对第j层池化特征图xj(j=1,2,3,4),将第i层池化特征图xi(i >j)输入卷积神经网络,得到输出结果yi。综上,双向特征融合模块,每个部分的输出为:

其中,ϕ(·)表示双线性插值函数,N(·)表示卷积操作。将双向特征融合模块输出结果yi分别与各自对应的池化特征图xj进行融合,得到输出结果:

其中,oi,j表示第i层池化特征图xi采样至与第j层池化特征图xj相同空间维度得到输出结果yi,将xj与yi融合得到输出结果oi,j,在各层池化特征图中实现目标各子区域特征的空间维度非局部性交互。

本文设计的双向特征融合模块用于解决因上下文信息交互不足导致的分割精度下降的问题。由于金字塔池化模块输出的各层特征图包含分割目标在不同子区域的空间特征以及语义特征,通过将本层池化特征图与其余各层池化特征图对应连接,使分割目标在不同子区域的空间特征得到相互印证,从而提高算法对语义特征的理解能力。此外,本文设计的双向特征融合模块能保留池化特征图原有信息,更有利于提升各层上下文信息的交互能力。

1.4 FPT模块

炮弹火焰分割任务涉及针对不同尺寸大小目标的预测与分割,为了提高各子区域目标空间和语义信息融合的程度,加深对图像深层语义信息的理解,提高像素级别的预测能力。本文设计了如图5 所示FPT 模块。该模块主要利用全注意力机制网络扩大感受野,加深整体网络对图像信息的理解[26]。

图5 基于全注意力机制网络的特征融合模块结构Fig.5 Feature fusion module structure based on full attention mechanism network

如图5模块结构所示,首先利用全注意力机制网络输出带有多头注意力权重的特征图,将其通过卷积神经网络进行融合;其次,对融合特征按尺寸进行重排,并使用残差模块,将其与各自原始相同空间维度的特征进行残差连接;最后,通过卷积操作使该特征的维度与金字塔池化模块原始输出特征维度相同,得到新的特征金字塔。

其中,全注意力机制网络相比于卷积神经网络,更加关注全局信息,能够为输入特征建立与其距离更长的全局特征的依赖关系,对全局信息的捕捉能力强,因此可以提高算法非局部交互的能力。同时,利用网络中的多头注意力机制模块,能够使算法有选择地聚焦于输入的某些部分,使得推理更加高效。全注意力机制网络的结构与大多数端到端模型一致,由编码器与解码器组成,具体网络结构如图6所示。

图6 全注意力机制网络结构Fig.6 Full attention mechanism network structure

编码器部分含有两个相同的模组,各模组内部单元包括多头注意力机制(multi-head attention,MHA)以及前馈神经网络(feed forward network,FFN),同时为每个单元添加残差模块(residual module)和层归一化(layer normalization,LN)模块。其中,多头注意力机制是由多个注意力层拼接合成,即对同一特征图进行多次映射,使算法学习聚焦同一特征图,针对不同目标的感兴趣区域,提高算法对目标与背景的辨别力;同时,由于多头注意力机制利用各自独立随机初始化的权重矩阵学习对应的查询矩阵、键矩阵及实值矩阵,使特征图映射到不同子空间中,进一步丰富了信息的表达,进而使特征图的语义信息更加充分。公式如下所示:

其中,Q表示注意力层的查询矩阵,K表示注意力层的键矩阵,V表示注意力层的实值矩阵,它们分别由输入向量通过全连接层输出得到。dk表示输入向量的通道维度,用以防止向量分布不均匀,Attn(n=1,2,…,n)表示注意力权重,Matt表示将多头注意力权重进行连接后的结果。解码器和编码器的结构类似,区别在于其多一个多头注意力机制模块。

在基于全注意力机制网络的特征金字塔转换模块中,首先将双向特征融合模块的输出oi,j∈Rp×p×2c(i,j=1,2,3,4,5) 通过卷积神经网络压缩成(i,j=1,2,3,4,5),然后利用全注意力机制网络得到各池化特征图全局交互后的增强特征:

其 中,pi,j∈Rp×p×c(i,j=1,2,3,4,5) 表示增强特征,A(·)表示全注意力机制网络。

之后,对增强特征pi,j按尺寸进行排序,将维度大小相同的特征叠加,并与输入的池化特征xj进行残差连接:

全注意力机制网络中的部分编码器、解码器以及头部的空间注意力特征图如图7所示。

图7 全注意力机制网络内部部分注意力权重Fig.7 Parts of spatial attention maps in full attention mechanism network

图中concat_featuresi-j表示第i层池化特征图经采样后与第j层池化特征图融合后的结果,attn_every_headsi-j、enc_attn_weightsi-j、dec_attn_weightsi-j分别表示融合结果经过全注意力机制网络输出的总体注意力权重图以及对应的编、解码器内部的注意力权重图,图中浅色部分表示相对重要的区域,其中attn_every_headsi-j与增强特征pi,j表示相同含义。由图7可见,各全注意力机制网络对不同融合特征图所聚焦的空间位置信息不同。因此,利用全注意力机制网络能够聚合不同融合特征图的语义与空间信息,提高算法的非局部性交互;同时,效仿空间和通道维度中的语义关联性,找出对最终分类决策起到重要影响的像素区域,确保目标分割的准确性。

FPT 模块结合Bi-FPN 模块,将子区域特征图中的概念属性植入全局特征图的像素属性;同时,用全局特征图中的像素属性渲染子区域特征图中的概念属性;同层中使用相同尺度内不同空间之间的非局部交互,使得输出的特征图为全局交互的结果。最终,实现不同空间以及不同维度的非局部性交互,既能得到更大感受野,又可以捕捉到更为细节的特征信息,解决原本金字塔池化模块丢失目标轮廓细节信息的问题。

2 分析与讨论

2.1 实验数据

目前,由于很少有公开基于靶场的炮弹火焰数据集,本文训练图像数据集主要来源于真实靶场射击训练过程中的炮弹火焰照片。在某靶场射击区域四周各角点处安装4 台高速摄像机,每台摄像机帧率为20 帧/s,图像分辨率为4 096×2 180。在靶区内进行日常射击训练时,4台高速摄像机会实时拍摄靶区内炮弹落地爆炸后的火焰图像。在数据集中炮弹火焰所占的像素数量明显少于背景像素数量,为减少存储容量,优化卷积神经网络的训练,本文将原始数据集以火焰区域为中心裁剪为608×608大小的图片。本文的炮弹火焰数据集,包含1 459张炮弹火焰图像,数据集效果图如图8所示,其中左边为原图,右边为语义分割标记结果。

图8 炮弹火焰数据集示例Fig.8 Artillery flame dataset example

2.2 实验设置

本文算法在训练过程中采用随机梯度下降优化器,数据批次大小为4,学习率设置为1E-4,动量为0.9,权重衰减为1E-5。本文评价模型选取平均交并比mIOU(mean intersection over union)以及平均准确度mAcc(mean accuracy)作为像素级语义分割的评价指标,采用混淆矩阵的方法,公式如下所示:

其中,pii(i=j)表示原本为第i类,同时预测为第i类,即真阳性和真阴性;pij(i≠j)表示原本为第i类被预测为第j类,即假阳性和假阴性。平均交并比是算法在所有测试集上每类真实标签和预测值的交和并的比值的平均值,用于衡量预测结果与真实值之间的重叠度;平均准确率是算法在所有测试集上每类预测正确的数量与每类总体数量的比值的平均值,用于衡量预测结果的精确度。

本文实验使用Python3.7,Pytorch 框架,在显存为11 GB的TiTan V GPU上运行。

2.3 消融实验

本文为了验证Bi-FPN 模块与FPT 模块的有效性,进行了消融实验。消融实验结果如表1所示。

表1 消融实验实验结果Table 1 Ablation experimental results

从实验结果中可以看出PSP_FPT算法的有效性,具体分析如下:

(1)针对Bi-FPN 模块进行消融实验。其中,去除Bi-FPN 模块后,mIOU 下降3.94 个百分点,mAcc 下降1.25 个百分点。主要原因在于:去除Bi-FPN 模块后的算法,将空间维度为1×1、2×2等的池化特征图直接通过全注意力机制网络输出,其输出的注意力权重信息有限,且各子区域的深层语义信息与浅层空间信息无法进行交互,导致预测效果欠佳。本文提出的双向特征融合模块能够有效地将不同层信息进行融合,使得像素级的分类准确率大幅提升。

(2)针对FPT 模块的消融实验,本文引入了基于卷积神经网络的金字塔转换模块(feature pyramid with CNN,FPC),两者区别在于对Bi-FPN 模块输出后的特征处理:FPC 模块采用卷积神经网络,而FPT 模块则使用全注意力机制网络。从实验结果可知,FPT模块性能更佳,其mIOU优于FPC模块4.03个百分点,mAcc优于FPC 模块1.35 个百分点。主要原因在于全注意力机制网络能够分析空间信息的重要程度,并对特征进行重新映射,将图像中不同区域进行分别处理。进一步分析,全注意力机制网络中的一部分注意力模块将炮弹火焰区域作为感兴趣区域,能够较好地辨别前景分割目标特征,并完成高精度分割的任务;而将背景作为感兴趣区域,能够较好地辨别浓烟、扬尘等背景干扰,将其与前景炮弹火焰特征加以区分;最后将多个全注意力机制网络结果进行综合分析,能够确保目标分割的准确性。

此外,本文针对Bi-FPN 模块以及FPT 模块的算法复杂度进行计算,如表1 所示,实验结果表明PSP_FPT算法通过牺牲1.448 GFLOPs 的算法复杂度,提升了3.94 个百分点的mIOU 指标以及1.26 个百分点的mAcc指标;同时,FPT模块牺牲0.696 GFLOPs的算法复杂度,提升了0.41 个百分点的mIOU 指标以及1.83 个百分点的mAcc指标。实验结果表明,Bi-FPN模块以及FPT模块通过消耗较小的算法复杂度换取较大的性能提升。

综上所述,消融实验结果表明使用PSP_FPT算法能够更好地将特征图的上下文空间、语义信息进行融合,对图片达到深度理解的目的,提升语义分割算法的准确性和鲁棒性。

为了更好地验证PSP_FPT算法效果,本文的消融实验增加了目前特征融合算法中性能最佳的特征金字塔网络[27](feature pyramid network,FPN)与之做对比,如表2所示。

表2 对比特征融合模块的消融实验结果Table 2 Ablation experimental results for contrasting feature fusion module 单位:%

实验结果表明本文的算法效果更佳,mIOU优于FPN算法4.81个百分点,mAcc优于FPN算法1.61个百分点。

综合本次消融实验的结果,PSP_FPT算法应用于炮弹火焰数据集的语义分割效果最佳。

2.4 对比实验及分析

为了验证PSP_FPT 算法对炮弹火焰目标分割的性能,本文对比基于深度学习的语义分割算法Deeplabv3[12]、Deeplabv3+[13]、OCRNet[14]等,实验结果如表3所示。

表3 不同深度学习的语义分割算法对比实验结果Table 3 Experimental results of different semantic segmentation algorithms with depth learning 单位:%

该实验结果表明,PSP_FPT 算法的mIOU 以及mAcc 指标最优,证明PSP_FPT 算法对于炮弹火焰分割能力强,细节轮廓的处理表现最佳。

为了验证PSP_FPT算法针对火焰目标的有效性,本文还加入了基于深度学习的火焰分割算法,改进的Unet[22]、改进的Deeplabv3+[24]、Bi-SegNet[25]等进行对比,实验结果如表4所示。

表4 火焰分割算法对比实验结果Table 4 Experimental results of different flame segmentation algorithms 单位:%

该实验结果表明,PSP_FPT 算法的mIOU 以及mAcc 在基于深度学习的火焰分割算法中表现最优,证明PSP_FPT 算法在针对炮弹火焰特定目标的像素级分类能力最强,细节轮廓的处理表现最佳。

为了体现本文算法在工程部署上的优势,本文还引入了浮点运算数(Giga floating point operations,GFLOPs)指标,用来衡量算法复杂度。但是,由于炮弹火焰定位需要准确的分割结果用于满足后续定位的工程需求,所以本文仅针对平均交并比高于95%的算法完成计算复杂度的对比实验,实验结果如表5所示。

表5 算法复杂度大小对比Table 5 FLOPs of different algorithms

从表5 结果可以看出,PSP_FPT 算法的算法复杂度最低,说明本文算法在保证炮弹火焰精准分割的前提下,仍能保持较低的计算复杂度,具有较好的场景实用性。

为了验证PSP_FPT算法的有效性,本文还加入了目前主流的基于全注意力机制网络的语义分割算法进行对比,实验结果如表6所示。

表6 基于注意力机制的语义分割算法对比实验结果Table 6 Experimental results of semantic segmentation algorithms based on attention mechanism 单位:%

从表6 中可以看出PSP_FPT 算法相较于使用Vit(vision Transformer)作为主干网络的SETR算法和Seg-Former算法,mIOU分别提升了3.64个百分点和4.01个百分点,mAcc 分别提升了1.12 个百分点和1.37 个百分点,因此,PSP_FPT 算法在同类基于全注意力机制网络的算法中,预测能力更强。以上三种语义分割算法模型大小结果如表7所示。

根据表7 结果可以看出,SETR 算法的参数量为本文算法的5.084倍,SegFormer算法较本文算法的参数量多23.86 MB,因此,本文使用全局池化过后的特征作为全注意力机制网络的输入可有效减小算法参数量。因此,本文算法在使用Transformer 的系列算法中参数量最小,场景实用性较强。

将本文算法与基础算法PSPNet算法进行多项指标对比,如表8所示,FP(false positive)用于验证算法对图像中炮弹火焰目标的误检率,TP(true positive)为火焰分割的准确率,FN(false negative)用于验证算法对于炮弹火焰目标的漏检率,TN(true negative)为背景分割的准确度。

表8 本文算法与PSPNet算法对比结果Table 8 Comparison results between PSP_FPT and PSPNet单位:%

如表8 所示,PSP_FPT 算法相较于PSPNet 算法,其误检率仅为1.91%,漏检率仅为0.14%,证明该算法有较强的抗干扰能力和鲁棒性。同时,相较于PSPNet算法,火焰的误检率降低了4.19个百分点,背景分割的准确度提高了0.38个百分点,证明本文算法能够更精细地分割目标轮廓,有效解决了PSPNet 算法对目标细节轮廓分割效果欠佳的问题。

2.5 实验结果

本次实验结果如图9所示,从图(a)可以看出,本文算法在对小目标分割时,仍然保持较高的分割能力,解决了样本不平衡的分类问题;从图(b)和图(d)的标注框中可以看出,PSP_FPT算法对于目标轮廓的细节处理更强,能够将炮弹火焰边缘的微小变化进行精准预测;从图(c)的标注框中可以明显看出,PSPNet算法将炮弹火焰的烟雾误认为是火焰本体,相反PSP_FPT算法能够排除炮弹爆炸产生的烟雾、扬尘干扰,鲁棒性强,能够更准确地识别出炮弹火焰的轮廓,说明算法对于炮弹火焰特征的学习与筛选准确,确保后续针对火焰定位的精准性。

图9 基于PSP_FPT网络的炮弹火焰图片语义分割结果Fig.9 Semantic segmentation results of artillery flame image based on PSP_FPT

总体对比实验结果如图10所示。

图10 对比实验结果Fig.10 Comparative experimental results

根据实验结果分析,PSP_FPT 算法误检率低,对于炮弹火焰轮廓的细节处理准确,环境适应性强、鲁棒性高,能够为后续炮弹目标定位提供有效的条件基础。

2.6 炮弹火焰动态实验

针对火焰的动态属性进行测试,该实验选取某台高速摄像机的连续帧图像对炮弹火焰进行预测。实验结果如图11 所示,其中测试结果包含某高速摄像机连续帧的分割结果。

图11 连续帧炮弹火焰分割效果Fig.11 Segmentation effect of fire artillery in continuous frames

从图中可以看出,PSP_FPT算法能够连续捕捉炮弹火焰的动态变化,保证每一帧分割的准确性,面向高速相机对靶场炮弹目标捕捉的任务,该算法可提供火焰目标的精准动态分割,为后续炮弹目标的定位提供有力保障,将进一步提升靶场对弹着点自动报靶的测量精度。

3 结语

本文提出基于改进PSPNet 的炮弹火焰分割算法PSP_FPT 算法,该算法利用Bi-FPN 模块提升池化特征图中各子区域目标空间结构的关联性,同时结合全注意力机制网络,优化目标特征的映射关系,实现了聚焦炮弹火焰目标特征的作用。其中设计将金字塔池化模块输出的特征图,作为全注意力机制网络的输入,有效减少训练参数。此外,该算法并不改变特征金字塔的尺寸,方便应用于多种基于深度学习的网络框架中。实验表明,本文算法在基于炮弹火焰数据集的语义分割效果好,平均交并比达98.01%,能够对炮弹火焰目标进行精准分割;对连续帧炮弹火焰的分割效果稳定,因此算法能够为靶场环境下炮弹火焰分割任务提供稳健的技术支持,具有较高的场景适应性和部署便捷的工程应用优势。未来将针对本文算法采用更先进的框架,并利用不同的注意力机制网络,探究其对炮弹火焰分割算法的影响。同时,尝试优化算法,对其进行剪枝操作,减小算法复杂度,进一步提高算法的场景实用性。

猜你喜欢

池化炮弹火焰
面向神经网络池化层的灵活高效硬件设计
基于Sobel算子的池化算法设计
树上长“炮弹”
最亮的火焰
卷积神经网络中的自适应加权池化
缤纷的火焰
装填炮弹
漂在水上的火焰
“炮弹”表妹
基于卷积神经网络和池化算法的表情识别研究