基于边缘填充的单兵迷彩伪装小目标检测

2024-03-13池盼盼梅琛楠钟跃崎

纺织学报 2024年1期

池盼盼, 梅琛楠, 王焰, 肖红, 钟跃崎,3

(1.东华大学纺织学院, 上海 201620; 2.军事科学院系统工程研究院, 北京 100010;3.东华大学纺织面料技术教育部重点实验室, 上海 201620)

单兵迷彩伪装是通过设计与背景极相似的迷彩纹理来降低伪装对象与背景的区分度,通常作为军事人员在战场环境中的基本隐蔽手段,因此针对迷彩伪装单兵的自动检测对于战场侦察以及迷彩伪装效果评估均具有重要的研究价值。

以往单兵迷彩伪装效果的评估主要依靠主观判别,耗时耗力。随着技术的进步,客观自动检测方法得到越来越多的关注。Ariel等[1]提出了用于识别伪装的Drag算子,该算子通过检测梯度参数的零交叉点,找到强度域中的凸结构。Nagappa等[2]提取了斑块级灰度共生矩阵表示纹理特征,然后通过聚类和分水岭分割算法检测伪装对象。Song等[3]提出了一种由亮度、纹理方向和熵组成的伪装纹理描述子,通过特征的权重结构相似性来衡量伪装纹理的性能。这些基于人工定义特征的检测算法虽有一定的合理性,但对于含有大量环境信息的单兵迷彩伪装检测任务来说,难以捕捉到足够的有效信息用于伪装对象识别。

近年来,卷积神经网络被逐渐用于生物伪装对象的自动检测领域。依据其技术特点,大致可以分为3类:第1类是设计有针对性的网络模块/架构,以有效区分伪装对象特征,如C2FNet、UGTR[6-8]。第2类是将一些辅助任务纳入联合学习/多任务学习框架,如分类任务、边缘提取、显著目标检测和伪装目标排序;这种方法可以从共享特征中挖掘有价值的额外线索,显著增强(COD)的特征表示[9-11]。第3类是仿生算法[12-13],利用人类视觉的搜索机制来设计相似的神经网络,以识别伪装对象。

根据单兵迷彩伪装与生物天然伪装在技术原理上的相似性,Zheng等[4]搭建了密集反卷积网络用于COD任务,并构建了包含不同场景下单兵迷彩伪装的数据集。Fang等[5]在扩展原有数据集的基础上,设计了强语义膨胀卷积网络构建检测模型。这些研究在一定程度上改善了检测精度,但并未聚焦于中远距离下的单兵迷彩伪装效果评价,且泛化能力有限。

鉴于上述原因,本文从伪装对象检测的角度出发,结合单兵迷彩伪装检测任务的实际需求,提出适用于单兵迷彩伪装检测的网络模型BFNet(boundary-filled network),致力于检测被遮挡目标及小目标。

1 数据准备

本文利用Fang等[5]构建的2 600张(854像素×480像素)单兵迷彩伪装图像集,按照6∶4的比例随机划分训练集与测试集。

为尽量消除神经网络对背景信息的过度依赖,同时提高单兵迷彩伪装小目标的占比,对上一步随机划分的训练集图像以随机尺寸裁剪(保留单兵迷彩目标区域)。裁剪5次后,与原始的1 560张训练集图像一起构成最终训练集(共计9 360张)。图1示出8张数据集中较难识别的部分典型图像。

图1 部分数据集展示Fig.1 Examples of dataset

在此基础上,为进一步增强网络模型的泛化性能,通过对输入图像进行随机旋转(含水平翻转)、增加随机噪声,以及随机色彩抖动等方式进行数据增广,使模型对不同角度、不同光照度、不同色彩以及不同噪声程度的图像都有较好的适应性。输入神经网络的图像尺寸统一调整为416像素×416像素。

2 基于BGNet的单兵迷彩伪装检测模型

本文在BGNet[14]的基础上提出了BFNet,整体架构如图2所示,其中SCNet[15]用于图像的特征提取;边缘感知模块 (EAM)用于检测目标边缘;边缘引导特征模块 (EFM)利用EAM输出的边缘预测图引导网络定位并识别目标;相邻连接解码器 (NCD)用于融合EFM输出特征以获取更高级语义特征;上下文聚合模块(CAM)用于聚合多级特征,以得到最后的输出。

f1～f5为经过SCNet不同卷积层输出的多通道特征图。

这里将Res2Net改为SCNet,用于提高检测精度,引入NCD模块以融合高级特征,并改进其中的EFM模块与CAM模块,用于提高小目标的识别率。

2.1 特征提取阶段

不同于BGNet采用Res2Net作为骨干网络,本文使用带有注意力机制的SCNet[15]作为骨干网络,从而使网络更关注与目标相关的信息而忽略其它的无效干扰。

图3示出SCNet的自校准卷积,可知输入特征x被按通道拆分为2组,第1组x1将特征图分为3个相同的分支,第1分支不作处理直接与经过卷积后的第2分支特征加和,经过Sigmoid函数作为注意力权重与第3分支相乘做一次卷积运算,以此形成自校准模块,输出特征图为y1,与第2组特征x2卷积的输出结果y2拼接,以此完成1个基本模块的运算,最终输出结果为y。该模块充分结合了逐元素相加、逐元素相乘以及通道拼接的多种特征融合方式,每个分支都与下个分支的特征融合,既能有效提取到更高级特征,也保留了原有的上下文关系。

注:Conv2D表示二维卷积。

2.2 边缘引导阶段

物体边缘往往更具有辨识度而容易识别,利用预测得到的边缘特征引导网络学习是一种有效的手段,因此首先利用网络感知目标边缘,再利用边缘特征引导网络识别目标。改进后边缘引导模块(EFM)如图4所示。

注:D表示下采样;Max pooling表示最大池化;⊗表示逐元相乘;Sum表示特征图内元素加和;Conv1D表示一维卷积;⊕表示逐元素相加;Conv2D表示二维卷积;GAP表示全局平均池化;fi为当前的第i 级特征;fe为边缘预测值;Out 为模块输出值。

为使得网络能够关注目标边缘的周围环境,本文对边缘引导特征模块(EFM)进行改进(如图4所示)。具体而言,对边缘感知模块(EAM)输出的边缘预测图上采样,并经过一次5×5的最大池化,与骨干网络输出的当前特征fi相乘,从而得到当前边缘特征。由于边缘特征在图像中所占比例极少,本文采用对空间内元素直接加和来降低空间维度获取通道信息,使用一维卷积层学习各通道关系,通过非线性激活得到注意力权重,并与当前特征fi相乘得到经过边缘特征注意力处理的特征图fa,再与fi相加以获取融合特征fm,融合特征fm经过一层卷积后使用通道自注意力来引导网络学习,最终得到输出值Out。

2.3 上下文聚合阶段

从边缘引导模块输出的多级特征需要融合以形成最后的预测结果。为充分挖掘背景与前景的相互关系,本文将上一级经过真值监督的预测图与当前的特征相乘,得到前景特征f。并对上级预测图取反后与当前特征相乘,得到背景特征b以及当前的全局特征c。将3种特征以通道拼接的方式相互组合,经过1×1卷积降低通道数,得到3种组合特征与全局特征,随后,4组特征经过不同感受野的卷积后,按通道拼接完成1次聚合过程。改进后的上下文聚合模块(CAM)如图5所示。

注:U表示上采样;-表示取反;⊗表示逐元相乘;Conv1×1表示1×1卷积;⊕表示逐元素相加;Conv3×3表示3×3卷积,其中D表示扩张率;h为上一级高级特征;l 为当前低级特征。

2.4 损失函数

对于目标的分割,采用二值交叉熵(BCE)损失与交并比(IoU)[16]损失之和(用Li表示,i=1,2,3,4)。对于目标边缘的损失Le,采用Dice损失[17]以处理正负样本不平衡问题。最终,损失函数的构成为

L=L3+2×L2+4×L1+4×Le+4×L4

式中:L表示总损失;Li表示目标分割第i级损失,即BCE与IoU损失之和;Le表示边缘损失。

3 实验及结果分析

3.1 实验环境

实验使用台式机的CPU为Intel(R) Xeon(R),型号为E5-2620,内存为16GB,使用显存为24GB的GeForce RTX 3090进行训练。所用编程语言为Python 3.8,深度学习框架为PyTorch 1.11.0。

3.2 训练时的超参数设定

训练轮次为25,优化器采用Adam,学习率初始值为1×10-4,随迭代而衰减,输入神经网络的图像尺寸调整为416像素×416像素,批处理量为16。

3.3 评估指标

式中,IoU(i)为第i个被评估图像的交并比。IoU(i)大于0,被认为识别到,用1表示;否则,未识别到,用0表示。

由于单兵迷彩伪装对象的检测更注重召回率,因此使用自适应的F度量Fad:

式中:P为自适应精度,%;R为自适应召回率,%。P与R的阈值采用自适应算法,即2倍的预测值均值。

3.4 BGNet模型方法先进性分析

3.4.1 定性比较

单兵迷彩伪装的检测更针对小目标,往往需要在远距离被识别,而小目标往往由于尺寸小,分辨率更低而难以被检测。本文从训练集随机选择4幅图片(M1,M2,M3,M4)与其它文献方法进行定性分析和消融实验分析,如图6、7所示。本文网络BFNet(第3列)相比未改进网络BGNet(第4列)能识别到更多小目标,而其它网络PFNet[13],SINet-V2[12]以及C2FNet[6]只能部分识别到小目标,且识别精度差,容易判断错误。

注:图中每行依次表示原图和标注真值以及使用不同网络方法的检测结果图。

3.4.2 定量比较

3.5 消融实验

为验证改进模块的有效性,设计消融实验进一步进行分析,结果如表3所示。所有结果均采用第1节中的数据集进行训练,并保持相同的数据增广方式。

表3 消融实验的定量评估Tab.3 Quantitative evaluation for ablation studies

3.5.1 定性分析

按照表3中1#～5#所示消融实验方法,对比图7中第3列(5#)与第6列(3#),可见改进EFM后识别更准确,网络更关注边缘的环境信息时,有利于识别目标。

注:图中每行依次表示原图和标注真值以及使用不同网络方法的检测结果图。

对比图7中第5列(2#)与第7列(4#),可见改进CAM后,识别到的对象更多,说明利用上级的预测值提供给网络推理可增加模型的自信。

对比图7中第4列(1#)与第7列(4#),可见同时改进EFM与CAM后,其它网络未能识别的对象基本都可以被识别,验证了改进EFM与CAM的有效性。对比图7中第3列(5#)与第7列(4#),第7列图中虽全部被识别,但识别精度不高,与真值的交集程度低,而采用SCNet骨干模型后,识别精度提升,说明其自校准模块起到了实质性的作用。

3.5.2 定量分析

采用原网络BGNet为基准模型,给出了消融实验的具体数据(如表3所示)。

3.5.2.1随机裁剪进行数据增广的有效性为验证第1节(数据准备)中随机尺寸裁剪图像进行数据增广的有效性,设计了消融实验,将原始数据集复制5次作为训练集,以保持与本文训练集数据量相同,表3中6#给出了利用该方法的评估结果。可以看到,pA从0.820下降至0.815,表明检测精度明显下降。说明随机裁剪图片能使网络充分学习目标区域的上下文信息,从而达到更好的检测效果。

3.5.2.3CAM的改进效果对比表3中的2#、4#可知,改进CAM后I提升了0.51%,表明识别率进一步提升,同时,衡量结构相似度的指标S也得到提升。而Fad的提升,表明兼顾精度时,召回率提升。

3.5.2.4改进EFM与CAM的联合作用对比表3的1#、4#可知,采用改进的EFM与CAM,pA略下降,但I值提升了1.87%。Fad的提升也表明了在EFM和CAM的联合作用下,可以在兼顾精度的同时提升召回率。

4 结束语

本文提出基于边缘填充的单兵迷彩伪装小目标检测模型BFNet(boundary-filled network),能同时提高检测精度与检测率。在数据集处理上,针对单兵迷彩伪装的数据集小,且单兵迷彩伪装的背景较单调的问题,利用随机裁剪背景的方式扩充数据集,一方面减少网络对背景的依赖,防止过拟合,另一方面能使小目标放大,有利于网络学习。在网络架构上,以BGNet模型为基础,采用SCNet(sparse complex-valued neural network)骨干网络,针对BGNet模型检测小目标困难,改进了模块结构,使网络关注目标边缘的环境信息。结果表明本文所采用的数据增广方式能提高检测精度,所提出的改进方法使得交并比识别率I提升,能识别到更多的小目标,而SCNet骨干模型的自校准作用能改善检测精度pA。与其它模型相比,所提出的模型BFNet能较准确全面地识别出单兵迷彩伪装小目标。