迷彩伪装目标检测的视觉特征偏好研究

2023-12-30曹铁勇郑云飞王烨奎付炳阳

计算机技术与发展 2023年12期

韩彤,曹铁勇,郑云飞,王杨,陈雷,王烨奎,付炳阳

(1.陆军工程大学指挥控制工程学院,江苏南京 210007;2.95911部队,甘肃酒泉 735000;3.陆军炮兵防空兵学院,江苏南京 211100;4.31401部队,吉林长春 130000)

0 引言

迷彩伪装是最基本的军事伪装技术之一,其设计旨在模仿背景的颜色及纹理等特征来降低目标的显著性,以此规避人眼及机器侦察。近年来,基于卷积神经网络(Convolutional Neural Networks,CNN)[1]来检测迷彩伪装目标的研究取得了良好的进展[2-6]。如何进一步提升其检测模型的迁移性和有效性,关键之一在于需要深入分析迷彩伪装目标检测模型的内在机理。然而,神经网络的黑盒性质使得模型的运行机制难以被准确理解。

近来的研究表明,CNN与人类视觉系统(Human Visual System,HVS)的决策机制有相似之处[7-8]。研究者尝试分析颜色、形状、纹理特征在常规对象识别中的作用,但相关研究[9-10]主要针对的是显著性目标分类,其结果无法直接用于指导迷彩伪装目标检测模型的优化。

为此,该文从人类视觉特征角度出发,针对迷彩伪装目标检测的特点,设计了一种新的视觉特征解耦方法,在此基础上研究了CNN迷彩伪装目标检测模型对不同视觉特征的偏向性。在迷彩伪装人员数据集与常规人员检测数据集上进行的对比实验表明,CNN目标检测模型对于迷彩伪装目标偏向于学习其纹理,对于常规目标偏向于学习其形状,颜色特征在二者的检测中均不占主导地位。

1 相关工作

1.1 迷彩伪装目标检测

20世纪中期,迷彩伪装技术逐渐成熟并广泛用于军事领域。早期研究人员通过设计特定的纹理提取算子来检测迷彩图案[11-14]。随着深度学习技术的发展,研究人员开始使用基于卷积神经网络的模型来解决迷彩发现问题。Zheng等人[15-16]构建了迷彩伪装人员数据集并对迷彩伪装目标进行分割。文献[2-6]使用基于CNN的目标检测模型实现了迷彩伪装目标的精准分类与定位。文献[17]使用相同的对抗样本对不同迷彩伪装目标检测模型进行攻击,产生了不同程度的性能下降,然而该文献缺乏对模型机理的进一步研究。文中工作一方面有助于检测模型的改进,另一方面对提升迷彩伪装目标检测的对抗攻击效果有指导意义。

1.2 CNN模型的视觉特征研究

神经科学研究证明,颜色、形状和纹理是人类视觉系统中最重要的三个特征且相互独立[18-23]。由于人类视觉系统是许多计算机视觉算法的黄金标准,研究[7-8]将HVS与CNN进行比较。2018年,Geirhos等人[9]使用风格迁移构建具有冲突线索的数据集,通过实验揭示了在ImageNet上训练的分类模型具有纹理偏重并且提高形状偏重可以提升模型的鲁棒性。此后,研究人员致力于设计提高模型形状偏重的方法[24-25],对任务本身的特征偏重研究较少。直至2022年,文献[10]指出,模型的偏向性是任务相关的。例如,识别同样形状但不同类别的鸟主要依靠颜色,而区分斑马和印有斑马条纹的汽车主要依靠形状。

为了对模型的视觉特征偏重进一步研究,Ge等人[10]提出了常规目标分类模型的特征解耦框架,分别提取数据集的颜色、形状、纹理特征。在提取颜色时将图片变换到频域进行相位加扰再逆变换;在提取形状时,通过分割图像的显著区域得到形状掩膜;在提取纹理时,先将图像的显著区域进行灰度化处理,然后将其切割成多个方块,取其中四个方块拼接成一个新的图像,作为该图像的纹理特征。

解耦并分析迷彩伪装目标检测模型的视觉特征有助于解释模型工作机理、提高模型性能。然而目前还没有针对该问题的研究。现有研究旨在提取单一视觉特征,无法用于迷彩伪装目标检测,具体表现在:如果对全图提取单一视觉特征会导致目标位置信息丢失,如果只对目标提取单一视觉特征会破坏目标的伪装性。

2 针对迷彩伪装目标检测的视觉特征分析

2.1 分析框架

与以往框架不同,所提框架旨在分别消除目标某单一特征并保留其余特征。基于此框架,分别在颜色、纹理、形状方面设计解耦方法。

分析框架如图1所示。首先,在数据集的训练集上训练好模型;其次,对数据集的原始测试集分别解耦颜色、纹理、形状特征得到三个特征解耦测试集;最后,在训练好的模型上分别验证特征解耦测试集。分别计算模型mAP的变化率,并进行归一化处理,用不同特征的占比表示模型的视觉特征偏好。

图1 视觉特征偏好分析框架

2.2 解耦方法

在对不同属性特征进行解耦时应遵循以下原则:一是最大化改变一种属性特征的同时其余属性应尽量保持不变;二是纹理的变化应遵循迷彩的特点和规律,不应破坏其伪装性;三是在迷彩伪装场景下,目标自身结构被迷彩纹理破坏,目标的形状特征体现在目标的外围轮廓。解耦方法将目标分割轮廓视作目标形状,将分割轮廓内的灰度图像视作目标纹理,使用RGB空间描述图像的颜色。

2.2.1 消除颜色

(1)

其中,w1为0.299,w2为0.587,w3为0.114分别表示图像的R,G,B分量加权值。式1为灰度心理学公式,该公式的权重系数根据心理学上关于人类视觉系统对绿色最敏感等结论得出。

2.2.2 破坏纹理

纹理是人类视觉系统的一种感知形式,迄今还没有文字或公式化定义,但诸多研究认为:局部纹理体现在像素及其周围空间邻域的灰度分布,全局纹理体现在局部纹理不同程度的重复性[26-29]。改变纹理的方法包括对像素值的操作(如滤波、仿射变换)和对像素空间关系的操作(如交换、置乱)。像素值的改变可能影响颜色信息,为了保持形状和颜色不变,选择在目标分割轮廓内对像素的空间关系进行操作。此处借鉴像素置乱的思想,对区域内的纹理块进行置乱。

给定图像X,将目标轮廓内的区域切分为若干个N×N像素的纹理块,然后将纹理块的空间位置进行置乱。具体流程如算法1所示,其中n表示尺寸为N×N的纹理块。由于纹理的破坏程度受置乱区域的大小影响,在此进行了不同尺度的区域置乱实验,效果如图2所示。分别设置N为20,10,5,2,1,当N=1时即为像素置乱。

图2 不同尺度的区域置乱

算法1:区域置乱

输入:图像X、图像X的二值化mask、空数组E

2.whilen∈Pdo

3.E=E∪{Xn}

4.end while

5.E=Shuffle(E)

6.whilet∈Eandn∈Pdo

8.end while

2.2.3 改变形状

对目标形状的破坏包括消除目标轮廓和改变目标轮廓为其他形状。在消除轮廓时,尝试使用滤波方法将目标轮廓与背景融合,当滤波区域较小时不能达到明显消除轮廓的效果,当滤波区域较大时,背景与前景边界处的纹理产生了较大改变。因此,研究改变目标形状的方法。

给定一幅宽W高H的图像X,对目标轮廓内区域随机取最大内接圆形或内接矩形,步骤如算法2所示。

算法2:取目标最大内接圆或内接矩形

输入:宽W高H的图像X,X的掩膜mask

输出:目标最大内接圆或内接矩形的掩膜maskc

1.对mask先腐蚀后膨胀,消除尖端和噪声,得到mask

2.对mask'进行轮廓提取

3.随机选择取圆形或取矩形,若取圆形则转步骤4,若取矩形则转到步骤5

4.遍历每个轮廓的所有坐标,取轮廓内点到轮廓的最大值为圆半径,此时的点为圆心。绘制宽W高H的掩膜maskc,令圆形区域内像素值为1,其余为0

5.遍历每个轮廓的所有坐标,使用中心扩散法[30]求四个边界点坐标。绘制宽W高H的掩膜maskc,令矩形区域内为像素值1,其余为0

为解决取内接形状后,内接形状和原始轮廓之间像素缺失问题,考虑以下两种方案:一是用背景纹理覆盖整个目标真实框,二是用背景纹理覆盖目标轮廓。可视化模型输出后,发现方案一产生的定位偏差更小,方案二仍然能检测到原始目标形状,因此使用方案一更合适。在提取背景纹理时,以目标最小外接矩形为单元,以8邻域内的背景单元作为候选区域,如图3所示。

图3 背景候选区域

为了选择与目标颜色相似度最大的背景单元,计算目标区域与背景单元的颜色直方图,使用巴氏系数表示颜色相似度:

(2)

(3)

其中,maskc为内接形状的掩膜,B为使用背景单元M覆盖目标GT框区域所得的图像。

3 实验与分析

本节重点对迷彩伪装目标检测模型的视觉特征进行分析,为了比较迷彩伪装目标与常规目标检测任务在视觉特征偏向性的差异,使用第2节提出的视觉特征偏好分析框架及解耦方法,选取相同的CNN模型在迷彩伪装目标与常规目标两类数据集上进行实验。

3.1 数据集

CAMP[15]是一种公开的迷彩伪装数据集,由2 600张迷彩伪装人员图片及其分割标注构成。该文对原数据集中的分割标注结果用最小外接矩形框重新标注,以用于检测任务。

由于CAMP数据集目标为人,为方便对比,对于常规目标检测的实验,数据集中的目标也应设置为人。SBD数据集对PASCAL VOC数据中没有分割标注的数据重新进行了标注。从SBD数据集中选择类别为人的图片,设置为常规人员检测数据集(以下简称为SBD_PERSON)。实验数据集的类别及样本划分情况见表1。

表1 数据集类别及样本划分

3.2 模型

现有CNN目标检测模型可分为基于候选区域的Anchor-based模型(以Faster R-CNN[31]算法为代表)、基于回归的Anchor-based模型(主要有SSD[32],RetinaNet[33],YOLO系列算法)和Anchor-free的检测模型(包括FCOS[34],CenterNet2[35]等)。实验使用Faster R-CNN,Cascade R-CNN[36],Mask R-CNN[37],SSD,RetinaNet,YOLOv5s,YOLOv7[38],FCOS,CenterNet2共9种通用的CNN目标检测模型。

3.3 评价指标

3.3.1 平均准确度均值

目标检测的结果按是否正确可分为:真正例(True Positive,TP)、真反例(True Negative,TN)、假正例(False Positive,FP)、假反例(False Negative,FN)。由此可计算模型的查准率p和查全率r,计算公式如下:

(4)

(5)

平均准确度均值(mean Average Precision,mAP)反映了模型中各类别检测的平均精度的均值,其计算如下:

(6)

其中,Q是数据集中包含的类别数,AP指某一类别的平均精度,AP计算如下:

(7)

3.3.2 mAP变化率

不同模型训练得到的初始mAP值不同,为了便于分析,使用mAP变化率作为评价指标。将mAP变化率定义为视觉特征解耦后mAP值的变化量占原始mAP值的比率,其计算如下:

(8)

3.4 实验方法

3.4.1 区域置乱的尺度选择

为比较不同置乱尺度下的纹理特征破坏程度,使用颜色直方图衡量颜色相似度,使用SSIM指标衡量纹理相似度。给定图像X、经纹理破坏后的图像Y,SSIM指标计算如下:

(9)

其中,μX,μY分别为X,Y的平均值,σX,σY,σXY分别为X的标准差、Y的标准差、XY的协方差。计算不同尺寸N下纹理块置乱图与原图在纹理和颜色特征的相似度,结果见表2。置乱后的测试集与原始测试集的颜色相似度始终较高,SSIM值随N逐渐减小,这说明颜色特征的统计量不受置乱区域的大小影响,纹理特征的破坏程度随N的减小而增大。故取N=1(像素值乱)的区域置乱用于特征解耦方法中纹理特征的破坏。

表2 不同尺度纹理置乱图与原图相似度

3.4.2 解耦方法的有效性验证

文献[10]制作了在人类视觉上分别具有颜色偏重、形状偏重和纹理偏重的三个分类数据集并且对每个数据集分别训练了颜色、形状和纹理三种特征编码器。为验证所提解耦方法的有效性,使用所提解耦方法对不同属性偏置数据集分别解耦其对应偏置属性的特征。将解耦后的数据输入特征编码器中,与将原始图像输入特征编码器输出的准确率进行比较,结果见表3。括号外和括号内的数字分别表示不使用解耦方法和使用解耦方法后的准确率。

表3 特征解耦数据与原始数据在视觉特征编码器的表现

由表3知,在特定属性偏置数据集上使用视觉特征解耦方法,可以消除对应属性的特征,导致该属性特征编码器失效,但不影响其他属性特征编码器的性能。因此,提出的特征解耦方法能够消除数据集某一属性特征,同时不改变其他属性特征。

3.4.3 方法对比

文献[10]中提取图像单一特征的解耦方法仅适用于常规目标的分类任务,而该文提出的分析框架及方法在分类任务和检测任务、常规场景和伪装场景中均可使用。为比较两种方法的效果,在常规目标的分类任务上进行分析。使用文献[10]提供的数据集,在数据集原始图像上训练好模型,分别将使用文献[10]中方法所得图像和使用文中方法所得图像输入模型,模型准确率如表4所示。解耦方法为表格第一列,方法中是否保留颜色、纹理、形状特征示于表格第二至四列,Ds1,Ds2,Ds3分别为颜色偏置数据集、纹理偏置数据集、形状偏置数据集。

表4 不同解耦方法对模型准确率的影响比较

文献[10]提取单一特征输入模型,模型在特征解耦数据的准确率越高表示在该特征偏好越强。文中方法消除图像的单一特征,模型准确率越低表示在该特征的偏好越强。由表4知,当使用文献[10]中方法时,对数据集Ds1,模型的准确率均保持较低水平,难以比较模型的偏向性。对Ds2,模型对纹理特征有较强偏好,但对颜色特征和形状特征的偏向性难以区分;对于Ds3,模型在颜色和形状特征的偏向性难以区分。使用文中方法,模型在数据集上对颜色、纹理、形状特征的偏向性区分更加明显。

3.5 实验结果

在CAMP数据集上应用所提视觉特征解耦方法,效果如图4所示。将原始测试集与特征解耦后的测试集输入训练良好的目标检测模型,检测结果见表5,括号外数据为mAP值,括号内数据为mAP变化率。

表5 CAMP数据集特征解耦后模型mAP

图4 特征解耦效果

由表5知,对于CAMP数据集,表中9个CNN目标检测模型皆对纹理特征更为敏感。当消除颜色特征时,模型的mAP变化率范围为2.1%～9.8%,均值为4.5%;破坏纹理特征后,模型的mAP变化率范围为55.9%～86.6%,均值为74.1%;改变形状特征后,模型的mAP变化率范围为26.1%～59.6%,均值为40.2%。取三种特征解耦数据上的mAP变化率均值,归一化处理后,可得模型在CAMP数据集上的视觉特征偏向性为:纹理(62%)>形状(34%)>颜色(4%)。

在SBD_PERSON上进行同样的实验,实验结果见表6。由表6知,对于SBD_PERSON数据集,模型皆对形状特征更为敏感。消除颜色后,模型的mAP变化率均值为8.5%;破坏纹理后,模型的mAP变化率均值为42%;改变形状后,模型的mAP变化率均值为68.4%。取三种特征解耦数据上的mAP变化率均值,归一化处理后,可得模型在SBD_PERSON数据集上的视觉特征偏向性为:形状(58%)>纹理(35%)>颜色(7%)。

基于上述研究结果,得出如下结论:尽管不同模型对不同视觉特征的敏感程度略有不同,总体来讲,现有基于CNN的通用目标检测模型在学习迷彩伪装目标的特征时具有较强的纹理偏好,在学习常规目标的特征时具有较强的形状偏好。

同时,相对于形状和纹理特征,颜色特征对二者的检测影响较小。因此,迷彩伪装目标的检测任务不应与常规目标的检测任务一概而论,针对迷彩伪装目标检测的模型改进可以从设计特征网络使之捕捉更精细的纹理特征、使用纹理增强的方法进行数据处理等方面入手。