基于时空卷积特征记忆模型的坦克火控系统视频目标检测方法

2020-11-24戴文君常天庆褚凯轩张雷郭理彬

兵工学报 2020年9期

戴文君，常天庆，褚凯轩，张雷，郭理彬

(陆军装甲兵学院兵器与控制系，北京 100072)

0 引言

目标检测技术是计算机视觉领域的一个重要研究内容。近年来，随着深度学习的不断发展，基于深度学习的目标检测技术取得了快速发展，并在交通、工业制造、医学影像以及国防等领域得到了广泛应用[1-3]。目标检测通常可以分为图像目标检测与视频目标检测，目前图像目标检测技术发展较为迅速，而视频目标检测仍然是一个极具挑战性的问题。一方面，视频图像通常会受到运动模糊、衍射模糊或散焦等因素的影响，导致图像画面质量低劣或目标不清晰，给目标检测带来极大的困难；另一方面，视频目标检测不仅要求其能够准确检测出每一帧图像中的目标，而且要保证检测结果的时序一致性。尽管存在这些困难，但由于视频中包含更丰富的时空信息，如果能够充分利用这些时空信息，则视频目标检测能够取得比图像目标检测更好的检测效果。

坦克火控系统能够获取战场态势并控制武器瞄准与发射，对战场目标搜索以及火力打击效果具有重要的影响[4]。面向坦克火控系统的目标检测技术能够辅助坦克乘员快速准确发现敌方目标，使我方坦克实现“先敌发现、先敌打击、先敌摧毁”，从而取得战场主动权。目前，目标检测技术还没有应用于坦克火控系统，但相关研究技术一直在进行中，并且主要集中于图像目标检测领域，基于视频的目标检测研究较少[5-6]。

随着深度学习在图像目标检测领域取得突破性的成就，以及大规模视频目标检测数据集ImageNet VID[7]的建立，基于深度学习的视频目标检测引起学术界的广泛关注，国内外学者提出了多种基于深度学习的视频目标检测方法。目前，视频目标检测方法主要分为2类：图像目标检测与后处理相结合的视频目标检测方法，以及基于特征流的视频目标检测方法[8-10]。图像目标检测与后处理相结合的视频目标检测方法的思想，是将多个视频帧的图像目标检测结果按照时间序列连接到一起，形成一个管道并通过跟踪或其他方法对检测结果进行修正，提高视频目标检测的精度，其代表有深度卷积神经网络(T-CNN)[11]、检测与跟踪(D&T)[12]等。常用的后处理办法有多上下文抑制、目标跟踪以及Seq-NMS[13]等。基于上述思路的视频目标检测方法在ILSVRC 2016视频目标检测竞赛中大量涌现，极大地提高了视频目标检测的精度，促进了视频目标检测技术的发展，但这种方法存在对视频中的时序信息利用不足、计算流程较为复杂、计算量较大以及检测精度依赖于后续处理方法的性能等不足。针对上述方法的局限性，研究人员希望直接利用视频图像中的时空信息进行目标检测，并基于这种思想提出了基于特征流的视频目标检测方法。FlowNet方法[14]利用卷积神经网络(CNN)实现了视频帧间的光流信息预测，与传统的光流预测方法相比，FlowNet方法沿袭了CNN在特征提取方面的优势，具有较好的学习能力，并能够与基于CNN的图像目标检测方法相融合，从而构建端到端的视频目标检测模型。文献[15]在FlowNet方法基础上，将多帧视频图像的运动信息聚合到当前帧，通过检测子网络对聚合后的卷积特征进行目标检测，极大地提高了视频目标检测的精度。FlowNet方法与特征聚合机制能够有效地提高视频目标检测的精度，但通过光流网络计算多帧的光流然后进行特征聚合的方法存在参数较多、计算量较大的问题，导致目标检测的实时性较差。受循环神经网络(RNN)[16]的启发，研究人员将长短期记忆网络(LSTM)[17]及门控循环单元(GRU)[18]与卷积操作相结合，提出了卷积长短期记忆网络(ConvLSTM)[19]与卷积门控循环单元(ConvGRU)[20]。ConvLSTM与ConvGRU具有记忆特性，能够学习视频中的时空信息以及能同时处理多个目标框，适合基于时序的视频目标检测任务。文献[21]在单次多盒检测器(SSD)[22]的基础上结合ConvLSTM，提出一种基于时空一致性的视频目标检测方法，通过ConvLSTM处理每帧视频图像并构建多帧视频图像之间的关联误差损失函数，强化相邻视频帧的检测结果在时序上的一致性，有效地增强了视频目标检测的鲁棒性。与ConvLSTM相比，ConvGRU将ConvLSTM中的遗忘门与输入门合并为更新门，同时还混合了细胞状态与隐藏状态，结构相对简单，在训练数据较大情况下，ConvGRU能够节省更多的时间。文献[23]在ConvGRU基础上构建了时空记忆模块，将距离较远的视频图像信息传递至当前帧，更充分地利用了视频中的时序信息，最后在融合后的时空卷积特征上应用检测子网络实现对目标的精确检测。

上述方法在图像目标检测的基础上，根据视频中的时序信息进行建模或其他后处理办法，有效地提高了视频目标检测的精度，先后在ImageNet VID等通用视频目标检测数据集上取得了较好的效果，极大地推动了视频目标检测技术的发展。然而，针对复杂战场下面向坦克火控系统的视频目标检测任务，直接使用上述方法的思路并不能取得较好的检测效果。一方面，战场上的目标与坦克装甲车辆之间可能存在较快的相对运动速度，导致相邻视频图像之间的目标位置偏差较大，对视频目标检测结果的一致性和检测精度有较大的影响；另一方面，由于战场态势瞬息万变，对视频目标检测的实时性提出了较高要求。此外，由于复杂的地面环境以及坦克火控系统具有较远的观测打击距离，使得目标在视频图像中所占像素比例较小且容易产生遮挡、形变，给视频目标检测带来了一定的挑战。

因此，本文从实际需求出发，针对复杂战场环境下的坦克火控系统视频目标检测任务，提出一种时空卷积特征校准机制，将其与ConvGRU相结合构建时空卷积特征记忆模型，并将该模型与结合可形变卷积网络(DCN)[24]的ResNet-101网络[25]及位置敏感感兴趣池化(PS ROI pooling)[26]等相结合，构建一个端到端的视频目标检测模型，从而实现对地面战场视频目标的自动检测，对提升坦克火控系统的智能化、自主化以及信息化条件下的作战能力具有重要的意义。

1 基于时空卷积特征记忆模型的目标检测

1.1 整体架构

图1 本文方法整体框架Fig.1 Framework of the proposed method

为沿着时间轴方向融合视频帧的信息，本文在ConvGRU的基础上提出时空卷积特征记忆模型，并通过该模型传递和融合多帧视频图像的目标信息。具体操作步骤如下：在t时刻，首先通过特征提取网络获取当前视频帧的卷积特征Ft；然后将Ft以及相邻帧的卷积特征Ft-1、Ft+1与其时空卷积特征Mt-1、Mt+1送入时空卷积特征记忆模型，得到当前帧的时空卷积特征Mt，其中Mt-1、Mt+1分别融合了t时刻前K帧与后K帧的信息，即Mt共融合了2K+1帧视频图像的信息；最后，将Mt送入结合DCN的PS ROI pooling，再通过后续的卷积层以及损失函数等实现对视频目标的自动检测。

1.2 可形变卷积

常用的VGG-Net[27]、ResNet[25]、Google-Net[28]等深度CNN中只采用固定几何结构的卷积核，在卷积操作过程中局限于几何变换，因此通常通过大规模数据训练来提高网络对形变目标的泛化能力。文献[24]针对这一问题提出DCN，DCN是在CNN基础上通过给卷积采样点增加一个偏移量，使其能够动态调整感受野的区域并根据目标的形状变化优化采样点的位置，从而提高对形变目标的特征提取能力。此外，DCN还能够与检测子网络中的ROI pooling或PS ROI pooling相结合，提高检测的精度，且模型的大小与计算量并没有明显提升。在复杂的战场环境中，由于地形、目标成像角度以及遮挡等因素的影响，通过坦克火控系统观瞄分系统获取的视频中目标形状变化多端。因此，本文通过采用结合DCN的ResNet-101网络提取卷积特征，并在检测子网络中使用结合DCN的PS ROI pooling来提高目标检测的精度。此外，为提高时空卷积特征的融合效果，在本文提出的时空卷积特征记忆模型中使用了DCN计算相邻视频帧中目标位置的偏移量。

在标准的二维卷积下，要计算输出卷积特征图Y中p0位置的值，需要对输入卷积特征图X进行如下操作：

(1)

式中：R为感受野；pn为R中的某一位置，n=1，2，…，N，N=|R|；ω为权重。对于DCN，R受偏移量Δpn的影响，其卷积过程的计算公式如下：

(2)

在上述操作过程中，偏移量Δpn通过将额外的卷积层应用于包含卷积特征图X的激活张量中获得，并且在给定激活张量的特征通道中共享权重。所有偏移量Δpn组成的偏移量图分辨率与X分辨率相同。此外，由于Δpn通常为分数，通常使用双线性插值来实现上述操作。

对于深度CNN，一般而言，网络越深，其具有的平移旋转不变性越强，从而可以提高目标分类的鲁棒性。然而，对于目标检测问题，对目标的精确定位任务要求检测模型对位置信息具有良好的感知能力，过度的平移旋转不变形能力会降低模型的定位精度。针对该问题，文献[26]在ROI pooling基础提出了PS ROI pooling，其核心思想是在特征聚集时引入位置信息，从而改善检测子网络对目标位置信息的敏感程度。对于一个大小为w×h、左上角坐标为q0的感兴趣区域，首先将其划分为k×k个网格，每一个网格称为一个bin；然后在每一个bin中进行ROI pooling或PS ROI pooling，其输出为特征图Y.在进行PS ROI pooling之前，首先需要将输入的卷积特征图转化为每个目标类型的k2位置敏感得分图，每一类位置敏感得分图表示为Xi,j.对于第i,j个bin，在Xi,j上进行PS ROI pooling，有

(3)

式中：ni,j为该bin中像素点的数量；q枚举了该bin中的所有位置；q0为左上角坐标。在结合DCN的PS ROI pooling过程中，偏移量{Δq|0≤i,j≤k}被添加到该bin中位置，其计算公式为

(4)

1.3 时空卷积特征记忆模型

时空卷积特征记忆模型由ConvGRU以及时空特征校准机制组成，如图1中间的虚线框内所示。ConvGRU能够传递视频帧间信息，但目标的快速移动等情况会导致帧中的目标空间位置具有较大变化，如果没有进行时空卷积特征校准，则融合后的时空卷积特征中目标特征的位置可能出现偏移甚至丢失等情况，导致目标定位失败、误检甚至漏检，降低目标检测的精度。

1.3.1 时空卷积特征校准机制

对于Ft中一个坐标为p0的卷积特征单元Ft(p0)∈Rc×1×1，在Ft-1中对应的卷积特征单元为Ft-1(p0)，Ft与Ft-1聚合后得到的Ft,t-1中所对应的卷积特征单元为Ft,t-1(p0)∈R2c×1×1.在Ft,t-1中利用DCN得到Ft,t-1的偏移量{Δp}，如(2)式所示。{Δp}能够表示部分Ft与Ft-1中对应卷积特征单元之间的位置偏差。然后根据Ft(p0)和Ft-1中(p0+Δp0)的附近区域{p0+Δp0+p|p∈Ω}中卷积特征单元的关系计算变换矩阵Γ，其中Ω∈((-λ,-λ),…,(λ,λ))为以(p0+Δp0)为中心的正方形网格。变换矩阵Γ的计算公式为

(5)

(6)

1.3.2 卷积门控循环单元

图2 ConvGRU单元结构图Fig.2 Framework of ConvGRU

(7)

(8)

(9)

(10)

2 实验及结果分析

2.1 实验设置

2.1.1 战场视频目标检测数据集

针对坦克的作战任务，分析其主要火力打击对象并构建相应的战场视频目标检测数据集——TKHK VID.坦克作战过程中主要火力打击的目标可以分为3大类：1)坦克、步兵战车和自行火炮等作战车辆。这类目标具有机动性强、伪装性能好、对坦克有较强的毁伤能力等特点，是坦克火控系统主要的检测对象。此外，战场上的其他普通车辆也是重点检测对象。2)作战人员。人员是坦克作战过程中不可忽视的对象，相对车辆而言，这类目标体积小，且往往身着与战场环境颜色相近的迷彩服，伪装效果强，难以被发现。3)直升机、无人飞行器等低空飞行目标。该类目标在低空中很容易发现我方目标，可以直接攻击我方坦克装甲车辆或引导敌方武器对我方目标进行火力打击，是坦克主要的低空威胁力量。

确定需要检测的目标类型后，本文通过实地拍摄以及互联网下载等多个渠道获得相关的视频，并按照ImageNet VID数据集的格式对其进行标注，构建TKHK VID数据集。目前，TKHK VID数据集含有坦克、步兵战车、火炮、普通车辆、作战人员、直升机以及无人机等7类目标，共有1 025段视频，总计112 187幅图像，其中每段视频最少有43帧图像，最多有487帧图像。这些视频包含丛林、雪地、荒漠、草地以及城市等多种作战场景以及各类目标的多种型号，并考虑了运动、遮挡、烟雾、气象、姿态等多种情况。与ImageNet VID数据集相比，TKHK VID数据集中的目标尺度较小，且大量存在形变、尺度变化、遮挡以及运动模糊等情况。为更好地进行训练以及测试，本文将TKHK VID数据集划分为训练集、验证集以及测试集，分别为650、100、275段视频。目前，TKHK VID数据集中的目标类型及样本数量还不够丰富，后期将对其进行补充完善。

2.1.2 实验参数设置

本文所有实验均在核心配置为CPU:i9-10900X @3.7 GHz/GPU:RTX 2080Ti4的图形工作站上进行。特征提取网络采用了结合DCN的ResNet-101网络，其中，ResNnet-101网络的res5a、res5b以及res5c等卷积层采用DCN，卷积核的大小为3×3.本文方法的检测子网络与R-FCN中的检测子网络相似，采用了相同的损失函数来训练网络，不同点在于本文使用结合DCN的PS ROI pooling代替原有的PS ROI pooling.使用训练好的结合DCN的R-FCN初始化网络，然后在TKHK VID数据集中进行端到端的训练。训练过程中，所有输入图像的最短边调整为600像素，结合DCN的PS ROI pooling的卷积核大小为7.对于建议区域提取网络(RPN)，本文使用9个锚点和300个建议区域。为降低视频序列中的冗余，本文通过均匀的步幅在每5个视频图像中采样1帧来形成新的视频序列。同时，为减少计算量，设置时空卷积特征的通道数为512.在训练过程中，使用4个RTX 2080Ti GPU进行90 000次迭代训练，其中前60 000次和后30 000次迭代训练的学习率分别是0.001和0.000 1.在测试过程中，为计算加速以及避免GPU内存问题，首先提取视频帧的卷积特征以及计算相邻视频帧间的变换矩阵并将其缓存到内存中，然后将这些信息提供给时空卷积特征记忆模块，其中K设置为5，并使用标准的左右浮动填充来处理采样边界情况。此外，本文还采用了Seq-NMS以提高相邻视频帧检测结果的平滑性。

2.2 在TKHK VID数据集上的实验

2.2.1 检测精度与速度分析

为验证本文方法的有效性，将本文方法与以下4种目标检测方法进行实验对比：1)R-FCN[26].R-FCN是一种经典的图像目标检测方法。在R-FCN基础上，结合DCN对ResNet-101特征提取网络以及PS ROI pooling进行改进，能够有效地提升目标检测的精度。2)FGFA[15].FGFA是一种基于光流网络的视频目标检测方法，该方法通过光流网络传递视频信息并在聚合后的卷积特征上进行目标检测。3)D&T[12].该方法将相关滤波目标跟踪方法与R-FCN相结合，其损失函数由目标跟踪损失以及目标检测损失构成。4)MANet[29].该方法在一个统一的框架中结合了像素级校准以及实例级校准，其中，像素级的校准可以对细节的运行进行建模，而实例级的校准则更注重全局的运动，使得对遮挡的情况更加鲁棒。上述4种对比方法中，R-FCN为静态图像目标检测方法，根据单帧图像进行目标检测，其他方法利用了视频帧之间的联系来建立视频目标检测模型。由于本文方法采用的特征提取网络以及检测子网络均结合DCN，为保证对比实验条件的一致性，上述对比方法的特征提取网络以及检测子网络也结合DCN对其进行改进。目标检测评估指标为平均精度均值(mAP)和帧率(FPS)。

表1所示为本文方法与4种对比方法在TKHK VID数据集中的目标检测结果，其中下划线表示最佳的实验结果。

表1 本文方法与4种对比方法的实验结果Tab.1 Experimental results of the proposed method and other four methods

从表1中可以看出，在检测速度方面，R-FCN方法取得了最快的检测速度，达到10.3帧/s.本文方法为6.0帧/s，低于R-FCN和D&T方法，但高于FGFA以及MANet方法。从检测精度方面来看，检测速度最快的R-FCN与其他4种利用视频帧间的联系建立目标检测模型的方法相比，其mAP最低，只有69.6%，表明利用视频中丰富的信息能够有效地提高视频目标检测的精度。与FGFA、D&T以及MANet等3种方法相比，本文方法取得mAP最高，达到76.9%，比MANet高0.5%.对于各类目标的平均精度(AP)，本文方法均高于R-FCN、FGFA以及D&T等方法，与MANet方法的结果较接近，其中，MANet方法在普通车辆、作战人员以及无人机等3类目标的AP略高于本文方法，其他4类目标的AP值低于本文方法。这是因为本文方法与MANet方法均对视频帧间传递的时空卷积特征进行调整，使得当前帧的时空卷积特征更好的融合了多个相邻帧中的信息，提高了目标检测的精度。

2.2.2 模型分解实验

由于本文在融合2K+1帧视频图像信息的时空卷积特征上进行目标检测，为验证来自相邻帧的信息能否有效地提升目标检测的精度，分析支持帧数K对检测精度的影响。图3和图4所示为测试阶段不同K值对mAP以及FPS的影响。

图3 支持帧数K对mAP的影响Fig.3 Influence of K values on mAP

图4 支持帧数K对FPS的影响Fig.4 Influence of K values on FPS

从图3和图4中可以看出，本文方法在TKHK VID数据集上取得的mAP以及FPS均优于MANet方法。当K=1即只使用与当前帧相邻的两个视频帧时，本文方法取得了75.6%的mAP，FPS为10帧/s，而MANet方法取得了mAP为75.3%，FPS为9.4帧/s，均低于本文方法。随着K的不断增大，本文方法在TKHK VID数据集上取得的mAP不断增大，但取得mAP增加的速度在不断降低，表明本文方法能够有效地利用多个相邻帧的信息，且与当前视频帧距离越远的视频帧对当前帧的目标检测效果提升越小。对于MANet方法，当K增大时，mAP的增长速度低于本文方法，且当K增大到一定的值后mAP并不再增大，从而证明了本文方法比MANet方法能够更好地利用更多的视频帧信息。另一方面，K的不断增大也使本文方法以及MANet方法的FPS不断降低，但FPS降低的速度低于MANet方法。最后，综合考虑计算量与检测效果，本文设置K=5，即利用视频图像It以及与其前后相邻的10帧视频图像实现对目标的检测，此时的FPS约为6帧/s，mAP为76.9%.

本文方法使用了DCN、时空卷积特征校准机制以及Seq-NMS等多种策略，为进一步验证本文方法的性能以及各策略的贡献度，在TKHK VID数据集中进行模型分解实验，测试模型的其他参数与2.2.1节中使用的模型保持一致。模型分解的实验结果如表2所示。

表2 模型分解实验结果Tab.2 Experimental results of model decomposition

注：*与#分别表示ResNet-101以及PS ROI pooling；与分别表示使用和不使用。

从表2中可以看出，本文使用的多种策略均对视频目标检测精度有一定的提升：使用结合DCN的ResNet-101以及PS ROI pooling能够提升目标检测模型对空间信息的建模能力，其中单独使用这两种策略能够分别使目标检测精度提升1.5%和1.3%，共同使用两种策略能够使目标检测精度提升2.4%；使用本文提出的时空卷积特征校准机制，能够更好地融合多个相邻视频帧中的信息，目标检测精度提升了1.8%；使用Seq-NMS能够使目标检测精度提升1.7%.

表3～表6分别展示了本文方法与R-FCN方法对TKHK VID数据集中视频序列1～4的测试结果。视频序列1中存在2个坦克目标，其中1辆坦克静止不动，另外1辆坦克从左向右快速运动。由于目标快速运动引起的大量灰尘造成目标遮挡以及目标图像尺寸较小等情况，在第38帧与第59帧中R-FCN方法漏检了一个目标。视频序列2中有1辆运动的步兵战车，目标尺寸出现较大变化，本文方法与R-FCN方法均能检测到目标，但R-FCN方法的检测精度略低于本文方法。视频序列3中为2个直升机目标，与R-FCN方法相比，本文方法能够准确地检测出所有的目标，且具有较高的置信度。视频序列4中有1辆从左向右运动的步兵战车，目标尺寸较小且存在形变以及遮挡，R-FCN方法存在部分漏检，而本文方法能够准确地检测该目标。

表3 本文方法与R-FCN方法在视频序列1中的检测结果Tab.3 Detection results of the proposed method and R-FCN method on Video 1

表4 本文方法与R-FCN方法在视频序列2中的检测结果Tab.4 Detection results of the proposed method and R-FCN method on Video 2

表5 本文方法与R-FCN方法在视频序列3中的检测结果Tab.5 Detection results of the proposed method and R-FCN method on Video 3

表6 本文方法与R-FCN方法在视频序列4中的检测结果Tab.6 Detection results of the proposed method and R-FCN method on Video 4

2.3 在ImageNet VID数据集上的实验

除了在本文构建的TKHK VID数据集上进行实验外，还在通用数据集ImageNet VID上对本文方法进行测试。ImageNet VID数据集有30类目标，共5 354段视频，其中训练集、验证集以及测试集中所包含的视频段数量分别为3 862、555和937.采用的对比方法为FGFA、D&T以及MANet3种方法。由于ImageNet VID数据集中的数据多于TKHK VID数据集，本文方法在训练过程中使用4个RTX 2080Ti GPU进行120 000次迭代训练，其中前80 000次和后40 000次迭代训练的学习率分别是0.001和0.0 001，其余参数保持不变。表7展示了4种方法在TKHK VID数据集上的测试结果。从表7中可以看出，本文方法取得的mAP达到78.3%，优于FGFA以及D&T方法，与MANet方法基本持平。从各方法取得的单个目标类型AP来看，本文方法取得部分目标类型的较高，如熊、汽车等，但也存在部分目标类型的AP较低，如老虎、斑马等，但整体的检测效果最佳。相对于TKHK VID数据集，ImageNet VID数据集中的目标尺寸较大，因此与表1相比，表7中各方法取得的mAP较高。