基于Transformer和位置约束的端到端多目标追踪算法

2023-06-26雒江涛

重庆邮电大学学报(自然科学版) 2023年3期

吴悦,雒江涛,张攀,任媛

(1.重庆邮电大学通信与信息工程学院,重庆 400065;2.重庆邮电大学电子信息与网络工程研究院,重庆 400065)

0 引言

多目标追踪(multi-object tracking,MOT)是计算机视觉领域的一项关键任务,广泛应用于公共安全、动作识别、体育视频分析、老年人护理和人机交互等领域。MOT的目的是检测视频中目标的轨迹,如车辆、动物和行人的轨迹等。一般来说,一个典型的MOT任务包括目标检测和数据关联两个阶段。目标检测是为了检测和定位对象,而数据关联的目的是利用特征来关联这些对象。由于特征的多样性,如何为数据关联提取更具代表性的特征对MOT系统来说是一个挑战。

最常用的特征是外观特征。为了提取合适的外观特征,有很多高精度但复杂的工作集中在采用重识别(re-identification,re-ID)网络[1-4]学习外观特征用于后期MOT任务中的目标关联[5-9]。另一种更简单的提取和利用外观特征的方法是在一个联合的网络中共同学习检测器分支和重识别分支[10-13]。根据文献[11]所提出的工作,基于锚的检测器[14-17]有多个相邻的锚,只要它们检测框的交并比(intersection over union,IoU)足够大,就可能在re-ID分支中被估计为同一个ID,这为训练引入了严重的模糊性。因此,无锚检测器[18-20]被引入作为联合追踪系统的检测模块。然而,这些在所谓的无锚方法中被提取的点依然可以被视为锚点。

Transformer架构[21]在计算机视觉中被引入,因其有能力并行处理序列数据,并且可以处理更大的感受野。DETR[22]提出了一个无锚的端到端目标检测系统,文献[23]提出了它的改进模型,称为可变形-DETR(deformable-DETR),在目标检测上得到了不错的效果。Transtrack[24]和Trackformer[25]使用时间特征和目标查询特征向量作为数据关联的外观特征,在MOT上取得了良好的效果。然而,查询特征向量作为目标检测器DETR的一个组成部分,原本任务只是学习不同类别(如,猫和狗)之间的不同特征,而无法学习到同一类别(如,人和人)内的相似特征的差异度,因此用查询特征向量来关联对象会使ID切换(ID switch,IDS)更大。

Transformer无法利用查询特征向量直接代表目标的外观特征,而额外地引入重识别网络提取外观特征又不能真正利用到无锚Transformer的优势,因此,本文提出了一个端到端的多目标追踪系统(tracker Transformer,TKTR)。TKTR利用从目标查询特征向量中学习到的参考点对目标进行空间位置约束,而不是利用目标查询特征向量直接代表外观特征或另外引入一个re-ID网络得到外观特征。首先,检测模块采用可生成参考点的可变形Transformer。与原来的可变形-Transformer相比,改进后的可变形Transformer在数据关联模块中为空间位置约束额外生成并输出了二维参考点。其次,对于关联模块,参考点被用来识别目标的中心点,并利用中心点通过分类学习任务来约束目标的空间位置。然后,IoU被用来进一步约束候选目标间的距离。最后,根据每一帧得到的目标位置和对应的ID,生成最终的目标轨迹。

总的来看,本文提出的系统具有以下两个特点。

1)端到端的网络结构。本文将目标检测器和特征提取器合并为一个统一的结构。

2)简单但有效的空间位置约束。TKTR利用学习到的参考点去约束候选目标的空间位置,从而有效地完成追踪任务。

实验结果证明,TKTR利用Transformer的查询特征向量对目标进行位置约束,提高了追踪精度。与其他先进方法相比,TKTR在多目标追踪准确度(multi-object tracking accuracy,MOTA)指标上取得了有竞争力的结果。相较于其他利用目标查询特征向量来直接表示外观特征的模型来说,TKTR在ID切换的指标上有所降低。

1 可生成参考点的可变形Transformer

1.1 原始可变形Transformer

原始可变形Transformer架构[23]由N个编码器和M个解码器组成。其中,编码器对输入的图像特征进行编码以获得编码特征矩阵,解码器则对编码特征矩阵进行解码以获得解码特征。将此两项通过前馈网络后,即能计算出目标的类别和检测坐标。

可变形注意力机制[23]被用来将全局特征图转化为只关注图中稀疏而有意义的位置。可变形注意力机制的具体过程可以写为

(1)

1.2 可生成参考点的可变形Transformer

与原始可变形Transformer相比,改进后的Transformer额外生成并输出参考点,这些参考点在后续的数据关联模块中被用来约束目标的空间位置,如图1所示。

图1 可生成参考点的deformable Transformer结构Fig.1 Illustration of the improved deformable Transformer architecture

查询特征向量q经过最后一层解码器中的多尺度注意力以及多头可变形注意力学习到了具有编码特征意义的特征向量v,经过多层感知机(multi-layer perceptron,MLP),从高维的隐层特征向量得到二维向量。然后,经sigmoid激活函数生成代表目标检测框中心的二维参考点(xr,yr)。即：

(xr,yr)=sigmoid(MLP(v))

(2)

(2)式中：MLP代表由线性层和激活函数组成的多层感知机,并且查询特征向量通过最后一层线性层即被降维到二维参考点。在后续的数据关联中,利用标签中的目标ID信息作为监督信号进一步学习。

2 基于位置约束的追踪方法

基于上述可生成参考点的可变形Transformer生成的参考点,本文设计了基于参考点和位置约束追踪方法TKTR,包括3个子模块：提取特征的骨干网络模块、采用可生成参考点的可变形-Transformer结构的检测模块,以及通过位置约束和IoU匹配目标的数据关联模块。该模型的框架图如图2所示。

图2 TKTR结构图Fig.2 Architecture of TKTR

2.1 骨干网络模块

根据DETR[22],本文利用ResNet-50[26]作为骨干网络,来提取初步的图像帧特征。为了进行多尺度检测,在输入骨干网络前,应针对图像帧进行随机尺度变换。因此,本文采用ResNet第3层到第5层的特征图,并将第5层的特征经过3×3卷积核的卷积运算,步长为2,从而通过特征金字塔获得第4层的特征。即本文中的特征金字塔是由4层不同尺度的特征组成。

特征金字塔中有4层不同尺度的特征,为了区分不同特征层中具有相同坐标的特征点,本文通过网络学习一个线性的位置编码。用P表示特征点在特征图上的位置,d表示位置编码的维度。多尺度特征点的位置编码可以描述为

(3)

(3)式中：2i代表奇数维度,2i+1代表偶数维度;vLE(·)表示学习到的第l层的层级特征向量,通过该层级特征向量便能区分特征金字塔中不同特征层上同一位置的特征点;σ代表波长,值为10 000。

2.2 可生成参考点的可变形Transformer检测模块

检测模块利用1.2节提出的可生成参考点的可变形Transformer来检测目标。在优化网络参数的过程中,检测损失Ldet的计算式为

Ldet=WbboxLbbox+WgIoULgIoU+WmaskLmask

(4)

(4)式中：Lbbox表示检测检测框损失;LgIoU表示广义交并比(generalized intersection over union,GIoU)[27]损失;Lmask表示掩码损失;Wbbox表示检测框的系数;WgIoU表示GIoU的系数;Wmask表示掩码的系数。

检测框损失Lbbox定义为

(5)

损失LgIoU的计算方法为

(6)

掩码损失Lmask由焦点损失计算,得

(7)

2.3 基于位置约束的数据关联模块

在基于检测的追踪算法中,检测到每一帧的目标后,正确地将其与前一帧和后一帧进行关联,是数据关联模块的主要任务。本文利用位置约束和IOU来进行数据关联。其中,位置约束将相邻两帧中具有相同ID的目标的参考点的距离尽可能缩小到最短。

训练阶段中,TKTR作为端到端的多目标追踪系统,由可生成参考点的可变形Transformer生成的参考点不仅在检测模块中利用损失函数进行学习,更在数据关联模块中利用目标的真实ID进行训练,以此得到具有ID特征的参考点特征。具体而言,由于行人行走的速度较为缓慢,故本文假设,两帧之间的参考点越近,则两个目标行人属于同一个ID的可能性就越大。因此,在关联模块中,本文将ID分配问题转换为ID分类任务,即利用标签中的ID号作为监督信号,通过学习分类任务,将参考点映射到唯一的ID上。ID的损失Lid可计算为

(8)

TKTR系统的总损失L为

L=WdetLdet+WidLid

(9)

(9)式中：Ldet为检测模块损失;Lid为关联模块损失;Wdet和Wid表示检测和关联模块的系数。

在推理阶段,由于缺乏ID标签,本文没有利用生成得到的ID直接作为目标的ID,而是利用具有位置约束的空间特征来关联目标。通过由目标查询特征向量学到的参考点之间的余弦相似度来衡量参考点距离,得到第一次匹配结果Mmatch1。Mmatch1表达式为

Mmatch1=assign(cosθik)

(10)

(10)式中：i和k分别表示参考点在帧t和帧t+1的索引;θik表示参考点i和参考点k在映射到同一平面后的角度;assign(cosθ)表示利用匈牙利算法[28]通过余弦相似度分配对象。而后进一步利用相邻帧中两个目标检测框的交并比进行第二次匹配来得到空间特征相似度最大的匹配结果。

3 实验及分析

为了验证本文所提方法的有效性,本节首先将在3.1中简要介绍本文使用的数据集,然后在3.2中比较了本文所提方法与其他一些先进方法,最后在3.3中进行消融性研究。

3.1 数据集与实验细节

本文利用CrowdHuman[29]和前二分之一的MOT17[30]训练集作为训练集。

CrowdHuman包含15 000张图像用于训练、4 370张图像用于验证以及5 000张图像用于测试。共有47万个人类实例,每张图片有23个人。

MOT17包含7个训练序列和7个测试序列。由于该数据集没有提供官方的验证集分割,所以本文将MOT17训练集分成两部分：①用于训练;②用于验证,以测试本文提出的TKTR模型。

本文采用ResNet-50[26]作为主干。先使用CrowdHuman数据集进行预训练60轮,以学习密集的人物特征;再使用前二分之一的MOT17训练集进行25轮的训练。其中,注意力头的数量设置为8,多层感知机的隐藏层数为1,前馈网络由2层线性层以及Relu激活函数组成,学习率设置为1e-4,批量大小设置为4。

本文利用MOT指标[31],包括多目标追踪精度(multi-object tracking accuracy,MOTA)、IDF1以及IDS,来衡量追踪性能。MOTA是评估检测和追踪整体性能的主要指标,计算公式为

(11)

(11)式中：t为帧的索引;NGTt为帧t中的真实检测框的数量;NFNt和NFPt分别表示假阴性的数量和假阳性的数量;NIDSt表示ID切换次数。

3.2 方法对比

TKTR与各比较方法的细节如下。

1)Transtrack[24]：是一个基于查询-键值机制的追踪方法,利用前后两帧提取到的外观特征来关联目标。

2)Trackformer[25]：基于Transformer提出了一个时域拓扑,以此在数据关联时通过追踪查询特征向量分配ID号关联目标。

3)ArTIST-C[32]：引入了一个概率自回归生成模型,通过直接测量小轨道自然运动的可能性来对小轨道建议进行评分。

4)TraDes-base[33]：在Centertrack[34]基础上增加了一个额外的头部分支,预测用于数据关联的追踪偏移。

5)CenterTrack[34]：是一个无锚追踪方法,通过利用关键点估计来寻找中心点并回归得到目标的属性。

6)TKTR：数据关联时利用空间位置约束和IOU关联目标。

本文将所比较的方法分为两组。第一组是基于Transformer的方法,包括Transtrack和Trackformer。第二组是最近的不含Transformer的方法,包括ArTIST-C、CenterTrack和TraDes-base。所有方法都使用CrowdHuamn以及前二分之一的MOT17训练集进行训练,并使用后二分之一的MOT17训练集进行验证。实验结果如表1—表2所示。

表1 与基于Transformer方法的比较结果Tab.1 Comparing with SOTA with Transformer

表2 与不含Transformer方法的比较结果Tab.2 Comparing with SOTA without Transformer

由表1可见,TKTR在所有评价指标上都优于基于Transformer的方法。与Transtrack相比,TRTR可以在MOTA指标上实现4.9%的提升,并且在ID切换上实现1.3%的提升;与Trackformer相比,TKTR在MOTA上有32.7%的提升,并且在IDF1上提高了15.1%。TKTR的优越性在于利用了位置约束来约束ID候选区域的范围,而非采用额外的re-ID模块;Transtrack和Tranckformer主要采用相邻帧的类间外观特征,而非类内外观特征,使得同一类别(如行人)之间的差异并不显著。

由表2可见,与没有Transformer的第二组相比,TKTR在MOTA方面优势明显。与ArTIST-C相比,提升幅度可以达到约14.0%;与TraDes-base相比,提升幅度为5.2%;与CenterNet相比,提升幅度为3.2%。在IDF1和IDS方面,TKTR没有比ArTIST-C和CenterTrack更好的性能。这是因为ArTIST-C和CenterTrack不仅利用了运动特征,还利用到外观特征进行关联,而TKTR只是利用了位置约束。因此,当有严重的遮挡时,目标的ID可能会被错误地关联起来,这导致ID切换不如其他使用re-ID网络的方法。

本文利用验证集的7个片段案例来证明TKTR在不同场景下的适应能力。图3显示了TKTR随机在MOT17验证集上选择的结果可视化,每张图左侧的数字代表场景,每个物体由不同颜色检测框和一个唯一的ID表示。其中,17-02、17-04为特别拥堵的场景,17-05和17-11为尺度变化较大的场景,17-10和17-13则为小尺度行人密集的场景。从17-05、17-02以及17-04可以看到,由于采用了位置约束,TKTR在拥挤的场景下表现良好。如17-02中,骑自行车的男孩在489帧中被检测到,ID号为90,接着在第498帧丢失,而在第490帧又被准确地追踪到,并且ID被关联为90。多尺度特征金字塔使得TKTR能够在追踪多尺度目标时表现良好。17-05和17-11结果表明,该方法可以处理大尺度的变化;17-10和17-13的结果表明,方法同时可准确地追踪小尺度的行人。

图3 MOT17验证集上结果可视化Fig.3 Examples randomly selected on the MOT17 validation set

3.3 消融实验

关于数据集的消融实验结果如表3所示。由表3可见,由于CrowdHuman与MOT17的场景不同,仅使用CrowdHuman数据集进行训练,会使得检测器无法自适应场景,因此导致检测精度最低,也就使得MOTA以及IDS结果较差,并且由于CrowdHuman缺乏ID的标注,无法利用ID标注进行训练,因此得到的有关追踪的性能指标IDF1也较低。另一方面,由于CrowdHuman中行人较为密集,经过CrowdHuman的预训练,MOTA相较于没有预训练的方法有所提高,提高比例约为3.6%。

表3 关于数据集的消融实验Tab.3 Ablation study on datasets

以3种方式来提取特征：能够直接代表外观特征的查询特征向量、学习re-ID外观特征向量的额外的re-ID网络以及本文中使用代表目标中心点参考点的位置约束。其中,查询特征向量是利用可变形-DETR中的查询特征向量不经过任何处理得到;额外的re-ID外观特征向量是通过骨干网络得到的特征图经过全连接层,并根据ID标签作为监督信号,利用(9)式学习得到。结果如表4所示。

表4 关于特征提取方式的消融实验Tab.4 Ablation study on extracting features

由表4可见,DETR中的查询特征向量只用于对不同的类进行分类和用来定位目标的检测框,它只能在不同的类之间学习特征,而不能在同一类内学习特征的差异。与查询特征向量相比,参考点是由查询特征向量产生的,它可以将同一目标的中心点约束在很短的距离内。因此,使用位置约束作为关联特征的结果要比直接使用查询特征向量的效果好。由于CrowdHuman训练集没有ID标注,而MOT17训练集中也只有二分之一的标注,因此re-ID网络无法得到很好的训练,也就造成了提取到的特征无法代表目标的外观特征,所以引入额外的re-ID层的方法结果最差。

4 结束语

MOT领域普遍采用重识别的方法来提取目标外观特征以完成追踪任务,这实际上不是直接的追踪方法,并且有锚的检测器会为重识别网络的训练带来歧义。本文提出了一个仅采用可生成参考点的可变形Transformer结构并基于空间位置约束即能完成追踪任务的端到端多目标追踪系统TKTR。实验结果表明,TKTR在MOT17验证集上可取得68.2%MOTA的效果。由于预训练网络学习到的是类间特征,导致TKTR缺乏更深层次的类内外观特征,因此,后续工作将专注于利用Transformer提取类内的外观特征。