APP下载

检测优化的多伯努利视频多目标跟踪算法*

2020-10-15杨金龙程小雪缪佳妮张光南

计算机与生活 2020年10期
关键词:检测器轨迹新生

杨金龙,程小雪,缪佳妮,张光南

1.江南大学物联网工程学院,江苏无锡 214122

2.长安大学信息工程学院,西安 710064

1 引言

多目标跟踪[1]是目标跟踪方向的一个重要分支,作为经典的计算机视觉问题,多目标跟踪在智能视频监控、智能交通管制及无人驾驶等领域有着广泛的应用。复杂环境下视频多目标跟踪应用中,除了光照变化、目标形变和目标遮挡等问题,目标数目未知、新生目标不确定、图像模糊及杂波干扰等复杂问题,也一直是多目标跟踪领域中研究的难点。

早期的多假设跟踪(multiple hypothesis tracking,MHT)[2]和联合概率数据关联滤波(joint probabilistic data association filter,JDAF)[3]等方法,通过将目标与量测建立明确的关联实现多目标跟踪。这些方法在视频多目标跟踪中取得了一定的效果,但是复杂的数据关联过程,使得算法效率大幅度下降。此外,对数目未知且变化的多目标跟踪,存在目标数目及状态估计不准确的问题。近年来,Mahler提出的随机有限集(random finite set,RFS)[4]理论,分别对目标状态和观测进行随机集建模,提供了一种自顶向下的多目标跟踪处理方法,可避免复杂的数据关联运算,尤其在对数目未知且变化的多目标跟踪中取得了一定的优势。基于RFS的算法,如概率假设密度(probability hypothesis density,PHD)[5]、势概率假设密度(cardinalized PHD,CPHD)[6-7]、多伯努利滤波(multi-Bernoulli filter,MBF)[8-9]、势均衡多伯努利滤波(cardinality balanced MBF,CBMBF)[10]等算法在视频多目标跟踪中得到进一步应用。文献[11]提出序贯蒙特卡罗(sequential Monte Carlo,SMC)的多伯努利滤波算法,如粒子多伯努利滤波(particle multi-Bernoulli filter,PMBF)[10],借助多目标贝叶斯估计理论递推近似多目标状态集的后验概率密度分布,提高对数目变化多目标的跟踪精度。

得益于近几年检测算法[12]的突破性发展,基于检测的跟踪算法[13-14]逐步成为目前广泛使用的视频目标跟踪框架,基于RFS的滤波方法中,目标的新生依赖于先验的新生强度函数,但在真实跟踪场景中,通常难以准确地给出目标的新生强度函数。传统的MBF、PHD算法[15-17]根据先验知识设置目标的新生强度和新生区域,通常需要预先了解场景信息。文献[18]给定目标新生概率,使用量测值作为高斯分布的均值,提出量测驱动的目标新生模型。同时,利用外观特征信息来学习目标的外观模型,并构造增强似然函数,提高跟踪性能。文献[19]基于量测似然较高的新生粒子建立自适应目标新生模型,借助空间关系,采用现有的数据驱动门限方法选择目标量测,降低跟踪过程中更新步骤的时间复杂度。文献[20]预先设定置信度阈值,自适应地生成目标新生强度。以上方法,对于目标新生问题作出了很大贡献,但是难以有效去除检测结果中的干扰杂波,由新生目标的量测确定新生强度也会导致跟踪结果误差较大。此外,目标检测作为检测跟踪算法的底层步骤,检测器性能直接影响跟踪算法的精度,复杂环境下误检与漏检问题,是检测跟踪算法的一个典型挑战。文献[21]提出YOLOv3算法,该算法是对文献[22-24]的一系列改进,采用Darknet-53作为特征提取的网络,在不同尺度上预测边界框,具有较好的检测效果与检测速度,但对复杂环境的视频多目标检测,同样会出现误检和漏检等问题。

针对上述视频多目标跟踪过程中,目标数目变化、目标遮挡和检测器漏检、误检等问题,本文基于MBF跟踪框架,采用YOLOv3检测算法对视频帧进行预检测,并采用卷积特征[25]描述目标,计算相邻帧目标相似度矩阵,实现检测框初步匹配,然后融合目标模板、目标轨迹和匹配框,进一步提出目标识别策略,结合目标标签,有效进行杂波剔除,实时对新生目标判别和漏跟目标重识别。重识别的目的是避免漏跟的目标被重新跟上时,不至于被当作新生目标,可以和之前的轨迹关联,减少轨迹碎片。最后,通过建立目标遮挡处理机制,融合高置信度检测框,优化目标运动模型,提出目标模板自适应更新方法,去除跟踪过程中的累积误差,以实现视频多目标连续轨迹的优化跟踪。

本文的主要贡献概括如下:

(1)由于传统的PMBF需要事先给定目标的新生位置,但在真实场景中,目标的新生位置不确定,为此,本文在PMBF框架下,融入YOLOv3算法对视频目标进行预检测,并设计新生目标及存活目标判断策略,以及漏跟目标重识别策略,实现对预检测目标类别判决。YOLOv3检测框置信度表示检测框包含目标的概率和检测框与目标匹配程度的得分,本文将低置信度检测框判断为误检或检测不准确,通过后续的PMBF滤波,实现对误检或检测不准确的多目标进行正确跟踪,提高对目标的跟踪精度。

(2)基于对预检测目标类别判定,提出融合高置信度检测框构造目标运动模型,优化目标状态预测,为后续状态更新及提取奠定基础。

(3)提出融合检测结果的自适应模板更新策略,并根据交并比和目标运动速度及方向对被遮挡目标进行判决处理,可有效提高算法对被遮挡目标的估计精度。

(4)通过目标身份识别标记及漏跟目标的重识别,实现对多目标运动航迹的关联。

2 多伯努利滤波原理

在空间χ上,将多目标状态RFS表示为X={X(1),X(2),…,X(M)},X(i)={(r(i),p(i))}为第i个目标分量,通过伯努利参数(r(i),p(i))来参数化目标后验概率分布,其中r(i)和p(i)分别表示第i个目标的存在概率和概率分布。MBF采用贝叶斯理论对多目标的后验概率分布进行迭代更新,以达到对多目标的状态估计。

假设第k-1帧多目标的后验概率分布为:

其中,Mk-1表示第k-1帧存活目标的个数。则预测的多目标概率分布可表示为:

pD,k(x)为目标检测概率,gk(z|x)表示量测似然函数,Zk、κk(z)分别表示量测集和杂波密度函数,第k帧目标数目估计为Mk=Mk|k-1+|Zk|。

3 卷积特征提取

为了减少背景干扰,提取具有高区分性的目标特征,本文采用文献[25]中提出的卷积特征,提取每个目标的表观特征,特征提取主要分为三部分:构造卷积核、提取卷积特征和相似度计算。

(1)构造卷积核

在目标框周围,以目标框大小的矩形框随机采样m个背景样本框,背景样本框与目标框中心位置的距离,要求在水平方向距离大于1/4目标框宽度或者在竖直方向距离大于1/4目标框高度,然后将目标框与背景样本框尺寸规范化为n×n,并灰度化图像,得到样本集{I,B1,B2,…,Bm},其中I表示目标框图像,Bi为第i个背景样本图像。使用大小为w×w的滑动窗口,以步长Δ分别对样本集图像进行卷积操作,得到目标图像块集合y={Y1,Y2,…,Yl}和背景图像块集合,为保留梯度信息,弱化亮度影响,将所有图像块减去自身均值并二范数归一化处理,最终使用K-means算法[26],从目标图像块集合中选出d个图像块作为目标卷积核:

从m个背景样本对应的背景图像块集合中,选出m×d个背景图像块,对这些图像块平均池化得到背景卷积核:

(2)提取卷积特征

利用式(12)中的目标卷积核,在目标图像I上,以步长Δ进行卷积操作,提取目标特征图。同时采用式(13)中的背景卷积核,同样以步长Δ在图像I上卷积=,得到相应的背景特征图

在目标特征图上进行背景信息减除:

(3)相似度计算

为了更准确地评价两个框的相似程度,本文在目标跟踪过程中,通过式(15),计算出相似度,用于目标模板、检测框、跟踪框等之间的相似性度量。

其中,fh、f分别为两个框的卷积特征,表示f的二范数。

4 基于YOLOv3检测的多伯努利视频多目标跟踪

本文在MBF框架下,引入YOLOv3检测算法对视频帧进行预检测,通过计算相邻帧检测框的相似度矩阵,并进行检测框的初步匹配,加入目标标签信息识别身份,融合高置信度检测框、目标轨迹和目标模板,以剔除干扰杂波,提出目标新生识别和漏跟目标重识别策略以实现对目标轨迹的连续估计。此外,设计目标遮挡处理机制,提出目标模板自适应更新策略,进一步实现多目标的优化跟踪。本文算法基本框架如图1所示,主要步骤如下。

4.1 相邻帧目标检测

(1)相邻帧目标检测

Fig.1 Flow graph of proposed algorithm图1 提出算法的流程框图

采用YOLOv3算法检测第k和k+1帧视频序列,记第k帧检测框个数为n,检测框状态集为S˜k=,第k+1帧检测框个数为m,其检测框状态集为表示第i个检测框状态向量,参数分别表示第k帧第i个检测框左上角的横坐标、纵坐标,以及检测框的宽、高和标签。

(2)相似度矩阵计算

采用第3章中的卷积特征表示第k帧和第k+1帧的检测框,分别记为表示第k帧中第i个检测框的卷积特征向量,计算检测框特征对应的相似度矩阵Λ:

从检测框相似度矩阵Λ的每一行选择值最大且大于相似度阈值Tl的两个检测框作为匹配结果,由于视频帧中目标连续变化,假定同一个目标在相邻两帧不会出现特别大的位移变化,因此本文在相似度匹配的基础上,加入目标框的交并比(intersection over union,IOU)作为限制,对于多个相似度较高的目标框,利用IOU作为限制条件,可有效剔除相似目标框对匹配结果的影响,若两个检测框的IOU大于IOU阈值Tu,则可判定两个检测框匹配,假设第k帧中的第i个检测框与第k+1帧中的第j个检测框匹配,则为第k+1帧中匹配的检测框赋值标签,即

4.2 目标识别

根据相邻帧的检测框、目标模板和存活目标轨迹来进行目标识别。将第k帧检测框与第k+1帧检测框进行匹配,对于第k帧中第i个检测框,若为空,则表示该检测框包含的目标在第k-1帧中未被检测到,采用与相邻帧检测框匹配相同的计算方法,将该检测框与存活目标轨迹、目标模板进行匹配,提出如下目标识别过程:

(1)新生目标识别

(2)漏跟目标重识别

(3)存活目标识别

(4)干扰杂波识别

目标识别过程中,为每个检测框目标进行标签赋值,实现对新生目标赋值新标签,实现对存活目标和重识别目标与之前轨迹进行匹配关联,并在后续PMBF滤波时,通过标签将对应的检测框进行优化滤波,以提高对目标跟踪的准确率。尤其是在目标重识别环节,通过对目标的重识别,可以避免把重识别的目标当作新生目标,有效减少被重新起始的轨迹数量。

4.3 目标预测

假设目标运动模型为随机游走模型,根据目标识别后的检测信息,若目标被检测到,且检测框置信度大于置信度阈值TB时,采用检测框调整目标状态,即:

4.4 目标状态更新及提取

(1)目标状态更新

假设第k-1帧多目标预测概率分布为:

(2)目标状态提取

本文算法采用文献[16]中提出的粒子重采样和伯努利分量删减方式,来避免粒子退化,剔除存在概率过小的伯努利分量。根据更新后的多目标后验概率分布,采用与文献[16-17]相同的阈值τ(τ=0.5),提取存在概率大于阈值τ的伯努利分量对应的目标状态,通过选择权重大于0.2且与目标框的IOU值最大的粒子作为目标状态估计,既考虑了目标的IOU值,同时又保证采样粒子的权值不至于过小。如果粒子的权值比较大,但IOU值很小,说明粒子与目标离得较远,可能不是目标的最佳状态;如果IOU比较大,但粒子权值比较小,说明粒子与目标相似性较低,也可能不是目标的最佳估计,因此在限定的粒子权值范围内,如果粒子权值和IOU都比较大,则最有可能是目标的最佳估计。本文采用经验值0.2作为粒子权重的阈值提取目标状态,即:

4.5 目标模板自适应更新

目标运动过程中,周围环境及自身状态会不断发生变化,如背景变化、自身扭曲、旋转及尺度变化等,因此需要对目标模板进行实时更新,本文算法综合考虑采用存活目标轨迹、目标模板和目标检测结果进行融合更新目标模板,即:

4.6 目标遮挡处理机制

当相邻两个目标框的IOU大于IOU阈值Tu时,可判定这两个目标出现遮挡情况,此时YOLOv3检测器可能出现三种情况:(1)当检测器能检测出这两个目标,表示目标轻度遮挡,对目标模板进行自适应更新;(2)当只有一个目标能被检测器检测出来时,可判定另一个目标为被遮挡目标,对被遮挡目标,停止模板更新,采用该目标前两帧的位移差,估计目标实时速度v与运动方向θ,对目标进行预测估计,目标框的大小保持不变;(3)当两个目标都无法通过检测器检测出来时,依据式(15)计算两个目标框与对应目标模板的相似度,相似度小的目标框,判定为被遮挡目标,与第(2)种情况中采用同样的方式处理被遮挡的目标。若目标在跟踪过程中消失或者跟丢,在目标分离或者重新出现时,可通过目标识别策略对目标进行重识别。

5 实验结果与分析

5.1 实验环境及参数

为了验证本文算法的有效性,实验在处理器为Intel Core i7-8700、3.2 GHz,12核,内存为16 GB,显卡为NVIDIA Geforce GTX 1080 Ti的工作站上运行,采用Matlab2016a对本文算法进行测试。实验采用公共数据集中5组典型的视频序列,包括Visual Tracker Benchmark[27]TB50中的序列Huamn4,TB100中的序列Jogging、Subway、Suv和CAVUAR[28]中的序列Crossing(EnterExitCrossingPaths1cor)。表1为对应视频序列存在的主要问题,这5组典型视频序列分别来源于不同场景,且包含相机移动、目标遮挡、目标形变、图片模糊、光照变化等干扰情况。将本文算法与PMBF算法[12]、HIST(histogram feature filter)算法[8]、CNT(convolution network feature tracker)算法[29]和IOU-T(IOU tracker)算法[30]进行性能比较与分析。其中,CNT、PMBF算法使用与本文算法相同的抗干扰卷积特征,HIST算法使用直方图特征。在实验中,PMBF算法也利用YOLOv3的检测结果,将判定为新生目标的检测结果作为PMBF算法的新生目标,为了公平地比较,IOU-T算法同样使用YOLOv3检测结果。

Table 1 Tested video sequence表1 测试视频序列

算法中参数设置如下:目标存活概率Ps=0.9,存活目标的最大、最小采样粒子数目为100,新生目标的最大、最小采样粒子数目为=350、=100 。卷积特征提取时,目标框尺寸规范化为32×32 (n=32),滑动窗口大小为6×6 (w=6),步长Δ=1,子块的个数为d=100 。遮挡判断时,目标之间IOU阈值设为Tu=0.15。目标匹配时,相似度阈值设为Tl=0.2。检测框置信度阈值设为TB=0.9。

实验中采用的性能评价指标主要为OSPA(optimal sub-patten assignment)距离统计[31]、目标数目估计和多目标跟踪正确度(multiple object tracking accuracy,MOTA)[32]、多目标跟踪精度(multiple object tracking precision,MOTP)、轨迹完整目标数目(mostly tracked,MT)、标签跳变数(identity switch,IDs),其中MOTA、MOTP、MT、IDs分别定义如下:

(1)多目标跟踪正确度(MOTA)

其中,mk为第k帧中被跟丢的目标数量,fpk为第k帧误检的目标数,mmek为第k帧中跟踪轨迹中目标标签发生跳变的个数,gk表示第k帧中目标的实际数目。

(2)多目标跟踪精度(MOTP)

(3)轨迹完整目标数目(MT),表示目标跟踪轨迹占真实轨迹长度80%以上的目标轨迹数目,刻画了轨迹的完整程度。

(4)标签跳变数(IDs),表示跟踪过程中目标标签发生变化的次数,即漏跟目标重新被跟踪后,如果不能与之前轨迹关联,则标签发生跳变。

5.2 实验结果的定性分析

5.2.1 目标重识别

视频序列Crossing包含5个运动目标,存在目标紧邻和较长时间的目标遮挡问题,同时伴随目标逐渐出现导致形变较大的情况等。目标被长时间遮挡,当目标重新出现时,如图2所示,检测器检测到重新出现的目标,PMBF算法将重新出现的目标判定为新生目标,不能与之前该目标的轨迹关联,同时在跟踪过程中,受目标紧邻和遮挡的干扰出现误跟和跟踪框偏移的现象;HIST算法则出现跟踪框严重偏移;CNT算法中较为相似的目标,在遮挡发生后,跟踪框错位;IOU-T算法完全抛弃使用图像信息,只利用目标检测结果进行跟踪处理,无法继续跟踪漏检目标,当目标再次被检测到时,同时被定义为新目标,难以与历史目标关联;而本文算法,较长时间被遮挡的目标,由于存在概率逐渐降低导致目标消失,如图2(f)所示,当目标再次出现时,通过计算重新出现的目标框与目标模板的相似度,可有效地对目标进行重识别,将目标重新加入到目标跟踪轨迹中,与之前轨迹关联,减少轨迹碎片和标签跳变情况。

Fig.2 Tracking results of sequence Crossing图2 Crossing序列跟踪结果

5.2.2 目标紧邻与遮挡

视频序列Jogging和Subway都存在目标紧邻与遮挡情况,其中视频序列Jogging为相机移动的路口场景,包含3个运动目标,存在目标被部分和完全遮挡的情况,视频序列Subway包含8个运动目标,存在多个目标紧邻和频繁被遮挡等问题。如图3,目标脱离遮挡状态时,IOU-T算法将重新检测到的目标定义为新生目标,PMBF、HIST算法即使没有丢失目标,但是跟踪框的偏离程度却增大,CNT算法则是出现跟踪框跟丢的现象,而本文算法能很好地融合目标的检测结果和跟踪结果,实现对跟踪框进行调整,可以获得比较准确的跟踪结果。

对于多个目标存在频繁的紧邻与遮挡,如图4所示,YOLOv3难以检测到被遮挡目标或者检测结果偏差较大,导致IOU-T算法频繁丢失目标,且跟踪框不准确,PMBF、HIST、CNT算法处理遮挡、紧邻问题时,也会出现较大的偏差,甚至跟丢,本文算法引入遮挡处理机制,融合滤波和检测结果,提取目标运动信息,能够较好地对被遮挡目标进行跟踪。

Fig.3 Tracking results of sequence Jogging图3 Jogging序列跟踪结果

5.2.3 图像模糊与目标形变

视频序列Human4为相机移动红绿灯路口场景,包括3种类型17个目标,视频中存在由于相机运动或目标快速运动等造成的目标模糊情况,且存在许多目标频繁发生形变问题。图片模糊可能导致检测器性能下降,部分目标被漏检,目标形变对检测器的性能影响较小,但可能出现检测框不准确的情况。如图5所示,PMBF算法能跟上目标,但部分目标的跟踪框会出现偏离,HIST算法出现跟踪框严重偏离,CNT算法无法重新跟踪漏跟的目标,导致跟踪精度下降,IOU-T算法则依赖于检测器结果,无法处理漏检和误检目标,而本文算法有效地在滤波过程中融合检测结果,能够较好地处理这两种情况,具有较高的跟踪精度。

Fig.4 Tracking results of sequence Subway图4 Subway序列跟踪结果

Fig.5 Tracking results of sequence Human4图5 Human4序列跟踪结果

5.2.4 目标大位移

视频序列Suv为相机移动动态背景的公路场景,包含6个运动目标,存在快速运动导致的大位移情况,同时也包含了目标形变、目标紧邻与遮挡等问题。如图6所示,目标的大位移对检测器没有影响,IOU-T算法表现良好,而PMBF、HIST、CNT算法会出现目标跟丢的情况,本文算法由于利用检测器的结果去调整跟踪过程,对于较大位移的目标也具有很好的跟踪效果。

5.3 实验结果的定量分析

MOTA、MOTP、ML、IDs这4个指标的定量实验结果如表2所示,本文算法利用相似度矩阵对检测框进行关联,且包含目标重识别过程,有效减少了目标标签的跳变。与对比方法相比,本文算法在IDs和MT指标上具有明显优势,即本文算法通过目标重识别有效关联了目标轨迹,减少了轨迹碎片,提高了目标轨迹完整性。

Fig.6 Tracking results of sequence Suv图6 Suv序列跟踪结果

YOLOv3检测器在视频序列Crossing、Suv上,检测效果良好,因此对于MOTP指标,IOU-T算法与本文算法表现相似,但是遮挡、紧邻和大位移等问题的存在,使得HIST、CNT、PMBF算法在跟踪过程中出现跟踪框偏移、目标漏跟等现象,跟踪精度减少。视频序列Jogging是比较简单的视频场景,本文算法的MOTA指标与PMBF算法相差不大,但是MOTP指标优于对比算法,由于在实验中PMBF算法与本文算法采用了同样的卷积特征和目标新生方式,说明本文算法提出的自适应更新策略能有效减少跟踪过程中的累积误差,更准确地对目标进行跟踪。对于存在目标形变、目标遮挡、图像模糊等复杂的视频序列,如视频序列Subway和Human4,本文算法的MOTA指标和MOTP指标都具有明显优势。

为了进一步进行对比分析,本文采用当前图片帧中跟踪框的个数作为目标数目估计值。图7~图11所示为目标数目估计与OSPA距离估计对比图,实验中PMBF、IOU-T算法和本文算法都是基于检测结果判断目标新生,因此当新生目标部分出现,而检测器无法检测出时,目标数目估计不准确,OSPA值上升,而HIST、CNT算法固定目标新生位置,若将部分出现的目标作为跟踪框会导致后续跟踪精度下降,若对完整出现目标进行跟踪,则对前面帧部分出现的目标出现漏跟,目标数目估计值减少,OSPA距离增大。目标逐渐消失过程中,PMBF、CNT算法对目标消失不敏感,可能导致目标数目估计值增加,IOU-T算法由于检测器的漏检,会出现目标数目估计值减少,导致OSPA突增。如图8~图11中左图所示,当新生目标出现时,本文算法能很快将新生目标检测出并加入到目标轨迹中,同时本文算法融合滤波器与检测结果,提高了目标消失过程中的跟踪性能。PMBF、HIST、CNT算法在出现图片模糊、目标形变、目标大位移、目标紧邻与遮挡等情况时,容易出现误跟和漏跟,导致跟踪框偏离较大,OSPA值上升。复杂环境下,检测器性能下降,出现漏检、误检,IOU-T算法受检测器性能影响,导致目标数目减少,跟踪框不准确,OSPA值急剧上升。本文算法包含目标紧邻与遮挡处理机制,同时利用检测结果优化滤波过程,整体跟踪性能明显优于对比算法。

Table 2 Comparison of quantitative results表2 定量结果比较

6 结束语

本文提出了一种基于YOLOv3检测的多伯努利视频多目标跟踪算法,首先采用抗干扰的卷积特征描述目标,弱化背景信息,通过计算相邻帧检测框的相似度矩阵,实现对检测框的帧间匹配,利用检测框与目标模板、目标轨迹的相似度匹配,剔除干扰杂波,实时进行目标新生判断和漏检目标重识别,使得轨迹碎片减少,提高了轨迹完整性。同时,提取目标运动信息,建立目标遮挡处理机制,实现遮挡情况下,对目标的准确跟踪。在跟踪过程中,利用高置信度检测框优化目标运动模型,提出目标模板的自适应更新策略,可有效去除跟踪框累积误差,提高对目标和背景变化的自适应性。实验结果表明,本文算法具有良好的跟踪性能。

Fig.7 Comparison between object number estimation and OSPA distance estimation of sequence Crossing图7 Crossing序列目标数目估计与OSPA距离估计对比

Fig.8 Comparison between object number estimation and OSPA distance estimation of sequence Jogging图8 Jogging序列目标数目估计与OSPA距离估计对比

Fig.11 Comparison between object number estimation and OSPA distance estimation of sequence Suv图11 Suv序列目标数目估计与OSPA距离估计对比

猜你喜欢

检测器轨迹新生
解析几何中的轨迹方程的常用求法
重获新生 庇佑
参数可调的联合子空间目标检测方法 *
基于交通诱导的高速公路交通检测器布设方案研究
轨迹
轨迹
基于均匀性判定规则的统计MIMO雷达多通道融合检测技术
坚守,让百年非遗焕新生
新生娃萌萌哒
否定选择算法中高性能检测器的生成