基于树形尺度估计的车辆跟踪
2021-04-01赵春晖
任 杰,赵春晖,崔 颖
(哈尔滨工程大学 信息与通信工程学院,哈尔滨 150001)
0 引 言
视觉车辆跟踪作为智能视频监控系统的重要组成部分,在智能交通管理系统和无人驾驶等领域有广泛的应用。实现目标车辆的稳定快速跟踪已成为当前的热点,并且具有极其重要的现实价值。
基于孪生网络的跟踪算法可以实现端到端学习,因其具有优秀的跟踪性能被广泛应用在目标跟踪领域。其中最具有代表性的就是SiamFC[1](基于全连接层的孪生网络目标跟踪算法),SiamFC利用双层线性法计算滑动窗口的两个输入之间的相互关系,实现密集高效的滑动窗口评价,得到最高的相应输出值,达到定位的目的。引入了全连接层的结构,提高了跟踪速度,进一步提高了跟踪算法的实时性,但是车辆目标相对速度较大,视频监控中的车辆目标的尺度变化更加快速,而SiamFC算法对尺度变化不敏感,会出现引入的背景信息过多或者目标信息不完整,导致跟踪器出现漂移的情况,所以有一个稳健而且准确的尺度估计对于目标车辆的准确跟踪至关重要。然而实现兼顾准确度和速度的车辆尺度估计算法仍是一项具有挑战性的任务[2]。
目前在跟踪算法中加入尺度估计模块的算法有很多,Danelljan M等[3-4]利用相关滤波器将目标跟踪分解为确定位置和尺度估计,在已经准确的确定位置的前提下,提取检测区域的多尺度特征来训练尺度滤波器,但是在此情况下尺度的精度取决于目标位置的准确性。Li F等[5]也采用了尺度滤波器的方法,利用一维相关滤波器训练4个特征块,通过边界跟踪进行尺度估计。Walia G S等[6]通过QA(正交三角)分解法对多尺度特征进行降维处理,从而提高尺度滤波器的训练速度。特征分块[7-9]方法是解决尺度伸缩变换的先进方法,根据每块的离散程度估计整体目标的尺度大小,但是由于分块提取特征会导致特征部分丢失,跟踪精确度没有太大的提升。
针对车辆跟踪中的尺度变化问题,结合车辆跟踪算法对准确度和速度的要求,本文在SaimFC跟踪算法的基础上提出了一种基于树形尺度池的车辆跟踪算法。采用一维相关滤波器训练不同大小的尺度缩放因子,通过尺度响应的比较确定最后目标车辆的大小;此外,为进一步提高跟踪算法的稳定性,在完成尺度估计的条件下,对网络模板进行自适应更新,来适应车辆跟踪过程中出现的外宽变化。
图1 算法整体流程Fig.1 Overall flow chart of the algorithm
1 方 法
1.1 整体流程图
算法的整体流程见图1,步骤如下:①采用孪生网络框架对的输入图片(模板图片、当前帧图片)进行特征提取;②将提取后的特征进行尺度估计,计算多尺度的响应,采用一种树形尺度池的方式找到车辆所对的最佳尺度;③进行相似度比较,确认车辆所在的位置和尺度,为了避免有外观变化明显导致跟踪失败,采用自适应模型更新的方法对模型进行更新;④判断是否为视频的最后一帧,如果是则结束,如果不是则进行下一帧跟踪。
1.2 基于树形尺度估计的车辆跟踪算法
本文算法是在SiamFC算法的基础之上进行改进的,首先确定了目标所在的位置中心,在其基础上进行树形尺度估计。整体分为两部分,第一部分是确定当前帧图片是放大还是缩小,第二部分是确定放大因子和缩小因子的大小。核心原理是:将模板样本与当前帧比较,其中模板样本的大小固定为ST=(sx,sy),定义一个缩放池S={t1,t2,…,tk}。假设原始图像空间中的目标窗口大小为st。对于当前帧,在{tisi|ti∈S}中采样10个缩放因子来寻找合适的目标,采用双线性插值方法将样本调整为固定的模板大小sT,采用下式计算最大响应:
(1)
其中:zti是尺寸为tisi的模板样本,即sT。由于响应函数得到一个向量,因此采用最大运算来求其最大标量。由于响应图中隐含了目标的运动,因此需要对最终的位移进行调优。结构见图2。
图2 树形尺度估计原理Fig.2 Schematic of tree scale estimation
首先将定位后的目标车辆通过第一部分,将当前帧的图片A1与上一帧的图片A2进行比较确定目标车辆是放大还是缩小,若当前帧A1响应值大于上一帧A2的响应值,说明在当前帧中目标是放大的,如果已经判断为放大,则会分配到放大分支内继续计算,得出响应最大值的放大因子为最后目标的尺度,反之,则会分配到缩小分支内继续计算,得出响应最大值的缩小因子为最后目标的尺度。放大分支内的10个尺度因子分别为1.01, 1.011, 1.012, 1.013, 1.014, 1.015, 1.016,1.017, 1.018, 1.019,缩小分支内的10个尺度因子分别为0.999, 0.998, 0.997, 0.996, 0.995, 0.994,0.993, 0.992, 0.991,0.990。同时也用双线性插值[10]调节缩放因子的大小。为了确保跟踪过程中,目标的尺度确实发生了变化,而不是受到某一帧的目标检测结果的影响,每隔5帧对目标检测的结果进行一次记录,若连续10次都出现待跟踪目标的尺度发生放大或缩小,就可以确认待跟踪目标的尺度发生了改变,并使用分类树形尺度自适应算法进行尺度的放缩。
实验中在确定放大和缩小后进行了10次计算,相对于之前的DSST[11]算法的32次和SAMF[12]跟踪算法的17次节省了计算时间,提高跟踪器的实时性,而且在添加尺度估计模块之后,算法的特征提取区域也有一定的改变,不再出现提取特征不足或提取特征过剩等现象,提取到的特征会更有针对性,间接提高了算法的精确度和成功率,使得跟踪器性能增强。
1.3 自适应模型更新
为了适应运动车辆的外观变化和光照等环境的变化,提高算法的精确度,需要对整体模型进行实时更新,传统的方法KCF[13]是采用线性插值的方法,公式为
(2)
式中:pi和qi分别为当前帧车辆跟踪的结果得到的相关滤波模板和目标外观模板;λ为模板更新速率。由于更新速率的变换不够明显,导致更新速率不能适应目标及环境的变化,跟踪器的精确度也会随着车辆的运动而逐渐下降。
为提高跟踪器的精确度,本文利用最佳尺度下的相关响应的最大值对模型进行自适应更新,公式为
(3)
其中Ymax为最佳尺度下相关响应的最大值。这种自适应模型更新方法对于跟踪器相似度较高的图片会以较快的速率更新,相似度较低的图片更新速率较低,减少噪声的引入,在适应目标环境和外观变化的同时保证模型的准确性,从而提高跟踪器的精确度。
2 实 验
2.1 实验参数设置和评价指标
2.1.1 实验参数设置
在训练阶段采用 ILSVRC15[14]视频数据集,随机梯度下降的优化算法,用高斯分布初始化参数,训练50 个epoch,每个epoch 有50 000个样本。将相关滤波的正则化参数设置为0.01,系统的学习率为0.000 25,期望的相关输出的标准偏差设置为平移维度中目标大小的1/16,标度维度中的滤波器大小为5,尺度因子为1.005。在KITTI[15]公开的车辆运动视频数据集和LaSOT[16]中20 段车辆运动视频数据集中,包含了目标与背景相似、尺度变换等多种目标跟踪过程中可能出现的复杂情况,在此数据集上进行测试,验证了本文方法的有效性。
2.1.2 评价指标
实验中采用两个标准评价指标。
1)精确度可认为是跟踪目标的中心位置和人工标定的准确位置之间的平均欧氏距离[17],公式为
(4)
式中:X为目标中心位置;Y为人工标注真实位置;xi为X的坐标;yi为Y的坐标。一个序列中所有帧像素之间的平均中心位置误差,通过评估不同像素阈值下的精确度,可以得到一个精确度曲线图。
2)成功率可认为是计算跟踪成功视频所占视频的比例,公式为
(5)
式中:rt为跟踪器给定的边界框;ra为真实的边界框;∩、∪分别为两个区域的交集和并集,||为区域内给定的像素个数。对于每个帧图片,计算被跟踪图片中的候选框和groundtruth(标准框)之间的IoU[18](重叠度)。通过评估不同IoU阈值下的成功率,可以得到一个成功率曲线图。这两个指标都可以根据AUC[19](曲线下面积)的大小来判断算法的效果,AUC 越大效果越好。
2.2 实验分析
车辆跟踪算法作为其他技术的基本环节,不仅要求算法具有很好的精确度,还要求算法的速度满足实际需求。为了全面的分析本文算法与其他算法的性能优劣,从速度、精确度和成功率对各方法进行分析,结果见表1。由表1可见,在孪生网络下的Ours、SiamFC和DCFNet[20]算法的跟踪速度高于使用相关滤波的跟踪算法,孪生网络最大的优势就是处理速度快,由于SiamFC和DCFNet不具备尺度估计和模型更新能力,其精确度和成功率普遍偏低。DSST、ECO[21]和C-COT[22]都是具备尺度估计的跟踪算法,精确度和成功率会有一定的提升,但是跟踪速度非常低,几乎达不到目标跟踪的实时性,而且由于尺度因子的选择过于稀少,在精确度和成功率上依然稍稍弱于本文算法。
表1 各种算法总体性能
各算法在OPE[23](正常情况)、SRE(空间复杂度)、TRE(时间复杂度)情况下的精确度和成功率的对比见图3。由图3可见,在不同的情况下,各种算法的成功率和精确度存在波动,由于受到环境和阈值的限制,整体的精确度和成功率有下降的趋势,但本文算法相对稳定,精确度和成功率保持着微小的变化,说明本文算法具有很强的鲁棒性。
图3 各种算法的精确度和成功率对比Fig.3 Comparison of accuracy and success rate of various algorithms
选择4种算法(Ours、DSST、SAMF、C-COT)的部分视频序列的跟踪效果见图4。同时也选择了包含明显尺度变化的5段视频作为参考序列。其中红色方框为本文算法。在这些情况下,本文算法可以包围目标车辆,而其他算法均出现不同程度上的位置偏移和尺度估计偏差。在雪天和黑夜这些复杂的拍摄场景下,SAMF和DSST算法逐渐丢失了尺度估计能力,跟踪性能受到干扰,而本文算法由于有自适应模板更新,避免噪声污染,可以应对雪天和黑夜等复杂的视频拍摄场景,实现准确的跟踪。
图4 部分视频序列的跟踪效果Fig.4 Tracking effect of some video sequences
3 结 论
针对车辆跟踪中的尺度估计问题,结合相关滤波器提出一种树形尺度估计的车辆跟踪方法。通过前一帧图片的大小推断出当前帧目标的尺度变化方向,在变化的方向上寻找适合当前帧目标的尺度因子来确定当前目标的最佳尺度,并在最佳尺度的基础之上对模型进行自适应模型更新。本文算法有效解决了车辆跟踪中存在的尺度变化导致的跟踪漂移问题,并在适应目标环境和外观变化的同时,提高跟踪器的精确度,对车辆跟踪中出现的光照变化和局部遮挡问题具有较高的鲁棒性。