一种多特征融合的目标跟踪算法
2020-06-16梁慧慧何秋生贾伟振张卫峰
梁慧慧,何秋生,贾伟振,张卫峰
(太原科技大学 电子信息工程学院,山西 太原 030024)
1 引 言
目标跟踪在视频处理中有很多实际的用处,是经典的计算机视觉问题。在实际生活中,视频监控、人机交互界面、机器人感知、动作识别、医学成像、无人机[1]等都用到了目标跟踪。在目标跟踪过程中,遮挡、外观变化、光照变化、运动模糊、背景相似干扰、平面内旋转、平面外旋转、尺度变化、出视野、快速运动等一系列的外界环境干扰都会导致目标跟踪失败或者跟踪效果不理想[2]。
目标跟踪方法可分为传统方法、相关滤波和深度学习3种。基于相关滤波器的方法计算具有高效性,得到了广泛的研究。误差最小平方和(MOSSE)[3]算法使用误差最小平方和滤波器,为滤波器在目标跟踪算法的使用奠定了基础。CSK(Circulant Structure Kernel)[4]使用循环密集采样的方法使样本数量增加,循环矩阵以及核函数的引入简化了计算过程。KCF[5]提出一种基于HOG特征的目标跟踪算法。CN[6]在CSK的基础上加入了颜色特征,同时使用PCA降维方法进行降维,对光照变化有一定的鲁棒性。SAMF[7]提出多尺度搜索方法,使用金字塔对样本降采样来加速计算,将最后得到的响应进行插值得到原尺度。SRDCF[8]通过引入空间正则化分量,根据空间位置惩罚相关滤波器的系数,解决周期性假设带来的边界效应。C-COT[9]算法加入多特征CNN+HOG+CN,允许多分辨率特征图的自然整合,将位置估计转化到连续的时域,但算法速度太慢。ECO[10]从模型参数、样本数量以及更新策略3方面进行改进,高效的卷积操作加上每隔6帧更新一次的更新策略使算法在速度和精度上都得到了改善。CSR-DCF[11]在C-COT的基础上利用空间置信图对每个通道增加了权重,可以扩大搜索区域并改善非矩形对象的跟踪,加快了计算速度,但精度较低。王民等[12]提出的一种融合Vibe前景检测和时空上下文的运动手势跟踪算法,利用时空上下文信息提高了算法的鲁棒性。韩亚君等[13]对红外目标提取HOG特征和运动特征进行线性融合,算法精度有所提高,但不适用于低分辨率和光照变化场景。Bertinetto[14]等分别训练颜色直方图和 HOG 特征分类器并在决策层进行融合,在一定程度上缓解了目标变形问题,但其跟踪精度不够高,对于目标遮挡、尺度变化鲁棒性不强。
以上算法从预测目标可靠性和滤波器更新策略方面进行了改进,能使滤波器实时获得更新以适应目标外观变化,也取得了一定的效果,但还不能有效解决目标形变、遮挡、尺度变化时跟踪性能不稳定的问题。HOG和CN作为模板特征,可以保留目标局部区域的位置信息;颜色直方图作为全局特征,不受目标形状、姿态等变化的影响。结合这些特征的优点,本文提出多特征融合算法,并采用不同的融合策略对特征进行融合。最后根据融合后目标响应的可靠性对位置相关滤波器和尺度相关滤波器的学习速率进行动态调整。
2 Staple跟踪算法
2.1 相关滤波算法
在相关滤波框架的基础上,Staple算法使用了位置滤波器和尺度滤波器[15],目标模型参数由最小化损失函数求得:
θt=argminθ∈{L(θ;χt)+λR(θ)},
(1)
根据前一帧目标位置和尺度大小裁剪得到的图像xt,将目标响应值最大值的位置作为目标在第t帧时的位置pt:
pt=argmaxp∈Stf(T(xt,p);θt-1),
(2)
其中:T为特征提取函数,St为目标可能出现的位置集合,θt-1是t-1帧时的目标模型参数。
2.2 特征响应
Staple算法结合HOG特征和颜色直方图特征,两个特征的特征响应计算如下:
(3)
其中:h为HOG模型参数,Γ为图像x中有限的网格,φx[u]为图像提取的HOG特征。
(4)
其中:β为颜色直方图模型参数,Η为图像x中有限的网格,ψx[u]为图像提取的颜色直方图特征。
2.3 最终响应
Staple算法采用HOG特征和颜色直方图线性结合的方式计算目标响应
f(x)=γtmplftmpl(x)+γhistfhist(x),
(5)
其中:ftmpl和fhist分别为HOG和颜色直方图特征得到的响应值,γtmpl和γhist分别为HOG和颜色直方图特征响应值权重。
3 多特征融合
本文多特征融合算法采用HOG(Histogram of gradient)、CN(Color Names)和颜色直方图3种特征。HOG属于模板特征,对快速运动和形变等情况下跟踪效果不理想;颜色直方图作为统计类特征,对形变以及运动模糊不敏感。当目标出现遮挡时,跟踪质量不佳,颜色直方图作为一种全局特征无法区分出目标和干扰物,这两种特征已经不能满足跟踪需求,所以本文在Staple算法的基础上加入CN特征,利用特征之间的互补性有效提高目标跟踪的鲁棒性。由于不同的特征描述目标的能力和判别力不一样,要根据不同的特征采取不同的融合策略。本文先将HOG和CN这两种特征的响应值进行自适应融合,提高目标特征的判别性,然后在HOG-CN特征结合的基础上与颜色直方图特征的响应值进行融合,提高跟踪精度。
3.1 HOG与CN特征自适应融合
为了计算HOG和CN特征在目标跟踪过程中的不同判别力,本文采用特征响应相邻两帧的PSR差值衡量特征的可信度,差值越小,说明特征波动越小,对应特征的可信度越高,跟踪效果越好,在特征融合时权重越大。
峰值旁瓣比(Peak-to-Sidelobe Ratio, PSR)[16]是模板与图像区域之间的相关程度,可用来预测跟踪质量。PSR的定义为
(6)
其中:gmax(yi)为特征响应的峰值,μs1(yi)为特征响应的旁瓣的均值,σs1(yi)为特征响应旁瓣的标准差。
不同特征的判别力用P来表示:
(7)
其中:Rt和Rt-1分别为对应特征在第t帧和t-1帧时的PSR值。δ为防止分母为0设置的参数。所以HOG特征权重为
(8)
其中:PHOG和PCN分别为HOG和CN的P值。
在第t帧时,对权重w进行更新,更新公式为
w=(1-υ)wt-1+υwt,
(9)
其中:υ为HOG权重更新速率,wt-1和wt分别为第t帧和t-1帧时的权重值。
在计算模板特征响应时进行融合,融合后的输出为yH-C,融合公式为
yH-C=wHOG*yHOG+(1-wHOG)*yCN,
(10)
其中:wHOG为HOG特征的权重,yHOG和yCN分别为HOG和CN特征的响应值。
3.2 全局特征融合
由于颜色直方图属于全局特征,本文借鉴Staple算法中的融合策略,融合公式为
y=τ*yH-C+(1-τ)yHist,
(11)
其中:τ为融合系数,yH-C为HOG和CN融合后的响应值,yHist为颜色直方图的响应值。
最终融合后,响应值最大处位置即目标中心位置。
4 滤波器的自适应更新
在目标跟踪过程中,滤波器的更新过程对最终的跟踪结果影响很大。更新机制不同,目标跟踪的成功率和精度相差很大。传统的相关滤波器算法一般采用固定的更新率,随着帧数的增加会带来误差积累,并不能应对实际跟踪过程中复杂的情况,因此需要根据目标跟踪的情况以及所处的环境对位置滤波器和尺度滤波器进行动态调整。
本文以目标前t-1帧响应值PSR的平均值与第t帧响应值PSR的差作为判断算法第t帧跟踪好坏的一个指标,用T来表示
(12)
滤波器的更新公式为
(13)
At=(1-η)At-1+ηAt,
(14)
Bt=(1-η)Bt-1+ηBt,
(15)
其中:H为滤波器模板,F为训练的图像,G为滤波器的高斯输出,λ为正则项,η为滤波器更新率。
本文根据式(12)中的T值为标准对滤波器进行自适应更新。根据经验对滤波器的更新率进行设置,其中位置滤波器的更新率为
(16)
尺度滤波器的更新率为
(17)
当T≤0.35时,表示跟踪器跟踪效果较好;当0.35
通过对目标跟踪的可靠性进行分析,分别给予位置滤波器和尺度滤波器不同的更新速率,从而实现滤波器的自适应更新。
5 实验与分析
5.1 实验平台及参数设置
为了验证本算法的有效性,本文均在软件为MATLAB 2014a,硬件配置为Intel Core i5-4200CPU,主频1.6 GHz,内存2 GB的计算机上进行实验。实验中对所有的测试视频采用相同的参数,具体设置为:防止分母为零系数δ=0.01,权重更新系数υ=0.15,固定权重系数τ=0.7,正则化系数λ=0.001。
5.2 性能分析
为有效地评估本算法性能,本文利用 OTB50数据集[17]的50个视频进行测试,将本文算法与近年来比较流行的9个算法(CSK、KCF、DCF[8]、DSST、SAMF、KCFDP[18]、Staple、DCF_CA[19]、CSRDCF)进行对比。
5.2.1 实验一:视频序列定量分析
本文从OTB50数据集中选取12组视频序列,这些视频中的目标都带有一定程度上的形变、遮挡和尺度变化,用来验证本算法的有效性。采用文献的评价指标:重叠精度(Overlap Precision, OP)、距离精度(Distance Precision, DP)[20]、中心位置误差 (Center Location Error, CLE)进行评价。其中,CLE 为预测目标的中心位置与标注的准确位置之间的欧式距离,DP为CLE小于预设阈值20 像素的百分比,OP 为重叠率大于预设阈值 0.5 的百分比。CLE越小,OP、DP越大,算法跟踪效果越好。实验结果如表1~3所示。
表1 中心位置误差(CLE)结果汇总表(最优结果用粗体表示)Tab.1 Summary of center position error (CLE) results (the optimal results are shown in bold)
续 表
表2 距离精度(DP)结果汇总表(最优结果用粗体表示)Tab.2 Summary of distance precision (DP) results (optimal results are shown in bold) (%)
表3 重叠精度(OP)结果汇总表(最优结果用粗体表示)Tab.3 Summary of overlap precision (OP) results (optimal results are shown in bold) (%)
续 表
表1~3对10种不同算法在12个视频序列上的CLE、DP和OP值做出了精准的计算。通过表格中的数据可以看出本文算法结果在很多序列中都处于最优,Car4、FleetFace、Girl序列本文算法的CLE虽然不是最优,但接近于最优结果,且其DP和OP都是算法中最高。
5.2.2 实验二:视频序列定性分析
实验一中对OTB50数据集中的12组视频序列进行了定量分析,实验二将针对这12组视频序列给出10种算法在跟踪过程中的部分视频截图,可以直观地反映每个算法的跟踪效果。实验结果如图1~3所示。
图1 10种算法在目标形变视频帧上的跟踪结果Fig.1 Tracking results of ten algorithms on target deformation video frames
图2 10种算法在目标遮挡视频帧上的跟踪结果Fig.2 Tracking results of ten algorithms on target occlusion video frames
图3 10种算法在目标尺度变化视频帧上的跟踪结果Fig.3 Tracking results of ten algorithms on target scale variation video frames
在图1所示的视频帧中,第一行Basketball视频中第16帧目标发生形变,本文算法跟踪正常,其他算法的跟踪框已经开始漂移。第642帧时目标受到颜色基本相似的队员遮挡,Staple算法跟踪失败,而本文算法可以一直成功跟踪目标。第二行的FleetFace视频帧中,目标发生不仅发生形变,还有一定程度的旋转,本文算法相比于其他算法,跟踪良好。Football1视频中目标主要发生了形变、遮挡以及快速运动,随着跟踪帧数的增加,其他算法已经慢慢偏离目标,本文算法不仅可以成功跟踪,还以100%的精度和成功率优于所有算法。Ironman视频中目标受到形变以及光照变化的影响,部分算法已经完全跟踪失败,只有本文算法成功跟踪到的帧数较多。
图2中Freeman4、Girl 、Jogging-2视频中遮挡是主要的因素,当目标重新出现时,本文算法没有跟随遮挡物移动,还可以成功跟踪到目标。最后一行的Walking2视频帧中,目标由近到远势必会带来尺度变化,而且第377帧时还受到了其他行人的遮挡,相比于其他算法本文算法可以很好地适应尺度变化,发生遮挡时还可以重新检测到目标并成功跟踪。
图3的4个视频帧中目标主要受到尺度变化的影响。虽然每个算法都基本跟踪成功,但是跟踪框的大小不能很好地随尺度变化而变化,导致跟踪成功率下降。从图中可以看出,本文算法可以完全适应目标尺度的变化。
5.2.3 实验三:平均跟踪性能分析
实验三分析算法的平均跟踪性能以及不同跟踪条件下的跟踪性能。采用OPE (One-Pass Evaluation)、根据距离精度值与阈值之间的距离精度曲线图(Precision Plot)以及目标框重叠率与阈值之间的成功率曲线图(Success Plot)对算法进行评估,不同算法的跟踪结果见图4、图5。
图4 10种算法在OTB50上的跟踪结果Fig.4 Tracking results of ten algorithms on OTB50
图4为本文算法与其他9种算法在OTB50上的跟踪结果图。从跟踪精度与成功率曲线可以看出本文算法均高于其他算法,具有较高的准确性和鲁棒性。与Staple算法相比,本文算法的距离精度和成功率都提高了很多,说明3个特征的融合起到了互补的作用,增加了特征的判别力,同时滤波器根据跟踪质量进行自适应更新,减少了跟踪过程中的误差积累。
图5为本文算法与其他9种算法在OTB50中6个属性的跟踪距离精度与成功率曲线图,分别为形变、遮挡、尺度变化、出视野以及平面内外旋转。从图中可以看出本文算法在不同属性的测试结果上始终保持最优。
(a)形变(a) Deformation
(b)遮挡(b) Occlusion
(c)尺度变化(c) Scale variation
(d) 出视野(d) Out-of-view
(e) 平面内旋转(e) In-plane-rotation
(f) 平面外旋转(f) Out-plane-rotation图5 10种算法在OTB50中6个属性的跟踪精度与成功率曲线Fig.5 Tracking accuracy and success rate of six attributes in ten algorithms in OTB50
5.2.4 实验四:算法平均跟踪速度
实验四分析算法的平均速度。通过算法总的帧数除以时间计算得出每个算法的FPS(frame/s),不同算法的平均跟踪速度见表4。
表4 算法平均跟踪速度结果汇总表(最优结果用粗体表示)Tab.4 Algorithm average tracking speed results summary table (optimal results are shown in bold) (frame/s)
表4为10种不同的跟踪算法在OTB50数据集上的平均跟踪速度,从表中可以看出本文算法相比Staple算法速度有所下降,但速度仍大于SAMF、DSST、KCFDP、CSRDCF跟踪算法的速度,在保持高精度的同时,也满足了跟踪算法的实时性需求。
6 结 论
本文提出的多特征融合目标跟踪算法,将HOG、CN和颜色直方图3种特征通过不同的融合策略融合在一起,利用特征之间的互补性提高了跟踪算法的鲁棒性。在滤波器更新方面,根据跟踪的可靠性,将位置滤波器和尺度滤波器以分段更新的方式实现了滤波器的自适应更新。最后采用OTB50 数据集验证本文算法的跟踪性能,其中为精度81.9%,成功率为61.1%,并与其他9种主流算法进行对比分析。从实验结果可以证明本文算法的有效性,在形变、遮挡以及尺度变化场景下的目标跟踪具有更高的跟踪精度和鲁棒性。