基于多特征自适应融合的抗遮挡目标跟踪算法

2023-03-05张方方曹家晖王海静赵鹏博

红外技术 2023年2期

张方方，曹家晖，王海静，赵鹏博

（郑州大学电气与信息工程学院，河南郑州 450001）

0 引言

随着人工智能的大力发展，计算机视觉领域也飞速发展，视频跟踪技术应用到了很多的领域、如智能交通、物流仓储、生活服务等[1]。但是由于实际的场景十分复杂，存在光照变化、尺度变化、障碍物遮挡、快速运动等问题。如何在上述因素存在的情况下准确快速地跟踪目标，仍需要继续深入的研究。常见的目标跟踪算法可以分为两类：生成式算法和判别式算法[2]。生成式算法的主要原理是在当前帧的位置进行建模，根据上一帧目标物体建立的模型在下一帧找到最相似的位置作为预测位置。此类型算法原理简单，目标模型的建立不复杂，但是跟踪效果较差，原因是单一的数学模型描述物体具有局限性，在面对光照变化、遮挡等因素时模型的建立受到一定的影响。判别式算法是基于图像特征和机器学习、深度学习的方法在分类好的样本上训练分类器，使用训练好的分类器对被检测的图像进行分类。随着机器学习、深度学习的大力发展，判别式算法表现出了优越的速度和较高的精度，成为近年来专家学者研究的热点[3]。

判别式算法可以分为基于深度学习思想的算法和基于相关滤波思想的算法。深度学习类的代表算法有Bertinetto 等人提出了SiamFC 算法[4]，因其简洁高效的特点作为跟踪算法研究的基础框架。研究人员在此基础提出了SiamRPN[5]、CFNet[6]等算法。基于深度学习的跟踪算法可以表现出优越的性能，但是由于算法往往需要巨大的算力支撑，算法的速度慢、难以移植到机器人平台等缺点。相关滤波来源于信号处理的概念，是比较两个信号相似程度的量，最早将相关滤波引入到视频跟踪计算的是最小平方误差和算法（minimum output sum of squared error,MOSSE）[7]，主要是通过快速傅里叶变换进行求解，降低了算法的计算量并且提升了跟踪速度，可以达到每秒几百帧。2012年，Henriques 等人提出的循环核滤波算法（circulant structure kernel,CSK）将循环矩阵的概念引入进来增加了训练样本的多样性[8]。2015年，Henriques 等人在CSK 的基础上将灰度特征替换成方向梯度直方图特征，提出了核相关滤波算法（kernelized correlation filter,KCF）算法[9]，取得了非常好的性能。2015 年Martin 等人对于循环样本存在边界效应问题进行了改进，提出了空间正则项相关滤波（spatially regularized discriminant correlation filter,SRDCF）算法[10]。2016 年Bertinetto 等人提出的Staple算法[11]，该算法利用了HOG 特征和CN 颜色直方图分别进行训练，两个特征采用固定比例的方式进行融合，跟踪速度和跟踪性能都取得了不错的成绩。2018年，Li 等人在SRDCF 的基础上加入了时间正则化，提出了基于时空正则项的跟踪器（spatial-temporal regularized correlation filters,STRCF），由于加入时间正则化后采用交替方向乘子法（alternating direction method of multipliers,ADMM）算法来进行迭代求解加快了计算的速度[12]。2020 年同济大学团队提出的AutoTrack 算法是在STRCF 算法的基础上进一步改进，采用自适应的空间正则化和时间正则化来适应更多更复杂的情景[13]。尽管基于相关滤波跟踪器取得较好的发展，但是在包含不同挑战因素的视频场景中跟踪仍存在一些问题，如图像的特征仍然不能够准确反应目标外观变化，缺少对于跟踪响应质量的评估，当发生遮挡的时候目标模板容易被污染等。

针对上述分析问题，本文提出了多特征自适应融合的抗遮挡算法来解决在有遮挡或模糊的情况下移动目标的跟踪问题。算法以最大化检测响应图质量为目标，自适应地融合HOG 特征和颜色直方图CN 的检测得到的响应图，增强了跟踪的鲁棒性；针对目标遮挡与运动模糊等都会导致响应图振荡，难以对目标遮挡进行判定的问题，采用高质量模板和正常更新模板检测响应图的质量差值来检测目标的遮挡情况，当目标重新出现时，将滤波器回溯到高质量模板中来实现重新跟踪。

1 多特征响应自适应融合

首先引入图像特征的滤波模板的训练方法，将训练得到的滤波模板与特征进行快速检测可以得到不同特征的响应，但将响应进行简单的线性融合无法充分发挥特征的优势，因此采用了自适应融合不同特征响应的方式来增强算法的鲁棒性。

1.1 特征模板训练

近年来，多通道相关滤波器在视觉跟踪领域的发展非常的迅速。设在一个通道数为N的图像中特征为f＝{f1,f2,…,fN}，滤波模板设为H＝{h1,h2,…,hN}，每个通道上的特征和滤波模板都是C×D大小，将图像特征和滤波模板进行循环相关得到了相关滤波响应g，目标位置出现在响应g的最大值的位置。表达式为：

式中：*表示循环相关，fd表示第d个通道的图像特征；hd表示第d个通道的滤波模板；其中关于滤波器h的求解方法，则是通过最小化损失函数ε(h)来求解：

式中：gh为期望输出，为二维高斯函数；λ为正则化参数，可以防止过拟合，为L2 范数的平方。

循环相关操作转换到傅里叶域中可以提升计算效率，所以将损失函数转换到傅里叶域中进行计算：

式中：⊙表示点积运算；I为C×D×1 大小，且元素全为1 的列向量；进行傅里叶逆变换可以得到多通道的滤波器模板H，将滤波模板代入到式(1)中可以得到最终的响应图。

本文算法用的特征是HOG 特征和颜色直方图特征，将图片的两种特征和滤波模板H代入到式(1)中可以得到两个响应：gHOG和gCN，将两个响应进行融合可以发挥HOG 特征对于目标的形状变化的鲁棒性，CN 特征对于目标的颜色变化的鲁棒性，两者响应可以采用线性的方式进行融合如下：

式中：α和β分别代表的是HOG 特征响应和颜色直方图特征响应的融合系数，融合后的响应图中最高点的位置即为目标所在的位置。

为了避免跟踪器模型变化过快，将由式(4)求解出的第N帧滤波器模板Hn与N－1 帧算出来的模板Hn－1′进行线性结合，得到最终的滤波器模型更新公式：

式中：η代表跟踪器的学习率，描述了跟踪器学习新图像特征的快慢程度。

公式(5)中将响应进行线性融合的方式简单有效，但在复杂多变的视频中，固定的融合比例难以满足跟踪器高精度需要，因此根据不同视频的特点自适应地调节融合系数可以充分发挥不同特征的优势，提高跟踪器的准确率。因此本文算法中的融合系数采取自适应的方式更新。

1.2 特征响应自适应融合

颜色特征和HOG 特征对于不同类型的图像具有不同的表征能力，为了充分利用他们的互补性，需要将两者的响应进行自适应融合。首先介绍提出的评价响应图质量的指标，然后再基于所提出的响应图质量指标函数来实现自适应融合响应得到最终的响应。

1.2.1 跟踪质量评价指标

自适应融合多个特征的目的就是提高跟踪的准确性。准确性体现在跟踪的准确度非常高，对应到响应图上就是响应图的形状接近单峰值情况。但实际图像响应图的形状复杂多变，不容易判断质量的好坏，因此提出一个可以准确评价响应质量好坏的质量评价指标非常必要。Goutam Bhat 在UPDT（unveiling the power of deep tracking）算法中指出，跟踪算法的准确性体现为峰值的尖锐程度，鲁棒性体现为目标峰值和干扰区域峰值的高度差距，峰值高度相差越大，证明结果越鲁棒[14]。

我们设计跟踪质量指标DIS（distance）来评价不同质量的跟踪结果，主要考虑从响应图振荡程度和最高峰值的尖锐程度来度量响应图的跟踪质量，DIS 定义如下：

式中：f表示融合后得到的响应图；z表示响应图中峰值的位置，峰值的形状类似于二维高斯函数。如图1 所示，图中z*表示的是最高峰值的位置坐标，峰值大小用Fmax表示；z1,z2,…,zn表示峰值高度低于Fmax的次高峰的位置坐标，次峰值大小用Fi表示。gapi表示第i次峰值与最高响应值之间的高度比。gapi越大说明峰值的差距较小，图像更加振荡，质量评价的数值越小；反之gapi越小质量评价数值越大。γ表示最高峰值附近的斜率，斜率越大代表峰值越尖锐，质量评价数值越大。峰值高度较低的次峰值，表示跟踪器对于当前位置是目标位置的确信度是较低的，对于跟踪结果的影响非常小，为了提高计算的效率，我们不考虑峰值高度较低的次峰值对于DIS 指标的影响。DIS 指标可以有效评估响应图的质量好坏，比较两个不同响应图的质量，较好的情况是没有次峰，或者次峰值都较为低，此时取值接近于0，因此DIS 最大取值是1，当响应图剧烈振荡时，DIS取值接近0。

图1 响应图所有的峰值Fig.1 All peaks in response graph

DIS 性能指标主要考虑了响应图中的次峰值对于响应图振荡性的影响，还有峰值的尖锐程度。常见响应质量评价指标如平均峰值相关能量（average peak to correlation energy,APCE）[15]、峰值旁瓣比（peak to sidelobe ratio,PSR）[7]等在评价时均没有考虑峰值的尖锐程度对于响应图质量的影响；其次只考虑响应图中的最高值和最低值，忽略了众多次峰值对于响应图的质量的影响，因此不能很好地反应跟踪质量。

1.2.2 特征响应图自适应融合方式

在视频跟踪的过程中，由于图像存在很多光照变化、跟踪目标形状发生变化等很多情况，这样会影响跟踪的质量，影响响应图的DIS 值。HOG 特征对于形状特征具有很强的鲁棒性，能够很好地表达出目标的形状特征；颜色直方图对于目标的颜色特征具有很强的鲁棒性。充分发挥两个不同特征在不同情况下的优势，自适应调整特征的融合参数可以提高跟踪的稳定性。本文算法主要是设计响应图质量评价指标DIS，以最大化DIS 为目标规划多个特征的融合系数α和β，算法的思想简洁高效，公式如下：

对于规划问题(9)每一帧图像得到的gHOG和gCN都是已知的，问题就是非线性优化问题，优化的目标是最大化DIS 值。采用常规求解算法，如基于黄金分割搜索算法和抛物线插值算法结合的迭代求解的方法求解(α,β)，具体求解步骤不再展开介绍。如在图2中(b)、(c)两图的颜色变化明显，颜色特征对于目标的检测具有干扰的因素，会导致响应图遮挡，颜色直方图模板系数α降低0.1；(a)和(d)图片中，目标颜色变化不大，颜色模板对于的系数则相对较高，分别为0.5 和0.4。

图2 自适应调整融合系数Fig.2 Adaptive adjustment of fusion coefficient

2 遮挡检测及目标重新出现处理

遮挡问题一直以来都是目标跟踪领域的非常常见的问题。当目标被完成遮挡的时候，滤波器只能学习到遮挡物的特征，引起了模型识别时的偏差。除此以外，单从响应质量对遮挡进行检测是容易与图像运动模糊等情况进行混淆。本文首先定义高质量模板，是当某一帧的响应图的DIS 较高时，储存此时滤波器模板为高质量模板。然后在之后帧的检测中，用高质量模板和正常更新的滤波器模板同时检测目标得到响应图的DIS 得分的差值来判断遮挡的发生。为了防止DIS 出现个别异常值情况影响遮挡情况的判断，采用邻近的K帧的ϕ作为遮挡判断的依据：

式中：DIS 表示采用正常跟踪的滤波器检测当前帧得到的响应图的DIS 数值，DISH使用高质量模板检测得到响应图的质量分数。采用邻近K帧的差值ϕmean作为遮挡判断条件可以防止滤波器跟踪的过程中出现因滤波器错误检测导致ϕ突然增大，从而导致滤波器跳出遮挡循环的情况发生，因此跟踪器对于遮挡情况消失的判定会滞后目标出现几帧，但是这样可以提高遮挡判定的准确性。

本文采用一种新的方式对遮挡情况进行判断，同时能够区分遮挡情况和其他挑战因素导致响应图遮挡进行区分，算法原理是：当目标受到遮挡的时候，滤波器采用正常的更新方式，会逐步学习遮挡物的特征信息，因此正常滤波器检测到的响应图DIS 值会逐步升高。但是之前存储的高质量模板都是目标物体的特征的描述，因此高质量模板得到响应会比较低。因此当两者的差值达到阈值时，代表物体已经被完全遮挡。当目标处于遮挡状态时，高质量模板hhigh检测得到的当前帧画面的响应图处于较低水平，但当目标重新出现时，DISnhigh会突然增大，此时可以判断出目标已经重新出现，将此时的滤波器模板回溯到之前存储的高质量模板可继续接下来的跟踪。具体的遮挡情况处理子算法A 流程如下：

Step 1：设定高质量模板阈值ε，当上一帧的响应质量指标DIS＞ε时，定义上一帧滤波模板为高质量模板，并定义为hhigh，并存储下来。

Step 2：用上一帧的滤波模板hn－1和高质量滤波模板hhigh检测第n帧目标，得到目标响应，计算个响应图的DIS 差值，记为ϕn。

Step 3：设定遮挡阈值ζ，当ϕmean＞ζ时，判定目标发生了遮挡，进入遮挡后检测目标再出现部分，进入Step 4；当ϕmean＜ζ时，未发生遮挡，正常更新滤波器位置，跳出遮挡情况处理算法A。

Step 4：采用上一帧模板更新目标位置正常更新滤波器，读取下一帧图像。

Step 5：设定跳出遮挡循环阈值γ，用hhigh检测当前帧的图像特征得到响应图的质量评价值DISnhigh。当ϕmean＞γ时，判定目标已经重新出现，进入Step 6；否则跳回Step 4。

Step 6：将目标位置更新为高质量模板检测到的响应图的最高点的位置，同时将高质量模板赋值给当前滤波器模板，读取下一帧图像。

3 整体的算法流程

本文针对在跟踪器目标遮挡等情况下容易跟踪失败的问题，提出了多特征自适应融合的抗遮挡算法，算法主要有两个重要的部分，一部分是自适应融合，另一部分是判定遮挡及遮挡后重新出现处理。算法的流程如下：首先对第一帧进行初始化，后续每一帧的跟踪结果都进行遮挡的判定，如果判定为不存在遮挡，算法以最大化DIS 为目标自适应融合不同特征的响应图；如果判定发生了遮挡，跟踪器进行遮挡循环部分，当判定目标重新出现后，跳出遮挡循环，将滤波器模板回溯到最近一帧的高质量模板，整个算法的流程如图3 所示。

图3 完整的算法流程Fig.3 Complete algorithm flow

4 算法实验

4.1 实验配置介绍

算法的实验平台为：处理器是Intel(R) Core(TM)i7-10750H CPU @ 2.60 GHz，内存20 GB，64 位操作系统，2016b 版MATLAB。实验中的参数如下：HOG特征的cell 是4×4，模板的学习率为ηtmpl＝0.01，ηhist＝0.04。

测评的数据集为OTB10016]和UAV123 数据集[17]。lOTB100 中视频分为11 种属性，分别是光照变化（illumination variation,IV）、尺度变化（scale variation SV）、遮挡（Occlusion,OCC)、形变（deformation,DEF）、运动模糊（motion blur,MB）、快速移动（fast motion,FM）、平面内旋转（in-plane rotation,IPR）、平面外旋转（out-of-plane rotation,OPR）、离开视野（out-ofview,OV）、相似背景（background clutters,BC）、低分辨率（low resolution,LR）。UAV123 主要针对大范围视野下目标的跟踪，包含高度比变化（aspect ratio change,ARC）、背景杂波（background clutter,BC）、摄像机运动（camera motion,CM）、快速运动（fast motion,FM）、完全遮挡（full occlusion,FOC）、光照变化（illumination variation,IV）、低分辨率（low resolution,LR）、视野外（out-of-view,OV）、部分遮挡（partial occlusion,POC）、相似目标（similar object,SOB）、尺度变化（scale variation,SV）、视角变化（viewpoint change,VC）共12 种不同的属性。实验的评估指标主要分为成功率和精确度，实验中采用的评价方式是一次成功率（one-pass evaluation,OPE）。

成功率（S）定义公式如下为：

式中：rt指候选框；r0指人工标注的跟踪框；表示区域的像素数目。当某一帧的成功率大于设定的阈值时，则该帧被视为成功的。

精确度的定义公式如下：

式中：Nt、Ns分别指第t帧帧数和总帧数。

4.2 在OTB、UAV123 数据集中性能分析

本文算法在OTB100[16]中与当前主流的算法进行对比：包括 Staple、SRDCF、SRDCFdecon、LMCF[15]、MCCT-H[18]、AutoTrack[13]。对比的算法都是属于相关滤波算法，并且算法都使用的手工特征作为图像特征。数据集一共100 视频序列，每一个视频序列都包含11 种挑战中的几种。同时算法在UAV123数据集上进行了测试，UAV123 数据集包含12 种挑战因素，对比算法将LMCF 替换成STRCF 算法，其他对比跟踪器算法不变。

图4、图5 是本文提出的算法在OTB100 与UAV123 数据集中精度和成功率排名，图表中OUR表示的是本文算法，由图可以看出，本文算法在不同数据集的精度分别为0.769 和0.6373，成功率分别为0.692 和0.596。两项指标在不同数据集中均排名第一，说明算法的综合性能表现比较突出。

图4 OTB100、UAV123 数据集中精度排名Fig.4 Accuracy ranking of OTB100 and UAV123 data sets

图5 OTB100、UAV123 数据集中成功率排名Fig.5 Ranking of success rate of OTB100 and UAV123 data sets

如表1、2 所示，针对11 种不同的挑战因素，精度方面算法在OPR、SV、OCC、DEF、IPR、OV 中排行第一。成功率方面，算法在SV、OCC、DEF 中排行第一，在IV、OPR、MB、IPR 中排行第二。

表1 OTB100 的精度Table 1 Accuracy of OTB100

表3、表4 所示，在UAV123 数据集上做了实验，实验结果显示，本文算法在多种挑战因素视频中均排行第一，表现出了较好的性能。综合所有的视频挑战因素，本文算法是表现最好的算法。在速度方面，算法在两个数据集共223 个视频中平均的处理速度为37.64 帧/s，大于30 帧/s，能够实现实时跟踪的要求。

表3 UAV123 的精度Table 3 Accuracy of UAV123

表4 UAV123 成功率Table 4 Success of UAV123

4.3 消融实验

为了探究滤波器各个模块对于跟踪器的整体影响，设置消融实验。对比的算法为：OUR-S、UPDTOUR。OUR-S 算法是将本文算法目标遮挡处理模块去除，只留下目标的多特征自适应融合模块的跟踪器；UPDT-OUR 算法将融合指标公式(7)替换成UPDT 提出的公式(14)，算法命名为UPDT-OUR，将上述两种算法在OTB100 数据集中进行对比，结果如图6 所示。

图6 中可以看出，本文算法在精度和准确度方面以0.769 和0.692 均领先于其他两种跟踪器，说明遮挡处理模块可以有效提高跟踪器性能；同时OUR-S 以0.733 的精度和0.656 的成功率优于UPDT-OUR，说明本文跟踪器的融合不同特征的方式更有效果，UPDT 的融合方式可以对不同特征进行自适应的融合，但是由于UPDT 没有考虑多个峰值的振荡情况，同时对于响应图最大峰值的尖锐程度没有考虑，因此对于跟踪的性能效果提升没有本文算法的提升效果明显。除此以外，增加遮挡检测处理模块可以提升算法在面对遮挡、运动模糊等因素视频的跟踪效果。

图6 OTB100 数据中各个模块消融实验的跟踪结果Fig.6 Tracking results of ablation experiment of each module in OTB100 data

表2 OTB100 成功率Table 2 Success of OTB100

4.4 OTB、UAV123 数据集实验测试的特定情况性能分析

如图7 所示，选取具有代表性的6 个典型视频序列进行实验定性分析，视频序列Box、Human3、Birld 是OTB100 数据集的序列，group2、person7、uav1 属于UAV123 数据集。在Box 序列中主要存在很多遮挡的问题，在465 帧时，目标完全处于遮挡状态。本文算法的遮挡检测机制检测到了处于遮挡，本文算法进入遮挡环节，将高质量模板的响应恢复到较高水平这一条件作为算法跳出遮挡环节，进行正常跟踪环节。这一机制可以有效地处理遮挡问题；同样存在遮挡问题的还有Human3 序列，50 帧开始，行人被障碍物遮挡，本文算法检测到并跟踪上目标。在1439 帧时，由于周边出现了相似目标，本文算法优化后融合系数最大化地发挥了各个特征的优势，最后本文算法正确跟踪到了结束；Birl 序列在121 帧之后目标处于完全遮挡的状态，并且遮挡的时间较长。本文算法一直保留着之前存储的高质量模板，当目标重新出现的时候，滤波器可以回溯到之前帧，对目标重新进行跟踪，而其他大多数的算法由于滤波器长时间学习障碍物的特征已经不能再有效跟踪目标；groub视频的跟踪目标是人群中的一个，包含较多的遮挡，相似目标等干扰，本文算法在617 帧之后能够正常跟踪目标。在Person7 中76 帧时，staple 和MCCT 跟踪器都跟丢了目标，本文算法跟踪器可以一直保持准确跟踪。uav1 视频中包含大量的快速移动、目标旋转等挑战因素，最后显示只有本文算法跟踪器可以一直成功跟踪目标，不出现错误跟踪的情况。

图7 7 种算法在不同视频的关键帧中对比结果Fig.7 Comparison results of seven algorithms in key frames of different videos

5 结论

本文提出的多特征自适应融合抗遮挡目标跟踪算法，从跟踪结果的鲁棒性和准确性角度设计出合理的响应图质量评价函数DIS，以最大化响应图评价函数DIS 为目标规划HOG 模板和颜色直方图模板的融合系数，利用不同特征的互补性提高了算法的鲁棒性。在跟踪的过程中存储响应质量较高的模板，以高质量模板和正常更新的模板检测当前图像特征得到的响应图质量的差值作为判别发生遮挡的依据，有效地检测到了目标发生遮挡，当遮挡消失后，跟踪器可以重新跟踪上目标。最后在数据中验证跟踪器的性能，结果显示跟踪器在光照剧烈变化、形状剧烈变化、运动模糊、遮挡等挑战的时候仍能保持较高的准确性和鲁棒性，结果显示算法相较于其他种类的主流跟踪算法具有良好的表现，具有一定的现实意义。下一步考虑如何自适应融合更多的特征信息，增强目标的表达能力，同时考虑将跟踪算法移植到机器人中，实现现实中的目标跟踪。