基于稀疏约束与双线索选择的目标跟踪算法*

2023-04-12捷马小虎

火力与指挥控制 2023年2期

吴捷马小虎

（1.泰州职业技术学院信息技术学院，江苏泰州 225300；2.苏州大学计算机科学与技术学院，江苏苏州 215006）

0 引言

视觉目标跟踪技术在军事侦察、智能监控、机器人感知等领域得到了广泛应用［1-2］。在过去的十年中，目标跟踪技术得到了迅速发展，各种优秀的跟踪算法相继出现并被证明具有良好的应用前景。尽管该领域研究取得了巨大的突破，但鲁棒性和实时性仍然是视觉目标跟踪领域的两大挑战性任务，尤其是在存在背景变化、相机抖动、图像模糊、非刚性变形和部分遮挡的无约束场景中。

基于判别相关滤波器（DCF）的跟踪方法在许多具有挑战性的基准测试集上展现了非常优异的性能。DCF 的优点主要包括利用原始样本的循环矩阵，将学习任务有效地表示为岭回归，并采用快速傅立叶变换（FFT）进行加速计算。DCF 也存在空间边界效应及时间滤波器退化两个问题。针对此类问题，不少学者尝试用增加空间正则化和时间正则化［3-6］去解决。然而，已有的空间正则化方法往往忽略了输入特征的多样性和冗余性，仅使用简单的预定义约束（例如预定义的二进制掩码）来调整滤波器。XU 等提出的LADCF 算法使用嵌入的、保持时间一致性的空间特征选择机制构建外观模型［7］，所提出的DCF 学习方案和空间特征选择实现了高效的鉴别滤波器学习。

LADCF 算法在手工特征选取方面使用了31 维的HOG 特征和11 维的CN 特征的组合。使用单一模型在很多时刻较难处理各种具有挑战性的变化，并且依赖于某种特定的特征级融合策略在一定程度上限制了模型的多样性。由于很难设计出满足各种挑战场景的特征融合方法，因此，本文通过分析HOG 特征的特性，提取9 维的HOG 特征和11 维的CN 特征，并利用判别相关滤波器（DCF）构造两条跟踪线索独立跟踪目标。建立自适应切换机制，在每一帧中选择合适的线索进行跟踪，该机制可以根据各线索擅长处理的挑战因素类型，灵活地切换到可靠的跟踪器，两个跟踪器输出的决策级融合有效地增强了算法的鲁棒性。

1 LADCF 算法介绍

1.1 保持时间一致性的空间特征选择模型

空间特征选择的目的在于从滤波器θ 中选取典型的、具有区分性的信息。LADCF 的特征选择表示如下：

diag（ϕ）是从选定特征ϕ 的指示向量生成的对角矩阵。与主成分分析（PCA）和局部线性嵌入（LLE）等传统降维方法不同，指标向量ϕ 实现了降维的同时保存了空间结构。

ϕ 中的元素取值0 或1，表示禁用或启用相应的元素。该操作的作用在于只激活每个训练样本中相关度较高的特征，从而使特征表示具有低维、紧凑的特点。因此，可以得到如下的目标函数表示：

1.2 多通道特征表现的扩展

将上述的单通道方法推广到多通道特征，可得：

计算每个空间位置的L2 范数，然后执行L1 范数实现联合稀疏性，联合稀疏性支持稳健的特征选择，反映了所有特征通道中单个空间位置特征图的共同贡献。

1.3 优化求解

优化过程采用交替方向乘数法（ADMM）进行设计。引入松弛变量，得到下式：

采用ADMM 算法来迭代优化以下子问题

类似于DCF 学习框架，可得到：

更新θ'：

更新h：

2 本文改进算法

已有的实验与理论已经证明方向梯度直方图特征（HOG）、颜色特征（CN）和灰度特征（Gray）对于运动模糊、目标形变和光照变化具有较强的鲁棒性，近年来的主流算法在特征提取方面均选择使用这3 种特征的组合，也称为手工特征。

近年来，深度学习理论发展迅猛，深度特征也被应用到目标跟踪领域［8-10］。深度特征和手工特征各有其不同特点：深度特征含有高层语义信息，适合于定位目标范围，但是分辨率低，且计算非常耗时；而手工特征则更利于精确定位，但是在目标外观变化较大时会导致跟踪失败［11］。经典的跟踪算法如ECO［12］、STRCF［6］、MCCT［13］等提供了手工特征版本和深度特征版本，而深度特征版本均无法实现实时跟踪，实际应用受到很大限制。

LADCF 算法在近年来基于DCF 框架的算法中具有最佳跟踪效果，但是在图像模糊、非刚性变形和部分遮挡等场景中也容易出现跟踪漂移，其手工特征使用的是31 维的HOG 特征和11 维的CN 特征。

本文算法的主要改进之处在于设计新的手工特征组合（称之为第二特征），与原有特征（第一特征）一起实现双线索跟踪。为了获得更加丰富的特征表示，本文充分利用了HOG 特征的特性。图1 给出了31 维HOG 特征的生成过程，从图中可以看出，在31 维特征向量中只有前18 维特征对方向敏感，综合考虑HOG 的特性及算法的运行速度，本文算法选择前9 维的方向敏感HOG 特征与11 维的CN 特征共同组成新的特征。在跟踪过程中，两条跟踪线索共享相同的搜索区域（ROI）。

图1 31 维HOG 特征分布Fig.1 31-dimensions HOG feature distribution

为了充分融合双线索跟踪以发挥最优的跟踪性能，本文设计了可靠性评估策略：

峰值旁瓣比是常用的评价跟踪可靠性的指标之一，本文算法使用峰值旁瓣比对每帧跟踪结果进行可靠性判断，只有对于低可靠性的跟踪结果启用“第二特征”进行跟踪。判断标准如下：

上式表示当采用“第一特征”跟踪的峰值旁瓣比小于8，且采用第二特征跟踪获得的最大响应值大于设定数值时，应用第二线索的跟踪结果并迭代进入下一帧跟踪，其中为控制参数，在文中设为0.8。

3 实验结果与分析

3.1 实验环境

本文基于LADCF 算法框架进行了改进，实现了所提出的双线索跟踪算法。实验所用软件环境为Win10 操作系统及matlab2016b 工具软件。核心硬件方面，CPU 型号为Inter（R）core i7-10700，主频2.9 GHz，主机运行内存16 GB。测试所使用的数据集为OTB50 和OTB100［14］。为了评估本文所提算法的性能，与LADCF［7］、STRCF［6］、MCCT_H［13］、ECO_HC［12］、BACF［15］、Staple_CA［16］、SRDCF［5］等7个先进的跟踪器进行了比较。

3.2 定量比较

利用tracker_benchmark 工具，测试了本文算法与7 种对比算法在OTB50 和OTB100 上的综合性能，下页图2 和图3 为对应的成功率曲线图和距离精度曲线图，可以看出本文所提算法的跟踪成功率和精确度均为最佳，证明了本文所提算法具有优异的性能。第23 页图4 给出了本文算法与LADCF 算法在低分辨率、平面外旋转、遮挡、运动模糊等8 种复杂场景下的成功率对比图。相比本文的基准算法LADCF，本文算法的跟踪成功率最大提升幅度可达4.1%，最少也提升了2%，这主要得益于本文算法引入了双线索跟踪机制。

图2 8 种算法在OTB50 上的成功率和精确度对比图Fig.2 The success rate and accuracy comparision figure of 8 kinds of algoritms on OTB50

图3 8 种算法在OTB100 上的成功率和精确度对比图Fig.3 The success rate and accuracy comparision figure of 8 kinds of algoritms on OTB100

表1 给出了8 种算法在OTB50 上的各项数据对比，本文算法跟踪速度为21.1 帧/s，达到实时跟踪的要求。本文算法跟踪精确度相比LADCF 提高了2.4%，相比ECO_HC 提升了3.7%。数据对比可以看出本文算法兼顾了跟踪精度和跟踪速度。

OTB100 数据集中共标记了11 种具有挑战性的属性，表2 给出了本文算法与7 种对比算法的所有11 种属性的精确度图统计数据，以加粗加下划线表示最优结果。本文算法在7 种属性的精确度图中排在第1 位，3 种属性排在第2 位，且全部优于LADCF 算法，一系列对比数据有力地证明了本文改进算法的合理性及有效性。

表2 在OTB100 数据集上多属性比较结果Table 2 Multi attribute comparison results on OTB100 dataset

3.3 定性比较

为了更加直观地展示各种算法的跟踪效果，第24 页图5 给出了本文算法与LADCF、STRCF、MCCT_H、ECO_HC 等4 种综合性能排名靠前算法在4个挑战性视频序列的可视化跟踪结果对比，这4 个视频序列依次为Biker、Bird1、Matrix 及Soccer。定性分析如下：

图5 5 种算法在4 个视频序列的跟踪结果Fig.5 The tracking results in 4 video sequences with 5 kinds of algorithms

1）Biker 视频序列中存在出视野、低分辨率、快速运动等挑战因素。在第67 帧骑手转弯时STRCF和ECO_HC 算法出现跟踪漂移，第80 帧骑车转换骑行方向后其他4 种对比算法均丢失目标，第142帧结束时其他4 种对比算法均发生较大偏差，只有本文算法可以从头至尾一直准确定位。

2）Bird1 视频序列对跟踪算法具有较大挑战，主要存在遮挡、形变、出视野等多种复杂因素的干扰。第182 帧目标在受到严重遮挡并从云雾飞出时，仅有本文算法和MCCT_H 算法能定位到目标，第300 帧直到第408 帧结束时只有本文算法可以一直准确定位目标，其他几种算法均出现较大偏离。

3）Matrix 也是测试跟踪算法性能的经典视频序列，存在平面内旋转、背景杂斑、明暗变化等多种干扰，目标的变化幅度较大。从42、68、98 等关键帧的截图可以看出，只有本文算法能够准确捕获目标。

4）Soccer 视频序列中球员受到各类障碍物的遮挡，拍摄镜头角度也发生变化。从第116 帧、180帧及第370 帧的截图可以看出，本文算法跟踪准确度要远优于其他4 种算法。

4 结论

本文提出了一种用于鲁棒视觉跟踪的双线索跟踪框架，该框架不仅引入了一种新的特征组合，还考虑了决策级融合，以充分发挥不同特征组合的优势。本文算法框架维护两条线索共同跟踪目标，并选择可靠的输出以优化跟踪结果。在具有挑战性的数据集上进行了综合实验，结果表明，本文提出的双线索跟踪框架简洁有效，在只使用手工特征的情况下，依然获得了较高的准确度，并能实现实时跟踪，即使与最先进的DCF 方法相比依然表现良好。后续工作重点是在跟踪目标的尺度估计方面进一步改进，以更好地适应目标的旋转、形变等场景。