梯度导向的通道选择目标跟踪算法

2022-03-13程世龙谢林柏

计算机与生活 2022年3期

程世龙，谢林柏，彭力

物联网技术应用教育部工程研究中心（江南大学物联网工程学院），江苏无锡214122

视觉目标跟踪在人机交互、视频监控、自动驾驶等领域有着广泛的应用需求。由于目标物体在实际环境中会受到光照、形变、遮挡和背景干扰等不利因素的影响，因此准确定位目标物体仍然是跟踪研究领域的难点。

近年来，基于深度网络的目标跟踪方法在跟踪领域得到了很大的发展。深度目标跟踪方法主要分为两类：相关滤波类（correlation filter，CF）和孪生网络类（siamese network，SN）。相关滤波类算法将深度网络提取到的目标特征和相关滤波器结合在一起，利用傅里叶域中循环相关的特征训练回归器，使跟踪精度和速度得到了提升。Ma 等认为卷积网络不同层特征有不同的空间信息和语义信息，提取网络不同层特征（hierarchical convolutional features，HCF）训练各自的相关滤波器，在跟踪时按各响应图权重相加得到最终的目标位置。Zhu 等提出光流追踪（flow track，FT）思想，通过光流技术建立前后帧目标之间的时序关系，利用注意力机制将前后帧特征融合到一起。刘芳等提出一种自适应特征模板更新算法（adaptive template updating，ATU），通过特征融合和模型更新等方法，确保模型对目标跟踪的准确性。

孪生网络类算法主要由两条结构相似的深度网络分支组成，分别是目标模板分支和搜索区域分支。Bertinetto 等最先建立基于孪生网络端到端的全卷积网络（fully-convolutional siamese networks，SiamFC）目标跟踪方法，离线训练相似性学习深度卷积网络。Li 等在孪生网络后面接入区域提取网络（region proposal networks，RPN），提出区域提取孪生网络（siamese region proposal networks，SiamRPN）。该网络包括分类和边框回归两部分。仇祝令等为提高网络对相似目标的判别能力，提出在线更新网络参数策略（online feature discrimination with siamese network，OFDSiamNet），使网络能够学习到实时的目标特征，增强跟踪算法的鲁棒性。

以上基于深度网络的跟踪算法取得了良好的跟踪效果，但是仍然存在一些问题需要解决：（1）不同场景下待跟踪目标具有任意性，在构建跟踪模型时会使用冗余的特征通道尽量使网络模型具有通用性；（2）待跟踪目标周围存在干扰物体，而干扰物体会影响目标的识别和定位；（3）在以孪生网络为框架的算法中，大部分用均权通道响应分数图确定目标的位置，没有考虑各组互相关操作对物体的贡献情况。

综上所述，本文提出梯度导向的通道选择目标跟踪算法（gradient-guided object tracking algorithm，GGOT）。针对特征通道冗余问题，本文在孪生网络框架基础上，将梯度导向模块嵌入到预训练网络后面，根据反向传播时特征通道的梯度信息剔除多余的特征通道。本文利用开关-惩罚损失函数削弱干扰物体对目标的影响，提高算法抗干扰能力。最后通过逐通道互相关操作进一步提高跟踪精度。

1 相关理论

1.1 梯度和注意力模型关系

Pu 等研究了梯度和注意力模型的关系，表明梯度信息可以用来表示对物体的关注程度，并将其应用到跟踪网络中，关系表示为：

其中，f()是网络输出分数图；为网络的输入；表示输入的某个样本；A表示中对应像素的重要性图，即网络输出分数图对输入样本的注意力图。Selvaraju 等在研究CNN（convolutional neural networks）网络模型视觉解释性问题时，用梯度加权类激活映射函数Grad-CAM 代替Zhou 等提出的类激活映射（class activation maps，CAM），通过对归一化后的梯度值进行全局平均池化（global average pooling，GAP）可以获得某类目标对应的特征通道权值系数，权值系数高的特征通道对当前类的贡献大。

1.2 卷积回归网络

目标跟踪中常用回归方法对目标的边框位置和尺寸进行回归，如SiamRPN 等。基本卷积回归问题可以通过优化岭回归函数解决，表示为：

其中，*表示回归网络中的卷积操作；表示回归网络的权值矩阵；是网络正则化参数，该参数可以防止网络在训练过程中发生过拟合现象；表示卷积网络的输入样本；表示样本标签。

2 本文算法

本文提出的跟踪算法主要由特征提取网络、梯度导向模块（gradient-guided module，G-GM）和通道互相关模块（multi-channel cross correlation，M-C）三部分组成，如图1 所示。

图1 目标跟踪算法框架图Fig.1 Framework of object tracking algorithm

2.1 梯度导向模块

预训练网络中的参数是在多种类别数据集中训练获得的，相对于当前要跟踪的目标存在许多冗余的特征通道参数。为了减少冗余特征通道对当前跟踪目标的不利影响，需要采用一系列方法剔除冗余特征通道。

借鉴已有的梯度和注意力模型关系以及卷积回归网络理论，本文在预训练网络后面连接了卷积回归网络，通过岭回归函数计算目标特征通道的梯度信息，经由梯度重要性权值选择特征通道。

在本文跟踪任务中，由于视频帧中的语义信息除了目标外都是背景区域，且在训练时输入的视频帧都是以目标为中心的正方形感兴趣域（region of interest，ROI）。因此岭回归函数中的样本标签可以构造成高斯软标签(,)，其中心与目标中心对齐如式（3）所示：

其中，(,)表示相对于目标的偏移位置；是高斯核的宽度值。由式（2）和式（3），可以通过优化如下岭回归函数解决本文算法中网络回归问题：

其中，表示卷积网络的第个输入通道的特征；表示输入的总通道数。

由1.1 节可知在注意力模型中，对特征通道的梯度图A进行全局平均池化操作可以获得每个通道的梯度平均值。本文对式（1）加以拓展，将梯度和特征通道的关系引入目标跟踪中对预训练网络提取的特征通道进行选择。通过岭回归函数回归到高斯软标签后的梯度和特征通道关系表示为：

对式（5）中所得梯度平均值进行min-max 标准化，可以得出输入的每个特征通道重要性权值：

其中，δ是每个特征通道的重要性权值，min(·) 和max(·)函数分别用于求取特征通道梯度的最小值和最大值。

在对视频中目标进行跟踪之前，将提取到的初始目标特征作为回归网络的输入，然后通过回归损失计算特征通道的反向梯度，对特征通道权值δ排序，从而选择排名靠前的表达能力强的特征通道参与后续的互相关操作。

图2 中显示了本文算法在两组典型跟踪场景下运用梯度导向模块对选择出的特征通道进行特征融合的情况。在选择的第一组场景中，目标背景相对简单，周围没有相似性干扰物体，融合后的特征通道热力图焦点集中在目标物体上。在第二组场景中，目标周围背景杂乱，包含许多相似性物体。由于存在干扰物体，融合后的特征热力图中有些焦点落在周围物体上，但是主要的焦点仍然集中在目标上。

图2 特征热力图Fig.2 Heat maps of features

2.2 开关-惩罚损失函数

2.1 节分析了在目标背景杂乱，包含干扰物体时应用传统岭回归损失函数选择出的特征通道融合后焦点不能完全集中在目标物体上，选择的特征通道将不能准确描述当前需要跟踪的目标。

为了抑制干扰物体，基于原始的岭回归损失函数，本文提出开关-惩罚损失函数（switch-penalty，S-P）：

其中，⊙为哈达玛积（Hadamard product）；(,)为惩罚函数；(,)在回归过程中对结果预测图中异常值进行抑制，使回归网络参数调节重点位于跟踪目标上，惩罚函数具体表示如下：

由于结果预测图中异常值主要由干扰物体引入，(,)为负指数幂形式，惩罚力度从中心到边缘依次增大，逐步降低背景干扰所占总损失的比例。

其中，为调节因子，用于调节对干扰物体的惩罚力度；(,)是开关函数，用于控制施加惩罚的时机，具体形式表示为：

其中，是设定的误差阈值，(,)是预测响应和高斯标签的误差函数：

综上所述，S-P 损失函数表示为：

在上述S-P 函数中，只有当误差值(,)大于设定的阈值时，才会按照负指数幂形式对干扰物体施加惩罚。背景简单时的惩罚力度小，从而使得惩罚函数不会过于敏感，具有良好的适应能力。如图2所示，应用S-P 函数代替岭回归损失函数后，提取到的特征通道具有很强的表达能力，第二组包含复杂背景的场景中特征热力图焦点集中在当前要跟踪的物体上，很好地避免了背景的干扰。

2.3 逐通道互相关操作

互相关操作是孪生网络类跟踪算法的重要组成部分。类似于网络中的卷积操作，该层将模板分支最后一层特征看作卷积核，将搜索分支特征看作待卷积特征，通过互相关操作获取目标分数响应图，从而得到目标在待搜索部分最可能的位置。如图3（1）所示，常规的基于孪生网络结构的跟踪算法只是单纯地获得分数响应图，没有考虑每个特征通道和目标物体的相关性。由2.1 节分析可知，不同的目标物体会激活特定的特征通道。被激活的通道有效提取了目标的特征，而那些被抑制的通道会给目标物体的定位带来干扰。此外，每个特征通道对不同物体的贡献程度也不一样。为了有效利用各个特征通道，本文提出逐通道互相关算法，简称为M-C：

2.4 跟踪过程

如图1 所示，本文采用离线训练的CNN 网络提取目标特征。给定视频序列第一帧中目标的初始状态，包括中心坐标和目标尺寸，然后裁剪出模板图像作为预训练网络的输入。梯度导向模块接收提取到的目标特征，利用回归网络和损失函数计算每次迭代过后特征通道的梯度信息。选择正梯度信息对应的特征通道作为当前目标的特征表示，并对特征通道进行重要性排序，获得的重要性分数作为逐通道互相关部分各通道互相关的权重系数。

图3 逐通道互相关比较图Fig.3 Comparison of multi-channel cross correlation

图4 搜索分支特征通道选择Fig.4 Selection of feature channels in search branch

3 实验结果与分析

3.1 实验细节与参数

本文使用Python 语言和Pytorch 框架在Ubuntu 18.04 操作系统上实现了本文提出的目标跟踪算法。实验硬件配置为主频3.6 GHz Intel Core™i7-7700 的CPU，8 GB 显存的GTX1080GPU，32 GB 运行内存，平均跟踪速度为43 frame/s。ImageNet 中的ILSVRC 2015训练集包含3 862个视频片段，总共超过100万帧标注图片，验证集包含555 个视频片段，总共超过10 万帧标注图片。本文中使用的离线训练网络为在ILSVRC2015 大规模数据集上训练的VGG16 卷积网络，在跟踪数据集上没有进行优化网络参数（finetune）操作。浅层特征包含较多的空间信息，而深层特征包含较多的语义信息。特征的空间信息可以提高目标定位的准确性，语义信息具有较强的抗干扰能力。因此，本文使用VGG16 网络中Conv4_1和Conv4_3 层特征作为基本的深度特征。在特征通道选取时冻结预训练网络参数，跟踪时针对当前目标，利用损失函数和回归网络对特征通道进行选择，后续帧沿用初始帧选择出的特征通道。初始学习率设置为10，随着迭代的进行最终下降为10。高斯软标签中设定为3，正则化参数设置经验值为10。在跟踪阶段，本文所用参数和SiamFC类似，输入的模板图像尺寸为127×127，搜索图像尺寸为255×255。本文在3 个尺度上搜索目标1.05，以应对目标的尺寸变化。

在S-P 函数中，惩罚函数(,)在一个坐标维度随惩罚调节因子的变化情况如图5 所示，可以看出在相对距离不变时，随着增大，对应的干扰比重减小，降低了干扰物体在结果预测图中的权重，对干扰物体的惩罚力度增大。在实验中，为了不至于过分降低背景干扰所占损失比例，设置为0.8。

图5 惩罚函数随α 的变化情况Fig.5 Curve of penalty function with α

值在实验过程中逐步确定。固定惩罚调节因子=0.8，在实验中误差阈值从0 变化到1.0，在值为0.1 时跟踪表现最好，因此开关阈值值设置为0.1。

3.2 对比实验分析

OTB 数据集主要的评测指标是平均像素误差（average pixel error）和平均重叠率（average overlap rate）。平均像素误差以跟踪到的目标中心位置与真实位置的像素距离作为误差，差值越大，表明跟踪误差越大。平均重叠率表明预测目标区域与真实目标区域之间的重叠百分比，重叠率越高表示跟踪结果越接近真实情况。像素误差和重叠率可视化为精度图（precision plots）和成功率图（success plots），曲线下的面积（area under curve，AUC）表示对算法的性能评价情况。本文比较了10 种主流跟踪算法，包含空间正则相关滤波器（spatially regularized discriminative correlation filters，SRDCF）、基于卷积特征的相关滤波（DeepSRDCF）、实时跟踪的互补学习器（Staple）、区别性的尺度空间跟踪（fast discriminative scale space tracking，fDSST）以及基于相关滤波的端到端表示学习（CFNet）5 种相关滤波算法和SiamFC、SiamRPN、干扰感知孪生网络跟踪算法（DaSiamRPN）、更深更宽实时跟踪孪生网络（SiamDWfc）以及梯度导引跟踪网络（GradNet）5 种孪生网络类算法。

如表1 和图6 所示，本文算法在OTB50上获得了最好的跟踪性能。在OTB100上，本文算法超过了所对比的5 种相关滤波算法。和孪生网络算法进行对比，在跟踪精度方面仅次于DaSiamRPN 算法，在成功率方面仍然获得了最好的表现。并且相对于最初的SiamFC 算法，在跟踪成功率方面，本文由0.519（OTB50）和0.629（OTB100）提高到0.619（OTB50）和0.659（OTB100）。

图6 算法在OTB50 和OTB100 数据集上的评测结果Fig.6 Evaluation results of algorithms on OTB50 and OTB100 datasets

表1 OTB 数据集上各算法的AUC 值Table 1 AUC of algorithms on OTB dataset

VOT Benchmark是一个评测视觉目标跟踪算法性能的测试平台，其主要评测指标包括精度（A）、鲁棒性值（R）和预期平均重叠值（EAO）。精度表示跟踪算法预测的边界框和标定的边界框之间的重叠率，鲁棒性值表示算法在视频序列中的失败情况，预期平均重叠值是跟踪算法的综合性能指标。精度和预期平均重叠值越大表示算法的跟踪准确度越好。鲁棒性值越小表示跟踪失败的次数越少，泛化性能越好。本文在VOT2018 测试平台上比较了一些算法，包括实时跟踪联合卷积网络算法（unified convolutional tracking，UCT）、模型更新跟踪算法（UNet-SiamFC）、SiamRPN、有效卷积算子跟踪算法（ECO_HC）、实时跟踪双层孪生网络算法（SASiam）和递推最小二乘估计目标跟踪算法（SimpleRTMDNet）。VOT2018数据集上各跟踪算法性能比较如表2 所示。

表2 VOT2018 数据集上各跟踪算法性能比较Table 2 Performance comparison of tracking algorithms on VOT2018 dataset

由表2 可以看出，在VOT2018 数据集上本文算法获得了较好的性能，在所对比跟踪算法中跟踪精度和期望平均重叠率最高。在鲁棒性方面比SASiam 算法略差，这是因为SA-Siam 算法构造了语义和外观双孪生网络，并且加入了注意力机制，使得跟踪鲁棒性较好。但是本文算法根据不同目标选取对应的特征通道，剔除冗余特征，并且加入了逐通道互相关操作，从而使得精度值和期望平均重叠值优于SA-Siam。总体来讲，本文算法在VOT2018 数据集上的评测结果达到了主流算法的要求。

3.3 跟踪效果分析

为了直观地展示本文算法跟踪情况，选择6 种主流算法和本文算法进行比较，在OTB100 部分视频序列上的可视化跟踪结果如图7 所示。选择的视频序列包含遮挡、旋转、尺度变化等复杂场景属性，具体挑战情况如表3 所示。

表3 OTB100 上部分视频序列属性Table 3 Some video properties on OTB100

图7 不同算法在OTB100 部分视频序列上可视化跟踪结果Fig.7 Visualization tracking results on partial video sequences of OTB100 by different algorithms

Matrix 和Soccer 视频序列存在运动模糊、快速运动、背景混乱等属性挑战。可以看出在Matrix 第48帧～第96 帧，Staple、DeepSRDCF、SiamFC、SiamRPN和GradNet 算法窗口出现严重漂移；在Soccer 第266帧～第304 帧，Staple、SiamFC、SiamRPN 算法未跟踪到目标，而本文算法依旧能够准确地跟踪到目标，说明本文算法具有良好的适应运动模糊和快速运动的能力。

Bird1 视频序列存在遮挡、形变、超出视野等属性挑战。可以看出，目标被云彩遮挡后，在第297 帧～第375 帧，Staple、DeepSRDCF、DaSiamRPN、SiamFC、SiamRPN 和GradNet 均发生漂移。而本文算法在遮挡后仍然能够准确地定位到目标，说明本文算法具有较好的抗遮挡能力。

Box 和MotorRolling 视频序列存在旋转、尺度变化、运动模糊等属性挑战。在Box 中，本文算法能够准确地跟踪到目标。在MotorRolling 第47 帧～第129帧，摩托车落地后本文算法能够正确定位目标，相较于其他算法，本文算法完整地标识出了目标的外观轮廓。

图8 中定量地显示了本文算法在OTB100 数据集中应对常见挑战的综合表现情况。从图8 中可以看出，在光照变化、遮挡、快速运动和运动模糊指标中，本文算法表现最好。在物体形变和复杂背景中本文算法也排在前列。

图8 OTB100 上6 种不同属性视频序列跟踪成功率Fig.8 Success rate of video sequences with 6 different attributes on OTB100

综上所述，本文算法能够较好地应对遮挡、形变、快速运动和背景混乱等复杂场景的挑战。

3.4 算法有效性分析

为了说明本文算法的有效性，分别对算法中各组件在OTB100 数据集上的性能表现做了对比实验。

由表4 和图9 可以看出，在未应用S-P 和M-C 之前跟踪精度和成功率较低，在应用S-P 函数后将精度和成功率分别提升到0.860 和0.648，在综合应用S-P和M-C 后，精度和成功率提高到0.865 和0.659。各模块对比实验说明S-P 损失函数可以使选择的特征通道具有很强的表达能力，很好地避免了背景的干扰，并且逐通道互相关操作的加入又进一步地提高了跟踪的精准度。通过3.2 节在不同数据集上不同算法之间的对比和算法内部组件之间的对比可以充分说明本文算法在跟踪精度和泛化性方面表现良好，各模块的有效性得到了验证。

图9 OTB100 上各模块表现情况Fig.9 Performance of each module on OTB100

表4 OTB100 数据集上算法各模块跟踪精度和跟踪成功率对比Table 4 Tracking accuracy and success rate of each module on OTB100 dataset

Siamese 类跟踪算法中的互相关操作如下：

其中，为相似度图，(·)是共享的卷积网络，和分别是目标模板和搜索区域。

本文算法和GradNet 算法都引入了梯度信息指导目标跟踪。不过本文算法和GradNet 算法侧重点和优势各不相同。

GradNet 旨在通过更新模板（第一帧目标物体）以适应目标在每一帧的外观，以获得更高的模板相似度。GradNet 训练时计算损失函数对模板特征通道的梯度，并将该梯度连同刚开始提取的模板特征求和后送入共享的卷积网络中再一次求取梯度更新网络的权值，相当于求取二阶梯度，由此得到更新后的模板。

许多Siamese 类跟踪网络使用冗余的特征通道尽量使网络模型具有通用性，并且目标周围的干扰物体会进一步影响目标的识别和定位。与GradNet不同，本文致力于解决特征通道冗余和存在干扰物体问题。本文通过计算损失函数对特征通道的反向梯度信息，基于Selvaraju 等提出的方法对特征通道进行排序以剔除冗余通道。此外，本文提出S-P 损失函数对干扰物体加以抑制，进一步提高跟踪的精度。

4 结束语

本文在孪生网络框架下，提出了梯度导向的目标跟踪算法，通过梯度导向模块实现了针对不同跟踪目标选择特定特征通道的目的。同时针对目标周围相似干扰物体，利用S-P 损失函数对干扰施加惩罚，排除了背景干扰。在获取分数响应图时应用逐通道互相关操作，使目标物体最终定位更加准确。在公开数据集上测试结果表明，本文提出的跟踪算法能够较好地应对环境中的光照变化、物体形变、遮挡等不利因素。和当前主流算法比较结果显示本文算法在跟踪精度、成功率和鲁棒性方面表现良好，达到了主流算法的性能要求。通过比较算法内部各模块对总体的贡献情况，验证了所提出的S-P 损失函数和M-C 模块的有效性。本文跟踪算法基于目标初始帧，后续工作重点是在跟踪网路中加入时序模块，提取视频序列之间的时序信息，建立初始帧和后续帧之间的关系，进一步提高视频跟踪的精度。