多视图专家组区域建议预测的视觉跟踪

2024-02-22丁昕苗王铭淏

计算机工程与设计 2024年2期

关键词：跟踪器视图建议

单彬，丁昕苗，王铭淏，郭文

(山东工商学院信息与电子工程学院，山东烟台 264009)

0 引言

由于目标跟踪[1-8]存在几项有独特特性的问题而被深入研究，例如：跟踪过程中由于物体的剧烈形变、物体旋转、严重遮挡以及视频帧的光照变化等原因造成的跟踪不稳定，还有跟踪过程中能够获取的正样本数量有限问题。

现有的视觉跟踪器大多由3个部分组成：特征表示(外观模型)、模型更新器和集成后处理器[9]。在这3个组件中，“特征表示器”和“模型更新器”是两个重要的组件，它们在目标跟踪中起着关键作用，但却面临着以下挑战：

(1)判别特征表示缺乏多样性：单一特征的目标表示始终会限制跟踪器的跟踪性能。在跟踪领域，跟踪数据可以通过不同类型的视觉视图来表示，包括Color[10]、LBP[11]和HoG[12]等。由于目标表示的方式在不断发展，它在不同的特征空间中具有不同的区分度。在跟踪过程中总是会忽略这种多样化的区别，这可能会导致外观模型的区域更新不正确。然后分类错误将累积并最终使跟踪器漂移[13]。

(2)目标定位过于模糊：由于目标的外观变化较大、目标旋转、严重的遮挡以及视频帧中的光照变化，传统的目标跟踪算法无法非常准确定位目标，因此使跟踪器在后续视频中漂移。

(3)正样本的数量：被跟踪目标的正样本数量特别受到视觉跟踪的限制，这使得建立基于学习的外观模型和基于学习的目标定位模型变得极为困难。

为了解决上述问题，本文提出了一种基于多视图专家组的区域建议网络的预测目标跟踪方法(multi-view multi-expert region proposal prediction for tracking，M2RT)。多专家组跟踪框架(MEEM)[14]是一种采用熵极小化的跟踪框架，本文将多视图网络结构与专家组学习的方法相结合，利用多样的特征语义信息解决了判别特征缺乏多样性的问题，从而提高了跟踪器性能。

虽然跟踪目标的正样本数量是有限的，但是在通常情况下所采集到的负样本数量是足够多的。因此，本文的方法按照方法[14]围绕目标物体的大概位置扩展出了一组边界框，并多次迭代执行细粒度搜索算法，将通过这样的方法识别出的更加精确的负样本作为负样本。通过在扩展的边界框上建立多个SVM模型的输出以预测最优的目标位置，本方法因此可以同时解决跟踪目标定位模糊和正样本数量有限的问题。

本文的主要贡献可以归纳为3个方面：

首先，本文提出了一种全新的基于多视图的顶层特征的区域建议网络预测学习跟踪器(M2RT)，该跟踪器可以通过使用细粒度搜索算法，来找到更准确的目标位置。它可以通过细粒度的搜索算法，在大概的预测位置周围使用一些区域的建议候选框来找到更精确的目标位置。

其次，本文设计了一种基于多特征集成的多专家最小化修复方案。与以前的工作[14]不同之处在于本文提出的工作是通过同时考虑不同专家在不同视图之间共享的潜在关联对预测的跟踪进行判断，本文的方法不仅能够纠正错误的模型更新，而且还可以利用互相关联的多视图表示进行鲁棒的外观建模。

最后，本文建立了一个闭环的解决方案，以桥接区域建议网络预测学习跟踪器和多视图多专家修复方案，从而可以协同的提高其跟踪性能。基准评估表明，本文提出的跟踪器在比例变化和遮挡方面更鲁棒、更准确，并且可以得到显著提升的性能。

1 相关工作

本章节简要的回顾一下目标跟踪和多视图目标跟踪中目标表示的几项最具代表性工作。这些方法与本文提出的跟踪算法密切相关。

1.1 视觉跟踪中的目标表示

已有的来描述跟踪目标表示的方法有很多，例如彩色图像[10]、局部二值模式直方图[11]、定向梯度直方图[12]、前后帧关联[15]、主成分分析[16]、边缘检测[17]、稀疏模型[18]、循环结构[19]以及卷积神经网络[20]等。直方图是一种有效的方法，该方法被证明对描述跟踪区域的外观表示是非常有效的。例如，颜色直方图是一种不考虑图像中的空间信息的颜色分布的表示。然而，通过这种方法获得的目标的直方图缺少可靠的空间信息，因此，在跟踪目标时很容易失败。一些研究人员现已将空间信息添加到直方图中，以提高跟踪性能。例如，空间分布图[10]在每个直方图单元中都包含空间均值和协方差。该空间信息有助于捕获对目标的更丰富描述，并提高跟踪的鲁棒性。局部二值模式直方图[11]是从局部二值模式(local binary patterns，LBP)描述符获得的，该描述符对于由自然现象(例如光照变化)导致的任何单调灰度级变化均具有较强的鲁棒性。定向梯度直方图(histogram of oriented gradient，HoG)[12]包含局部空间和边缘方向信息，并且是目标检测的有效描述符。一些研究人员建议将LBP与HoG分类器结合使用，因为它们的结合可以产生最佳的人体检测结果，甚至可以处理部分目标为人体时的遮挡情况。主成分分析子空间(principal component analysis，PCA)[16]学习可以保留的空间信息并可以适应外观变化，但是其计算又太过于复杂。

最近，大量的循环结构特征跟踪器[14]蓬勃发展并引起了广泛关注。在借助循环矩阵的作用下，所有关注的目标周围的平行排列样本都可以被采集并直接用于训练而不需要降低过多的运行速度。以上所介绍的特征表示方法都能在一定程度上使得视觉跟踪取得较好的效果。

1.2 多视图的视觉跟踪方法

多视图视觉跟踪结合了多个功能描述符，以提高视觉跟踪性能。由于跟踪目标表示具有不同的特征模型且具有不同的判别力，因此有必要组合多个特征以进行目标跟踪。

Grabner等[21]设计了一个自适应集成跟踪算法，其中采用了多种功能来增强选择最有判别性的信息。在文献[24]中，提出了一种创新性的视觉跟踪方法，这种方法以通过加权熵使用多特征融合，并将他们通过最小化用于目标表示的加权熵技术来寻求最佳特征组合。Hong等[22]提出了一种新颖的多任务多视图稀疏学习跟踪器。他们构建了一个自适应特征字典，该字典由不同稀疏特征表示的线性组合构建而成。Yong等[23]利用具有不同特征描述符的多个跟踪器通过概率方式构建了一个鲁棒的跟踪器。Danelljan等[25]提出了一种用于实时视觉跟踪的自适应颜色属性，并且该方法组合了多通道颜色信号进行跟踪。为了降低颜色属性的高维计算复杂度，他们采用了自适应维降技术并取得了不错的效果。本文提出的方法与现有的专家学习跟踪器不同，相关的跟踪器仅关注多个特征向量组合或目标的选择，而本文提出的多视图多专家视觉跟踪器将多个特征视为一种多专家选择机制，以使模型更新器更鲁棒和更多样化。

近年来，深度学习在计算机视觉中的各大领域都取得了巨大研究成果，随着图像检测方向中深度学习算法发展不断壮大，深度学习在跟踪领域中的研究应用不断涌现。Hyeonseob Nam等提出的MDNet[26]使用了一种多域学习的策略，利用难样本挖掘和边界框回归结合的方法在2015年打败了相关滤波等传统跟踪算法获得了最优的性能，而SiamFC[27]是之后最为流行的孪生网络跟踪架构的开创性工作，CFNet[28]为CVPR2017中首个端到端的深度学习与相关滤波结合的跟踪工作。李博等提出的SiamRPN[29]中使用了检测领域中的RPN[30]检测器，通过将模板特征与当前帧的特征的相互交叉关联来重新检测模板，这种新的网络结构大幅改善了跟踪精度，避免了跟踪漂移问题。最近几年的跟踪方法里，对SiamRPN进行改进成为了目前一个比较主流的研究方向，使用更深层次的架构(SiamRPN++[31])和改善的模板更新机制(UpdateNet[33])使视觉跟踪器在准确性和鲁棒性上有了显著提升。赵越等提出了互注意力指导的方法[32]也取得了不错的进展。

2 我们的工作

在本节中，将详细描述本文提出的基于多视图的区域建议网络跟踪(M2RT)算法。其框架如图1所示。提出的跟踪方法包括两个相互相关的阶段：多视图MEEM[14]跟踪和用于目标定位的多区域建议网络预测学习。支持向量机SVM的训练样本是从真实值周围两倍大的区域中采集到的。

图1 M2RT跟踪器的流程

通过采用不同的特征视图来扩展多专家跟踪，以构成多样化的专家组。多视图MEEM跟踪器将粗略的目标位置作为顶层区域建议网络的初始输入。M2RT跟踪器结果的一些快照也通过反馈回路被引入多专家集成器，这可以提高模型更新器的多样性和鲁棒性。

2.1 基于顶层特征的区域建议网络(RPN)预测

在根据先检测后跟踪这样一个主流的两阶段的框架中，许多跟踪方法都依赖于之前视频帧的预测结果。但是，当前一帧得到的结果是错误的，就会导致下一帧的更新出现偏差，多次迭代后致使跟踪失败。因此，对于目标的精确定位在视觉跟踪中起着重要的作用。在本文中，我们利用到了一种基于顶层特征的区域建议网络来精确定位目标。

通过使用大规模标记的视频帧对CNN的特征检测器进行整形来实现这种可能性，从而使网络能够提取与跟踪高度相关的特征。然而，在实践中大规模地收集这种标记的数据是困难的。而我们的目标是消除集成和特征工程，而无需任何带标签的视频帧的支持。该方法的基本思想是，如果跟踪器能够使用新颖的损失函数来利用区域建议网络和跟踪之间的概念相似性，则网络应该能够生成相关的跟踪特征。在整个网络过程中，本算法遵循了通用的在线跟踪框架，对区域建议性网络(RPN)做出了以下改动。

2.1.1 感受野和输入尺寸

本网络的第一个设计是选择合适的输入图像尺寸。大多数目标跟踪任务的输入图像尺寸数值的产生是凭借经验得来，而本文利用改变感受野尺寸产生的特性来指导算法对于输入尺寸的选择。在CNN卷积的过程中，特定神经元的感受野是指输入图像中相关像素的数量。例如，如果神经元是由5×5卷积滤波器直接在输入图像上生成的，则该神经元的感受野将具有5×5像素。由于在卷积中输入的图像是大图像块，该图像块覆盖了整个对象，因此，如果所选层中神经元的感受野小于输入图像，则特征可能太局限，无法牢固地捕获对象外观。另一方面，如果神经元的感受野可能比当前输入图像覆盖更大的图像，则该功能可能太多余了。

本网络选取了ZFNet[34]作为区域建议网络的主干，在该网络中，对conv5层进行训练以生成区域建议。该层的感受野为171×171，根据文献[29]中的相关介绍，这样选择尺寸是让输入图像覆盖感受野对象之外的一部分背景内容。因此输入图像的正确大小为203×203，在本算法使用的RPN中，两个相邻图像之间锚的步幅设置对应于输入图像中的16个像素点。

2.1.2 锚框的匹配与跟踪

本算法由多视图处理算法将输入的单帧图像处分别以4种方式得到4种特征集合，并通过在线的视图支持向量机以分类的方法将跟踪当作一种特殊的分类问题，输出多个粗略的定位框，此时的框并不具有尺度信息和精度，通过多视图分类结果框作为输出送进区域建议网络得到更加精确且唯一的预测目标结果框，在算法中采用这种处理方式主要有以下考虑：

首先，它提供了一个来探索顶层的内部结构特征的工具。为了优化跟踪性能，可以测试不同的锚的匹配策略。

其次，每个匹配的锚可以被认为是一个数据样本，因为它们都有助于损失函数对于参数的调整。与单一的分类输出相比，该方法有效地增加了训练数据的数量。它显著降低了在线训练的过拟合风险。

2.1.3 优化损失函数

通常情况下，科研人员对于区域建议网络应用的损失函数可以被定义为

(1)

根据前面的传统损失函数，跟踪器想要实现的损失函数应该能够同时考虑跟踪精度和边框坐标回归。如果算法不对这个目标进行优化，过程中累积的误差将不可避免地导致跟踪失败。基于顶层特征的区域建议网络的关键思想是使用另一种版本的锚来设计损失，以利用对象性和跟踪之间的强相关性，为跟踪精度提供一个强大的基础。同时，边界框的质量也应该用一个新的参数来规范，这样就不会受到标记边界框数据不足的影响。该算法使用的损失函数为

(2)

图2 锚点结构

本文将验证这种设置非常适用，然后在OTB100这样一个主流跟踪基准上选取了前50个视频片段测试并展示最终的优良表现。

2.2 在线多视图支持向量机跟踪器

这项工作中的基本分类器采用的是在线SVM跟踪器，该跟踪器始终将跟踪表达为二分类问题。

(3)

其中，w，b为一般条件下SVM的超平面参数，ξi是铰链损失函数，该损失函数将原型集Q和新数据集P各自的损失L结合为

(4)

训练后，将来自新训练数据的支持向量添加到原型中。专家组中的某些删除和合并操作与MEEM跟踪器完全相同。

2.3 视图多专家辅助修正方法

MEEM跟踪器提出了一种多专家还原方案作为模型更新辅助。为了全面，准确地表示目标，本算法使用特征的多个视图(即Color，HoG和LBP)来描述目标。根据在不同时间点获得的多个视图结果，跟踪器使用其之前快照在下一时刻继续更新传入帧的信息。

首先跟踪模块假设ht，ct，lt分别表示获得的快照，它们具有不同的视图，即在t时刻的学习分类器的Color，HoG，LBP，则专家组可以表示为M={ht1，ht2，…，ct1，ct2，…，lt1，lt2…}，其中E表示集合中的专家。然后，我们可以根据最近时间范围内的累积损失来确定最佳专家

(5)

第二步，跟踪器需要在M2RT跟踪器模型中设计合适的损失函数。并且，我们通过使用扩展的半监督部分标签学习(PLL)[35]解决了跟踪问题。给定训练样本$={(xd，zd)}，可以使用MAP框架求解PLL，该框架可使Θ参数化的模型的对数后验概率最大化

(Θ，λ|$)=L(Θ|$)-λH(y|x，z；$，Θ)

(6)

其中，L(Θ|$) 表示模型的对数似然率参数Θ和H(y|x，z；$，Θ) 表示以训练数据和可能的标签集为条件的类别标签的经验条件熵。MAP框架通过熵正则化项提供了一种支持低模糊性模型的有效方法。

在本文提出的多视图多专家跟踪过程中，可以获得随时间变化的每一帧的目标分布。在每一帧中，给定新样本$={(xd，zd)}，而本算法需要预测目标的位置。在这当中，$={(xd，zd)} 表示表征信息，{hd，zd}，{cd，zd} 和 {ld，zd} 表示关联的不同视图，并且yd∈Y={-1，+1}⊂zd表示有可能的标签集合，由该标签集合对跟踪问题的特定约束进行编码。根据式(6)，式(5)中的损失函数可以重写为

RE(x，z)=-L(ΘE|x，z)+λH(y|x，z；ΘE)

(7)

对数似然定义为

L(ΘE，|x，z)=argmaxy∈zlogp(y|x；ΘE)

(8)

熵项定义为

H(y|x，z；ΘE)=

(9)

这里的p(y|x，z；ΘE) 是新特征x的分类器分数值，可以定义为

(10)

如果y∈z，则函数δz(y) 取1，否则为0。

2.4 多视图支持向量机和顶层区域建议网络相互提升学习的方法

本文提出的M2RT跟踪器充分利用了多视图SVM和区域建议网络学习方法的优势。本算法又更好地利用了具有不同视图的各种样本来构建更鲁棒的外观模型以进行视觉跟踪。

提出的跟踪器应用了SVM来粗略定位目标的初始位置，然后，利用区域建议网络学习将在真实值附近更准确地检测缩放到实际目标。此外，区域建议网络学习的结果将反馈到专家组中，这肯定会提高多视图SVM的性能，这种融合将相互促进多视图SVM和区域建议网络在跟踪上的性能。

算法1概述了M2RT跟踪器的整个跟踪过程。我们对实验中所有视频使用了相同的设置，接下来将通过OTB跟踪基准[2]实验来验证本文算法的鲁棒性。

算法1：本文算法M2RT跟踪算法

输入：n视频的视频帧I1，…，In，真实值的框r1。

步骤1 初始化：为第一帧I1训练SVM分类器。

步骤2 对于每一帧Ij：

在时间间隔Δ内，生成专家E，多余数量时丢弃最远的专家；

对于每一个E，从E中获取实例包和标签集 (x，z)，出现一个错误结果时，通过式(10)～式(13)计算RE；

通过式(8)最小化局部专家跟踪器；

通过式(6)使用Q和P更新跟踪器；

利用SVM输出一个粗略的位置作为初始区域。

对于RPN模块迭代：

输出一个大致位置作为顶层区域建议网络的初始区域；

进行绝对背景对比搜索；

通过式(1)和式(5)找到最佳预测区域，输出最终结果，反馈给专家集合。

使用Ij和bj重新训练跟踪器。

步骤3

输出：预测框r1，…，rn。

3 实验分析

3.1 实现细节

在本章的实验中，图像区域被标准化为32×32以进行特征提取。SVM的负样本是从围绕地面真相的两倍大的区域中汇集的。HOG描述符的窗口大小为5像素，方向为9，LBP描述符在10像素的窗口上工作。多专家跟踪的参数设置与MEEM[14]完全相同。所有实验均在Matlab和C中在具有16 GB RAM的Intel 2.70 GHz CPU和 NVIDIA RTX 2070 s显卡上实现。

本章测试了提出的方法，并将其与包含50个视频的大型基准[2]上的其他视觉跟踪器进行了比较。我们的方法的性能是通过使用的3个指标进行定量评估的，包括距离精度(DP)、中心位置误差(CLE)和重叠成功率(OS)。DP分数定义为视频中帧的百分比，其中跟踪预测值和真实值质心之间的欧几里德距离小于阈值。OS得分计算为视频中帧的百分比，其中跟踪预测值和真实值质心之间的交点超过某个阈值。

3.2 消融实验

为了验证本文所提出的M2RT算法的有效性，本章节对多特征模块，专家组模块以及预取建议预测模块进行了单独实验。以下为对本跟踪器用到的具体模块对于该算法做出的特定贡献做消融实验细节。为了评估多视图融合的特定贡献，首先使用原始跟踪器实现了多视图MEEM。通过3种特征视图获得不同的置信度得分：Color，HoG和LBP。

测试数据集中的Jogging-2这个视频表明，有两个女人在跑道上慢跑，并穿过一根灯杆。该序列由移动的摄像机捕获。跟踪的困难来自于混杂背景、运动和表观变化。

白色光柱和左侧跑步的女人之间的遮挡发生在第75到85帧。如图3所示，图中列出了慢跑各个部分的跟踪结果(由于片段较长，本实验采用隔帧选取的方式展现跟踪实例)。从图中可以看出，多视图MEEM可以比单视图MEEM快约4帧的速度恢复到对象，这表明使用多视图的改进。如图4所示，图中给出了两种算法在中心错误率和重叠率上的差距，从中可以看到在跟踪测试基准具有不同的衡量指标的重要性。

图3 视频Jogging-2中第50帧到64帧跟踪结果比较

图4 视频Jogging-2的中心错误率和真值重叠率的比较

其次，为了验证多专家组模型和顶层区域建议网络在提出的算法中起到了相互提升学习的作用，本章节进行了消融实验，从表1可以观察到，与MEEM算法相比，在最初的多专家算法模型的基础上加入了区域建议预测模块，本文的算法性能获得了显著的提升，这说明了本算法所加入了区域建议模块有助于改善跟踪器的性能，还有效降低了跟踪目标表观旋转而导致跟踪失败的概率。提出的M2RT算法无论是从精度还是目标跟踪成功率等多个角度都得到了全面的提升，提出的算法所使用的这种融合特征的网络模型都可以更有效追踪目标位置，从而降低了目标发生漂移的风险，从而在数据集测试中获得更好的效果。

表1 OTB中做的消融实验

可视化实验提升效果：从图中可以看出提出的M2RT跟踪器，以区域建议网络跟踪显示比MEEM更准确视图专家组区域建议预测的视觉跟踪的对象定位。CarScale显示汽车正在接近灌木丛和树木，并且比例变化和遮挡是此视频的最大挑战。这是测试跟踪器是否具有对象定位功能的完美视频(由于实例片段过长，在如图5所示中采用隔4帧的方式展示跟踪实例)。从其顶部子图可以看出，在汽车进入灌木丛之前，跟踪器的重叠率比MEEM大。在相同的跟踪精度下，我们的重叠率也更大，这意味着我们的跟踪器可以更好地处理比例变化。发生遮挡后，MEEM会从物体上漂移，而我们的跟踪器仍能成功地继续跟踪汽车。实验结果表明，我们的跟踪器可以通过区域建议网络学习来更精确定位对象。

图5 视频CarScale中第152帧到180帧跟踪结果比较

3.3 与相关主流算法的对比

在流行的CVPR2013基准[36]上评估了所提出的方法，该基准包含不同场景下的50个具有挑战性的图像序列。将提出的方法与其它34种不同的视觉跟踪器进行了比较。在这些比较算法中，MEEM[14]为本次提升算法的baseline，作为参考比较，DSST[19]、KCF[4]作为具有代表性的机器学习与相关滤波跟踪算法，作为比较对象，FCNT[29]是2015年首次应用CNN结合跟踪的深度学习跟踪算法，SiamFC[27]是近年比较流行的孪生网络跟踪架构的首个代表作，CFNet[28]为CVPR2017中首个端到端的深度学习与相关滤波结合的跟踪工作，而MDNet[15]，C-COT[16]是近几年算法竞赛中取得好成绩的跟踪器。我们采用了这些跟踪器的原始实现方式(使用默认参数来自作者网站的源代码)。

此外，结果使用精度图和成功图表示。在精度图中，在一定范围内的阈值上绘制了平均距离精度。在图例中，报告了每种方法在20个像素处的平均DP得分。平均重叠精度绘制在成功图中，曲线下的面积(AUC)包括在图例中。根据最近发表的工作[27，30]中的实验设置，本文使用单次通过评估(OPE)[2]策略进行实验，以将本文提出的方法与其他最新方法进行比较。

3.3.1 总体性能评估

如图6所示，本章节显示了基准上总体性能比较的精度和成功曲线。图例中显示了排名前10位的跟踪器平均距离和重叠精度。曲线的线型是由图中相应跟踪器的等级决定的，而不是由跟踪器的名称决定的。

图6 平均精度曲线和成功曲线

本文的方法(M2RT)达到了最佳性能，在跟踪成功率绘图中的平均值为83.3%，在跟踪精度绘图中的平均值为90.4%。精度图和成功图表明，我们的方法优于除了MDNet以外的其它方法。

3.3.2 基于属性的评估

基准测试中的图像序列带有10个属性，以描述跟踪问题中的不同挑战，例如背景杂波、变形、比例尺变化等。这些属性有助于在不同情况下分析跟踪器的性能。我们在图6中说明了10个具有挑战性的属性的结果。我们的方法相对于其他最新的跟踪器具有良好的性能，这表明所提出的方法可以有效地建模对象外观并准确地定位对象以进行视觉跟踪。

4 结束语

本文提出了一种全新的用于视觉跟踪的多视图联合专家组区域建议网络预测学习算法。考虑到目标物体外观的多视图属性，提出的跟踪器利用多种视觉特征来生成外观的综合表示，捕获物体的多种判别性特征。提出的算法使用区域建议网络预测学习，以大大提高对象定位的准确性。通过实验验证了该跟踪算法相比于其他相关跟踪器具有良好的跟踪精度和鲁棒性。在后续的研究中，本文发现通过加入高斯回归作为概率算法辅助作用可以提升特征判别的准确性，在后续工作中，我们会通过实验分析验证这一方法。