对目标跟踪算法发展的相关思考

2021-04-04邱晓鹏

电子测试 2021年4期

邱晓鹏

（中南大学，湖南长沙，410083）

1 相关背景

目标跟踪领域从上世纪五十年代发展至今已经出现了很多不同的框架和算法，经过国内外研究学者的潜心研究，目标跟踪算法经历了从最开始的基于卡尔曼滤波的跟踪算法到基于检测或相关滤波的算法，然后到近几年出现的与深度神经网络相结合的跟踪算法的发展过程。在上世纪三十年代，随着美国军方设计的当代第一款跟踪雷达SCR-268投入使用，目标跟踪问题也随之被人们提出。直到上世纪五十年到初期，Wax 首先提出了目标跟踪的概念，这标志着目标跟踪正式进入到科研领域之中。在之后的几十年中，越来越多的优秀算法被广大研究学者提出。

随着深度学习跟踪算法的发展，将相关滤波与深度学习框架相融合，而后通过端到端的方式训练出目标模型成为了一个热点问题。在2018年，Park and Berg提出了元学习跟踪算法和 Song提出的与生成式对抗网络相结合的目标跟踪算法，二者都希望能够通过多方面融合获取更好的跟踪性能，同时也是深度学习跟踪算法工作上的最新进展。通过与深度学习相结合，目标跟踪算法在最近这些年里取得了跨越式的发展，但是深度学习需要使用大量的数据来训练模型，在跟踪过程中所使用的样本往往只有连续视频序列的第一帧，这导致了训练样本数量的匮乏，并且在卷积神经网络中，随着网络层次的逐步加深，会逐步丢失目标的位置信息，这对跟踪任务反而有着负面的影响，过深的网络反而会导致跟踪任务的失败，如何在深度网络中充分的保留住目标的位置信息是深度学习在目标跟踪上应用的一个难点。

2 目标跟踪的难点

随着目标跟踪技术的不断发展，越来越多的优秀算法被相继提出，但是如何在复杂的场景下保证跟踪器的精度依旧是一个不变的主题。跟踪问题的主要难点在于：

（1）遮挡与消失：目标跟踪主要研究的问题就是确定目标物体的运动轨迹，目标在运动时极有可能被障碍物所遮挡导致目标物体的消失或者是部分消失，这一问题是跟踪领域最常面对的问题之一。当目标被遮挡时，那么背景信息也会出现在跟踪框中，这就会对跟踪器的在线更新产生负面的影响，导致跟踪器漂移丢失目标，同理，如果目标消失，那么所带来的影响会更为巨大。如何在目标被遮挡或消失后重新调整跟踪器是目标跟踪研究的一大难点。

（2）背景复杂多变：目标跟踪主要研究的内容就是区分目标与背景，目标以外的内容都被当做背景处理，所以背景问题也是目标跟踪领域研究的重要问题之一。比如在背景与目标极为相似的情况下，就可能导致跟踪器的漂移而丢失目标。在复杂背景下跟踪器的建模难度也随之提高，如何让跟踪器适应复杂多变的背景内容是目标跟踪领域研究的一大难点。

（3）目标外观多变性：在目标跟踪过程中，目标的外观很可能会因外界环境的变化而发生改变，比如光照的因素，光强过强或过弱都会影响目标的曝光度，或是目标颜色的变化、视角的变化和目标形状的变化，这些都是跟踪过程中可能遇到的问题，这些问题也会导致跟踪器的漂移以至于丢失目标，所以在目标外观发生改变的情况下，如何使跟踪器能够准确地跟踪到目标是目标跟踪领域的一大难点。

（4）运动模糊：在实际场景下的目标跟踪，很有可能会遇到摄像仪器的抖动或是传感器出现故障等问题，该类问题很有可能会导致目标在当前画面成像模糊，成像模糊会直接导致跟踪器的模板与目标匹配不稳定，就可能导致跟踪器建模的精确度降低从而导致跟踪失败。当检测到模糊图像时，通常需要用到复原技术使模糊图像尽可能的清晰，但还原后的图像成像效果会大幅度的降低，这也会影响到跟踪器的准确识别，所以如何处理运动模糊问题也是跟踪过程中的一个重要环节。

（5）尺度变化：尺度变化往往发生在目标与观测仪器的相对位置发生改变时而产生，在目标与仪器之间的距离发生改变时，目标在图像上的占比也会发生变化，如果跟踪框不能自适应的根据目标尺度的变化而变化，那么就可能导致跟踪框不能完全覆盖目标或是跟踪框内出现太多背景内容，这些都会影响到跟踪器的下一步更新，严重时会是跟踪框偏移导致目标丢失，所以如何实现跟踪框自适应的随着目标尺度变化而变化就显得尤为重要。

（6）姿态变化：姿态变化问题多在跟踪生物时发生，如跟踪目标为人或动物时，人或者动物可能会改变当前的动作，导致姿态变化，如何使目标发生姿态变化时依旧能跟得上目标，也是一个常见的问题，如：运动中的人或动物。

3 对目标跟踪算法发展的相关思考

目标跟踪任务是指在一个连续的视频序列中，在起始帧处采用人工标注的方式标识目标物体的初始位置，然后在后续的帧中由算法自动对目标物体进行实时定位一直到跟踪任务结束。随着目标跟踪算法的逐步发展，当前的目标跟踪算法几乎都是与深度学习相结合的，其主要利用深度学习网络强大的表征能力提取目标特征，在跟踪过程中使深度跟踪器能够更好的捕捉到目标。对于深度学习，可以理解为是一种通过给定信息求预期解的过程，这种过程通过深度网络实现，在目标跟踪领域中，深度网络的输入就是连续视频的首帧图像中目标所在的位置坐标，对应输出就是后续帧中目标的位置坐标，跟踪过程就对应了深度网络的推理过程，而输出目标位置的精确度就代表了深度网络性能的好坏。对于深度跟踪网络而言，本文第二章所述的相关难点依然是存在的，针对本文第二章多阐述的六个难点问题，本文对与深度学习相结合的跟踪算法提出了以下三点思考内容。

3.1 浅层网络具有更好的适应性

在计算机视觉很多领域中，如人脸识别，目标检测等领域内深度卷积神经网络都取得了良好的效果，但在目标跟踪领域尚未取得同等突出的效果，主要是因为在目标识别，检测这一系列任务中，有着海量的数据集可供网络训练，并且检测和识别都具有一定的规律性，但是目标跟踪领域存在着独有的问题。首先，目标跟踪问题具有自己的独特性，目标检测中要清晰的分辨出目标的类型不同，在目标跟踪任务中，只有目标和背景这两类图像，而这就产生了一个棘手的问题，比如在某一视频序列中，跟踪的目标可能在另一视频中变成背景，这就为网络训练带来了一定的难度。其次，对于目标跟踪而言，随着使用的卷积神经网络深度加深，目标的语义信息逐渐强化，然而可供定位的描述信息却逐渐弱化，反而容易对目标跟踪任务产生负面的影响。综上原因就造成了深度神经网络在跟踪领域内的应用变得更有难度。所以，为了更好地发掘卷积神经网络在目标跟踪上的表达能力，在大型数据集上进行跟踪的训练就显得尤为重要，但大型数据集又涉及到广泛的目标和背景组合，并且在不同的视频序列中所涉及到的目标物体又会具有不同类别的标签、移动方式以及外形，跟踪算法在每一个视频序列上所遇到的问题也会不同，比如：遮挡、形变、光照变化或者是运动模糊等等，所以要使跟踪算法能够很好的适用于各种情况就显得十分必要。基于上述内容可知，并不是越深的网络在跟踪目标时就具有越好的性能，反而浅层的网络可以更好的保留目标物体的位置信息，并且考虑到跟踪算法的实时性，在跟踪过程中显然在保证跟踪精度的同时算法的计算复杂度越低越好，所以浅层网络在跟踪问题中反而具有更好的适应性。

3.2 跟踪过程中进一步突出目标信息

目标跟踪是在给定的初始帧处目标边界框，而后在后续帧上精确定位目标对象的任务。与其他的目标识别任务（如目标分类和检测）相比，在目标跟踪过程中，实例级别是一个重要因素，也就是跟踪任务所要跟踪的目标，它可以是某个特定的人员或者特定的产品。因此，一个效果良好的目标跟踪器不仅应该能够从背景和其他类别的目标中准确标识出跟踪目标，而且还应该能够在属于同一类别的类似干扰源中识别出特定目标。基于上述内容，本文提出在目标跟踪网络中，可以通过突出目标抑制背景的方式使深度网络更好的提取到目标样本的信息，在在线跟踪的过程中就可以进一步的提升跟踪器的精度。

3.3 在线跟踪过程中去除污染样本

一般情况下，在实际跟踪过程中，跟踪网络还会通过利用当前跟踪目标的有限样本信息对整个模型进行微调，这一做法可以使模型对当前的目标具有更强的辨识度，这种做法也在一定程度上提升了跟踪算法的精度，也减少了跟踪网络对于目标训练样本的需求。但是在实际的跟踪过程中极有可能出现目标被遮挡或者发生严重形变的情况，在这类图像中，目标的信息已经出现变化，如果采用这类图像对深度跟踪网络模型进行参数更新，反而可能会使得跟踪器的精度降低，所以，也可以通过对跟踪时过往图像信息的筛选，剔除掉目标受到干扰的样本来进一步提升深度跟踪器的精度。