基于深度学习的目标跟踪技术

2021-05-31杨顺华黄时加

电视技术 2021年4期

侯淋，杨顺华*，黄时加

（1.中国空气动力研究与发展中心，四川绵阳 621000；2.中山大学电子与通信工程学院，广东广州 511400）

1 目标跟踪技术

目标跟踪[1-2]是利用图像的初始信息，在连续的图像片段，持续预测目标位置变化等信息的过程。通常，其算法框架分为基于生成类和基于判别类两种。自2013年起，相关滤波跟踪算法和深度跟踪算法[3]各自在视觉跟踪领域独树一帜。采用循环矩阵技巧的KCF[4]算法的跟踪速度可达到130 f·s-1。这类算法在速度和精度上的优越性，促进了一系列相关方法的发展，可用于处理各种挑战。而深度学习[5]模型具有丰富信息的深度特征和大量深度学习框架的落地实施，促使深度跟踪技术带领目标跟踪领域迈入新技术时代。

2 视觉深度目标跟踪技术

深度学习是利用多层神经网络模型学习图像鲁棒特征的过程。它的出现促进了更多更高效的图像特征方法的诞生。然而，跟踪过程目标的不可预知性和训练数据的缺失，使得深度学习算法在目标跟踪领域的应用难以达到非常理想的效果。为此，有学者提出几种目标跟踪思路，如表1所示。

3 基于深度学习的目标跟踪技术发展现状

首个结合了深度学习网络的跟踪算法是DLT[6]，其网络结构如图1所示。其离线模型SDAE能学习可靠的图像特征，初始化时利用目标的正负样本对分类网络进行微调，使得分类网络更具针对性。DLT的在线跟踪模型提取基于粒子滤波方法筛选的候选图像块，在输入分类网络寻找置信度最高的目标位置。

当前，越来越多优秀的深度跟踪算法崭露头角，如图2所示。以下将基于网络功能介绍深度跟踪算法的发展现状。深度跟踪算法分类及主要跟踪算法如表2所示。

表1 常用的深度跟踪算法模型

图1 DTL网络

图2 深度学习跟踪算法的分类

表2 深度跟踪算法分类

3.1 由相关滤波改进的深度跟踪算法

相关滤波的概念源于信号间的相关性描述[7]。在目标跟踪算法中，通过滤波器与视频帧的相关性f预测目标位置，计算复杂度优势明显。HCF[8]首度在相关滤波领域引入深度特征，它不仅利用深度特征更换手工特征，而且设计加权融合置信图策略大大缩减算法的搜索空间。ECO[9]通过减少DCF参数、简化训练集并减少模型更新频率加快算法速度，对抗模型漂移，在保持算法精度情况下达到60 f·s-1的速度。ECO+[10]考虑了不同层次的深度特征的不同性能，提出新的特征的融合策略提高跟踪算法精度。

孪生跟踪算法实质是相关滤波的直接式深度网络模型的应用。SiamFC[11]是首个在ILSVRC15进行端到端预训练的孪生模型，在跟踪精度较高的条件下有远超实时性的速度，促使孪生系列跟踪算法成为当前主流。SiamRPN[12]引入目标检测的RPN模块，将目标相似度问题转化为回归和分类问题。SiamCAR[13]继续改进基于SiamRPN的不足，与传统孪生网络不同的是，该方法采用anchor-free策略，综合分类情况和中心度决定最佳目标中心点，并输入回归网络预测目标，在时间损耗和精度上实现SOTA的性能。

3.2 由分类网络主导的深度跟踪算法

与图像分类任务不同，基于分类跟踪算法需注意目标和背景等序列信息，还要准确预测目标的特征变化，基于此，自主设计一个深度网络模型而非直接使用深度分类模型更具可行性。因此，MDNet[14]提出由共享层和多目标分支网络实现目标跟踪。VITAL[15]针对深度分类跟踪算法框架中正样本高度重叠和正负样本间严重的不均衡分布的缺陷，提出利用对抗学习保证网络能识别目标的鲁棒特征的mask。

3.3 直接回归的深度跟踪算法

GOTURN[16]是于2016年提出的基于回归的跟踪算法，其速度可达到惊人的100 f·s-1。GOTURN方法利用ALOV和ImageNet数据集训练基于图像对输入的卷积网络，在线跟踪时输入前后两帧图像块，模型会直接返回预测的位置信息。深度回归跟踪算法具有直接和快速的特点。

3.4 强化学习推导的深度跟踪算法

以AlphaGO[17]为代表的深度强化学习技术在围棋等领域取得傲人的成绩，使得深度强化学习技术受到许多人的推崇。在深度强化跟踪算法中，强化学习实现的主要是对网络的参数优化或目标移动状态等的直接预测。Zhang[18]提出的端到端的强化学习算法是通过学习单帧图像的空间表示和多帧图像间的时序表示，使得网络输出的特征可以更好提取时序信息，且可以直接应用到跟踪问题上。ADNet[19]通过强化学习的奖励机制使得深度网络能够自主决定该如何“靠近”目标物体。ADNet避免了密集采样，也降低了训练数据的标注要求，适用于特定的跟踪场景。

3.5 元学习方法协助的深度目标跟踪方法

元学习用来研究如何提升模型解决一系列任务的能力。跟踪算法中能利用的图像序列较少，如何快速让模型适应当前的跟踪环境是许多跟踪器关心的问题。Meta-Tracker[20]提出将元学习应用在目标模型的初始化。强化学习原理帮助跟踪模型学到鲁棒的网络参数，有利于提高算法的在线跟踪精度。其在应用元学习到MDNet网络的过程中，直接用元学习网络促使MDNet的分支等学习一个鲁棒的初始模型。实验表明最终的跟踪算法精度与速度都得到了提高。元学习协助的深度跟踪算法具有初始化速度快和鲁棒性高的特点。

4 深度跟踪技术的发展趋势

目前，大型数据集对于深度跟踪算法的意义非凡。为了挖掘深度跟踪算法的优越性，其网络深度越来越高，在军用目标探测和精确制导等落地应用不易实现。尽管深度跟踪算法取得了突破性的研究进展，但对于长时跟踪算法的严重遮挡和消失重现等问题，如何快捷高效地寻回目标仍是一大难题。如何利用深度网络特性构建适应长期跟踪模型，解决跟踪过程中遮挡与消失重现的困境，将是跟踪领域未来一大重点发展方向。另外，随着移动端轻薄化显卡的发展和精炼的轻量深度卷积网络如MobileNet等的涌现，如何在移动端等场景布署深度跟踪应用产品、快速精准跟踪目标也逐渐成为许多学者的关注焦点。

5 结语

深度学习技术对目标跟踪领域的影响巨大，本文在普及目标跟踪原理后系统阐述基于深度学习的跟踪技术，综合分析深度跟踪技术在模型训练和长时跟踪场景的遮挡等不足情况，展望其未来发展方向。随着更多大规模通用数据集的出现，深度跟踪算法有望取得进一步突破。如何利用鲁棒的深度特征构建适应于长期跟踪的模型，并在移动端等场景布署深度跟踪应用产品，快速精准跟踪目标的运动，将成为未来深度跟踪技术的重要方向。