利用ELM-AE和迁移表征学习构建的目标跟踪系统

2022-07-21邓赵红罗晓清王士同

计算机与生活 2022年7期

杨政，邓赵红+，罗晓清，顾鑫，王士同

1.江南大学人工智能与计算机学院，江苏无锡214122

2.江苏北方湖光光电有限公司，江苏无锡214035

随着科学技术的发展，目标跟踪的应用领域也越加广泛。例如车辆监控、行为识别、医疗诊断系统。且作为视觉领域的核心课题之一，目标跟踪已经有了多年的研究历史。早期的目标跟踪技术，采用原始的人工获取的特征，如纹理、光流、色彩等。虽然这些特征可以很好地表示当前的跟踪目标，但是在处理目标消失、遮挡等情况时无法达到令人满意的效果。后来随着基于判别式跟踪器的发展，目标跟踪器的性能有了很大的提高。

判别式跟踪器通常把跟踪过程转变为一个特征学习和分类的过程。通过特征学习来优化复杂图像特征，使目标与背景的特征更容易区分，然后利用分类器来区分目标和背景。判别式跟踪器可以充分利用目标与背景的相关信息，因此表现得更加鲁棒。如基于CNN 的跟踪器。但是这类跟踪器大多数都没有考虑到跟踪过程中目标与背景的变化。

面对上述问题，特别是跟踪过程中的目标变化问题，迁移学习算法（transfer learning，TL）在特征学习上具有一定的优势，并且在近期的目标跟踪器中也多有应用，例如基于boosting的迁移目标跟踪器,该方法通过远离当前帧的目标数据改善接近当前帧的目标数据的方式优化分类器。另外Gao 等提出了基于高斯过程回归迁移的跟踪方法。该方法同样是通过迁移学习改善分类器的方式，而不同的是，该方法将远离当前帧中的目标数据作为辅助目标样本，然后对接近当前帧的目标数据进行加权处理。利用辅助目标样本与当前目标样本对当前帧的候选样本的状态进行最终估计。然而这些方法均没有考虑到目标跟踪过程中相邻帧之间的源域与目标域可能产生的突变因素。因此，迁移学习在目标跟踪中的应用依然有广阔的研究空间。

另外，近几年的研究表明，极限学习机（extreme learning machine，ELM）在图片特征学习上不仅有更快的学习速度，而且具有更好的泛化能力，因此在目标跟踪中也多有应用。例如Liu 等提出的用于视觉跟踪的多任务极限学习机，该方法采用一个共同训练框架来优化两个手动制作的特征提取器。但这种特征提取和优化策略增加了时间成本，因此可能不适用于需要高时效性的目标跟踪应用。

基于上述问题，本文提出一种新的特征学习方法。该方法利用ELM 自编码器（ELM autoencoder，ELM-AE）作为特征学习的主体，然后利用基于最大均值化差异（maximum mean discrepancy，MMD）的迁移表征学习（transfer representation learning，TRL）来使特征提取器能够更加适应目标跟踪过程中的特征变化。作为一种新型的图片特征学习算法，ELM-AE可以快速地进行图像的特征学习。在视觉跟踪中，ELM-AE也取得了很好的效果。但是，对于目标跟踪过程中目标变化的问题，文献[16]仅仅采用在线顺序极限学习（online sequential extreme learning machine，OS-ELM）在线学习的方式来解决。并没有充分考虑到目标变动前后的特征变化。而本文所提的基于ELM-AE和TRL的自适应特征学习模型在应对这一问题时显然更加具有优势。

本文的主要贡献归纳如下：

（1）为目标跟踪系统构建一个新的特征学习模型。该模型利用ELM-AE对图像的特征学习能力进行目标和背景特征的学习，并且利用TRL 对目标变动的适应能力来解决目标跟踪过程中目标与背景不断变化的特点。因此，该模型可以为跟踪器的分类模型提供一个紧凑且具有良好特征表达能力的特征信息，提高分类模型的分类效率。

（2）根据目标跟踪的过程设计一套包含运动模型、特征模型、分类模型的跟踪器。其中，运动模型主要负责以下三项工作：①估计目标状态；②维护样本队列；③视频帧的跳转（即视频播放）。特征模型主要负责对目标样本和背景样本的特征学习。分类模型主要负责对从特征模型中学到的新特征进行分类。

1 相关工作

1.1 基于ELM的自编码器

与传统的ELM神经网络类似，ELM-AE同样具有高效的泛化性能。然而不同的是，ELM-AE的连接权重负责学习从随机隐藏层特征空间到输入数据的转换，即如下式所示：

1.2 迁移表征学习

根据文献[19]的研究，迁移表征学习通常由两个关键约束构成：（1）源域和目标域的分布匹配；（2）目标域的几何性质和源域的判别信息。其表达式可以总结为以下方程：

其中，第一项表示源域与目标域在特征映射下的分布距离，第二项则表示将包含目标域数据和源域数据在迁移的过程中损失最小化。且损失函数表达如下：

对于式（4）中关于分布距离的算法，是本文在文献[19]的基础上改进而来，该部分内容将在第3.2 节中进行详细描述。

1.3 高斯朴素贝叶斯分类器

其中，()为类先验概率，其表示形式如下列公式所示：

其中，n表示训练样本中属于第类样本的个数，表示训练样本的个数。

由于目标跟踪中图片特征的属性是连续的，式（6）中的(x|)可以用下列高斯概率密度函数表示：

最后，目标跟踪器就可以依据所有候选样本的信任分数以及候选样本的状态信息估计出当前帧中的目标状态。

2 基于ELM-AE迁移表征学习的目标跟踪器

本章将主要对所提跟踪器TEA-OT（object tracker based on ELM-AE transfer representation learning）的结构进行详细的描述。跟踪器的整体框架如图1 所示。从图1中可以看出：运动模型主要负责视频帧的切换工作、目标定位工作以及源域和目标域样本的维护工作；特征模型主要负责图像特征的学习工作；分类模型主要负责对共享特征子空间中的源域和目标域进行训练和分类工作。

2.1 生成样本模型

由图1可知，本文所提跟踪器的样本模型的更新是围绕着目标所在的位置进行的。在基于图像块的判别式跟踪器中，源域中的正负样本通常是在当前帧（即第帧）中选取。其规则如图2（a）所示。图中的红色框为当前帧中的目标位置。此时需要特别注意的是：在目标跟踪中，若当前帧为第一帧，则目标的位置通常由手动或自动的方式给出。而在其他帧中，则由跟踪器依据上一帧中的源域样本对当前帧中目标域的样本进行目标分类，然后获得目标的估计位置。假设目标的中心点坐标为，源域中正负样本的中心点坐标分别为、，那么源域中正样本的选取范围为0 ＜‖-‖≤的一个圆形区域。其中，‖ ‖· 表示两点间的距离。为预设值，根据经验判断，当=max(,)×0.1 时效果最好。、分别为目标框的宽度和高度。而源域中的负样本的选取范围为≤‖-‖≤的环形区域。同上，、为预定值，且根据经验估计当=max(,)×0.65,=max(,)×0.75 时效果最好。

图1 TEA-OT的框架图Fig. 1 Framework diagram of TEA-OT

图2 源域与目标域的样本选取Fig. 2 Sample selection of source domain and target domain

对于目标域中的候选样本来说，其生成规则如图2（b）所示。图中的红色框为第帧中目标的估计位置。由于目标跟踪过程中，相邻帧中目标和背景的位置和形态变化不大，可以在第+1 帧，以目标在上一帧中位置的附近生成候选样本。假设候选样本的中心点为，则候选样本的选取范围为0 ＜‖-‖≤的一个圆形区域，且=max(,)×0.5。与源域样本不同的是，为了使跟踪器适应目标尺度的变化，还为候选样本框的宽度()和高度（）分别设计了如下变化范围：

其中，、分别为上一帧中估计目标的宽和高。另外，由于不是每一帧中目标的尺度都会发生变化，因此，只取其中20%的样本为尺度变化样本，其他80%的样本为上一帧中目标的原尺度下的样本。

2.2 基于ELM-AE迁移表征学习的特征模型

假设ELM的隐藏层节点数为，然后利用第2.1节中获得的源域数据，根据式（1）、式（2）学习ELMAE的输出权重矩阵，其表达式如下：

再根据式（3）分别将源域和目标域转化到ELMAE特征空间，如以下表达所示：

其中，n=n+n表示源域中样本的数量。(·)、和均与式（2）中相同。

通常TRL假设在新的特征空间中两个域之间的分布距离最小。而MMD 常常被用作迁移表征学习过程中的分布距离测度方法。另外，由于目标跟踪应用对实时性的要求，需要伪标签的条件概率分布显然不适合。因此本文只选用MMD 边缘概率分布匹配作为两个域之间分布距离的表达形式。令() 和() 分别表示两个域的边缘分布，即MMD的经验估计可以表达为以下公式：

其中，表示特征映射，H 表示再生核希尔伯特空间（reproducing kernel Hilbert space，RKHS），最小化式（14）就是最小化在特征映射下，源域与目标域的分布距离。而TRL的目的就是为了学习这个特征映射。而在基于ELM-AE 的迁移表征学习方法中，映射就是基于ELM的特征自编码器。利用ELMAE 映射得到的新特征空间，两个域之间的边缘分布的经验MMD可以表示如下：

对于ELM-AE特征空间中的一个源域样本a和目标域样本a，其学习后的新特征可表达如下：

最后，通过n维输出ELM-AE进行变换，可以将迁移表征学习后的源域和目标域数据表示为下列矩阵形式：

对于上述连接权重，可以通过最小化以下公式来优化：

结合式（4）、式（5）、式（19），基于ELM-AE 的迁移表征学习可表示为如下方程：

其中，式（20）中引入的tr()2-morn正则化项，用于避免过拟合。、、、分别表示2-norm 正则项、判别信息保留项、几何性质保留项和边缘分布匹配项的正则化参数。采用拉格朗日优化方法，可得如下拉格朗日优化公式：

在目标跟踪领域中，目标与背景通常随时间而渐变，这是需要迁移表征学习发挥优势的典型场景。而本文所提的特征模型正是基于ELM自编码器的迁移表征学习。相比于原始目标和背景图片中的复杂特征，特征模型的TRL-ELM-AE 学习能力将为分类器提供紧凑且易于鉴别的特征。如图3所示，首先，本文所提的特征模型需要在原始图片特征的基础上进行ELM-AE 特征映射，利用ELM-AE 对图片特征的学习能力对原始特征做初步处理，然后通过TRL 进行特征迁移，从而使源域和目标域的数据更容易被分类器学习和分类。

图3 TRL-ELM-AE特征提取模型Fig. 3 TRL-ELM-AE feature extraction model

虽然经过TRL-ELM-AE 学习得到的共享特征，比原特征更加紧凑且易于表达，但是其计算复杂度不能满足实时跟踪的需求。通过对大量目标跟踪场景的观察不难发现一个特点：在时间很小的范围内，目标与背景的变动并没有想象中的大。因此可以假设目标和背景的图像块在相邻帧中分布也是近似的。进而可以假设，在相邻帧中从ELM-AE 中学到的自编码特征也是近似的。从而也可以假设，在TRL-ELM-AE 特征模型中，可以利用上一帧中学到的连接权重矩阵，对当前帧的目标域进行特征学习。通过大量的实验验证，在连续使用10 次或者目标和背景有突变的情况下，通过旧的连接权重矩阵学到的目标域和源域之间的特征分布已经不足以为分类器提供良好的分类信息。此时应当更新源域样本并利用TRL-ELM-AE特征模型学习新的连接权重矩阵。对于目标与背景的突变准则可以利用TRL-ELM-AE 中源域与目标域的分布距离判定，其判定规定如下：

2.3 所提跟踪器的分类模型

根据TRL-ELM-AE 学习所得的新特征的特性，本文选择高斯朴素贝叶斯分类器作为分类模型的核心。

2.4 样本更新策略

在跟踪过程的初期，由于样本数量无法满足跟踪的要求，因此，在最初的5帧中全部需要通过TRLELM-AE 特征模型学习源域和目标的特征信息。等源域的样本数量到达1 000后（其中正样本500，负样本500），将根据2.2.2 小节中介绍的复用策略进行特征学习。另外，如何在跟踪过程中降低甚至避免过多的噪音对于跟踪器来说同样非常重要。而一个合适的样本更新策略可以有效地降低过时样本对特征模型和分类模型产生的影响。针对这一问题，本文在源域样本队列中采用了3个样本子集，包括固定正样本子集、动态样本子集、动态负样本子集。另外为了确保样本更新的准确度，本文还设定了一个合格目标栈。对于目标跟踪而言，唯一确定的正样本集只能在第一帧中产生，因此将第一帧中产生的正样本作为固定样本子集。对于和来说，其维护的时机则由所提跟踪器的特征模型发送更新请求，并由运动模型从中找出最近的合格目标并依据其在所在帧中的位置。在合格目标所在帧中，按照2.1 节中的规则生成新的正负样本，然后按照先进先出（first input first output，FIFO）原则进行队列维护。

对于合格目标栈来说，首先需要按照分类模型提供的置信度分数估计目标在第帧中位置并将其从视频帧中提取出来。然后，对提取出的目标进行合格度评估。如果为合格目标，则按照后入先出（last in first out，LIFO）原则放入，否则只对估计位置进行显示处理。然后，跳转到下一帧，根据跟踪器的跟踪过程进行新一帧的目标跟踪。

另外，根据目标跟踪的特性，真正的目标只在第一帧中被指出。然后，目标也会随着时间的变动而改变，因此采用以下方式作为合格目标的判定标准：

若(x)≤（是预定值，文中设定为0.8），则判定x是一个合格的估计目标，并放入中。

基于以上分析，本文所提出的跟踪器，不仅考虑到原有目标的状态，也考虑了目标后期的改变，因此本文所提出的跟踪器对于目标外观和背景的改变具有良好的适应能力。

2.5 算法描述

根据第2.2 节的总体描述，本文所提跟踪器算法的具体流程如算法1所述。

TEA-OT

目标在每一帧中所在的位置信息，视频所有帧，核心算法参数，生成样本框所需的参数。

输出：目标跟踪的精确度、覆盖率、帧率。

3 实验结果和分析

本次实验采用OTB中所提的OPE（one-pass evaluation）模式，即根据手动或自动的方式给出的目标位置初始化第一帧，然后运行跟踪算法并计算跟踪结果。且本文所用的实验数据是从OTB50和OTB100所提供的100 个视频序列中随机选择的30 个视频。且覆盖了OTB所提的关于目标跟踪任务所面临的11项挑战场景。其中包括：照度变化（illumination variation，IV）、比例变化（scale variation，SV）、遮挡（occlusion，OCC）、变形（deformation，DEF）、运动模糊（motion blur，MB）、快速运动（fast motion，FM）、平面内旋转（in-plane rotation，IPR）、平面外旋转（out-of-plane rotation，OPR)、目标消失(out-of-view，OV)、背景杂波（background clutters，BC）、低分辨率（low resolution，LR）。在每个对目标跟踪视频场景的实验中，将对每一组参数进行5 次实验。根据实验结果对所提跟踪器的参数进行分析。然后将表现较好的参数结果与现有经典算法进行比较。

3.1 实验设置

实验所用电脑以及系统环境如下：（1）CPU，英特尔Core i9-7900X@3.30 GHz；（2）内存，DDR4 32 GB；（3）操作系统，Windows 10 Enterprise 64 位；（4）集成开发环境（IDE），Matlab R2019a。

本文主要采用如下两种评价指标：

（1）平均像素误差（average pixel error，APE）根据预测目标（bounding-box）中心位置与真实位置（groundtruth）的像素距离作为误差值，该值越大，说明误差越大。通常距离阈值的取值范围为{|1 ≤≤50,∈}。

（2）平均重叠率（average overlap rate，AOR）根据预测目标框与真实目标框的重叠程度（overlap score，OS）作为误差判断的标准，重叠程度越小，说明误差越大。而重叠程度的计算方式如下：

其中，表示预测目标框，表示正式目标框，| |· 表示相应区域像素点个数。且所有成功估计目标的帧占所有帧的百分比即为成功率（success rate，SR）。SR的取值范围一般为{∈:0 ≤≤1}。

另外，在本文算法参数分析时，主要使用APE作为评价指标。在算法对比分析时，将对跟踪器的两种实验指标分别分析，以验证本文算法的优越性。

本文所提跟踪算法参数主要涉及如下三方面：（1）样本框相关参数；（2）阈值类参数；（3）特征模型算法相关参数。样本框参数和阈值类参数已经在文章相关位置给出预定值的经验估计。对于特征模型的相关参数将进行如下设定：

根据文献[14]的研究，当式（12）中的2-morn正则化项=10 时ELM-AE对于图像的特征学习效果最佳。根据文献[8]的研究，当式（20）中的特征维度数n=[10,20]，2-morn 项正则化参数=[1,10]，几何信息项=[0.1,1.0]，判别信息保留项=0.1 时，所学习到的迁移特征在分类器中起到了最好的分类效果。在此基础上，为了验证以ELM-AE 和TRL 为基础的特征模型对图像特征的学习能力，分别对ELMAE 的隐藏层节点数和TRL 中源域与目标域之间分布距离的最大均值化差异正则项（即特征迁移程度）做出如下参数设置：

3.2 实验分析

为了说明所提特征模型的优势，本文将原复杂图像特征、ELM-AE 特征和TRL-ELM-AE 特征进行如下对比实验。

首先，以OTB 中的BlurCar 视频序列为基础，根据2.1节的样本生成方式，分别从跟踪过程中随机抽取500 个正样本图像块，500 个负样本图像块作为训练样本。同时，抽取200 个候选样本图像块，并通过人工标注的方式对200个候选样本进行标注，作为测试样本。再根据1.1 节和2.2 节的方式和3.1 节中的参数设置分别对训练样本和测试样本进行ELM-AE特征和TRL-ELM-AE 特征映射。最后，计算测试样本中的正负样本与训练样本中的正样本之间的平均距离。以此观察测试样本中的正负样本与训练样本中正样本在3个不同特征空间中的特征差异性，如图4 所示。在图4 中，橙线为测试样本中的负样本与训练样本中的正样本之间的平均欧氏距离，蓝线为测试样本中的正样本与训练样本中的正样本之间的平均欧氏距离。图4（a）为原图像特征空间，图4（b）为ELM-AE 特征空间，图4（c）为TRL-ELM-AE 特征空间。从图4可以清晰地看出，在ELM-AE特征空间中大部分测试样本中的正负样本与训练样本中的正样本的差异要明显高于原图像特征，但是依然有很多样本的特征差异并不明显。然而在TRL-ELM-AE特征空间中，特征差异要明显高于前两个特征空间，这说明在TRL-ELM-AE特征空间中的正负样本特征更加具有区分性。虽然欧氏距离只是特征相似性的粗略评判标准，其依然能够某种程度地证实所提特征模型的优越性。另外，所提跟踪器的样本提取模块是从相邻帧中逐步提取所需的样本，其中包含了最近帧中目标和背景的不同状态。因而，在TRL-ELMAE特征模型中也包含对相邻帧中目标和背景的不同特征。因此，所提跟踪器对目标跟踪过程中的特征变化也做到了充分考虑。另外，三个不同特征空间的分类结果如图5所示。从分类结果也可看出TRLELM-AE 特征模型相比于ELM-AE 特征和原图像特征更加具有优势。

图4 特征差异性对比图Fig. 4 Diagram of feature difference comparison

图5 分类精确度对比图Fig. 5 Comparison diagram of classification accuracy

对于的参数分析，本文采取固定=400 的策略，其结果如图6 所示。从中可以看出，本文所提跟踪器在面对照度变化（IV）、比例变化（SV）、遮挡（OCC）、变形（DEF）、背景杂波（BC）、低分辨率（LR）时，均有不错的表现。但是，并不是迁移程度越高其APE 就越高。在大部分的跟踪场景中，当＞1 时，APE 均有不同程度的下滑，且跟踪器的不稳定程度有所上升。另外，从图6（k）中可以看出，当=2时跟踪器对低分辨率（LR）的表现最佳。从图6（a）（j）中可以看出，当=2时跟踪器对照度变化（IV）、背景杂波（BC）的表现最佳。从图6（i）中可以看出，当=2时跟踪器对目标消失（OV）的表现最佳。从图6（b）～（h）中可以看出，当=2时跟踪器对比例变化（SV）、遮挡（OCC）、变形（DEF）、运动模糊（MB）、快速运动（FM）、平面内旋转（IPR）、平面外旋转（OPR）的跟踪效果最好。从图6（l）的综合情况中可以看出，对于所有OTB 所提的视频跟踪挑战场景，当=[2,2]时跟踪器的稳定性和准确性都有不错的表现。另外，由于跟踪器的FPS 变化与的关系并不大，这里不再做具体的分析。

图6 特征迁移程度的参数分析Fig. 6 Parameter analysis of feature transfer degree

对于隐藏层节点数的分析，本文同样采取固定=2的策略。其FPS变化如表1所示。从中可以看出，随着隐藏层节点数的增加，FPS 呈现下降的趋势。另外，隐藏层节点数对APE 的影响则如图7 所示。从图中可以看出，在大部分的挑战场景中，跟踪器的APE是随着节点数的增加而增加的。

图7 ELM-AE隐藏层节点数的参数分析Fig. 7 Parameter analysis of the number of ELM-AE hidden layer nodes

表1 不同隐藏层节点数L 对FPS的影响Table 1 Influence of different hidden layer nodes L on FPS

3.3 算法对比

为了对本文提出的目标跟踪算法的性能进行验证，本节将所提跟踪器TEA-OT 与经典跟踪器算法ALSA（visual tracking via adaptive structural local sparse appearance model）、CSK（exploiting the circulant structure of tracking-by-detection with kernels）、CT（real-time compressive tracking）、SCM（robust object tracking via sparsity-based collaborative model）、KCF（tracking with kernelized correlation filters）、EAO（visual tracking with extreme learning machine framework）进行比较。且对比算法的实验结果均是在与本文所提跟踪器相同的实验环境下得到的。

本文所提算法与其他算法的APE图如图8所示，AOR图如图9所示。从图8可以看出，本文所提跟踪器在比例变化（SV）、遮挡（OCC）、变形（DEF）、平面外旋转（OPR）、目标消失（OV）等目标跟踪挑战场景中的平均像素误差优于其他算法。从图9可以看出，本文所提跟踪器在比例变化（SV）、遮挡（OCC）、变形（DEF）、运动模糊（MB）、快速运动（FM）、平面外旋转（OPR）、目标消失（OV）、低分辨率（LR）等目标跟踪挑战场景中的平均重叠率优于其他算法。且在其他的挑战场景中，本文所提跟踪器与其他的经典算法的差距也不是很大，因此在总体精确度和重叠率均值中，本文所提的跟踪器依然能达到最好的跟踪结果。尤其是相比Deng等所提的基于ELM-AE和OSELM的跟踪器来说，本文所提的跟踪器，在目标跟踪过程中的优势更加明显。综上所述，本文所提的跟踪器相比其他算法，对目标特征变化的适应能力更加显著。进而对复杂环境下的单目标跟踪拥有更好的自适应性。

图8 平均像素误差对比图Fig. 8 Average pixel error comparison chart

图9 平均重叠率对比图Fig. 9 Average overlap rate comparison chart

从3.2 节的参数分析可以看出，针对不同的视频跟踪挑战场景应当使用不同的参数组合。基于这一点，在本节的算法对比中，针对不同的目标跟踪挑战场景将选取以下9 种参数组合进行第三次补充跟踪实验：n=10，=10，=0.1，=[2,2,2]，=[200,400,700]。然后，针对不同的挑战场景，选取表现最好的参数组合，再与其他算法进行对比。由于文章篇幅所限，本文利用OTB中Blurboy视频序列进行跟踪器适应能力展示。该视频序列包含了OTB所提11项挑战中的比例变化（SV）、变形（DEF）、运动模糊（MB）、快速运动（FM）、平面内旋转（IPR）共计五项挑战。如图10所示，图10（a）～图10（g）中的边框和轨迹线分别表达了不同算法在目标和场景变换过程中的目标大小变化规律和目标运动轨迹。另外，以由浅到深的渐变色来表示第187 帧到第196 帧之间的目标变化，从图中可以清晰地看出不管是目标的尺寸还是运动轨迹，相较于其他算法本文所提跟踪器都具有一定的优越性。

图10 在复杂变化场景中目标跟踪器的适应性展示Fig. 10 Adaptive display of target tracker in complex changing scenes

4 结论和展望

根据动态目标跟踪的特点，本文结合了ELM-AE对图像特征的学习能力和TRL对变动特征的适应能力，提出一种新的、有效的特征学习算法，即TRLELM-AE 算法。然后，通过TRL-ELM-AE 的特征自适应学习，进一步结合目标的识别和状态估计策略，提出了一种鲁棒的目标跟踪器，即TEA-OT。其次，基于图像块的目标跟踪过程实际上是一个区分目标与背景的二分类问题。针对这一个问题，本文采用高斯朴素贝叶斯算法实现了一个高效、稳定的分类模型。通过对OTB所提的11项视频目标跟踪挑战场景的大量实验和分析，有效地验证了本文所提的跟踪器的鲁棒性。但是，本文所提的跟踪器仍然有一些方面需要改进，比如基于MMD 的迁移表征学习。虽然通过最小化源域与目标域之间的分布距离可以使目标域中的目标与背景的特征具有更好的可鉴别性，但是MMD不可避免地给跟踪器带来了一定的计算量。因此，如何在保持TRL对源域与目标域进行特征自适应学习的同时保证其实时性是值得深入探讨的问题。这也是下一步将要进行研究的问题之一。