基于多域网络的红外目标跟踪算法

2021-05-06孙明杰顾金玲李培庚

系统工程与电子技术 2021年5期

孙明杰, 周林, 顾金玲, 李培庚

(1. 空军工程大学防空反导学院, 陕西西安 710051;2. 中国人民解放军32272部队, 甘肃兰州 730010;3. 中国人民解放军95169部队, 广西南宁 530031)

0 引言

目标跟踪问题是机器视觉领域的重要研究内容之一,高性能的目标跟踪算法不断出现[1]。然而红外图像信噪比和分辨率均较低,使得红外目标跟踪问题比可见光目标跟踪更具挑战性[2]。红外成像技术是一种通过探测目标红外辐射来成像的非接触、被动检测技术,其主要优势是能够在完全黑暗的情况下对目标成像[3]。随着红外成像技术的不断进步,其不仅广泛用于军事领域,同时在民用领域具有广阔的应用前景,如智能安防等[4]。

近十年来,国内外相关学者在红外目标跟踪领域做了大量工作[5-8]。卢杨等利用改进的低维度纹理特征来获取各个像素的梯度方向和幅值信息,有效提高了目标跟踪的稳定性[9]。西安电子科技大学的钱琨等将引导滤波和卷积神经网络(convolutional neural network,CNN)应用于红外目标跟踪问题,并对应用效果进行了验证[10]。Lamberti等仍以模板匹配算法为基础,通过改进以提高算法的性能,仍然难以克服模版漂移的问题[11]。Mould等则将AM-FM一致性检查用于红外目标跟踪,可以在一定程度上提高对红外数据序列的跟踪性能,在AMCOM红外序列上也有不错的表现[12]。尽管红外目标跟踪取得了一些进展,但跟踪算法性能仍难以满足应用要求。

得益于CNN杰出的特征表达能力,其在目标识别和检测领域得到了成功的应用[13]。但是在目标跟踪领域,这个序列中的目标可能是另一个序列的背景,因此CNN在目标跟踪领域应用受到一定的限制。在2016年,韩国的POSTECH团队提出了多域网络(multi-domain networks, MDNet),由于其轻量级的网络结构和多域训练的模型设计,在目标跟踪领域取得了杰出的效果[14]。由于红外图像本身质量不高,数十层复杂结构在CNN网络将会使深度特征成为一个像素点,难以实现对目标特征的描述。同时,对于目标跟踪问题而言,目标在相邻帧的尺寸变化较小且变化具有一定的规律性。因此,在多域网格的基础上引入了目标尺度预测,并称之为基于尺度预测的多域网络(scale prediction based MDNet, SPMDNet)。该算法能够在充分利用深度特征表达能力的同时,提高跟踪算法的鲁棒性。

1 多域网络

如图1所示,多域网络由共享层和分支层组成,其中每个域对应单个训练序列,每个分支负责二值分类以识别每个域中的目标。网络只有6层,其中卷积层是一个通用的特征提取器,而全连接层则针对任务和数据集的不同进行自适应调整。选择多域网络作为算法的基础框架的原因主要有两个:① 其结构只有6层,对低分辨率的红外图像具有较好的适应性;② 相对于可见光图像而言,现有的红外图像数据库较少,较浅的网络结构可以有效避免过拟合。

图1 多域网络结构

对于多域网络而言,在线跟踪是通过评估在前一个目标位置周围随机采样以生成候选框来进行的。在进行目标跟踪时,候选框的产生是随机的,随机抽样策略不能充分利用先验信息。目标的尺度与当前帧之前的尺度高度相关,不会突然改变,因此可以作为重要的先验信息进行利用。由于在线学习的精度与跟踪精度有密切关系,质量差的在线学习甚至会导致跟踪失败。通过尺度预测的反馈,提高目标跟踪算法的性能。在线学习中的尺度预测可以通过生成合理的学习样本充分利用先验信息,提高跟踪器的准确性和鲁棒性。

2 基于多域网络的红外目标跟踪

本节将主要介绍应用目标尺度预测的红外目标跟踪算法以及算法评估的标准。

2.1 目标尺度预测

人工神经网络不需要预先确定输入与输出之间映射关系的数学方程,只通过自身训练学习一些规则,在给定输入值时,得到最接近期望输出值的结果[15]。反向传播(back propagation,BP)神经网络是一种多层前馈神经网络,其主要特点是信号的前向传输和误差的后向传播[16]。由于不同序列的尺度变化是不同的,只能根据当前帧之前的跟踪结果来预测下一帧的尺度。神经网络作为一种非线性建模和预测方法,以其良好的非线性质量、较高的拟合精度、灵活有效的学习方法、全分布式存储结构和层次化的模型结构在许多领域得到了广泛的应用[17]。因此,设计了一个改进的BP网络来在线预测下一帧中目标的尺度。

如图2所示,用于预测目标尺度的BP网络由隐含层和输出层两层组成。其中输入数据为当前帧以前的尺度信息,输出数据为当前帧的预测尺度。输入数据维度为m,输出数据维度为1,即目标的预测结果。

图2 BP网络结构

多域网络作为一种经典的BP网络,具有传统BP网络的劣势[18]。BP神经网络的执行函数主要采用均方误差(mean square error, MSE)函数,该函数较好地处理高斯分布误差。然而,尺度预测的误差并不满足高斯分布[19]。与MSE相比,最大交叉熵(maximum correntropy criteria, MCC)更适合用于尺度预测[20]。MCC是一种用于评估两个随机变量之间的相似性的理论,例如X和Y。MCC的定义为

Vσ(X,Y)=E[kσ(X-Y)]

(1)

式中,kσ为核函数;σ为核宽度。

根据相关性理论,当相关性为最大时,预测误差最小,可得到优化的BP网络模型[21],即

(2)

如图3所示,输入的训练数据是目标从当前t-1帧到t-m-n帧的比例,则训练数据有2(m+n)个。这里的“2”表示目标的宽度和长度,分别是预测的。BP网络的输出每次只有一个结果。

图3 BP网络训练数据结构

2.2 跟踪框回归

(3)

2.3 基于目标尺度预测的多域网络目标跟踪

BP网络的训练是在线进行的,因为训练数据是在跟踪过程中产生的。目标的预测尺度可以为跟踪器提供更加科学合理的样本,提高跟踪性能。

1. 初始化目标位置为x12. If t<1013. 候选框=random (xt-1);4. else5. 训练数据为xit-100:xit-1;6. 利用BP网络预测目标尺度xt;7. 输出目标预测尺度,并选择最优的候选框为目标位置x*.8. End

下面描述了进一步的实现细节。

(1) 训练数据。BP网络的训练是在线进行的，因为训练数据是在跟踪过程中产生的。目标的预测尺度可以为跟踪器提供更加科学合理的样本，提高跟踪性能。

(2) 网络学习。为了提取满足红外图像共同属性的特征，使用VOT-TIR 2016训练共享层。对于每个跟踪序列，以0.05的学习率对网络进行300次迭代训练。

2.4 算法评价评估方法

当前机器视觉领域的目标跟踪问题主要围绕可见光目标跟踪问题，专门针对红外图像序列的数据库和评价标准都比较缺乏[23]。VOT-TIR是红外目标跟踪领域最出色的数据库，不仅包含大量的红外序列，还有众多优异算法的测试结果[24]。为了验证所提出算法的性能，将算法与VOT-TIR 2016中的18种优秀算法进行了比较，并利用VOT2016评估工具包对所有跟踪算法进行评估。

2.4.1 精度

精度测量是根据预测的边界盒与地面真值的重叠来计算的。根据IOU(交集比并)的定义，对VOT中的精度定义为

(4)

(5)

式中,Φt(i)表示跟踪器i第k次重复中的准确率;Nrep表示重复次数。因此，跟踪器i的精度a(i)可以定义为

(6)

为了使精度的表达更加直观，将式(6)修改为

A(i)=e-Sa(i)

(7)

S为一个常数项，一般在精度描述时指出其具体的数值。

2.4.2 鲁棒性

鲁棒性用于评价跟踪算法的健壮性，能够有效表征算法的适应性[25]。VOT的鲁棒性R(i)定义如下：

(8)

2.4.3 预期平均重叠部分

由于评价方法的准确性-鲁棒性不能充分利用行数据，因此提出了一种新的指标预期平均重叠部分(expected average overlap, EAO)方法。该算法只关注基于重叠定义的精度。EAO的计算为

(9)

式中，Ns为序列的长度，精度通过一次评估来(one-pass evaluation，OPE)评价。

2.4.4 实时性指标

算法的实时性是应用的重要前提，因此需要综合考虑算法的运行速度。由于每个图像序列的长度不同，为了使计算更加准确，对图像序列进行平均运算。采用每秒能够处理的图像数量(figures per second，FPS)作为实时性评价指标，其定义为

(10)

式中，Ni表示第i个序列的长度;ti表示第i个序列耗费的时长。

3 跟踪算法评估

为了验证所提出算法的跟踪性能，本节在著名的公开红外数据集VOT-TIR 2016上进行了评估，其包含25个具有挑战性的红外图像序列。数据集中包含的红外序列包括9个不同的来源，其使用10种不同类型的红外传感器，场景遍布工业和研究机构。此外，通过空中移动平台获得的AMCOM序列在运动中会遭遇突然的不协调。与实际应用项目更接近。因此，在难度非常大的FLIR数据集AMCOM中评估了所提算法。

3.1 VOT-TIR 2016上的实验

首先，对所提出的算法和VOT-TIR 2016中18个表现优异的跟踪算法进行了定性评价。为了更简洁地评估跟踪器的性能，当算法丢失目标后，不再重新初始。

如图4所示,将训练数据重新组合为项目,每个项目包含m个数。所提的算法中,m=49和n=51,网络预测200次生成在线学习候选窗口。图4展示了相关算法在多个序列上的跟踪结果，不同颜色的跟踪框代表不同的算法，对跟踪失败的帧用“X”标记。可以看出，所提出的算法能够稳定地跟踪目标，甚至在相机运动、严重遮挡和快速运动等情况下保持了较好的跟踪精度。

图4 所提算法和其他11个跟踪算法在9个高难度序列上的跟踪结果

3.1.1 鲁棒性和精度分析

序列合并鲁棒性和精度等级图是通过将所有序列的结果串联起来并创建一个等级列表来获得的，而属性归一化精度等级图是通过对每个属性的跟踪器进行排序并对等级列表进行平均来创建的。图5显示了所有跟踪器在不同属性中的排序。

图5 5种属性下的鲁棒性-精度排序

从图5中可以看到，所提出的算法在几乎所有属性中具有出色的表现。尤其是在属性摄像机运动、运动变化和大小变化上的整体精度排名第一，这充分显示了目标尺度预测对算法精度的提升效果显著。

3.1.2 EAO

期望重叠(expected overlap, EO)是一个能够表现算法整体精度的评价指标，在评价中起着重要的作用。根据式(6)中的定义，一组一定长度序列的平均重合率来给出期望的平均重叠曲线。如图6(a)所示，所提方法始终优于其他跟踪器。将典型序列的EO从223帧到509帧，对EO曲线进行积分得到期望重叠分数。图6(b)展示了所有算法的EAO排序，最右边的跟踪器是表现最好的。因此，可以看出所提出的算法排名第二，仅次于SHCT算法。

图6 EO图和EAO图

3.2 AMCOM上的实验

为了更加科学地评价所提出算法的性能，从著名的FLIR数据集AMCOM中选取了两个序列对所提出的算法进行了评估。该数据集图像尺寸为128像素×128像素，为无人机挂载红外摄像头采集的，难度比较大。为了对比不同自算法的性能，选取5个优秀的跟踪器的结果，包括MDNet[26]、LSST[27]、TLD[28]、KCF[29]、LCT[30]进行对比实验。

表1对算法在红外序列上的性能进行了定量分析，采用DPR和OSR衡量算法的精度，FPS衡量算法的实时性。

为了对算法的性能进行定量描述，采用在20个像素误差阈值下的正确率(distance precision rate, DPR)和重叠度70%阈值下的重叠成功率(overlap success rate, OSR)，对算法的精度进行定量评估，评估结果见图7。实验表明，对于序列lwir_1608，所提算法在精度上有很好的性能，成功率排名第二。对于序列lwir_1913，与其他5个跟踪算法相比，定位精度排名第二，成功率排名第一。这也表明所提方法在AMCOM数据集上是有效的。

表1 算法和5种算法精度和速度对比

图7 DPR和OSR的比较

分析表1可知，在两个序列中，所提算法的平均跟踪精度和成功率都优于其他5种算法，实时性达到5.2 fps。相比于MDNet，所提出的算法成功率提高了21.9%，平均重叠率提高了30.4%，算法的运行速度下降了2.3%。目标尺度预测增加了一定的计算量，因此实时性略有下降。同时，目标跟踪的精度得到了显著的提高，因此所采用目标尺度预测是有效的。

图8将所提算法与5种算法的结果进行可视化,不同颜色的跟踪框代表不同的算法。在目标跟踪初期,多数算法可以实现对目标的跟踪。在目标辐射强度出现变化或目标突然转弯后,所提出的算法仍然可以实现对目标的稳定跟踪,表现出优异的鲁棒性。