APP下载

基于孪生网络的鲁棒红外目标跟踪算法

2022-01-28滕奇志

计算机应用与软件 2022年1期
关键词:鲁棒性滤波卷积

陈 果 滕奇志

(四川大学电子信息学院 四川 成都 610065)

0 引 言

目标跟踪是计算机视觉中的一个重要研究方向,在传统计算机视觉领域有着广泛的应用[1]。红外目标跟踪相比于可见光目标跟踪具有许多优势。例如,红外跟踪可以在完全黑暗的情况下实现目标跟踪,其对光照变化和处理阴影效果具有很强的鲁棒性,而可见光目标跟踪则无法实现。此外,在一些对个人信息敏感的场景中,红外跟踪可以保护隐私。因此,红外跟踪技术适用于救援、视频监控、夜间巡逻等多种应用场景。

尽管红外目标跟踪具有许多优点,但它也面临着诸多挑战。首先,红外对象的不利特性,例如纹理缺失、信噪比低、视觉效果模糊和低分辨率等[2],阻碍了特征的提取,从而严重影响了跟踪模型的质量。其次,红外跟踪还面临着跟踪对象变形、被遮挡和尺度变化等挑战。

在过去的几年中,基于判别式相关滤波方法开发的跟踪器取得了良好的精度和鲁棒性,通过使用快速傅里叶变换,大多数基于判别式相关滤波的跟踪器可以实时运行,典型的跟踪器有KCF[3]、DSST[4]、ECO[5]。然而,这些方法并不能很好地解决红外目标跟踪的难题,因为使用这些手工特征很难获得红外对象的判别信息。随着深度学习理论的发展,判别式相关滤波框架中开始引入卷积神经网络。DSST-tir[6]表明,对于红外目标跟踪技术,深度特征比手工特征更有效。Bertinetto等[7]提出了一种全卷积孪生网络目标跟踪算法SiamFC,并在数据集上端到端训练网络,证明了全卷积孪生网络的在目标跟踪方面的有效性。Valmadre等[8]将相关滤波器与孪生网络相结合,构造了一个深度学习相关滤波器CFNet,并采用固定的模板学习率。然而,这些基于深度学习的跟踪器并没有取得很大的进展。首先,这些跟踪器使用单个CNN层的特征或使用有限的红外图像进行训练都不足以获得鲁棒的特征。其次,目标在跟踪过程中通常会不断变化,没有跟踪器能够在所有场景中稳定提取特征。大多数跟踪器用固定的学习率更新目标模型,当目标在跟踪过程中被错误地检测或被遮挡时,导致新模型中包含错误信息,这将会进一步降低更新模型的可信度。

为了获得鲁棒性更高的红外目标特征,增加模型在错误检测、遮挡或对象变形等复杂情况下的可信度,基于对手工特征和深度特征目标跟踪算法的研究,最终提出了一种基于孪生网络的鲁棒红外目标跟踪算法。首先,为了获得红外对象的空间和语义特征,利用预训练孪生网络提取红外目标的多卷积层特征。其次,利用相关滤波器构造具有卷积层特征的多个弱跟踪器,设计简单而有效的相对熵相关滤波网络来合并响应图。最后,提出了一种基于响应图的自适应模型更新策略来计算模型更新率。同时,实验结果表明该方法有着稳定而突出的性能。

1 基于孪生网络的鲁棒红外目标跟踪算法

如图1所示,本文算法是将多个卷积层和相对熵相关滤波网络结合起来的分层孪生网络。该网络由两个共享的多卷积层特征网络和一个基于相对熵融合网络组成,孪生网络输出响应图,表示多个候选区域和目标模板之间的相似性,再选择最大响应值对应的候选区域作为最终跟踪目标,将坐标映射到原始帧中,以定位目标位置。在跟踪阶段,使用预先训练好的孪生网络来定位被跟踪的红外目标,根据响应图自适应的计算模板更新率。

图1 本文算法结构

1.1 网络结构

孪生网络由两个对称分支组成。在AlexNet[9]的启发下,设计了一个由CNN中几种常用层组成的深度网络架构。

一方面,对象的位置信息对于跟踪任务是必需的。本文提出的网络在早期也类似AlexNet有两个最大池化层来保留更多的位置信息。另一方面,被跟踪对象会随着时间的推移而改变其外观,最大池化层引入了对局部变形的不变性处理,对局部噪声具有较好的鲁棒性。因此,最大池化层对位置信息的处理是重要的。同时,为加快孪生网络训练速度,每个卷积层之后均添加一个批量归一化层[10]。分批标准化的有效性已经在许多深层网络中得到了证明[11]。已发表的孪生网络结构往往只使用最后一层的特性来表示对象,但最后一层特征缺乏空间信息,对红外目标跟踪不具有鲁棒性。跟踪任务不仅需要深层的、有区别的语义信息来区分不同的目标,还需要浅层的空间信息来精确定位目标的位置,故为了获得更鲁棒的红外目标跟踪特征,本文提出的孪生网络结构提取多个卷积层特征,利用最大池化将浅卷积层降采样到与深卷积层相同的分辨率,将不同空间分辨率的分层卷积层结合起来。

为了充分利用深层的语义信息和浅层的空间信息,滤波网络由三个相关滤波层(Correlation Filtering,CF)、三个1×1卷积层和一个专门设计的相对熵层组成。CFNet中,将具有封闭解的CF作为孪生网络中的一个可微层,因此,误差可以通过CF层传播,整个孪生网络可以端到端训练。相对熵层的目的是获得一个与各卷积层相关滤波响应图最小距离的综合响应图。给定n个响应图M={M1,M2,…,Mn},希望得到一个综合响应图Q。因为每个响应图都可以看作是目标的概率分布,可以用相对熵来度量响应图Mk(k=1,2,…,n)与综合响应图之间的距离,通过最小化距离来优化响应图Q:

(1)

(2)

式中:mij与qij分别表示属于M和Q第(i,j)坐标点响应值。本文使用拉格朗日乘子法求解式(1),其解有一个简单的公式:

(3)

因此,相对熵层可以表示为一个加权和运算。根据式(3),最终的综合响应图可表示为:

(4)

式中:α、β、γ和b是可学习的,α、β、γ表示权重参数,b是偏差。

1.2 数据集和网络训练细节

为了训练一个通用的相似度验证函数来评估一对对象的相似度,需要一个大规模的标注视频数据集。鉴于现有的红外目标跟踪和检测数据集的规模有限,选择使用ImageNet[12]预训练网络。ILSVRC2015有4 000多个视频,其中包含200多万个人工标注的边界框。通过在孪生网络的末端增加了一个损失层来训练网络。

用判别方法来对正、负样本对进行训练,其逻辑损失定义如下:

l(y,v)=log(1+exp(-yv))

(5)

式中:v表示模型返回的样本-搜索图像的实际响应值;y∈{+1,-1}表示真值。采用所有候选位置的平均损失来表示:

(6)

式中:D表示响应图;u表示响应图中的所有位置。孪生网络参数θ通过随机梯度下降最小化如下问题得到:

(7)

式中:z表示样本图像;x表示搜索图像。训练迭代40个周期且每次小批量训练样本数为8,网络的参数使用Xavier[13]初始化,学习率每轮迭代以指数形式衰减从10-2下降至10-5。其他超参数与文献[7]中的参数相同。

1.3 模板更新策略

大多数跟踪器[14-15]用固定的学习率更新目标模型,此类跟踪器根据当前帧中的跟踪结果训练新模板,再将原跟踪模板与新模板线性相加,得到下一帧的跟踪模型,如式(8)所示。

Mt=(1-α)Mt-1+αMnew

(8)

式中:Mt和Mt-1分别表示第t帧和t-1帧的模板;Mnew表示通过当前帧训练的新的目标模板;α表示学习率。大多数跟踪器在每一帧都通过这种方式更新跟踪模型,而不考虑检测是否准确。该策略简单,易于在跟踪器中集成,但一旦目标在当前帧中检测不准确、严重遮挡或完全丢失,新模型中会包含错误信息,这会降低更新模型的可信度。因此,在正常或目标快速变化的跟踪场景时,应采用较高的更新率;在目标被遮挡等挑战场景时,应采用较低的更新率。文献[16]通过当前帧响应图的平均峰值相关能量(Average Peak-to-Correlation Energy,APCE)与前帧的APCE之比作为更新跟踪器的准则,以保持目标模型稳定性。文献[17]分别采用基于响应图的峰度(dpeak)模板更新策略。它们的公式分别如式(9)和式(10)所示。

(9)

(10)

图2 遮挡和变形情况下的响应图和响应值数值分布统计图

为区分遮挡和目标快速变化,提出一种基于响应图的自适应模板更新策略来计算模板更新率。梯度是一个表示图像空间起伏强度的参数,响应值起伏较大的图像,梯度之和往往较大,而响应值起伏较小的图像梯度之和较小。因此,响应图的梯度之和可以用来鉴别目标被遮挡和目标快速变化。然而,正常情况下的响应图梯度和很高,很难与遮挡区分,原因是此场景中的响应峰值较高。因此,在计算梯度和时,将响应峰值归一化为1,并按比例缩放响应图。在数据集VOT-TIR2016上对正常、遮挡和目标快速变化情况下的响应图峰值和响应图梯度和进行了大量的实验计算,包括25个视频,超过1万个视频帧,结果如图3所示。因为模板低更新率仅在目标被遮挡情况中选择,需要找到一条分界线将目标被遮挡点分开。本文采用对数函数能较好拟合此分界线,分界线设置为:

图3 响应图峰值和响应图梯度和分布图

y=c·loge(x-m)

(11)

式中:y为峰值;x为梯度和。通过最小化误差点的数目来求解最优解。实验中将模板高更新率和模板低更新率分别设置为0.01和0.004 5。

2 实 验

2.1 评价标准

准确率A和鲁棒性R因其较高的可解释性而被用作性能度量标准[19],其中准确率计算公式如下:

(12)

式中:Bt表示第t帧预测的边界框;Gt表示第t帧的标注边界框;n是数据集的帧号。鲁棒性计数跟踪失败的次数,当Bt∩Gt低于给定阈值时,跟踪失败。跟踪结果通常由A-R图表示[20]。

2.2 对比实验

为证明本文方法的有效性,在红外目标跟踪公开数据集VOT-TIR2016上进行了对比实验。首先,为证明本文多卷积层融合方法有效性,比较了仅使用最后一个卷积层的跟踪器以及使用多卷积层融合方法的跟踪器的效果。再对固定更新率的跟踪器和自适应更新率的跟踪器的有效性进行比较。如图4所示,多卷积层融合方法的准确率比单卷积层方法高了3%,表明前者能获得鲁棒性更强的红外对象特征。而采用自适应更新率的跟踪器相比于固定更新率的跟踪器,准确率和鲁棒性分别提高了5%和5.5%,从而证明了自适应模板更新策略的有效性。

图4 准确率与鲁棒性排序图(A-R图)

此外,还将六个跟踪算法与本文算法进行了比较,具体有:基于孪生网络的DaSiamRPN[21]和SiamRPN++[22]跟踪算法;基于相关滤波和手工特征的DSST和ECO跟踪算法;基于融合方法的RCCT-TIR[23]跟踪算法;基于高鲁棒性的EBT[24]跟踪算法。这些跟踪算法在目标跟踪数据集上取得了较好的效果。如图4所示,本研究的孪生网络跟踪算法达到了第二好的跟踪精度以及第二好的鲁棒性。此外,基于相关滤波的跟踪算法DSST和ECO等,通常在可见光目标跟踪方面表现良好,而本文的跟踪算法在红外目标跟踪方面性能更优。

为评估本文方法在应对目标被遮挡和目标快速变化时的性能,在VOT-TIR 2016的相应属性子集上进行了比较。如图5(a)所示,在目标外观快速变化的情况下,本文方法可以获得最好的精度。如图5(b)所示,在目标被遮挡的情况下,本文的跟踪器可以达到最好的鲁棒性。总体来说,本文的跟踪算法具有更好跟踪性能。这也表明基于孪生网络的多卷积层特征具有更高的鲁棒性,同时自适应模板更新策略在不同的跟踪场景中可以更智能地选择合理的更新率,从而提高模型的可信度。

图5 本文算法在目标外观快速变化和目标被遮挡时的跟踪结果

3 结 语

本文提出了一种基于孪生网络的鲁棒红外目标跟踪算法,将跟踪问题转化为相似性验证任务。为了适应红外目标跟踪,提取多个卷积层特征,通过相对熵相关滤波网络进行响应图融合,充分利用了深层的语义信息和浅层的空间信息,并在跟踪阶段自适应计算模板更新率,在跟踪正常场景或目标快速变化场景时,采用较高的模板更新率;在目标被遮挡等挑战场景时,采用较低的模板更新率,有效避免了跟踪漂移的情况。实验结果表明,与现有方法相比,本文提出的方法具有良好的性能。

猜你喜欢

鲁棒性滤波卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于HP滤波与ARIMA-GARCH模型的柱塞泵泄漏量预测
基于改进自适应中值滤波的图像降噪方法*
基于图像处理与卷积神经网络的零件识别
武汉轨道交通重点车站识别及网络鲁棒性研究
基于深度卷积网络与空洞卷积融合的人群计数
基于非下采样剪切波变换与引导滤波结合的遥感图像增强
一种基于三维小波变换的鲁棒视频水印方案
电子节气门非线性控制策略
基于鲁棒性改进理论的大面积航班延误治理分析