APP下载

基于特征融合与双模板嵌套更新的孪生网络跟踪算法

2021-07-26任立成杨嘉棋魏宇星张建林

计算机工程 2021年7期
关键词:嵌套精确度语义

任立成,杨嘉棋,魏宇星,张建林

(1.中国科学院光电技术研究所,成都610209;2.中国科学院大学计算机科学与技术学院,北京100049)

0 概述

目标跟踪是计算机视觉领域中的重要研究方向,广泛应用在视频监控、人机交互、智能交通监控等任务中[1]。近年来,虽然研究人员已提出了大量的跟踪算法,但由于遮挡、光照变化、尺度变化、运动模糊等因素的影响,目标跟踪仍然是一项重要且极具挑战性的任务,因此设计一个高精度、强鲁棒的目标跟踪框架具有重要的理论价值和现实意义[2]。在传统目标跟踪框架中,核相关滤波器(Kernel Correlation Filter,KCF)[3]使用循环矩阵和傅里叶变换有效减少计算量和提高计算速度,并采用高斯核函数将非线性问题映射到高维空间,使得算法更具一般性[4]。随着深度学习技术的快速发展,基于卷积神经网络(Convolutional Neural Network,CNN)的目标跟踪方法取得很大进步。ECO[5]、C-COT[6]等结合深度学习和KCF 的跟踪器将CNN 强大的特征提取能力集成到传统跟踪框架中,获得了较好的跟踪效果。基于CNN 的跟踪框架主要分为两类:一类是先离线训练网络,而后在线运行时进行网络微调;另一类是设计简化版的卷积神经网络,直接在线运行而无需离线训练[7]。DLT[8]算法利用离线训练和在线调整相结合的方式,解决在线训练时缺少正样本的问题。全卷积孪生网络SiamFC[9]将孪生网络结构作为核心框架,仅使用5 个全卷积层端到端地训练Siamese 网络的相似功能。孪生区域候选网络(Siamese Region Proposal Network,SiamRPN)[10]使用区域候选网络提升了尺度变化场景下跟踪器的性能表现。SiamRPN++[11]采用一种简单有效的空间感知采样策略保持了网络的平移不变性,将残差网络应用于孪生网络。SiamDW[12]是由CIR 残差单元组成的深度网络,替换了SiamFC 和SiamRPN 的主干网络,使其性能较原有的跟踪器得到明显提升。

尽管全卷积孪生网络SiamFC 的跟踪性能得到了较大提升,但仍存在以下问题:改进AlexNet[13]作为骨干网络,特征提取能力不强,且仅使用骨干特征而未考虑浅层特征,特征类型单一;语义信息丰富但缺乏位置信息,导致跟踪器在快速移动时定位能力较差;不具备模板更新功能,跟踪器在遮挡、变形等复杂场景下,由于模板固定导致跟踪不准确和场景适应性较差,最终跟踪失败。针对上述问题,本文设计基于多特征融合与双模板嵌套更新的实时目标跟踪算法。在SiamFC 的基础上,将AlexNet 骨干网络替换为具有22 个卷积的改进型ResNet-22 深度网络,使跟踪算法的识别能力更强。在网络浅层中,使用包含位置信息的高分辨率特征计算用于定位的位置分支响应,采用包含语义信息的骨干特征计算用于分类的语义分支响应。按照训练权重融合两个分支的响应,为跟踪算法补充更精确的位置信息。通过双模板嵌套更新机制对两个分支的模板进行更新,以适应目标的外观和位置变化。

1 SiamFC-22 孪生网络

本文针对SiamFC 孪生网络难以充分挖掘和利用深度语义特征的问题,设计基于多响应的孪生网络跟踪算法。为有效利用核相关滤波器在目标跟踪中的高效性与实时性,在SiamFC 跟踪架构中引入特征提取能力更强的ResNet-22,构建SiamFC-22 网络实现深度特征应用与高效相关跟踪的有效结合。通过多层特征的响应融合与目标表示的动态更新,有效提升算法跟踪性能。

1.1 基于SiamFC 孪生网络的目标跟踪

基于SiamFC 的目标跟踪框架如图1所示。该框架由模板分支和搜索分支两个分支组成。模板分支的输入为模板图像z,搜索分支的输入为搜索图像x,z和x经过共享权重的卷积神经网络φ提取特征。在跟踪过程中,通过离线训练得到的相似度函数Δ将模板图像z特征和搜索图像x特征中相同大小的候选区域进行比较得到响应图f(z,x)[14]。

图1 基于SiamFC 的目标跟踪框架Fig.1 Target tracking framework based on SiamFC

整个跟踪过程可定义为:

其中:φ(·)类似于AlexNet 结构的骨干网络,由5 个卷积组成全卷积网络;Δ表示由卷积实现的交叉相关运算;b∈R 为偏置项;f(z,x)是一个17×17 的置信响应图。

为使目标位置更加精确,使用双三次线性插值将响应图尺寸调整为接近搜索图像x的尺寸,响应图尺寸的最大值位置即为目标位置。

在训练时,将损失函数定义为:

其中:D表示响应图的位置总数;u∈D表示响应图的每一个位置;y[u]表示响应图u处对应的真实标签值,y[u]∈{+1,-1};v[u]表示响应图u处的预测值;l(·)表示logistic 损失函数。l(·)的计算公式为:

通过随机梯度下降(Stochastic Gradient Descent,SGD)方法,最小化损失函数,最终达到训练目标。

1.2 ResNet-22 网络

SiamFC 使用修改后的AlexNet 全卷积网络作为骨干网络,无法发挥神经网络深度增加带来的优势。因此,可直接将AlexNet 替换为ResNet[15]等深度网络,同时引入padding 使网络的注意力集中到目标的中心位置,形成位置偏好[12]。这是利用ResNet 加深网络后,跟踪性能不升反降的重要原因,而通过特征图裁剪可以解决该问题。

综合以上讨论可知,为提升SiamFC 的特征提取能力,本文使用ResNet-22 深度网络替换AlexNet。网络参数设置如表1所示,其中,w代表卷积核宽度,h代表卷积核高度,Cin代表输入通道数,Cout代表输出通道数。

表1 ResNet-22 参数设置Table 1 Setting of parameters of ResNet-22

ResNet-22 中有22 个卷积,分别为1 个7×7 的卷积Conv1、3 个残差块组成的Conv2 和4 个残差块组成的Conv3,每个残差块(如图2所示)包含1×1、3×3、1×1 共3 个卷积。针对padding 带来的干扰,将Conv1 层的特征图最外围两层裁剪(Crop1),将Conv2、Conv3 残差块的特征图最外围一层裁剪(Crop2),消除padding 给特征图(feature map)边缘带来的影响。整个过程可定义为G(x)=F(x)+x,其中,x代表残差块的输入数据,F(x)代表经过3 个卷积层处理后的数据,x代表恒等映射获得的数据。

图2 残差块结构Fig.2 Residual block structure

1.3 基于ResNet 的SiamFC-22 深度孪生网络

通过综合分析SiamFC 和ResNet 的特点,本文提出将深度语义特征与核相关跟踪相结合的SiamFC-22 网络,将ResNet-22 作为SiamFC 的骨干网络φ。对SiamFC-22 网络进行离线训练,其ResNet-22 网络初始权重使用ImageNet[16]图像分类数据集进行预训练。本文采用如下交叉熵损失函数:

其中:yu表示响应图u处对应的真实标签值,yu∈{+1,-1};vu表示响应图u处的预测值;l(·)表示logistic 损失函数。l(·)的计算公式为:

本文采用ILSVRC2015-VID[16]数据集进行训练,该数据集约有4 500 个视频序列,包含遮挡、快速移动等复杂场景。在训练的每个周期内,随机选取60 万个样本对进行训练,共迭代60 个周期,动量设置为0.9,学习率由0.01 指数衰减至0.000 01,权重衰减系数设置为0.000 1,批次大小(batch size)设置为32。训练具体分为以下步骤:

1)在前50 个周期内仅计算语义响应R2,使用式(4)计算损失值,训练跟踪器的识别能力。

2)在最后10 个周期内,初始化响应融合参数λ1和λ2。同时,计算位置响应R1和语义响应R2,并使用式(6)融合两个响应的损失值。一方面训练跟踪器的定位能力,另一方面优化两个分支的融合权重。

两个阶段的训练均使用损失函数,并利用随机梯度下降法进行优化。

SiamFC-22 网络结构如图3所示,其中,z表示尺寸为127 像素×127 像素的模板图像,x表示尺寸为255 像素×255 像素的搜索图像,R1和R2分别表示浅层位置分支和骨干语义分支的互相关响应Δ,ωi表示两个分支响应融合的权重。在训练阶段,分阶段计算响应R1和R2的损失值;在测试阶段,自适应更新响应R1和R2的模板。

图3 SiamFC-22 结构Fig.3 SiamFC-22 structure

2 基于SiamFC-22 的自适应目标跟踪

为充分利用网络的深度特征,将深度语义特征响应与浅层位置特征响应进行自适应融合获得更鲁棒与准确的目标表示与跟踪算法,并基于网络响应自适应地动态决策更新目标深层模板与浅层模板,使网络能够适应目标的长时间累计变化。

2.1 多层次特征响应的自适应融合

在进行目标跟踪时,将模板图像z和搜索图像x输入骨干网络ResNet-22,一般孪生网络仅提取图像最后一层(Conv3 层)的特征图,但Conv2 层特征定位更精确,将其与Conv3 层的特征进行集成,可以提升跟踪算法的性能。本文算法在图3 的Conv2 层和Conv3 层中同时提取z和x的特征图,并且计算两个分支响应R1和R2,最终融合两个响应完成两层特征的集成。多层次特征响应的自适应融合过程具体如下:

1)对于任意一个视频序列,将第1 帧图像裁剪为像素127×127 像素,然后将其作为模板图像z输入骨干网络ResNet-22。在Conv2 层提取首帧位置模板,在Conv3 层提取首帧语义模板。

2)在视频序列的后续每一帧i∈{1,2,…,N}中,将第i帧裁剪为255 像素×255 像素,然后将其作为搜索图像x输入骨干网络ResNet-22。在Conv2 层提取位置特征FConv2,在Conv3 层提取语义特征FConv3。

3)第i帧的位置混合模板为,语义混合模板为。根据前一帧目标位置在第i帧提取位置模板和语义模板。使用自适应模板更新函数来确定和。

在融合后的响应图中,响应值最高的位置即为目标最可能出现的位置。

2.2 多层次模板的嵌套动态更新

多数孪生网络仅使用首帧模板,但不执行模板更新,使得跟踪器无法适应各种变化。本文算法在2.1 节的第3 步执行模板更新,考虑到位置模板反映目标位置特征,相邻帧位移通常不大,无需频繁更新;语义模板反映目标语义特征,目标在外观变化时常改变语义特征,需要及时更新。因此,本文算法针对以上问题设计如图4所示的SiamFC-22 双模板嵌套更新策略。

图4 SiamFC-22 双模板嵌套更新Fig.4 SiamFC-22 dual-template nested update

SiamFC-22 双模板嵌套更新策略具体步骤如下:

1)更新频率设置为3。每3 帧执行一次判断,通过第2 步和第3 步判断是否需要更新两个模板。

2)判断语义模板是否需要更新。使用平均峰值相关能量(Average Peak-to-Correlation Energy,APCE)[17]和最大响应值Fmax变化进行判断。当这两个值突然减小时,通常是目标遮挡或丢失的情况,此时更新模板会造成污染,不进行更新。具体操作如下:当由式(7)得到融合响应图r时,首先使用式(8)计算最大响应值Fmax:

然后使用式(9)计算APCE 值:

其中:Fmax、Fmin及Fw,h分别代表响应图r中最大响应值、最小响应值及第w行和第h列元素的响应值。最后使用式(10)进行判断:

其中:mean(Fmax)和mean(AAPCE)代表前面帧的历史Fmax和AAPCE值的均值;ξmax和ξAPCE代表两个阈值。当满足式(10)时,使用式(11)更新第i帧的语义混合模板。这样可以在很大程度上避免模型漂移现象,减少模型更新次数,提高运行速度。

经过实验可得:β=0.010 3,μ=0.005,ξmax和ξAPCE分别设置为0.8 和0.2。

3)在语义模板执行更新的前提下,使用式(13)的方差梯度比值(Variance Gradient Ratio,VGR)方法对位置模板进行判断,决定是否更新。VGR 值可以及时反映目标位移情况,当目标出现在搜索图像周边区域时,响应图r的峰值响应也会出现在周边区域。由于响应图存在余弦窗口,因此它对周边响应值进行抑制,此时响应图峰值减小,响应图方差出现明显变化。

首先使用式(12)计算响应图r的方差值:

然后使用式(13)进行判断:

其中:Vlast代表前一帧的方差;mean(V)代表历史方差的均值。当满足式(13)时,使用式(14)更新第i帧的位置混合模板。这样可以有效地反映目标的位置变化,并及时做出更新。

经过实验可得,α设置为0.011 3,ζ设置为0.4。在双模板嵌套更新过程中,两个不同大小的响应图经过双三次线性插值调整为接近搜索图像x的大小后再进行融合。

2.3 参数设置

SiamFC-22 网络进行离线训练时,无需进行在线微调。在训练SiamFC-22 的过程中,网络参数的初始值遵循高斯分布。使用权重衰减为0.000 1 的随机梯度下降方法进行网络优化。学习率设置为0.01,共训练50 个epoch。在每个epoch 之后,学习率以对数形式下降,直到最后一个时期达到0.000 01。动量设置为0.9,batch size 设置为32。在双模板嵌套更新过程中,由式(6)在训练阶段得到双模板融合权重ω1和ω2并用于跟踪,ω1和ω2约分别为0.3 和0.7时,跟踪算法可以获得最佳性能。

3 实验与结果分析

实验软件环境为安装Pycharm 的Ubuntu 16.04,利用Pytorch 编程框架验证算法性能。所有实验均运行在配置为Intel Core i5-8400 2.80 GHz CPU 和GeForce GTX 1080 GPU 显卡的计算机上,算法执行的平均运行速度为34 frame/s。本文选用OTB2015[18]和VOT2016[19]数据集,在选定的数据集上进行定性和定量分析实验。实验对比算法为DeepSRDCF[6]、SiamFC[9]、SiamRPN[10]、SiamDW[12]、SRDCF[20]、fDSST[21]、GradNet[22]、Staple[23]等具有代表性的跟踪算法,并将SiamFC 和SiamDW 作为基准算法。

3.1 OTB2015 基准实验

3.1.1 OTB 定量实验

OTB 数据集中的OTB2015 包括100 个视频序列,包含光照变化、快速运动、模糊、遮挡等11 个复杂场景。为定量地评估本文算法性能,采用OTB2015 视频序列进行比较。评价指标主要为精确度和成功率两个指标,并通过精确度曲线图和成功率曲线图来显示评价结果。精确度代表视频中跟踪成功帧数占总帧数的比率,使用跟踪预测框和真实标注框的中心位置的欧式距离判断跟踪是否成功,若中心位置误差低于阈值,则表示跟踪成功;成功率代表覆盖率大于某个阈值的帧数和视频帧总数的比率,覆盖率是指跟踪预测框和真实标注框的交并比(Intersection over Union,IOU)。

图5 给出了SiamFC-22 与对比算法在OTB2015数据集上的定量对比结果,其中图示框方括号中的数据表示平均值。可以看出,本文算法的平均精确度和成功率分别为88.6%和66.0%,明显优于对比算法。与基准算法SiamFC 和SiamDW 相比,SiamFC-22的平均精确度分别提升了14.4%和4.9%,平均成功率分别提升了13.4%和2.6%。这表明SiamFC-22 的双模板嵌套更新机制是有效的。同时,本文算法在OTB2015 数据集上获得了34 frame/s 的运行速度,能够实时稳定地跟踪目标。

图5 8 种算法在OTB2015 数据集上的精确度和成功率对比Fig.5 Comparison of the accuracy and success rate of eight algorithms on OTB2015 dataset

为详细分析SiamFC-22 的性能表现,在光照变化(Illumination Variation,IV)、尺度变化(Scale Variation,SV)、遮挡(Occlusion,OCC)、运动模糊(Motion Blur,MB)、快速移动(Fast Motion,FM)、平面内旋转(In-Plane Rotation,IPR)、平面外旋转(Outof-Plane Rotation,OPR)、相似背景(Background Clutters,BC)、低分辨率(Low Resolution,LR)、变形(Deformation,DEF)和离开视野(Out-of-View,OV)场景下,将本文算法与对比算法进行精确度比较,如图6所示。可以看出,本文算法在IV、SV、MB、FM、IPR、OPR、BC、DEF 和OV 场景下的精确度均优于对比算法,而在OCC 和LR 场景下排第2,并且本文算法的精确度在所有场景下均优于基准算法。

图6 8 种算法在OTB2015 数据集上的精确度对比Fig.6 Comparison of the precision of eight algorithms on OTB2015 dataset

图6 结果表明本文算法与对比算法相比,能更好地应对目标的语义变化和位置变化,具体分析如下:1)在快速移动场景下,本文算法相比基准算法平均精确度分别提高了11.7%和4.1%,这表明本文引入位置模板并根据语义模板嵌套更新,能够为跟踪器补充目标位置信息,提升快速移动等场景下的跟踪效果;2)遮挡、变形、运动模糊、内外旋转等场景会引起目标语义的变化,此时本文算法的精确度仍然比基准算法更高,这表明本文算法对语义模板的更新方法是有效的,能够使跟踪器获得及时准确的语义信息,并且更具鲁棒性。

3.1.2 OTB 定性实验

为分析本文算法的性能,在OTB2015 数据集中选择5 组视频序列,将本文算法与基准算法SiamFC和SiamDW 进行比较。在图7 中,跟踪结果与红色框重叠度越高,说明跟踪效果越好(彩色效果见《计算机工程》官网HTML 版)。视频序列的跟踪精确度对比结果如表2所示。

图7 5 组视频序列的跟踪效果对比Fig.7 Comparison of the tracking effect of five groups of video sequences

表2 5 组视频序列的跟踪精确度对比Table 2 Comparison of the tracking precision of five groups of video sequences

下面结合图7 和表2 做进一步分析,具体如下:

1)尺度变化场景。在ClifBar 视频序列中,红色框的跟踪框大小会发生变化。从第194帧和第216帧,随着跟踪框变大,SiamFC 和SiamDW 能定位目标,但跟踪精确度出现偏差。在第261 帧时,随着跟踪框由大变小,SiamFC 彻底跟丢目标。SiamFC-22 始终能稳定跟踪。根据表2 可知,SiamFC-22 的精确度较SiamFC 和SiamDW 分别提升了0.519 和0.137 个百分点。由此可见,SiamFC-22 更能适应尺度变化,相比SiamFC 和SiamDW 能及时调整跟踪框大小。

2)遮挡场景。在Liquor 视频序列中,红色框中的酒瓶不停地与其他瓶子相互遮挡。从第1 181 帧到第1 184 帧,因为多次遮挡目标,SiamFC 和SiamFC-22 都发生跟踪漂移,而SiamDW 彻底跟丢目标。在第1 185 帧时,SiamFC-22 因为及时更新模板,重新定位目标。根据表2 可知,SiamFC-22 的精确度较SiamFC 和SiamDW 分别提升了0.145 和0.049 个百分点。由此可见,SiamFC-22 具有双模板嵌套更新机制,相比SiamFC 和SiamDW 可以及时处理由遮挡引起的跟踪漂移等问题。

3)变形场景。在Jump 视频序列中,红色框中的人发生变形。从第16 帧到第73 帧,因为目标不断变形,SiamFC 和SiamDW 相继跟丢,SiamFC-22 还能跟踪目标,但是跟踪精确度无法保证。在第106 帧时,SiamFC-22 及时调整跟踪框。根据表2 可知,SiamFC-22 的精确度较SiamFC 和SiamDW 分别提升了0.617 和0.345 个百分点。由此可见,SiamFC-22的语义模板具有高置信度的更新机制,可以及时更新目标的语义信息,这使得其可以有效反映目标外观发生的变化。

4)快速移动场景。在MotorRolling 视频序列中,红色框中的摩托车位置快速改变。从第29 帧到第37 帧,因为目标快速运动,所以SiamFC 逐渐跟丢目标。在第49 帧时,SiamDW 目标跟踪出现误差。根据表2 可知,SiamFC-22 的精确度较SiamFC 和SiamDW 分别提升了0.309 和0.042 个百分点。由此可见,SiamFC-22 的位置分支响应使用浅层特征,包含大量位置信息,并通过位置模板更新补充信息,这使得SiamFC-22 适用于快速移动的场景。

5)相似背景场景。在Football 视频序列中,红色框中的人头移动时不断出现相似的人头。在第100 帧时能稳定跟踪目标,在第111 帧和第137 帧时因为相似目标干扰,所以SiamFC 和SiamDW 跟丢目标。由表2 可以看出,SiamFC-22 的精确度较SiamFC和SiamDW 分别提升了0.591 和0.542 个百分点。SiamFC-22 相比SiamFC 和SiamDW 能更准确地区分相似背景,抑制相似背景的高响应值。

3.2 VOT2016 基准实验

在目标跟踪VOT 数据集中,本文选用VOT2016[19]数据集进行算法性能评估实验,采用平均重叠期望(Expected Average Overlap,EAO)、准确率和鲁棒性分数(R)作为主要评测指标,其中鲁棒性分数表示跟踪失败的帧数除以跟踪重复的次数,鲁棒性分数越低,跟踪越稳定。准确率和平均重叠期望分数越高,鲁棒性分数越低,跟踪性能越好。实验对比算法为DeepSRDCF6]、SiamFC[9]、SiamRPN[10]、SiamDW[12]、SRDCF[20]、和Staple[23]。

由表3 可知,SiamFC-22 的平均重叠期望、准确率以及鲁棒性分数仅低于SiamRPN。在图8 中,SiamFC-22 将基准算法SiamFC 和SiamDW 的EAO分别提升了30.0%和6.8%。同时,运行速度为32 frame/s,满足实时性要求。因此,SiamFC-22 在VOT2016 数据集上的性能表现优于基准算法SiamFC 和SiamDW,仅次于SiamRPN。

表3 VOT2016 跟踪结果Table 3 VOT2016 tracking results

图8 VOT 2016 数据集EAO 结果Fig.8 EAO results of VOT 2016 dataset

4 结束语

为提高SiamFC 在快速移动、遮挡等复杂场景下的跟踪能力,本文提出一种基于多响应图融合与双模板嵌套更新的跟踪算法。将骨干网络替换为特征提取能力更高的ResNet-22 网络,增强跟踪算法的特征提取能力。使用浅层特征计算位置分支响应,利用骨干特征计算语义分支响应,并对两个分支进行融合,提高跟踪算法的识别和定位能力。通过高置信度的双模板嵌套更新机制,兼顾两个模板不同的更新速率需求和更新置信度,适应目标的外观变化和位置变化。在OTB2015和VOT2016 数据集上的实验结果表明,本文算法有效提升了目标跟踪效果。后续将使用动态参数改进位置分支与语义分支模板的融合方式,并引入注意力机制进一步提高网络跟踪性能。

猜你喜欢

嵌套精确度语义
研究核心素养呈现特征提高复习教学精确度
语言与语义
“硬核”定位系统入驻兖矿集团,精确度以厘米计算
嵌套交易如何实现逆市盈利
“上”与“下”语义的不对称性及其认知阐释
大小交路嵌套方式下城市轨道交通列车最优车组数开行方案
认知范畴模糊与语义模糊
无背景实验到有背景实验的多重嵌套在电气专业应用研究
连续批加工过程中嵌套自相关数据的控制图设计
语义分析与汉俄副名组合