增强特征信息的孪生网络无人机目标跟踪方法

2022-08-16周文豪杨帅东赵书朵

计算机工程与设计 2022年8期

周文豪，杨帅东，赵书朵

(1.西南石油大学电气信息学院，四川成都 610500；2.西南石油大学信息学院，四川南充 637001)

0 引言

近年来，基于无人机视觉的目标跟踪逐渐成为计算机视觉领域的热门研究课题，应用于智能交通、视频检索以及军事侦察等众多领域[1]。无人机因跟踪目标移动较快且目标通常较小目标很容易受到光照、遮挡、小目标快速移动等因素影响。设计精度高、鲁棒性强的无人机目标跟踪方法成为当前研究的重点[2]。

主流的单目标跟踪算法主要分为两大类：①相关滤波类算法；②深度学习类算法。相关滤波类以KCF[3]算法(kernel correlation filter)为代表，其引入了核技巧以及多通道特征处理，大大简化了计算量，后续如SAMF[4]、DSST[5]、SRDCF[6]等。C-COT[7]、ECO[8]等算法将深度学习与相关滤波结合。将CNN作为特征提取方式加入到相关滤波跟踪框架。深度学习类中Bertinetto等提出的SiamFC[9](fully-convolutional siamese networks)利用相似性匹配的思想，以孪生神经网络作为核心框架，通过模板帧与搜索帧进行相似度匹配度量，得出目标的位置响应。由于仅使用5个全卷积层进行端到端的离线训练，跟踪时在线相似评估的策略，因此在跟踪精度与时效性方面得到了很好的平衡。SiamRPN[10](siamese region proposal network)在SiamFC的基础上，加入候选区域生成网络解决了视频帧中目标在尺度变化这一特定场景下跟踪丢失问题。为解决目标对象因形变、遮挡等跟踪难点，Siam R-CNN[11]再检测算法利用第一帧模板和前一帧预测的重新检测来对目标进行建模，该方法在目标受到长时间遮挡后能够更好地重新跟踪目标。Guo等[12]提出一种动态变化的孪生网络，建立一个快速转换学习模型可有效地改善前一帧目标的外观变化和背景抑制。文献[13]在孪生网络中引入全局上下文特征模块的DenseNet，Dong等[14]通过将表达性深度特征加入到Siamese网络中用于代替成对损失进行训练，近年来以上方法有效提高算法在无人机视觉下对目标的跟踪效果。

SiamFC算法采用数据集ILSVRC 2015-VID[15]训练跟踪模型，以改进Alexnet[16]网络作为主网络，其卷积核不能有效分离目标与背景信息导致特征提取类型不足，并且训练数据集包含的目标类别较少，导致跟踪器在无人机视频的复杂场景下跟踪不准确甚至跟踪失败。因此本文基于SiamFC提出MFFSiamFC(multi feature fusion SiamFC)算法，将原训练模型的数据集ILSVRC 2015-VID替换成GOT-10K[17]，使得训练出的模型对目标信息的提取更具有判别能力，与原始训练数据集相比，能有效区分跟踪场景中的前景与背景信息；其次在卷积过程中将带有高语义信息和低细节的浅层特征融入到深卷积层中，减少目标细节信息的丢失，增强网络对目标特征的提取能力；最后带有空间池化操作加强在空间中目标特征信息，调节目标在特征空间中每个位置信息的比重。进而通过条带池化输出特征信息与原始卷积输出的特征图带有的目标信息进行融合完成目标的特征图提取。然后与搜索分支中的视频图像信息进行互相关运算，得到的最终特征图比原始网络输出更具有前景信息。

1 本文算法

1.1 算法网络构架

本文算法基于SiamFC跟踪网络模型进行改进实现对无人机视觉下目标进行跟踪。如图1所示，网络中包含模板分支和搜索分支。模板分支和搜索分支分别输入两张大小为127×127×3和255×255×3的图像，记为Z和X，经过卷积神经网络进行特征提取。首先模板分支中将经过第一个卷积所得特征图输入到第四个和第五卷积层中与之进行特征融合得到特征图z1。用浅层特征包含着更多的目标信息这一特性增强深层特征图的细节信息，此操作弥补了卷积操作对目标信息丢失的缺点；在模板特征图z1后面引入条带池化[18]结构，使条带池化输出特征与模板特征z1进行融合得到模板分支最终输出特征图n，然后与搜索分支输出特征x进行相似性匹配，得到孪生网络模型最终的输出特征响应图，完成后续的跟踪任务。其中特征图均表示图像经网络中卷积核特征提取后呈高亮形式变得更集中于中心点，高亮部分从1到0以浮点形式向周围分布。

图1 MFFSiamFC网络结构

孪生网络结构各层所对应参数见表1，包括5个卷积层和两个pooling层，除第五层外每个卷积层后面都有一个ReLU非线性激活层。

1.2 浅层特征融合

针对多层卷积提取特征丢失目标细节信息问题。浅层神经元经过较少的卷积层，其对应感受野较小，其对应输出特征图中包含更多的目标细节信息。随着卷积层数的增加，神经元的感受野越大，但与之而来的更多卷积运算使提取到的特征变得越加抽象，目标的细节丢失较为严重。本文采取尺度变换方式调节浅层卷积输出特征图的尺寸输入到深层卷积层中进行融合卷积来增强网络对目标细节信息的表征，利用网络的浅卷积层具有高语义和低细节信息特

表1 孪生网络结构参数

性使得模板分支卷积后输出的特征图更具依赖性。

尺度变换[19]是通过改变原特征图的通道数实现其尺寸的缩放，图2为特征图尺度变换示意图，设原始输入特征图尺寸为H×W×C×r2，H和W分别表示特征图的高和宽，C×r2表示特征图的通道数。特征图经尺度变换的关系表达式为

(1)

其中，x,y表示特征图的维度大小，c表示单个像素点的通道数，整个变换过程是像素值周期排列的过程，变换后的第一个通道上一个r×r像素块的像素值相当于是原来前r×r个通道上1×1像素值的重新排列，在不增加任何参数的情况下完成了不同尺度特征的提取。

图2 尺度变换

尺度变换仅通过改变通道数实现特征图的尺寸缩放，没有额外参数加入进行计算。卷积神经网络的各卷积层的输入输出计算公式为

N=(W-F+2P)/S+1

(2)

式中：N为特征图输出大小，W为特征图输入大小，F为卷积核大小，P为填充值大小，S为步长。通过将第一层输出特征输入到第四层，第五层卷积层，弥补目标所在位置信息，使得网络得到更有效的目标特征；设第一层，第三层，第四层，第五层卷积输出特征图分别为I1，I3，I4，z1。I1通过式(1)和式(2)计算得到I′1，I″1，大小分别为10×10和8×8，分别输入到第四层，第五层卷积层，由此各特征图之间的关系如下

I4=φ4(I3+I′1)

(3)

z1=φ5(I4+I″1)

(4)

式中：φ4，φ5分别代表第四层和第五层的卷积操作。至此网络卷积操作得到目标特征图z1，将浅层提取的特征分别融入到最后两个深卷积层中，帮助网络寻找在堆叠卷积中丢失的高语义信息和低细节信息，使得模板分支获取第一帧目标特征更具权威性，有利于完成后续的相似性学习。

1.3 条带池化操作

针对堆叠卷积提取特征使得卷积神经网络感受野增长缓慢问题，为有效区分目标前后景信息，本文算法对模板分支进行卷积后的目标特征引入条带池，带有空间池化操作的特征目标与原有卷积后的目标特征进行加权融合，使得目标每个位置信息在特征空间自动分配较大的比重，增强网络在跟踪场景中对目标特征的提取。

条带池化操作沿窗口分为两个方向进行池化

(1)沿窗口垂直方向池化表示为

(5)

(2)沿窗口水平方向池化表示为

(6)

其中，设池化窗口尺寸为 (H,1) 或 (1,W)，输入为u，u∈RH×W表示输入为二维张量，H和W分别表示空间的高度与宽度。y为输出。

通过长且窄的卷积内核建立空间特征关系，扩大跟踪过程中主干网络的特征感受野，更有效进行目标和背景的分类。条带池模块如图3所示，首先，输入二维张量u∈RC×H×W，通道数为C，将u分别输出为具有一维卷积且内核大小为3的水平和垂直两个方向，用于调节当前每个位置及其相邻位置信息，得到有效全局先验信息；经过水平和垂直方向的一维卷积池化后得到yh∈RC×H和yV∈RC×W，对yh和yV进行合并融合，得到y∈RC×H×W，然后将y与输入u进行计算，得到条带池化操作最终特征输出MV∈RC×H×W

(7)

m=Scale(u,σ(f(y)))

(8)

其中， (i,j) 表示某像素点，Scale函数为sigmoid激活函数，表示输入u与σ(f(y)) 逐元素相乘，f表示1×1卷积，分别设置条带池化窗口的尺寸为16×16和12×12。在整个条带池模块中，特征经过每个卷积层后都使用归一化处理[20](batch normalization，BN)。

图3 条带池化模块操作过程

全卷积孪生网络SiamFC是通过模板分支的输入z与搜索模板的输入x经过共享权重的卷积网络φ进行特征提取，最终利用相似性学习函数对z和x的特征进行模板匹配得到响应图f(z,x)，表示为

f(z,x)=φ(z)*φ(x)+b

(9)

结合本文算法的网络结构与条带池模块分析，融合后的特征n由模板分支输出特征z1与条带池模块输出特征m相加得到，如下式所示

n=z1+m

(10)

因此，最终的相似性学习函数可以定义为

f((z+m),x)=φ(z1+m)*φ(x)+b→f(n,x)=φ(n)*φ(x)+b

(11)

新引入条带池化操作后的特征与模板分支的特征加权融合，帮助孪生神经网络在跟踪过程中增强目标在特征空间中的位置信息，更好地完善跟踪性能。

1.4 跟踪流程

无人机目标跟踪流程如图4所示。

图4 跟踪流程

(1)加载本文算法MFFSiamFC预训练网络模型，判断当前是否为第一帧图像。当前输入视频图像是第一帧，截取大小为127×127×3的图像作为模板分支的输入；当前输入视频图像不是第一帧，截取大小为255×255×3的图像作为搜索分支的输入。

(2)经过判断之后，模板分支和搜索分支的输入图像进入MFFSiamFC网络，对图像进行卷积，在此过程中将浅层特征融入到深层卷积层中获得特征，再利用引入的条带池模块输出特征与模板分支输出特征进行加权融合，新的模板分支特征与搜索分支特征进行互相关运算，获取最后的响应特征图，进而得到目标与背景的分类得分，最终确定目标位置。其中模板分支中的输出特征在第一帧已经确定，在后续帧中保持不变，后续帧作为搜索分支的输入进行特征提取进而与模板分支输出特征进行互相关运算。

(3)进入后续视频帧图像，对其进行搜索分支的一系列特征提取操作，与上一帧视频图像特征进行相似性匹配，获取响应最大的特征图，对目标进行跟踪。如果模板分支特征图需要跟新，则重复(1)、(2)步骤。最终判断视频图像是否为最后一帧，是则结束跟踪。

2 实验结果分析

2.1 实验数据

本文算法软件环境实验平台基于Ubuntu 16.04系统，采用pytorch1.4深度学习框架。所有实验均在CPU为Inter Core i7-9700F 3.00 GHz×8，GPU为GeForce GTX 2060Super 8 G的设备上进行。

MFFSiamFC采用GOT-10K数据集替换ILSVRC 2015-VID训练网络模型，本次实验的训练集GOT-10K包括超过10 000个视频，563个类别，对比SiamFC的训练集ILSVRC 2015-VID，分别用于跟踪模型的训练、验证、测试视频3862段，555段，937段， 30个基本类别，GOT-10K有着更海量的视频图像，类别，使得模型能适应更多的跟踪场景，提高跟踪性能。在训练时，沿用去除全连接层后AlexNet网络，并只在前两个卷积层后面加上池化层。初始学习率设为0.001，训练过程分为50个阶段，每个阶段训练5000个样本对。训练总时长为14个小时。

本次实验测试选取无人机低空视频图像UAV123[21]数据集来验证所提出算法的性能，包含123个视频片段，标注的帧数超过100千帧，包含多种跟踪对象，如人、船只、鸟、汽车等。涉及到光照变化，低分辨率，复杂背景，遮挡等12种不同场景属性。该实验跟踪性能采用精确度和成功率图两种评价指标，精确度指跟踪视频中跟踪成功帧数占总帧数的比例，成功率指目标框与真实标注的目标框的重叠面积大于设定阈值与视频总帧数的比率。

2.2 算法对比分析

为验证本文所提出算法的鲁棒性和有效性，本节将所提出算法与SiamFCGOT(替换训练集后的SiamFC)和当前8种具有代表性跟踪算法进行对比，分别为SiamFC、MUSTER[22]、SAMF、ASLA[23]、DSST、KCF、CSK、IVT。图5展示了各算法在UAV123数据集上的平均成功率图5(a)与平均精确度图5(b)。图5(a)中横坐标代表覆盖阈值，纵坐标代表成功率；图5(b)中横坐标代表位置误差阈值，纵坐标代表精确度。本次实验将覆盖阈值设为0.5，精确度阈值设为20像素。

图5 各算法在UAV123数据集的总对比结果

从图5和表2可以看出改进模型在成功率和准确率上都高于所有对比算法。改进模型在SiamFC的基础上替换原有数据集，再融合池化特征后的算法在成功率与精确度上有了较大幅度的提升，分别达到了54.2%和74.6%。相较于更换训练集的SiamFCGOT、SiamFC，本文算法MFFSiamFC的成功率分别提升了8.40%和12.92%，精确率分别提升了3.46%和7.18%。SiamFCGOT与SiamFC相对比可以看出更换数据集后的算法在成功率与精确度上分别提升了4.2%和3.6%。在跟踪速度上该算法在测试数据集UAV123上耗费了20 min 52 s共跟踪了112 578帧图像，平均每秒帧数达到90帧，而基准算法SiamFC在实验中测得平均每秒帧数92 帧，可以看出改进后的算法与SiamFC每秒帧数相差不大，满足实时性要求。MFFSiamFC在大幅度提升精度的同时也保证了运行速度。由此可见所提出的改进策略得到有效的验证，通过替换训练集增强网络对目标种类的识别能力，构造更深层次的语义信息；引入条带池化操作与增强模板分支特征信息，扩大其特征感受野，帮助孪生网络结构建立远程上下文关系和增强特征信息，弥补了因卷积操作后目细节信息的丢失，有效地提升了算法对无人机视觉下目标的跟踪效果。

表2 平均成功率和平均准确率及相对提高百分比

2.3 多属性对比分析

因无人机视觉下目标所处场景干扰较多，为了详细评估MFFSiamFC在UAV123数据集12种场景属性下的无人机目标跟踪性能，该实验选取环境光照变化、目标被短时间完全遮挡以及目标快速移动时等场景数据对比分析，图6为不同场景下各算法的成功率和精确度。

图6 部分场景下各算法成功率与精确度

由图6可知，可以看出本文算法在无人机视觉下多种场景的评价指标都有着很好的数据。在光照变化，完全遮挡和快速移动场景下本文算法比SiamFC算法在成功率上分别提升24.81%、22.89%和22.62%；精确度上提升了14.1%、13.42%、15.45%。而且同样优于其它主流目标跟踪算法，因为本文算法基于SiamFC采用数据集GOT-10K替换原训练集，增强了模型对目标类别的感知能力，适应复杂场景的变化；在模本分支的卷积层中将浅层特征融合到深层卷积层中加强了模型对目标特征细节的提取，对输出特征进行条带池化操作，特征图经过融合加强了空间语义对主干网络的依赖性，有效区分场景的前景和背景信息。跟踪模型更加适应环境光照变化影响，提高了模型对低分辨率情况下的目标特征提取能力。因而本文算法在光照变化较大，目标被完全遮挡，图像低分辨率情况下可以更好完成跟踪任务。

从消融角度来看，MFFSiamFC同样优于只替换训练集后的算法SiamFCGOT和其余具有代表性的目标跟踪算法。在成功率上分别比SiamFCGOT提高19.61%、13.96%、17.20%；精确率上分别提高8.69%、10.29%、7.26%；说明了分层特征的融合方式与条带池化模块的引入有效提高了算法的鲁棒性，能够在干扰因素较多的无人机视觉视频中表现出很好的跟踪性能。

由表3可知，针对光照变化，完全遮挡和快速移动场景下本文算法比SiamFC算法在成功率上分别提升24.81%、22.89%和22.62%；由表4可知，在以上场景下精确度上提升了14.1%、13.42%、15.45%；而且MFFSiamFC同样优于SiamFCGOT和其余具有代表性的目标跟踪算法。基于SiamFC采用数据集GOT-10K替换原训练集，增强了模型对目标类别的感知能力，适应复杂场景的变化;在模板分支的卷积网络后加入条带池模块进行多特征融合，加强目标在特征空间的位置信息，有效区分场景的前景和背景信息。所以本文算法在光照变化较大，目标被完全遮挡和目标快速移动的场景下有很好的跟踪性能。

表3 多属性场景下消融实验成功率参数对比

表4 多属性场景下消融实验精确度参数对比

2.4 定性对比分析

为了能够直观地看出该实验各算法对视频帧中的目标跟踪结果，本小节从UAV123数据集中挑选出5组不同类别的视频序列中部分图片来展示本次实验跟踪算法的效果图。图7分别为boat9_1，person14_3_1，truck4_1_1，uav1_2_1，group3_1_1。图中黑色预测框代表所改进算法，不同跟踪算法分别用预测框不同的黑度线框表示。综合各种场景中跟踪效果来看，改进算法跟踪效果更佳，有较强的鲁棒性。

图7 跟踪算法在UAV123数据集上的跟踪效果

5段视频中都受到不同干扰因素的影响，在图7(a)boat9_1中目标表现出尺度变化，第400帧左右各算法还能对船进行较为准确的跟踪，但在第900帧左右时KCF、DSST等算法开始发生了漂移，MUSTER和CSK的预测预测框也不是很准确，在1399 帧时只有改进算法和SiamFC还能够准确跟踪目标；从图7(b)person14_3_1和图7(e)group3_1_1的遮挡以及背景干扰场景下，没有特征加强的SiamFCGOT无法准确跟踪目标，而改进模型在此场景中能够很好地适应场景干扰；图7(c)truck4_1_1和图7(d)uav1_2_1中目标快速移动以及光照变化，且分辨率较低。DSST和KCF几乎无法跟踪目标，尤其在对特征信息较少的汽车跟踪时，只有经过浅层特征融合策略和条带池化操作的改进模型能够准确追踪到目标。与此同时，条带池化中长而窄的内核对图像前景和背景进行更精准的分离，使得边界框回归的更加精准。

3 结束语

为了提高SiamFC在无人机视角下被跟踪目标快速移动，遮挡及环境的光照变化等场景下的跟踪能力，本文提出一种多特征融合的无人机目标跟踪算法MFFSiamFC。将训练集替换为包含类别更多的GOT-10K数据集，提高网络对更多目标在复杂场景下的识别能力。在卷积层中将浅层特征输入到深层卷积层中，使得经过卷积得到的特征图保留更多的目标细节信息。新加入条带池模块，将模板分支提取的特征与条带池化操作后的特征进行加权融合，改善了原始特征提取的效果，提高了跟踪器对目标的识别和定位能力。在UAV123数据集进行实验并分析结果，通过精确度和成功率的评估验证了本文算法的有效性。但是本文算法在目标高达2000帧以上的视频帧中，目标过小或低分辨率等场景下，容易发生目标飘移甚至跟踪丢失，所以下一步的研究方向是加入全局检测机制和对边界框的预测。