基于双注意力混洗的无人机航拍目标跟踪算法
2023-02-09金国栋薛远亮谭力宁许剑锟
金国栋,薛远亮,谭力宁,许剑锟
(火箭军工程大学 核工程学院,西安 710025)
无人机因其操作简单、体积小和成本低等优势,在各个领域有着广泛的应用。作为无人机应用的关键技术之一,目标跟踪渐渐成为计算机视觉领域的研究热点,在给定目标第一帧后,对后续帧中出现的该目标进行持续不断的定位跟踪。随着无人机的飞速发展,研究稳健准确且高效的跟踪技术对于无人机的应用有着十分重要的意义。
相较于地面平台,无人机视角下目标尺寸相对较小,目标包含的像素点较少,并且无人机飞行过程中容易出现相机抖动和飞行速度变化,造成目标模糊和形变等问题,都对跟踪算法提取特征的能力有着更高的要求。目前的目标跟踪算法主要分为2 类,即相关滤波方法和深度学习方法。其中,相关滤波方法大多使用传统特征提取算法,对目标的表征能力不够[1],不能有效应对无人机对目标的跟踪任务。而卷积神经网络(convolutional neural networks,CNN)提取的特征能有效表征目标,在目标跟踪领域发挥着重要作用。Bertinetto 等[2]提出了一种基于全卷积孪生神经网络(fully-convolutional Siamese networks, SiamFC)的跟踪算法,将目标跟踪任务看作为目标模板与搜索图像之间相似度学习的问题,尽管网络层数不深,但算法的准确率和速度分别为53.35%和86 帧/s(frames per second,FPS)。后续研究大多都在孪生神经网络的基础上进行,Huang 等[3]发现浅层特征足以完成简单场景下的跟踪,因此在孪生神经网络每一层连接一个判别器,当该层的特征图的得分大于阈值时停止神经网络的后续计算,有效降低了运算成本。SiamRPN[4]在SiamFC 上引入区域建议网络[5](region proposal network, RPN),将在线跟踪过程看作局部的目标检测任务,实现了精度和速度的提升,在多个数据集上表现优异且速度高达160 FPS,有效证明了基于深度学习的目标跟踪算法在精度和速度上的良好平衡。SiamRPN++[6]打破了特征提取能力更强的深层神经网络不能应用在目标跟踪领域的限制,在多个数据集上排名第一。针对无人机的跟踪算法主要有:Fu 等[7]提出一种融合了语义特征的无锚框(anchor-free)跟踪算法,跟踪器的速度和跟踪效果都有所上升,但跟踪框的回归成为难题;刘芳等[8]提出一种基于残差学习的自适应无人机目标跟踪算法,在深度网络上引入残差连接和空洞卷积强化特征提取能力,使用分块策略应对无人机跟踪过程中的尺度变化,但是受到网络层数限制,特征提取能力有所不足;又提出自适应Siamese 网络[9],结合高斯混合模型更新目标模板,有效解决了目标遮挡、形变等问题,但跟踪速度达不到实时要求。
注意力机制也渐渐应用在孪生神经网络上。SASiam[10]在SiamFC 上加入语义分支,并受到SE-Net[11]的启发,引入通道注意力,利用外观特征和语义特征的互补,取得了不错的跟踪效果。钟莎和黄玉清[12]提出了一个基于孪生区域候选的注意力机制网络算法,在改进过的ResNet-50[13]网络上引入通道注意力排除干扰,并融合2 个RPN 网络实现了分类与边界框回归。
综上所述,针对无人机视角下跟踪目标尺寸小、相似物干扰和尺度变化等问题,本文提出了一种基于双注意力混洗的多尺度无人机目标跟踪算法。首先,对ResNet-50 网络中的残差连接进行改进,融合了软采样和硬采样的方法,有助于目标分类和定位。然后,为了更好地利用特征,将特征图一分为二,分别使用空间注意力和通道注意力,二者输出由混洗(shuffle)操作[14]有效结合起来。最后,跟踪框生成阶段将不同深度卷积层的RPN 输出进行融合并分配不同权值,有效解决尺度变化问题。实验表明,本文算法能更有效地应对尺度变化、小目标、运动模糊和部分遮挡等问题,提升了算法的跟踪效果,并且速度达到37.5 FPS,满足实时性要求。
1 相关工作
1.1 残差模块
He 等[13]发现随着网络层数的加深,信息传递的难度加大,网络因学习到的有效信息变少而出现退化现象。而ResNet 网络层数可以达到很深,是因为残差模块中的捷径连接相当于在网络层的输入和输出之间构建了一种映射关系,确保信息能有效传递,避免网络出现退化现象。图1 为2 种残差模块的示意图。图中:第l层残差模块的输入为x[l]、输出为x[l+1];conv 1×1、conv 3×3 分别代表大小为1、3 的卷积;ReLU 为修正线性单元激活函数;BN(batch normalization)为批量归一化操作。
图1 残差模块Fig. 1 ResBlock
ResNet 残差网络由数个残差模块堆叠而成,残差模块的定义表达式如下:
1.2 注意力机制
注意力在人类的知觉中起着重要的作用[15]。人类视觉系统的一个重要特性是人类不会试图一次处理整个场景。相反,为了更好地捕捉视觉内容,人类会利用一系列局部的观察,并有选择地聚焦于想要关注的内容[16]。计算机视觉中的注意力机制同样可以帮助神经网络着重地关注输入中的重要信息,排除不重要信息的干扰。主要分为通道注意力和空间注意力,分别旨在捕捉通道间和像素间的依赖关系[17]。
文献[18]提出一种空间转换器,将空间信息进行变换,提取其中关键信息。SE-Net[11]分别使用全局平均池化(global average pooling, GAP)和2 个全连接层达到对通道的压缩、激励,使模型更加关注信息量更大的通道特征。
ECA-Net[19]用一维的卷积构建高效的通道注意力模块,避免了通道降维,且有效捕获了跨通道交互的信息。之后的CBAM[20]、DANet[21]在前面研究基础上将通道注意力和空间注意力结合起来,证明了2 种注意力结合的效果比单个注意力的效果更好。
2 基于双注意力混洗的孪生跟踪算法
基于孪生神经网络的跟踪算法将跟踪任务看作为目标模板与搜索图像之间的相似度度量问题。孪生神经网络主要分为特征提取部分和相似度度量部分。特征提取部分根据目标模板z和搜索图像x,分别使用权值共享的神经网络 φ(.)提取特征,本文提取的特征相当于一种更为抽象、更为泛化的描述子。如式(2)所示,相似度度量部分根据输入的描述子,使用度量函数f(z,x)计算描述子之间的相似度,得到响应图。响应的分数越高,则二者相似度越高。
式中:“*”代表互相关运算;b.I为响应图每个位置的偏差值。
本文算法的网络结构如图2 所示,主要分为3 个 部 分:双 采 样 融 合 的ResNet-50 (double sample integration ResNet-50, DSI-ResNet)、双注意力混洗模块(dual attention shuffle, DAS)和多区域建议网络加权融合,因此算法命名为SiamDAS。
图2 本文算法网络结构Fig. 2 Structure of the proposed algorithm network
2.1 双采样融合的ResNet-50 和DSI-ResNet
经典孪生跟踪算法MDNet[22]、SiamFC[2]和Siam-RPN[4]使用网络层数较少的VGG[23]和AlexNet[24]作为特征提取的主干网络,导致提取到的浅层特征缺少语义信息。当无人机跟踪过程中目标发生外观变化和运动模糊时,浅层特征描述物体能力不够,容易出现跟踪失败的情况。因此,更好地利用丰富的语义信息建立鲁棒的目标模型才是无人机跟踪算法的关键。ResNet-50 因其特征提取能力更强而被广泛使用在计算机视觉其他领域。本文主干网络DSI-ResNet 也是在其基础上根据无人机跟踪任务而进行改进。
ResNet-50[13]残差模块中的映射是传递信息的主要路径。每次映射都会增加特征图的通道数,当输入和输出的特征图尺寸不一致时,还需要对特征图进行下采样。图3(a)为ResNet 中的下采样,使用一个步长Stride 为2、大小为1 的卷积核对特征图进行逐步长的卷积运算,一次性完成了通道升维和空间下采样。如图4 所示(蓝色为使用到的像素,黄色为卷积核),步长为2 导致下采样过程中忽略了75%的特征信息,不适合无人机视角下目标尺寸小和运动模糊等情况,本文提出的DSI-ResNet 改进原有的采样方式,将2 种各有优点、相互互补的“软下采样”和“硬下采样”进行融合,保留更多的细节信息和背景信息。
图3 投影映射的下采样Fig. 3 Down-sampling of projection mapping
图4 步长为2、大小为1 的卷积过程Fig. 4 Convolution process with a step of 2 and size of 1
下采样中常用的最大池化操作,即“硬下采样”,从模板中选择激活度最高的元素作为输出,有利于目标分类。而图1(b)中残差部分使用的下采样是步长为2、大小为3 的卷积,相比于最大池化,输入输出之间的计算更平滑,因此称为“软下采样”。卷积运算会考虑特征图上的全部信息包括背景信息,有助于网络更好地定位。
如图3(b)所示,“硬下采样”由一个步长为2、大小为3 的最大池化和一个步长为1、大小为1 的卷积来实现。空间下采样与通道升维分为2 步进行:第1 步,最大池化会全面考虑空间信息并从中选择最大激活值,作为卷积的输入;第2 步,利用步长为1、大小为1 的卷积实现跨通道的信息融合。将投影映射中“硬下采样”的输出和残差部分中“软下采样”的输出相加,有效结合2 种下采样方法,使其更适合无人机下目标像素点少、运动模糊的跟踪任务,还不会增加运算成本。
2.2 双注意力混洗
基于孪生神经网络的跟踪算法为了提升运算速度,采用的是在大型数据集上离线训练跟踪模型,在线跟踪过程中不会更新目标模板,需要网络有很强的泛化能力和辨别能力。网络仅根据给定的第1 帧初始图像,既要提取到目标的语义信息,又要捕获目标特有的细节信息。语义信息保证网络在各个场景下跟踪目标的泛化能力,细节信息则是排除同类物体干扰、提高网络辨别能力的关键。
根据上述分析,能提取到丰富语义信息的DSIResNet,辨别能力仍有不足,主要体现在:①通过卷积生成特征图的过程中,对输入的特征图的每个位置有着一样的关注,而这特征图上不仅有要跟踪目标的信息,也有干扰信息。如果能在特征提取阶段就将干扰信息排除,就可以有效提高跟踪算法的准确度。②互相关运算中,各个通道上的特征图对于计算相似度的贡献都是一样的,而往往不同通道代表着不同类别的物体,对于只跟踪特定目标的跟踪任务来说,对所有类别都给予相同的权重不适用于跟踪任务。
单独的通道注意力或空间注意力不能解决上述问题,而这两者的效果是互补的,同时使用就能解决上述问题。文献[20]提出的CBAM 级联空间注意力和通道注意力模块,相比于单一注意力,能帮助网络更好地关注目标,实验表明,双注意力融合起来效果更好。但是CBAM 的设计不够轻量化,不适合无人机跟踪任务。为了提高网络的辨别能力,在DSI-ResNet 上引入了一种轻量化的双注意力混洗模块,如图5 所示。首先,将特征图按通道进行分组,生成子特征图;然后,子特征图上按通道一分为二,分别使用空间注意力和通道注意力,2 个注意力模块的输出相加得到新的子特征图;最后,所有子特征图组合生成新的特征图,混洗子特征图上的信息,加强不同通道间信息交流。
图5 双注意力混洗Fig. 5 Dual-attention shuffling
2.2.1 特征图分组
给定输入的特征图为X∈RC×H×W,其中,C、H和W分别为特征图的通道数、高度和宽度。为了降低计算成本,将X在通道维度上分为G组子特征图,X=[X1,...,Xk,...,XG],Xk∈RC/G×H×W, 因为子特征图 是按通道划分的,所以在训练过程中每个子特征图都能捕获到特定的语义信息。子特征图Xk一分为二,得到Xk1,Xk2∈RC/(2G)×H×W,一个使用通道注意力捕获通道间的相互关系,另一个则使用空间注意力寻找特征之间的空间关系。因此,通过注意力模块的权重分配,网络更好地知道关注什么和关注哪里才是有意义的[17]。
2.2.2 通道注意力
深层网络的特征图上,不同通道代表着不同的语义信息[25]。通道注意力分配权重的过程可以看作是为不同的通道选择语义属性的过程[11]。本文选用的是SE-Net[11]中的全局平均池化GAP 压缩Xk1通道上的特征层,得到结果s:
将特征图按照不同的语义信息进行权重分配,目标所在通道的权重最大。在互相关运算时,其他通道上的响应受到抑制,明确网络应该关注什么类别(what)的目标。
2.2.3 空间注意力
式中:W2,b2∈RC/(2G)×1×1和 δ (.)用 于加强X¯k2的表示能力。
空间注意力响应对特征图各个位置的权重设计有效抑制了相似物的干扰,明确网络应该关注图像上什么位置的目标。
2.2.4 混 洗
图6 通道混洗Fig. 6 Channel shuffle
2.2.5 可 视 化
为了直观展现双注意力混洗模块的作用,使用Grad-CAM[27]对加入双注意力混洗的ResNet-50 分类网络最后一层卷积层(见图2 中Layer4 的第2 层卷积)生成类激活热力图。图7 为预测狗类别的类激活热力图。温度代表网络对图像中目标类别的认识,网络认为该区域越接近目标类别,则类激活值就越高,因此图中温度越高。可以看出,加入双注意力混洗后,网络对感兴趣目标(狗)的辨别能力得到提升,抑制干扰目标(猫)的影响,有效证明了双注意力混洗模块对特定目标的辨别能力。因此,当双注意力混洗模块用于提取跟踪任务中目标特征时,也能很好地将网络注意力限制在跟踪目标上。
图7 Grad-CAM 热力图Fig. 7 Heatmap of Grad-CAM
2.3 多区域建议网络融合
2.3.1 区域建议网络
SiamRPN[4]引入RPN 模块代替传统金字塔式的尺度估计方法,预先定义尺度、大小不同的k个锚框完成对目标的多尺度估计,主要包括上通道互相关运算(UP-channel Xcorr)、边界框回归分支BW×H×4k和分类分支SW×H×2k。上通道互相关运算是整合模板分支与搜索分支特征信息的关键运算,其核心思想是把模板分支的特征图 φ(z)当作卷积核,与搜索分支的特征图 φ(x)进行卷积运算,得到响应图。回归分支与分类分支根据响应图,分别得到目标的预测位置与分类得分,其中得分最高的目标及其预测位置作为输出。
式中:“ *”代表上通道互相关运算; φ(.)为特征提取网络;W、H和2k、4k分别为特征图的宽度、高度和通道数。
SiamRPN++[6]发现SiamRPN 中的上通道互相关运算需要对特征图进行通道升维,导致RPN 模块与特征提取模块的参数严重不平衡(RPN 的参数为20×106,而特征提取部分参数只有4×106),容易出现训练困难。因此,提出一种轻量化的深度互相关运算,实现了更高效的信息整合,参数减少了10 倍。得到的多通道响应图还具有正交特性,同类物体在特定通道上的响应最大,其他通道上受到抑制。
图8 为本文使用的SiamRPN++中的RPN 模块。其中,深度互相关运算得到的多通道响应图具有正交特性,结合双注意力混洗模块能更好地提高跟踪准确度。
图8 RPN 模块Fig. 8 Region proposal network module
2.3.2 加权融合多区域建议网络
浅层特征有助于物体跟踪的精确定位[28],浅层特征主要描述物体的外观,包括颜色、大小等细节信息,这对于物体的定位是不可缺少的;深层特征主要描述物体的语义信息,对物体的描述更抽象,也更具有泛化能力,能有效应对跟踪目标发生外观变化和运动模糊等情况。因此,对于无人机目标跟踪来说,充分利用神经网络提取出来的细节信息和语义信息是至关重要的。
SiamRPN 只利用最后一层语义信息,在辨别背景和目标时判别力不够[29]。由于不知道跟踪目标的先验信息,跟踪过程中预先定义的anchor 想要一次性、准确地估计目标的大小和位置是比较困难的。为了利用多层特征信息和目标的准确定位,采用多个RPN 融合的方式输出跟踪结果(见图2)。与SiamRPN++平均加权融合相比,重新设计了各层融合的权重。
式(8)为加权融合结果的计算过程,Si和Bi分别为第i层RPN 的分类输出和回归输出。考虑到无人机视角下的目标特征信息少、尺寸小和更容易出现运动模糊的情况,给浅层特征更多的关注,即α3>α4=α5,β3>β4=β5,保证网络能更多地利用细节信息完成无人机视角下的目标跟踪。
2.4 算法实现步骤
跟踪算法的流程如图9 所示。具体实现步骤如下:
图9 算法实现步骤Fig. 9 Algorithm flowchart
步骤 1 输入视频序列。
步骤 2 利用模板分支提取视频序列的第1 帧目标图像,作为模板特征。
步骤 3 利用搜索分支提取后续帧中搜索区域的图像特征作为搜索特征。
步骤 4 双注意力混洗模块对模板特征与搜索特征根据进行权重分配,生成各自的加权特征图。
步骤 5 深度互相关运算完成对2 个分支的加权特征图的信息整合,生成多通道响应图,其中最大响应位置为目标的粗略位置。
步骤 6 多个区域建议网络逐步完成对目标位置、边界框大小的精确评估。
步骤 7 输出预测的目标位置。
步骤 8 重复步骤3~步骤7,直至视频结束。
3 实验与分析
3.1 实验平台及参数设置
1) 实验平台:①操作系统为 Ubuntu18.04;②CPU为Intel Core i7-9700 @3.6 GHz;③GPU:NVIDIA Ge-Force RTX 2080Ti,内存12 GB。
2) 训练数据集:包含38 万个视频片段,560 万个人工标注的边界框,跟踪23 个类别的日常物体的YouTube-BoundingBoxes[30];有30 个基本级别的类别,200 个子集的ImageNet VID[31]和ImageNet DET[31];包含91 个对象类型,328 000 张图像,共有250 万个标注的COCO[32]。以图像对的方式训练网络,模板分支图像的大小为127×127,搜索分支图像大小为255×255。
3) 参数设置:特征图分组数量G=64;多个RPN 融合权重为α3=β3=0.5,α4=α5=β4=β5=0.25;与SiamRPN++一样,使用随机梯度下降法(SGD)训练网络,epoch=20,其中每个epoch 训练图像数量为600 000 对,batch size=28,即 每 批 次 处 理 图 像14 对。前5 个epoch 训练RPN,学习率为0.001;后15 个epoch 对整个网络进行端对端训练,学习率从0.005 指数衰减到0.000 5,衰减权重为0.000 5,动量为0.9。损失函数是分类损失和回归的标准平滑L1 损失的总和。需要注意的是,SiamRPN++只对ResNet-50 的Layer2、Layer3、Layer4 进行训练,而本文因为有双注意力混洗模块的加入,还加入了Layer1 参与训练以保证效果。
3.2 实验结果与分析
本文的测试数据集为UAV123[33]数据集,包含123 个无人机拍摄的高分辨率视频序列,视频平均帧数为915,主要分为3 个子集:子集1 使用一架专业级无人机(DJI S1000),在5~25 m 的高度跟踪不同的目标,所有序列以720 p 和30 FPS 的速度提供,用垂直边框标注;子集2 具有较低的质量和分辨率,并包含合理数量的噪声;子集3 是无人机模拟器捕获的8 个合成序列。
UAV123 数据集包含城市景观、道路、建筑、田野、海滩、港口和码头等场景,以及汽车、卡车、船只、人员、团体和空中交通工具等目标。目标的活动模式有步行、骑自行车、滑水、驾驶、游泳和飞行等。包含常见的视觉跟踪挑战:小目标、完全和部分遮挡、尺度变化、光照变化、视角变化、背景干扰、摄像机动作等。因其包含场景多、目标广泛、运动模式复杂多元,能整体评估跟踪算法,已经成为无人机跟踪算法评测的基准。
3.2.1 定性分析
本文算法(SiamDAS)与7 种主流的跟踪算法DSST[34]、Struck[35]、MEEM[36]、SAMF[37]、SRDCF[38]、SiamFC[2]、SiamRPN[4]在UAV123 数据集上进行实验对比。DSST、Struck、MEEM、SAMF、SRDCF 是基于相关滤波的跟踪算法,其中,SAMF、DSST 和SRDCF 算法使用传统金字塔式尺度估计的方法来应对目标的尺度变化。而SiamFC 和SiamRPN 是基于孪生神经网络的跟踪算法,其中,SiamRPN 是使用预定义多个anchor 完成对跟踪目标的尺度估计。为保证评估的公平性,所有跟踪结果来自数据集官网和作者提供的跟踪结果。算法在数据集上的部分跟踪结果如图10 所示。
图10 部分跟踪结果Fig. 10 Some tracking results
1) car16_1 序列。跟踪目标为一个快速运动的汽车,且无人机视角在变化。加入尺度估计的DSST、SAMF、SRDCF 算法,因目标运动过快而不能及时估计目标尺度变化,导致DSST、SAMF 和SRDCF算法的跟踪框过小,丢失了大部分的正样本信息,在第358 帧已经跟踪失败;当视角发生变化后,SRDCF 算法的跟踪框变大,存在过多的干扰信息,影响后续跟踪。本文算法和SiamRPN 都能灵活适应跟踪目标的尺寸变化,由于有多个RPN 加权融合,本文算法的跟踪框更加贴近目标实际大小。
2) truck1 序列。跟踪目标有着尺度变化,且随着目标的行驶,背景出现较多的相似干扰物体。第63 帧时,孪生跟踪算法SiamFC、SiamRPN 和Siam-DAS 得益于提取到的深度特征,能准确定位目标,而相关滤波类的算法已经出现跟踪漂移情况。第305 帧时,只有SiamFC 和SiamDAS 能从干扰物中辨认出跟踪目标,其余算法出现跟错目标或找不到目标的情况。本文算法因为有双注意力混洗模块,提高了算法的辨认能力,有效降低了相似干扰物的影响。
3) wakeboard1 序列。随着目标的运动,目标的尺度逐渐变小,且伴随着背景的干扰。Struck 和MEEM 算法因为没有尺度估计,跟踪框大小始终不变,当目标变小时,过多的背景信息干扰了正样本信息,导致出现跟踪错误目标的情况。本文算法相较于其他尺度估计的算法,跟踪结果更加准确,有良好的尺度自适应性。
4) truck2 序列。跟踪目标在视野中很小,所含特征信息少,对算法有着很高的要求。因为辨认能力不足,受到背景信息的干扰,所以绝大多数算法出现跟踪失败的情况。本文算法因为有DSIResNet 深层网络提取的深层特征,保留了小目标更多的细节信息,能持续有效地跟踪。
5) person16 序列。不仅目标尺寸小,还存在遮挡情况和相似目标干扰。出现遮挡前,全部算法均能准确跟踪目标。当遮挡情况出现时,并且遮挡物和目标有着相似的外观信息,诱导了大多数算法,将遮挡物误认为目标。只有SiamRPN 和本文算法在目标重新出现时,准确迅速地完成了再跟踪,证明了本文算法较好的辨认能力。
6) person7_1 序列。目标在跟踪过程中有快速运动和突然变换方向的特点,大部分算法都很难跟上目标的快速运动,导致跟踪失败。但目标突然变化方向时,只有本文算法实现了目标的及时跟踪,有着较强的适应能力,足以应对突发情况。
3.2.2 定量分析
为了进一步验证算法的能力,采用一次通过评估模式(one-pass-evaluation, OPE)、通过成功率和准确率对算法进行评估[38]。成功率是指成功率曲线与坐标轴围成的面积(area under curve, AUC),其中成功率曲线是计算重叠率(intersection over union,IOU)大于某个阈值的跟踪结果与真实值的数量百分比;准确率即中心定位误差(center location error,CLE)。计算被跟踪目标中心位置与真实中心位置之间的平均欧氏距离,当距离小于阈值(一般为20 个像素)时,被视为跟踪成功。准确率由成功跟踪的图像数量和视频序列数量的百分比得到。
1) 8 种算法在UAV123 数据集上的整体评估结果如图11 所示。本文算法(SiamDAS)的成功率和准确率分别为60.3%和79.3%,相较于SiamRPN提升了4.6%和2.5%。当成功率的阈值变高,准确率误差阈值变低(小于20 像素),本文算法的成功率和准确率都高于其他算法,说明在更高要求的跟踪任务中,本文算法的效果更好,也证明了DSI-ResNet、双注意力混洗模块和多层RPN 加权融合的方法能够提升网络的整体性能。同时,速度达到37.5 FPS,满足实时性要求。
图11 不同算法在UAV123 数据集上的整体评估结果Fig. 11 Overall evaluation results of different algorithms on UAV123 dataset
2) UAV123 数据集对每个视频序列都标注了类别属性,用于分析跟踪算法在各个属性上的表现。图12 为8 种算法在不同属性上的评估结果。UAV123 数据集中最多的2 种属性为目标的尺度变化和边界框的长宽比变化,分别为89%和55%,这也是所有无人机目标跟踪算法都要解决的问题。相比于其他算法,本文算法在尺度变化和长宽比变化属性上的成功率和准确率有着较大幅度的上升,是适合无人机目标跟踪任务的。在处理无人机跟踪过程中经常出现的相似物体、视角变化、部分遮挡、快速运动和出视野等情况时,都取得了较好的效果。
图12 不同算法在UAV123 数据集上各属性的评估结果Fig. 12 Evaluation results of different algorithms in terms of different attributes of UAV123 dataset
3.3 在无人机航拍视频上测试
为验证算法在实际应用中的跟踪效果,将本文算法应用在无人机航拍视频中进行测试。按照COCO 数据集[32]中目标面积小于或等于 32×32像素的目标为小目标,无人机拍摄的视频序列中目标都为小目标且包含尺度变化部分遮挡、快速运动等多种挑战,能够检验跟踪算法的工程应用能力。图13为本文算法的部分跟踪结果。
图13 无人机拍摄视频跟踪结果Fig. 13 Tracking results of UAV shooting video
1) 序列1。第97 帧中,跟踪目标出现部分遮挡情况,本文算法仍能识别出被遮挡的目标,准确跟踪。第140 帧中,跟踪目标与相似目标的相遇并未影响本文算法对跟踪目标的跟踪效果,可见本文算法在实际应用中也有着较好的辨认能力和抗干扰能力。
2) 序列2。跟踪目标尺寸小且随着目标运动,外观和光照都在变化,DSI-ResNet 提供目标的细节信息和深度特征信息,保证本文算法能够准确跟踪小尺寸目标。
3) 序列3。快速运动的跟踪目标,其尺度变化大且迅速,对算法的尺度适应能力要求高。包含深度互相关运算的多RPN 加权融合模块,使得本文算法能够灵活快速地感知目标的尺度变化,有着较好的尺度自适应能力。
4 结 论
1) 融合2 种下采样方式,设计了DSI-ResNet 深层特征提取网络,这些特征既保留了目标的背景信息,有助于定位,又利用最大池化寻找最大激活值,有助于目标分类。
2) 为了从深层特征中筛选跟踪目标的特征,设计双通道注意力混洗模块,提升了算法的辨别能力,有效解决无人机跟踪过程中出现的相似物干扰、快速运动和部分遮挡等情况。
3) 在不同特征层上使用多层RPN,深层语义信息和浅层细节信息的结合使用,有助于目标分类和定位。RPN 模块代替传统尺度估计方法,更准确地定位目标,并针对无人机跟踪目标特点,重新分配融合权重。对于尺度和长宽比变化情况,有很好的适应能力。