APP下载

基于动态权重的双分支孪生网络目标跟踪算法

2022-12-19王皓韡

中国民航大学学报 2022年5期
关键词:分支外观注意力

韩 萍,王皓韡,方 澄

(中国民航大学a.电子信息与自动化学院;b.计算机科学与技术学院,天津 300300)

视频目标跟踪作为计算机视觉中最基本的任务之一,在人机交互、视频监控、自动驾驶、医学诊断、行为识别等多个领域有着广泛的应用。跟踪算法利用视频第一帧中未知目标的边界框作为初始信息,实现对后续视频中目标的跟踪定位。但由于边界框中掺杂了目标以外的背景信息,且在跟踪过程中易受多种因素的干扰,跟踪算法较难准确地理解跟踪目标的特征信息。因此,如何加强跟踪算法对视频信息的理解,提高目标与背景的区分能力,实现对视频目标的精准跟踪仍是一个富有挑战的问题。

近年来,随着计算机视觉领域的发展,多种跟踪算法先后出现。其中,主流跟踪算法可以归结为两大类:基于相关滤波的跟踪算法和基于孪生网络的跟踪算法。以CCOT(learning continuous convolution operators for visual tracking)[1]、ECO(efficient convolution operators for tracking)[2]等算法为代表的基于相关滤波的跟踪算法利用深度图像特征替换了传统特征,但由于仍需要在线学习网络参数,不可避免地限制了此类算法的跟踪性能。另一类基于孪生网络的跟踪算法利用大量视频数据离线学习,不需要在线更新参数,在跟踪精度和速度上取得了较好的平衡。而基于全卷积孪生网络的目标跟踪(SiamFC,fully-convolutional siamese net works for object tracking)算法[3]成功地利用孪生网络结构将跟踪问题转换为相似度匹配问题,以跟踪目标图像为目标模板,后续视频帧为搜索图像,利用深度神经网络提取图像特征,计算目标模板特征与搜索图像特征的相似匹配程度,实现目标跟踪。随后,Valmadre等[4]提出了跟踪算法CFNet(end-to-end representation learning for correlation filter based tracking),将相关滤波器模块嵌入孪生网络中,以加强模型的特征提取能力。Li 等[5]提出的跟踪算法SiamRPN(high performance visual tra-cking with siamese region proposal network)首次将区域建议网络引入孪生网络结构中,利用分类分支和回归分支共同确定跟踪目标位置。Wang 等[6]提出了利用无监督方法训练的跟踪算法UDT(unsupervised deep tra-cking),通过比较视频序列正放与倒放过程中目标跟踪的差距建立损失训练模型,为丰富训练数据提供了新思路。但以上SiamFC 的改进算法均以目标外观信息的相似程度作为衡量依据进行跟踪。这些算法在视频序列中出现其他相似外观物体的干扰或因背景光照变化等情况造成目标外观模糊或遮挡时,易发生跟踪漂移或丢失。

为了提升孪生网络算法对目标和背景的区分能力,受注意力机制在图像领域应用的启发,许多改进算法利用注意力机制加强对目标特征的提取能力。如王玲等[7]在目标模板分支添加了通道注意力结构,以增强卷积网络对正负样本的区分能力;Wang 等[8]提出的跟踪算法RasNet(residual attentional siamese network for high performance online visual tracking)针对目标模板设计了以残差注意力为主,通用注意力和通道注意力为辅的三重注意力机制强化目标模板特征;范颖等[9]提出了多层深度特征渐进注意力网络,利用注意力机制减少了深层特征与浅层特征结合的冗余。然而,这些针对目标模板设计的注意力机制,忽视了对搜索图像中跟踪目标的特征表达,一定程度上限制了对目标模板与搜寻区域的匹配准确度。

针对以上问题,提出了一种基于动态权重的双分支孪生网络目标跟踪算法。本文提出的算法在SiamFC算法基础上,利用图像深度语义信息不易随外观变化而改变的特性,增加了基于语义信息的跟踪支路,作为外观分支的有效补充。同时在语义分支添加了双重注意力模块,同步加强目标模板和搜索图像的语义信息。两分支采用不同的初始化参数和训练方式单独训练,以保证两分支跟踪结果的异质性。为了在跟踪过程中更有效地结合两分支的各自优势,给出了一种动态权重系数的计算方法,实时调整分支的结合权重,更好地实现了分支互补。在4 个标准目标跟踪数据集OTB2015[10]、UAV20L[11]、UAV123 和GOT-10 k[12]上验证了本文算法的有效性,实验证明,该算法有效提高了算法的跟踪精度和鲁棒性。

1 相关理论知识

1.1 SiamFC 算法

SiamFC 算法的两分支分别输入目标模板与搜索图像,利用两个共享权重的全卷积神经网络进行特征提取,衡量输出的高维特征的相似度,实现目标跟踪。具体来讲,目标模板x 和搜索图像z 通过共享权重的全卷积神经网络φ 提取特征后,利用互相关操作计算两者相似匹配程度如下

式中corr()表示互相关计算函数。输入图像对经特征提取和互相关计算后,可得到衡量目标模板与搜索图像相似匹配程度的响应图f(x,z),以其作为新一帧目标位置的判断依据,如图1 所示。响应图中的最大值即为匹配程度最高的位置,经上采样和插值操作后,将该位置坐标对应还原至搜索图像中,视作下一视频帧的跟踪目标位置中心。

图1 SiamFC 算法网络结构图Fig.1 Network structure of SiamFC algorithm

1.2 注意力机制

注意力机制源于人类选择性关注图像重点区域的特殊视觉机制,受这一现象启发,深度学习领域引入注意力机制,以训练网络自主学习一组权重系数来强调重点信息,抑制无关信息。在计算机视觉领域中,主流的注意力机制可分为3 种:通道注意力、空间注意力与自注意力。由于图像特征通道对不同目标的响应有所区别,通道注意力通过学习特征通道的重要程度,为特征通道赋予不同的权重系数,实现在通道维度上的关注。为了减少图像因旋转、平移等空间变换的影响,空间注意力通过空间转换,将原始图像特征变换至空间维度,计算不同位置的权重系数,实现对特定位置区域的关注。自注意力则强调关注特征的内部信息,减少对外部信息的依赖。

2 算法描述

针对SiamFC 算法仅依据图像外观信息进行跟踪的问题,本文算法中的跟踪网络采用外观与语义相结合的双分支结构,将语义分支作为外观分支的补充。外观分支采用SiamFC 算法结构,以度量颜色、纹理等外观信息的相似性作为训练目的,衡量相似度,确定目标位置。为了利用图像深层语义信息不易随图像外观变化而改变的特性,语义分支以目标类别等抽象语义信息为度量依据衡量相似度。同时,语义分支采用一种双重注意力机制,从空间位置和通道响应两个维度深化语义特征表达。跟踪网络分别从目标外观和语义两个角度的图像信息进行相关匹配计算,利用实时更新的动态权重整合跟踪结果,确定新一帧的目标位置,基于动态权重的双分支目标跟踪网络结构如图2所示。

2.1 外观分支

外观分支结构如图2 中虚线分支所示,为了加强模型特征提取能力,将SiamFC 算法的特征提取网络替换为网络层次更深的VGGNet-16 网络。目标模板x和搜索图像z 通过共享权重的卷积神经网络φA提取外观特征,经互相关计算后,得到衡量外观相似度的响应图HA,互相关计算如下

式中φA表示外观分支的特征提取网络。所得响应图HA与标签Y 通过交叉熵损失函数计算损失,经反向传播更新模型参数,如下

式中:N 为每轮输入的样本数量;θA为外观分支网络模型中的可学习参数;L()表示所采用的交叉熵损失函数;xi,zi分别代表第i 对训练样本中的目标模板和搜索图像;Yi代表第i 对训练样本的响应图标签。

2.2 语义分支

语义分支结构如图2 中实线分支所示,语义分支模型利用共享权重的卷积神经网络φS提取特征。两分支的特征提取网络虽结构相同,但其中的参数有所区分。语义分支在ImageNet[13]数据集上,采用以目标分类为训练目的VGGNet-16 网络进行参数初始化,且特征提取网络参数在训练中不做更新。同时为了深化语义特征表达,经网络提取的语义特征需经双重注意力模块后,再通过互相关计算得到衡量语义相似度的响应图HS。语义分支采用如下的损失函数进行反向传播更新模型参数

式中θS为语义分支网络模型的可学习参数,其余参数含义同外观分支。语义特征响应图HS计算如下

式中:φS表示语义分支的特征提取网络;A()表示第2.3节所述的双重注意力机制。

2.3 双重注意力模块

由于特征提取网络的卷积核大小固定,感受野范围受到限制,使语义分支在特征提取过程中仅能关注局部空间内的语义特征,未能充分考虑不同空间位置语义信息间的相互联系。同时,与具有先验类别的图像分类或检测任务不同,目标跟踪任务有跟踪目标类别预先未知但跟踪过程中不改变的特点。如Li 等[14]所观察,深层图像特征的不同通道对某一类目标有着更为突出的响应,但对于同一类别的物体,响应通道明显不唯一且相互关联。为了强化网络对同一类别的目标响应,同时关注全局的语义信息,采用融合空间注意力和通道注意力的双重注意力机制,从空间位置和通道响应两个维度深化语义特征。空间注意力将全局的语义信息加权至图像局部特征中,综合考虑图像的全局语义,完善局部特征表达;通道注意力通过加强特征通道间的关联性强化语义特征。两类注意力在同步计算后,以对应元素相加的方式实现注意力融合,整体结构如图3 所示。

图3 双重注意力机制结构图Fig.3 Dual-attention mechanism structure diagram

空间注意力结构如图3 中上半分支所示,经特征提取网络φS提取的原始特征F∈RC×H×W为C ×H ×W长×宽×高的三维矩阵,分别通过两个不同的卷积层生成新的特征矩阵,分别记作B,K∈RC×H×W,特征矩阵B 经转置后与K 进行对应元素相乘计算,通过Softmax函数得到空间注意力S,其中元素计算如下

空间注意力S 中的元素sij用于衡量在原始特征F 中第i 个位置元素对第j 个位置元素的影响,处于不同位置的元素所代表的特征语义越相近,两者间的相关性就越强。

原始特征F 通过另一个单独的卷积层,生成特征矩阵D∈RC×N(长×宽为C×N 的二维矩阵)。特征矩阵D 与空间注意力S 进行矩阵对应元素相乘计算,经形状转换生成空间注意力特征。空间注意力特征与参数α 相乘后,与原始特征F 的对应位置元素相加,得到最终的空间注意力特征EP,其中元素计算如下

通道注意力结构如图3 中下半分支所示,与空间注意力不同,为了关注通道间的关联性,由原始特征F及其转置L 生成通道注意力M∈RC×C(长×宽为C×C的二维矩阵),其中元素计算如下

式中:mij表示原始特征F 中第i 个通道对第j 个通道的影响和依赖关系,生成的通道注意力特征以矩阵相乘的方法施加到原始特征上作为通道注意力G。通道注意力G 与权重系数β 相乘后,以矩阵对应位置元素相加的方式得到最终的通道注意力特征EC∈RC×H×W,其中元素计算如下

式中β 初始预设为0。通道注意力特征EC在原始特征F 上利用通道特征间的语义依赖关系,加强了特征表达能力。

为了融合两种不同的注意力特征,将两种注意力特征对应位置元素相加,经双重注意力强化后的语义特征如下

文中的双重注意力机制仅采用了少量卷积计算和转置操作,在加强语义表达的同时不会增加过多模型参数,减少了对跟踪速度的影响。

2.4 分支结合策略

外观分支与语义分支分别根据不同类型的图像信息进行跟踪,因此两分支在单独跟踪过程中也有不同的跟踪结果。为了能够更好地利用两分支在不同场景下的跟踪优势,采用动态权重结合两分支,优化跟踪结果,如图4 所示。

图4 跟踪响应图对比Fig.4 Comparison of tracking response map

由图4可知,决定跟踪位置的响应图峰值大小以及波动程度直观地反映了跟踪结果的置信度。当跟踪目标与搜索视频图像的某一位置匹配准确时,理想的响应图仅存在一个尖锐的高峰响应,其他区域无明显响应,如图4(a)所示,相似匹配峰越尖锐突出,表明定位的置信度越高;相反地,当响应图中峰值不明显、响应图波动程度剧烈或存在多个次高峰干扰时,容易引发目标跟踪的漂移或丢失,如图4(b)所示。针对这一特点,为了对两分支的响应图进行评价,采用了平均峰值相关能量(APCE,average peak to correlation energy)指标衡量响应图的结果,平均峰值相关能量EAPCE的计算方式如下

式中fmax、fmin和fw,h分别表示响应图中的最大值、最小值和响应图中(w,h)位置上的响应。对于存在尖锐的高峰响应且噪声较小的响应图,EAPCE指标更高;当响应图中有多个峰值或有较大波动时,EAPCE指标会显著降低。同时,响应图中最大值fmax的大小也直接反映了该位置的置信度。根据以上这两个指标,动态分支结合权重系数λ 由两分支响应图的最高响应峰值和波动程度指标EAPCE计算,如下

通过在跟踪过程中,实时计算衡量两分支各自响应图置信度的指标,动态调整分支结合权重,有效地利用两分支的各自优势进一步提升跟踪模型的跟踪精度。

3 实验结果分析

两分支采用VGGNet-16 的1~13 层作为骨干网络。网络训练阶段,外观分支参数根据Xavier 方法初始化,语义分支采用在ImageNet 数据集上进行目标分类训练的参数初始化。为了保证两分支特征提取异质性,采用不同的训练策略单独训练。以数据集GOT-10 k作为训练集,该数据集包含了563 个类别,87 个目标运动模式,超过10 000 个视频序列,共计150 万个标注框。

网络训练阶段,两分支网络的初始学习率设置为10-2,随着训练过程衰减至10-5,共进行50 轮迭代,梯度下降动量设为0.9,批次大小设为16,其中语义分支的特征提取网络参数在训练过程中不做修改,只训练双重注意力部分。网络跟踪阶段,两分支利用动态权重系数结合测试,为了应对目标跟踪过程中尺度变化,跟踪时采用0.974 5、1、1.037 5 3 个尺度进行匹配搜索。

3.1 OTB2015 数据集实验

OTB2015 作为目标跟踪领域评价算法的常用视频跟踪测试集,共计包括100 个人工标注的视频序列,该数据集的评价指标主要为准确率(Precision)和成功率(Success)。准确率关注跟踪算法对目标中心位置定位的误差,成功率关注跟踪算法所生成的边界框与标注框的重叠比率。首先通过消融实验验证了本文算法各部分结构的有效性,随后与多个跟踪算法进行对比试验,在OTB2015 数据集上对算法的整体跟踪效果进行了评估。

3.1.1 消融实验

消融实验通过比较以不同权重系数结合与是否采用双重注意力机制的跟踪结果,分析了单独采用外观分支、语义分支、以固定权重进行分支结合和利用动态权重分支结合的跟踪性能,对比结果如表1 所示。

表1 在OTB2015 数据集上本文算法的消融实验Tab.1 Ablation experiment of proposed method on dataset OTB2015

由表1 可见,当λ=0 和λ=1 时,分别代表了单独采用语义分支和外观分支进行跟踪,当两者以不同固定权重进行结合跟踪时,均较采用单一分支的跟踪结果更好,表明两分支相结合确实能起到信息互补,完善模型表达,提升跟踪准确率的效果。当采用动态权重结合分支时,算法结果优于结果最好的固定值。表明两分支利用动态权重结合时,能够使模型在跟踪过程中及时调整分支结合权重,发挥不同分支优势,提升跟踪准确率和成功率。

在实时跟踪速度测试中,采用分支结合策略的跟踪算法与采用单一分支进行跟踪相比,跟踪速度略有降低。这主要是由于在实时跟踪中,需要对双分支3个尺度的响应分别进行计算,增大了实时计算量。同时由表1 后两行可见,跟踪算法采用双重注意力后,未对跟踪速度造成较大影响。

3.1.2 对比实验

将本文算法与SiamRPN[5]、ECO[2]、SiamFC[3]、UDT[6]等跟踪算法进行对比试验。评价指标为跟踪算法自视频初始值跟踪至最后一帧(OPE,one pass evaluation)的准确率和成功率,结果如图5 和图6 所示。

图5 OTB2015 数据集准确率对比结果Fig.5 Comparison result of precision rate on dataset OTB2015

图6 OTB2015 数据集成功率对比结果Fig.6 Comparison result of success rate on dataset OTB2015

由图5 和图6 可知,本文算法充分利用了深度孪生神经网络离线学习图像特征的优势,在准确率和成功率上均优于ECO 等相关滤波算法。同时与CFNet、SiamRPN、UDT 等采用深度孪生神经网络结构的算法相比,本文算法在准确率和成功率两项指标上也均较优,这主要是由于该算法添加了经双重注意力机制强化后的语义分支,有效地补充了仅利用外观特征进行跟踪的不足。

OTB2015 数据集中的每段视频分别存在一类或多类跟踪挑战。挑战属性分为光照变化(Ⅳ,illumination variation)、尺度变化(SV,scale variation),目标遮挡(OCC,occlusion)、目标形变(DEF,deformation)、运动模糊(MB,motion blur)、快速移动(FM,fast motion)、平面内旋转(IPR,in-plane rotation)、平面外旋转(OPR,out-of-plane rotation)、离开视野(OV,out-of-view)、背景杂乱(BC,background clutters)、低分辨率(LR,low resolution)共计11 种。若跟踪算法在某一类挑战上的评价结果较高,则表示该算法对该类挑战的应对更加出色,跟踪结果更加准确。表2 和表3 具体展示了本文算法与对比算法在各类挑战属性上跟踪准确率与成功率的结果,并依照整体结果进行排序。

表2 OTB2015 数据集上不同挑战属性跟踪准确率对比Tab.2 Comparison of the precision rate of different challenge attributes on the dataset OTB2015

从表2、表3 可看出:由于本文算法语义分支的补充,减少了因目标移动过程中外观变化带来的影响,使该算法在运动模糊、快速移动和离开视野3 类挑战属性上的跟踪结果较其他算法更为准确;在平面内外旋转两个挑战属性上,跟踪成功率指标略低于SiamRPN 算法,主要是由于SiamRPN 算法采用了锚框回归的算法分支,提升了对跟踪目标的旋转适应性;在平面内外旋转的定位准确率指标及其他挑战属性中,本文算法仍有着一定优势。

表3 OTB2015 数据集上不同挑战属性跟踪成功率对比Tab.3 Comparison of the success rate of different challenge attributes on the dataset OTB2015

图7 以可视化的方式比较了本文算法与SiamRPN、UDT、SiamFC 在Liquor 等视频序列上的结果。以首行Liquor 视频序列为例,跟踪目标频繁移动带来了尺度变化、目标遮挡、离开视野等多项挑战,SiamRPN、SiamFC 算法由于相似目标的干扰造成了目标漂移,UDT 则无法正确适应目标的尺度变化,而本文算法对跟踪目标进行了准确定位,且较好地应对了目标的尺度变化。

图7 在OTB2015 数据集上跟踪算法可视化对比Fig.7 Visual comparison of tracking algorithms on OTB2015 dataset

3.2 UAV20L/UAV123 数据集实验

UAV 数据集是无人机在低空航空视角采集的目标跟踪数据集,其中:UAV20L 包含20 段长时跟踪视频序列,平均每段视频包含2 934 个视频帧;UAV123包含123 个短时跟踪视频序列,平均每段视频包含915个视频帧。将本文算法同CCOT[1]、UDT[6]、ECO[2]、SiamFC[3]、SiamRPN[5]算法进行比较,并以在UAV20L 数据集上的跟踪准确率由低至高排序,结果如表4 所示。

表4 UAV 数据集准确率和成功率对比结果Tab.4 Comparison results of precision rate and success rate on dataset UAV

由表4 可见,本文算法在UAV20L、UAV123 两个数据集的准确率和成功率分别为0.621/0.465,0.755/0.542,均高于对比算法。

3.3 GOT-10k 数据集实验

GOT-10k 测试集共计180 个视频序列,包含84种不同的目标类别和32 种运动模式,跟踪算法在视频第一帧上初始化,跟踪至视频序列末尾。为了更好地与其他跟踪算法进行对比,采用GOT-10k 数据集的通用评价指标平均重叠率(EAO,expect average overlap rate)进行衡量与排序,并附加重叠阈值为0.5 的成功率指标SR_0.5。本文算法同CFNet[4]、CCOT[1]、ECO[2]、SiamFC[3]、SiamRPN[5]的对比试验结果如表5 所示,可见本文算法在EAO 和SR_0.5 上均高于对比算法。

表5 GOT-10k 数据集平均重叠率和成功率对比结果Tab.5 Comparison results of average overlap rate and success rate on dataset GOT-10k

4 结语

本文给出了一种基于动态权重的双分支孪生网络目标跟踪算法,利用双重注意力机制强化的语义分支,弥补了仅关注目标外观特征的不足,同时采用动态权重有效地结合两分支结果,提升了跟踪精度。将本文算法在公开通用目标跟踪数据集OTB2015、UAV20L、UAV123 和GOT-10k 上进行了实验,验证了其有效性。同时,本文算法的平均跟踪帧率为47 帧/s,满足跟踪实时性要求。

猜你喜欢

分支外观注意力
外观动作自适应目标跟踪方法
A Shopping Story to Remember
让注意力“飞”回来
不论外观还是声音,它都很美 Yamaha(雅马哈)A-S3200合并功放
巧分支与枝
一类拟齐次多项式中心的极限环分支
方外观遗迹旧照
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
生成分支q-矩阵的零流出性