基于规范化注意力机制的孪生单目标视觉追踪

2023-03-04戴楚舒张选德

陕西科技大学学报 2023年1期

戴楚舒，张选德，熊静

(陕西科技大学电子信息与人工智能学院，陕西西安 710021)

0 引言

目标追踪的概念在1955年被Wax[1]提出以来，经过了七十多年的演变发展.单目标追踪任务的基本过程是利用给定的视频序列首帧图像中追踪目标的平面位置信息，通过对该目标的特征或目标与背景之间的关系进行分析后，利用所设计的追踪算法在后续的每一帧中精确地预测出目标的位置信息和尺度信息，最后以边界框框定目标的形式呈现出预测结果.对于单目标跟踪问题，先验知识是第一帧给定的矩形框.而这个框大多是利用目标检测算法得到的结果[2].目标追踪的相关技术在国防军事领域和民用领域中均有着深入且广泛的应用，例如：视频人物监控、无人驾驶、航空防御与不明飞行物追踪等，其研究的意义是无法替代的[3].

当深度学习在视觉领域还未攻城掠地之前，传统算法一直在目标追踪算法的精度和实时性上占领了不可撼动的地位，其中基于相关滤波的目标追踪算法便起到了中流砥柱的作用，如耳熟能详的KCF[4]、SRDCF[5].随着计算机算力提升和大数据潮流来袭，深度学习成为后起之秀，其主要的原因是深度特征比传统手工特征更鲁棒，满足追踪决策模型要具有鲁棒性判别能力的特质[6].卷积神经网络(Convolutional Neural Network，CNN)强大的表征能力和高效的特征提取方式，使得CNN的应用领域不断扩展，各种针对特定问题设计的CNN模型不断被建立并成功地应用到各种图像处理任务中[7].众多性能顶尖的以CNN为框架的深度视觉追踪算法的不断涌现，其有效性也已经得到了充分的验证.

现如今随着卷积神经网络不断加深和结构逐渐复杂化，一个流行的趋势就是利用CNN特征作为目标的表示形式.一些基于CNN的追踪器充分利用CNN出色的特征表示能力致力于强化目标的表示.Bertinetto等[8]提出了基于全卷积孪生网络的目标追踪算法(Fully-convolutional siamese Network for object tracking，SiamFC)，该追踪模型中的主干网络由5个卷积层和2个池化层组成，模板图像和搜索图像经过完全相同的网络提出特征后，通过互相关计算得到相似度最高的位置，并反向推算出目标在原图中的具体位置.

2017年，Guo等[9]提出DSiam追踪算法，在训练过程中引入循环卷积层和线性回归正则化，并对模型进行在线更新操作来改善追踪结果.2018年，He等[10]提出SASiam追踪算法，利用训练数据分别训练两个不同的网络分支来学习不同的特征，整合得到相应的网络模型.同年，Wang等[11]提出RASNet追踪算法，引入了残差注意力块、通道注意力块以及通用注意力块三个模块，使得整个网络可以根据目标的变化而自适应的进行调整.Li等[12]在同年提出SiamRPN追踪算法，引入1×1的卷积层来对网络的通道进行升维处理，将RPN的思想应用到追踪领域，在提速的同时提升了精度.由于SiamRPN追踪算法取得了很好的追踪结果，Li等[13]又提出Siam RPN++追踪算法，去掉了ResNet中的两个降采样层，在卷积层后添加特殊的分类和回归，并对网络框架按次序进行训练.2019年，Wang等[14]提出Siam Mask追踪算法，通过Mask分支将目标的定位和目标与背景的分割两个任务结合起来，达到了更好的效果.2021年，Dongyan G等[15]提出了基于图注意力的跟踪算法，该算法将图注意力取代了互相关方式的相似性度量,也取得了顶尖效果.

综上一系列基于孪生网络的跟踪算法的改进，使得基于孪生网络的追踪算法由此成为新兴的主流追踪框架，其优异的表现是众多研究人员趋之若鹜的原因.但是孪生网络的追踪决策模型的优劣由提取特征的骨干网络决定.为了能让追踪器更准确地跟踪实例对象，那么就要求骨干网络提取到的特征具有多样表征能力，而注意力机制恰好起到了能让追踪决策模型重点关注目标区域的作用，注意力机制的本质就是避免对每一个特征图和特征子空间等价地处理，要对重点区域采取不同的权重，能在目标姿态改变时依旧能动态锁定目标位置.

本文中的规范化注意力机制(Normalization-based Attention Module,NAM)[16]区别于先前被提出来的众多注意力机制，NAM不仅能像大部分注意力机制一样突出显著特征，并且能充分抑制不显著特征，因此更有利于追踪器重点关注目标不同于背景的独特特征，从而能应对场景中突发的遮挡、光照变化、旋转等情况.本文在基于孪生网络的框架下对SiamFC算法进行改进，首次将NAM应用于孪生网络框架中，配合精心设计的特征增强模块(Feature Enhancement Module,FEM)，优化了追踪决策模型，得到了基于规范化注意力机制的孪生网络(Siamese networks based on normalization-attention mechanism,NAMSiamNet)视觉追踪算法.在OTB2015[17]公开数据集上与基线算法相比性能得到了显著提升.在大量消融实验中验证了本文所提特征增强模块与规范化注意力机制结合的合理性和有效性，并且能够在后续的研究中作为独立的模块应用在更先进的目标追踪算法中，具有广泛的推广性.

1 基于全卷积孪生网络的视觉追踪算法

所谓孪生网络，顾名思义，即为成对的结构，具体来说就是该结构有两个输入，一个是作为基准的模板(template)，另一个则是要选择的候选样本.而在单目标跟踪任务中，作为基准的模板则是需要跟踪的对象，通常选取的是视频序列第一帧中的目标对象，而候选样本则是之后每一帧中的图像搜索区域(search image)，孪生网络要做的就是找到之后每一帧中与第一帧中的范本最相似的候选区域，便锁定该候选区域为这一帧中的目标.这里需要注意，网络最终生成的是一张响应图.为了实现响应图与搜索区域的映射关系，根据响应图上的置信度分数确定好目标位置后，再对响应图进行双三次插值生成与搜索区域相同大小的图像来确定物体的位置，从而实现对一个目标的跟踪.

2 基于规范化注意力机制的孪生网络视觉追踪

本文提出的基于规范化注意力机制的孪生网络NAMSiamNet结构如图1所示，网络的两个输入分别为模板图像z和搜索图像x，z和x都是三通道的RGB图像.整个网络主要由模板分支和搜索分支两部分组成，其中的骨干网络φ是由精心设计的特征增强模块、规范化注意力机制和五个卷积层(conv1～conv5)组成.

图1 规范化注意力孪生网络结构

模板分支的输入是第一帧图像中的目标框z，大小为127×127，接着对z进行φ变换提取特征，得到特征图φ(z)；搜索分支的输入x是以上一帧预测框的中心为裁剪中心，裁剪出255×255大小的图像，x经过主干网络φ后得到特征图φ(x).提取了特征之后，再对提取的特征进行互相关操作(即求卷积)，生成响应图(heat map)，互相关操作如下：

f(z,x)=φ(z)*φ(x)+b

(1)

式(1)中：b为每个位置对应的值，*为卷积运算，通过卷积运算提取x中与z最为相近的部分,卷积左边对应的是目标z的特征图，右边为搜索区域x的特征图(橙紫对应两个候选区域)，最终生成的是响应图，响应值最高的位置就对应着z可能的位置，将最终得到的17×17的响应图进行双三次插值生成255×255的图像来确定物体的位置.

2.1 规范化注意力机制

注意力机制是近年来研究的热点之一.之前的许多注意力机制都是通过抑制无关紧要的权值改善神经网络的性能，使神经网络能捕捉显著特征.这些方法成功地利用了特征不同维度上的相关信息，然而，先前的注意力机制缺乏考虑权重的影响因素，会进一步抑制不重要的通道或像素.而Liu等[16]于NIPS 2021最新提出的基于规范化的注意力模块，利用权重的影响因子来改进注意力机制，抑制不显著性的权值,对注意力模块应用一个权重稀疏惩罚，因此，能在保持高性能的同时提高计算效率.它使用批处理归一化(Batch Normalization,BN)[18]的比例因子，让标准差来表示权重的重要性，这样可以避免添加参数量大的全连接层和卷积层.

规范化注意力模块采用来自CBAM[19]的模块集成，重新设计了通道和空间注意子模块.然后，在每个网络块的末尾嵌入一个NAM模块.对于残差网络，它嵌入在残差结构的末尾.对于通道注意力子模块，使用批归一化中的缩放因子，如式(2)所示.比例因子衡量通道的方差并表明它们的重要性.

(2)

式(2)中：μB和σB分别是小批次样本(mini batch)B的均值和标准差；γ和β是可训练的仿射变换参数(尺度和位移).

通道注意力子模块如图2和式(3)所示:

图2 通道注意力模块

Mc=sigmoid(Wγ(BN(F1)))

(3)

将BN的比例因子应用于空间维度来衡量像素的重要性，并将其命名为像素归一化(pixel normalization).对应的空间注意力子模块如图3和式(4)所示:

图3 空间注意力模块

MS=sigmoid(Wλ(BNs(F1)))

(4)

为了抑制不太显著的权重，在损失函数中添加了一个正则化项，如式(5)所示:

Loss=∑(x,y)l(f(x,W),y)p∑(x,y)g(γ0)+

p∑(x,y)g(λ)

(5)

式(5)中：x表示输入；y是输出；W代表网络权重；l(·)是损失函数；g(·)是l1范数惩罚函数；p是平衡g(λ)和g(γ)的惩罚.

2.2 特征增强模块

本文在规范化注意力机制之前设计了一个特征增强模块，是由一个分组卷积层(group convolution)构成.该分组卷积层起到了二次特征提取的作用，在保留上一层卷积层信息的同时，也能萃取不同通道中保存的有用特征信息进行整合.分组卷积最早在AlexNet中出现，分组卷积的本质是把特征图分成多个组进行处理，最后再把每组得到的结果进行连接，即进行concatenate操作[20].根据原理分析可知，本文所设计的分组卷积在进行实验时的参数量会远远小于标准卷积，便能保证算法的高效性.

特征增强模块输出通道数与conv1的通道数一致，卷积核(kernel)大小为3，步长(stride)大小和填充(padding)大小都为1.因为孪生网络最大的特点是权值共享，如果能通过特征增强模块优化网络权值，有利于模板图像z与搜索区域x之间通过相似性度量得到高质量的置信度分数图.

3 实验结果与分析

为了验证文中提出算法的有效性，进行了大量消融实验，并充分验证了本文提出的算法比基线算法鲁棒性更强、精确度更高.

本文所提出的算法模型是在Pytorch1.0.1框架上进行训练，实验平台为一台配置了NVIDIA GeForce RTX 2080显卡的Linux版本服务器.训练时，每一轮迭代将50 000对样本输入网络进行参数训练，采用SGD优化算法,一共迭代了50轮，迭代的初始学习率是10-2，最终学习率是10-5，权重衰减是5×10-4.

本文算法在被广泛使用且大众认可的公开测试基准集OTB2015上进行测试.OTB2015包括100个视频序列，平均每个序列约有500帧，该数据集中充分包含11种追踪过程中可能遇到的挑战性问题.其中包含的属性包括：背景物干扰(BC)、遮挡(OCC)、尺度变化(SV)、非刚性形变(DEF)、平面内旋转(IPR)、平面外旋转(OPR)、光照变化(IV)、运动模糊(MB)、快速运动(FM)、超出视野(OV)以及低分辨率(LR).测试基准集OTB2015有两个度量标准：成功率和精确率.成功率是指预测跟踪框和标注跟踪框交集区域像素个数和并集区域像素个数之比；精确率是指预测跟踪框和标注跟踪框的中心误差小于某一个特定的阈值的视频帧数占总帧数的百分比，本文算法评估采用的阈值为20.

3.1 定量分析

为了进一步验证本文算法NAMSiamNet中各模块的有效性，设计了如表1和表2所示的消融实验：c1e含义为在卷积层conv1之后设置了特征增强模块，c1n含义是在conv1之后设置了规范化注意力模块；c5n含义是在conv5之后设置了规范化注意力模块.从表1实验结果表明，各个模块对算法的性能提升都起着积极作用，最佳的表现来自于两个模块的共同作用.

表1 NAMSiamNet子模块组合实验的精确率和成功率对比

表2为特征增强模块和不同注意力模块的组合实验，实验额外添加了一组深度可分离卷积(Depth-wise Separable Convolution)[21]层作为特征增强模块与SE注意力机制[22]结合的对比实验.c1d含义是在conv1之后加载了深度可分离卷积层；c1s含义是在conv1之后设置了SE注意力模块.还有一组消融实验为改变特征增强模块与注意力模块组合的先后顺序,重新训练模型进行测试.实验结果表明，当特征增强模块和规范化注意力模块按先后顺序串联时效果最好，同时也验证了算法模型设计的合理性.

表2 不同注意力机制模块组合实验的精确率和成功率对比

结合表1和表2可以看出，ours_c1e_c1n相对于基线算法成功率提高了2.3%，精确率提高了4%，而ours_c1d_c1s成功率、精确率分别只提高了1.3%、3.1%，说明了本文选取基于分组卷积的特征增强模块与规范化注意力模块级联提升算法性能的效果远高于基于深度可分离卷积的特征增强模块与SE注意力机制级联，充分验证在孪生网络中添加基于分组卷积的特征增强模块和NAM对目标追踪是有极大帮助的.

首先用本文提出的基于规范化注意力的孪生网络的视觉追踪算法(NAMSiamNet)与基线算法(baseline)在公开测试基准集上得到成功率和精确率，分别如图4(a)、(b)所示.无论是精确率还是成功率，NAMSiamNet相比于基线算法具有更好的结果，成功率提高了2.3%、精确率提高了4%，表明了本文提出算法在整体跟踪性能相对提高不少.

图4 NAMSiamNet与基线算法在数据集OTB2015上的成功率对比和精确率对比

随后，选取了消融实验中ours_c1e_c1n(也就是NAMSiamNet)、ours_c1e、ours_c1n_c1e、ours_c1d_c1s的四个算法结果与基线(baseline)算法对比下的成功率图和精确率图，如图5(a)、(b)所示.

图5 NAMSiamNet与部分消融实验在数据集OTB-2015上的成功率对比和精确率对比

ours_c1e_c1n、ours_c1e分别相对于基线算法成功率提高了2.3%、0.9%，精确率分别提高了4%、2.7%，说明了添加规范化注意力机制(NAM)对目标追踪算法的成功捕捉目标并准确跟踪是十分有效的；NAMSiamNet、ours_c1n_c1e分别相对于基线算法成功率提高了2.3%、0.8%，精确率分别提高了4%、2.6%，说明了当特征增强模块和规范化注意力模块串联时，串联的先后顺序也很重要，先加载特征增强模块再加载规范化注意力模块对算法的性能提升更高；NAMSiamNet、ours_c1d_c1s分别相对于基线算法成功率提高了2.3%、1.1%，精确率分别提高了4%、1.6%，说明NAMSiamNet算法中选择的规范化注意力机制是比2018年提出的SE注意力机制更有利于目标追踪的.

大量实验结果表明，无论是添加本文提出的特征增强模块还是规范化注意力机制，在基于视觉追踪的孪生网络体系结构中是十分有效的，不仅能提升算法准确捕捉目标对象位置的精确率，而且可以提高确定目标尺度的成功率.虽然改进算法目前只是基线算法上的性能提升，但是本文提出的特征增强模块和规范化注意力机制是轻量级的、可迁移的，可以独立应用于更先进的算法中，提升目标追踪算法性能.

3.2 定性分析

这里选取了NAMSiamNet与基线算法2种追踪算法在OTB2015数据集中的3个具有代表性的视频序列上的结果进行分析，分别是：Sylvester、Trellis、coke.这3个视频序列涉及到光照变化、遮挡、快速运动、背景物干扰、尺度变化、平面内/平面外旋转等属性.

如图6所示，Sylvester视频序列中，发生光照变化以及平面内/外旋转情况时，基线追踪算法跟踪框漂移，无法准确定位目标物体，但采用本文所提出的NAMSiamNet依旧能准确定位目标物体.这表明规范化注意力机制能通过抑制不显著特征来突出显著特征，当目标对象发生平面外旋转时，NAMSiamNet还能根据目标物体的某些部位显著特征锁定对象，防止发生漂移.Trellis视频序列以及Coke视频序列的追踪结果表明，目标物体在发生背景物干扰和遮挡的情况下，基线算法不能成功对目标准确框定，且存在很大的偏移.而本文所提出的NAMSiamNet追踪算法，能更精准地定位目标的位置和框定目标所在位置的具体范围.

图6 NAMSiamNet与基线算法在3个视频序列上的追踪结果

图7展示了NAMSiamNet、ours_c1e、ours_c1n_c1e、ours_c1d_c1s与基线算法这5种追踪算法在Singer、jumping、bolt三个视频序列上的追踪结果.在Singer视频序列中，因为追踪结果相同，追踪框重叠.追踪结果表明，在基准算法SiamFC能准确定位目标，良好追踪时，本文所提出的算法取得了和基线算法相同的结果.虽然五种追踪器都能定位目标，但从jumping的第37帧、38帧、39帧可以看出，当跟踪目标快速移动的时候，基线算法会出现跟踪失败的情况，但是本文提出的NAMSiamNet和其他算法都能准确跟踪基线算法丢失的目标；以及bolt的第146帧、154帧可以看出，基线算法只能框住目标对象的身体某一部位，如跑步时伸长的腿.但NAMSiamNet不仅能框住目标物体的身体全部，且能在bolt的第340帧准确锁定快速运动的目标，而此时基线算法的跟踪框已漂移到背景干扰物上.

图7 五种目标追踪算法与基线算法在3个视频序列上的追踪结果

综上，在6个视频序列上的定性分析表明，本文提出的算法在保持了原始基线算法优秀的追踪结果的同时，改善了原始基线算法表现相对较弱的视频序列上的结果.消融实验对比结果更是突出得到具有鲁棒性判别能力的追踪决策模型的重要性，追踪决策模型对追踪算法性能的好坏起着决定性的作用，证明了引入特征增强模块与规范化注意力机制的有效性.

4 结论

本文算法是基于全卷积孪生网络(SiamFC)目标追踪算法的改进，通过引入本文提出的特征增强模块使提取到的特征图中原信号增强，并且降低图像噪声，使获取到的特征信息更为有效、更有利于后续层捕捉有用的目标对象特征；引入最新提出的规范化注意力机制(NAM)来解决原算法中无法适应目标的变化和背景信息干扰的问题.实验结果也表明，在OTB2015公开测试基准集上取得比基线算法更优异的成绩，提出的特征增强模块与规范化注意力机制的结合在不影响追踪速度的基础上，提升了追踪器的性能.所提出的网络模型NAMSiamNet有望作为一个新型网络框架应用在单目标视觉追踪领域，具有广泛的应用前景.