APP下载

特征增强和双模板更新的目标跟踪算法

2023-10-25梁栩欣纪元法任风华

电光与控制 2023年10期
关键词:置信度特征提取卷积

符 强, 梁栩欣, 纪元法, 任风华

(1.桂林电子科技大学,a.广西精密导航技术与应用重点实验室; b.信息与通信学院; c.电子工程与自动化学院,广西 桂林 541000; 2.卫星导航定位与位置服务国家地方联合工程研究中心,广西 桂林 541000)

0 引言

视觉目标跟踪是计算机视觉领域的一个重要分支,在过去十几年快速发展,已经广泛应用于无人驾驶、视频监督、智能交通系统、人机交互等领域。概括地说,视觉目标跟踪的任务就是在非常少的目标先验知识条件下,对视频序列中目标的未知位置进行预测,确定其每一帧的中心位置,并用合适尺度的跟踪框确定目标所在区域。

近年来,随着深度学习在计算机视觉领域的快速发展,卷积神经网络(CNN)已经被深入研究并广泛应用于视觉目标跟踪算法[1-5]。卷积神经网络预先在一个或多个大型数据集上进行离线训练,如ImageNet[6],COCO[7]和YouTube-BB[8]等大型数据集,训练好的卷积神经网络模型直接用于跟踪阶段的特征提取。卷积神经网络的多层结构能够提供不同性质的特征,具体地,浅层特征包含丰富的纹理、边缘信息,这些信息有利于定位,深层特征包含丰富的语义信息,但分辨率低。因此,如何有效地将卷积神经网络的特征提取能力用于视觉目标跟踪任务,是一个非常关键的问题。

文献[9]将卷积神经网络模型VGG(Visual Geometry Group)作为特征提取网络直接用于相关滤波跟踪器HCF[10]中,与一些相关滤波跟踪器[11-14]采用的简单手工特征相比,所用的深度特征表征能力更强大,获得了显著的跟踪性能提升。ECO[15]算法则采用了更综合性的特征,将深度特征与方向梯度直方图(HOG)特征、颜色名称(CN)特征这两种人工特征相结合用于跟踪,取得了优越的跟踪性能。

SiamFC[16]算法基于简洁的二分支孪生结构,采用共享的特征提取网络,在达到较高的跟踪准确度的同时,能够保持一定的跟踪实时性,为大量基于孪生网络的目标跟踪研究工作奠定了基础;SiamRPN[17]算法引入Faster R-CNN[18]中的区域提议网络(RPN)用于优化跟踪框的回归,取得了显著的性能提升;DaSiamRPN[19]算法则利用大型数据集挖掘困难负样本,用于特征提取网络的训练,极大地增强了跟踪器的判别性;SiamRPN++[20]采用网络层数更多的ResNet50[21]模型,并将多层输出特征融合用于跟踪,获得了显著的性能提升。然而,大多数基于孪生网络的目标跟踪算法[16-17,19-20,22-23]为了保持跟踪效率,在跟踪的过程中不对模板进行更新。尽管模板由视频序列的第一帧初始化而来,包含了关于目标最全面的信息,但是在复杂的场景中,目标有可能历经遮挡、光照变化、旋转、背景杂乱等干扰,初始模板无法在这些情况下进行正确的匹配,导致跟踪效果变差。

基于上述分析,本文提出了一种特征增强和双模板更新的目标跟踪算法,改进在复杂挑战的视频序列中的跟踪性能。在主流数据集OTB-100和VOT-2017上进行了性能评估实验,实验结果表明本文算法具有优秀的跟踪性能。

1 本文算法

1.1 基于孪生网络的跟踪算法框架

本文算法基于SiamFC算法的基本框架。基于孪生网络的目标跟踪算法将跟踪任务视为相似度匹配问题,通过计算模板与搜索图像的相似度得分来预测目标中心位置。其中,模板由视频序列的第一帧初始化得到,搜索图像由当前帧进行裁剪等处理后得到,基于孪生网络的目标跟踪算法基本框架如图1所示。

图1 孪生网络跟踪算法框架

模板z和搜索图像xi分别输入共享的特征提取网络φ(·),输出模板特征φ(z)和搜索图像特征φ(xi),两者进行互相关函数计算得到相似度得分响应图Si,表达式为

Si=φ(z)*φ(xi)

(1)

Si的最大值所在位置则作为目标中心位置的预测结果。

1.2 模型改进

特征的表征能力对于目标跟踪性能至关重要。SiamFC算法采用仅有5个卷积层的AlexNet作为特征提取网络,尽管已经在跟踪准确度上取得了不错的成绩,但仍然有较大的改进空间,浅层卷积神经网络的特征提取能力远不能满足目标跟踪的需求。

本文采用层数更多的CIRes22[24]模型。CIRes22模型是基于ResNet的22层网络,由ResNet的瓶颈(Bottleneck)结构构成,如图2(a)所示。瓶颈结构能够灵活地改变卷积输出的通道数,在节省模型参数量的同时保持良好的性能。具体地,输入特征在第1个1×1卷积层减小特征通道数,在第2个3×3卷积层的卷积计算结束后,通过第3个1×1卷积层恢复特征通道数。最后接入一个填充裁剪模块(Crop Unit)来减弱填充操作带来的偏移影响。在本文算法中,对CIRes22模型的瓶颈结构进行了改进,如图2(b)所示,将瓶颈结构中第2个3×3卷积层的输出特征通道数增加一倍,在维持网络深度不变的情况下,丰富了特征提取的信息,在不加深网络层数的情况下使得模型能够学习到更多信息,以提取到表征能力更强的特征。

图2 CIRes22模型的瓶颈结构

为了充分利用特征提取网络的能力,本文将包含丰富纹理、边缘信息的浅层特征和富含语义信息的深层特征进行加权融合,以获得表征能力更强、更适用于目标跟踪的特征。本文算法的特征融合结构如图3所示,浅层特征通过一个1×1卷积层进行下采样处理,特征通道数由256增加到512,使之与深层特征的尺度、特征通道数保持一致,然后两者进行线性加权融合,加权系数为0.5,最后接入文献[25]提出的通道空间注意力模块。通道注意力模块和空间注意力模块级联,先后在通道维度和空间维度计算输入特征的加权系数,再与对应的输入特征相乘,获得通道空间自适应加权特征。

图3 本文算法的特征融合结构

1.3 双模板更新策略

在视觉目标跟踪任务中,目标常常历经光照变化、旋转、遮挡等剧烈的形态变化,当前帧的目标形态可能与初始模板中目标的形态已相差甚远,此时再用初始模板进行相似度匹配会得到不准确的结果。而视频序列具有时空连续性,当前帧的目标形态通常与其相邻帧中目标的形态更接近。本文提出一种双模板更新策略,使得模板能够灵活更新,以应对场景变化、目标形态变化的情况。

本文采用平均峰值相关能量[26]作为响应置信度。平均峰值相关能量能够反映响应图的波动情况,当目标处于背景杂乱、遮挡、光照变化严重等状态时,平均峰值相关能量值将下降,因此可用于判断是否对模板进行更新,其计算表达式为

(2)

在本文算法中设置了两个边界置信度,Tb用于判断是否进行模板备份,Td用于判断是否采用双模板。基于前期实验测试结果,将Tb确定为0.8,Td确定为0.5。具体的更新策略如下所述:

1) 当Ti≥Tb时,记为高置信度响应,当前帧图像作为备份模板保留;

2) 当Tb≥Ti≥Td时,记为平均置信度响应,不进行备份;

3) 当Ti

图4所示为本文算法的框架图,当满足高置信度条件时,启用红色分支备份模板,当满足低置信度条件时,启用紫色分支更新模板。

图4 本文算法的框架图

2 实验分析

2.1 实验设置

本文算法的仿真实验在i7-10700F,2.9 GHz CPU,16 GiB RAM,GTX3060的台式电脑上运行,环境配置为Pytorch 1.9.0,Python 3.8,Ubuntu 18.04.5系统,实验运行平台为Pycharm。

2.2 训练设置

本文的训练参数设置与SiamDW保持一致,采用随机梯度下降(SGD)法进行训练优化,学习率由0.1按指数衰减至0.000 1,动量(Momentum)设为0.9,权值衰减系数设为0.000 1。模板尺寸设为127×127,搜索图像尺寸设为255×255,在GOT-10k[27]数据集上进行50个周期的离线训练。

2.3 性能评估数据集

1) OTB。OTB-100[28]包含100个视频序列,涵盖遮挡、形变、背景杂乱等共11种场景挑战,每一个视频序列包含多种场景挑战,能够充分测试算法的跟踪性能。OTB-100采用准确率和成功率作为评估指标。准确率是真实目标中心位置与预测目标中心位置的平均欧氏距离小于某一阈值的帧数与视频序列总帧数的比值,阈值通常设为20像素。成功率为真实目标区域与预测目标区域的交并比(IoU)大于某一阈值的帧数占视频序列总帧数的比值,阈值通常设为0.5。本文在OTB-100上的实验采用一次性评估(One-Pass-Evaluation,OPE),成功率采用曲线下面积(Area Under Curve,AUC),准确率的阈值设为20像素。

2) VOT。VOT系列数据集包含60个视频序列,涵盖遮挡、光照变化、尺度变化等共6种场景挑战,本文采用VOT-2017[29]进行性能评估,性能指标包含期望平均重叠率(Expected Average Overlap,EAO),准确率(Accuracy),鲁棒性(Robustness)和平均重叠率(Ave-rage Overlap,AO)。EAO是非重置重叠的期望值,准确率是单个测试序列下的平均重叠率,鲁棒性是单个测试序列下的跟踪失败次数与视频序列总帧数的比率。

2.4 消融实验

为了验证本文算法对跟踪性能改进的有效性,设计了消融实验,并在OTB-100数据集上进行了性能评估,实验结果如表1所示。本文在基准模型基础上采用瓶颈结构进行改进,在AUC上获得了1.5%的提升;然后采用特征增强策略,即对特征融合和注意力机制的引入在AUC上获得了0.6%的提升;最后采用双模板更新策略,在AUC上获得了1.3%的提升。总体上,本文算法较基准算法提升了3.4%,验证了本文所提算法的有效性。

表1 消融实验结果

2.5 VOT评估结果

将本文算法与3个先进主流算法在VOT-2017上进行算法的性能评估并进行对比,评估结果如表2所示,对比算法分别为SiamFC,SiamRPN和ECO-HC[15],红色数值表示排名第一,蓝色表示排名第二,绿色表示排名第三。实验结果表明,在期望平均重叠率(EAO)上达到0.219,在鲁棒性(R)上达到0.496,与基准算法SiamFC相比取得了一定的性能提升,次于SiamRPN算法,但在准确率(A)和平均重叠率(AO)上的改进效果显著,优于所对比的3个先进主流算法。

表2 VOT-2017性能评估结果

2.6 OTB评估结果

在OTB-100上的性能评估结果如图5所示,本文算法的成功率达到了0.676,准确率达到了0.894,均优于进行对比的主流先进算法DaSiamRPN,ECO-HC,SiamRPN和SiamFC。更具体地,表3、表4展示了在OTB-100的遮挡(OCC)、背景杂乱(BC)、光照变化(IV)、尺度变化(SV)、快速运动(FM)、运动模糊(MB)、形变(DF)、旋转(IPR和OPR)、超出视野(OV)及低分辨率(LR)共11种具体场景属性下的跟踪成功率和准确率。实验结果表明,本文算法在光照变化、旋转、遮挡、运动模糊等场景属性下的跟踪成功率、准确率都得到了提升。

表3 OTB-100具体场景挑战的跟踪成功率

表4 OTB-100具体场景挑战的跟踪准确率

图5 OTB-100性能评估结果

本文从OTB-100中抽取了3个视频序列进行算法跟踪过程可视化用于定性分析,所抽取的视频序列包含多种属性,能够客观评估算法的跟踪性能。本文算法与对比算法在OTB-100具体视频序列下的跟踪表现可视化如图6所示。

图6 本文算法与对比算法在OTB-100视频序列下的跟踪表现可视化

1) Human4-2视频序列。目标在运动过程中历经光照变化、尺度变化,受到遮挡,发生形变,在此过程中,本文算法能够持续准确跟踪目标。

2) Board视频序列。目标在运动过程中历经旋转、超出平面、背景杂乱、运动模糊等挑战,尤其在第190~520帧期间,目标的快速运动和旋转导致了对比算法的跟踪漂移,而本文算法仍能准确跟踪目标。

3) Liquor视频序列。视频序列中存在多种与目标相似的干扰对象。在第320~380帧期间,目标在运动过程中发生旋转,并经过相似的干扰对象,在此期间导致了多种算法跟踪框漂移到干扰对象上,而本文算法仍能准确跟踪目标。在第1230~1240帧期间,一个相似干扰对象在目标面前运动,造成了短时遮挡,但本文算法依然能够正确跟踪目标。

3 结束语

本文提出了一种特征增强和双模板更新的目标跟踪算法,提升了在复杂场景下跟踪的准确性和鲁棒性。首先,改进了基准模型中的瓶颈结构模块,并将改进特征提取网络的深层特征和浅层特征进行融合,再利用通道空间注意力模块对特征进行强化,提升了特征的表征能力。然后,提出了一种双模板更新策略,将近邻高置信度图像帧保留为备份模板,当跟踪响应图置信度较低时,将初始模板与备份模板进行加权融合得到新的模板,再重新进行跟踪预测,能够应对复杂场景的影响。最后,本文设计了消融实验,并与主流先进算法在OTB-100和VOT-2017上进行了性能评估对比,实验结果验证了本文算法的可行性。

猜你喜欢

置信度特征提取卷积
硼铝复合材料硼含量置信度临界安全分析研究
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
基于Daubechies(dbN)的飞行器音频特征提取
正负关联规则两级置信度阈值设置方法
基于傅里叶域卷积表示的目标跟踪算法
Bagging RCSP脑电特征提取算法
置信度条件下轴承寿命的可靠度分析
基于MED和循环域解调的多故障特征提取
一种基于卷积神经网络的性别识别方法