APP下载

目标跟踪频率特征补偿网络

2022-07-17董美辰杨大伟

大连民族大学学报 2022年3期
关键词:分量卷积补偿

董美辰,杨大伟,毛 琳

(大连民族大学 机电工程学院,辽宁 大连 116605)

现有跟踪算法的特征提取方式在应对相机抖动、目标持续变化、周围物体干扰等复杂多变的环境因素时,会出现目标特征表达不清晰而导致的跟踪漂移问题。以相关滤波和孪生网络为主要框架的判别式跟踪方法[1],将跟踪问题转化为区分目标与背景的二分类问题,特征提取[2]作为分类问题的关键,提取深度学习特征相较传统图像特征应用效果更好[3]。基于相关滤波框架的DeepSRDCF[4]使用CNN浅层特征替换算法中常见的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征,跟踪精度有效提高,但深度特征的引入也带来了较高的计算复杂度。Bhat等[5]提出将深层特征与浅层特征融合,深层特征负责鲁棒性,浅层特征负责准确性,但数据增强在提升深层特征效果的同时会在浅层特征上出现反作用,两部分模型需独立训练,且忽视了因数据增强扩展样本反向传播在速度方面的影响。全卷积孪生网络(Siamese Fully Convolutional,SiamFc)[6]采用AlexNet[7]网络进行特征提取,经过互相关操作生成响应图,算法整体简单高效但缺少细节特征,导致跟踪器遇到较为复杂的背景信息时会出现错误。SA-Siam[8]在SiamFc基础上引入语义特征,与表征特征结合,提高应对目标形变、旋转的能力。SiamRPN++[9]消除了由于填充带来的空间偏差问题,将ResNet-50[10]作为主干网络,在深度孪生网络上实现端到端学习。SiamMask[11]算法同时实现视频目标跟踪和视频目标分割两个任务,但跟踪模型无法提供分割需要的精细特征,在目标模糊的情况下极大程度上会发生跟踪失效。D3S[12]提出视频分割与跟踪互补框架,但分割模块提取的特征信息表达欠佳,是造成跟踪失误的主要原因之一。

为解决特征提取问题,本文提出目标跟踪频率特征补偿网络(Discriminative Frequency Feature Compensation Network for Object Tracking,FCNet),采用调节图像高低频信息比例的方式获得不同频率的特征分量,通过特征补偿模块筛选合理的频率区间,为基础卷积提取的特征结果进行补偿,从而获得边界清晰、结构完整的特征表达。

1 目标跟踪频率特征补偿网络

1.1 跟踪问题分析

目标跟踪基准算法网络结构如图1。搜索帧与模板帧图像分别经过特征提取后,进行模板比对,若目标信息G中出现边界模糊,只依靠位置信息L无法回归准确的目标框。因此,跟踪准确的关键是获得清晰完整的特征表达[13],对于跟踪过程中相机移动、光照变化等问题,边缘、纹理特征作为高频信息具有良好的不变性,调节图像中的频率信息并筛选合理的频率区间进行特征信息补偿,可以有效提高特征信息质量。

图1 基准算法网络结构

1.2 图像特征频率调节单元

由于图像具有频率属性,为获得图像中不同频率区间的特征信息[14],本文构建图像特征频率调节单元Ε(下文简称“调节单元”),该单元通过改变频率分量通道分配系数调节不同分量之间的比例关系。

假设将视频帧中的特征分量分解为高频特征XH、低频特征XL,输入调节单元Ε,引入八度卷积[15]Y对特征张量进行计算,降低计算复杂度的同时实现高效的频间通信。输出融合后的高频信息SH、低频信息SL,图像特征频率调节单元结构如图2。

图2 图像特征频率调节单元结构图

定义:设X∈c×h×w为输入特征张量,h×w表示空间维度,c表示通道个数。Y∈c×k×k为k×k的卷积核。图像特征X={XH,XL},其中高频映射为XH∈(1-η) c×h×w,低频映射为融合输出S={SL,SH},SL表示低频特征,SH表示高频特征。八度卷积将卷积核Y分为处理高频信息处理和低频信息两部分,包含四个分量,Y={YL,YH},YL负责低频部分,YH负责高频部分的分量计算,YL={YL→L,YL→H},YH={YH→L,YH→H}。

(1)

(2)

SH=(XH⊗YH→H)+U(XL⊗YL→H) ;

(3)

SL=(XL⊗YL→L)+P(XH⊗YH→L) ;

(4)

S=[ηXL+(1-η)XH]·D。

(5)

式中:⊗为卷积操作;P为平均池化操作;U为上采样操作;D为幅值系数;η∈[0,1]表示频率分量通道分配系数。通过改变频率分量通道分配系数η,控制输出图像中的高低频信息占比。频率分量通道分配系数η可依据图像处理过程中的需求进行选择,为平衡高低频信息之间的比重,本文算法设置分配系数η为0.5。将经过D3S[12]算法中基础卷积提取的特征信息,与经过调节单元Ε处理输出的高频分量结果作可视化对比,如图3。

图3 调节单元输出高频分量与普通卷积特征提取可视化对比

图3中,第(1)行是单一目标的特征提取效果,目标是一只塑料袋,在简单地面背景下,高频分量中目标细节纹理清晰度显著提高,降低了目标与背景之间的相似度。第(2)行展现的是日常复杂场景,目标包括三名过街行人,与D3S算法中的基础卷积相比,处理后的高频分量提取更多全局信息,特征表达能力增强。由此可见,通过调节图像高频信息分量的权重,可以凸显目标轮廓信息,达到区分目标与背景的作用。

1.3 特征补偿模块

增大高频信息权重,为图像提供高频区间信息补偿有助于提高边缘、细节部分的特征表达能力,但如果完全专注于增强高频区间特征而放弃低频部分,会导致图像整体信息不够完善,对图像的特征表达产生反作用。为寻找合理的特征补偿图像,级联调节单元Ε,结构图如图4,Φ(n)表示级联n个调节单元。

图4 特征补偿模块结构图

特征补偿模块级联层数为n,选择参数r可以决定每一级输出的特征分量,模块Φ数学表达为:

(6)

模块Φ在调节高、低频分量的基础上,改变每一级输入的特征分量比例,筛选合理的频率区间段特征,既突出了高频特征的细节优势,又保证了低频信息对整体的完善作用。模块Φ填补了图像特征中边缘纹理信息缺失的部分,使目标与背景之间具有较高的区分度,提高整体算法的精度和稳定性。

1.4 目标跟踪频率特征补偿网络

目标跟踪频率特征补偿网络整体结构如图5。

图5 目标跟踪频率特征补偿网络

搜索帧特征Xn和模板帧特征X01分别经过两条支路处理,基础卷积支路包含1×1卷积和3×3卷积,提取图像通用特征,特征补偿模块Φ筛选所需频率区间特征补偿,弥补图像边缘特征的识别能力,通过特征融合,得到清晰完善的特征表达F(X01)、F(Xn):

F(X01)=c3⊗(c1⊗X01)+Φ(X01) ;

(7)

F(Xn)=c3⊗(c1⊗Xn)+Φ(Xn) 。

(8)

式中:c1为1×1卷积;c3为3×3卷积;⊗为卷积操作;F(X)为经过高频补偿后的图像特征。输入模板匹配模块进行相似度计算:

G01={F(X01)i:i∈g(F(X01)*)} ;

(9)

G=Hsimilarity(F(Xn),G01) 。

(10)

式中:F(X01)*为模板帧真值;g(F(X01)*)为目标像素集合;F(X01)i表示F(X01)中第i个位置的特征向量;Hsimilarity为余弦相似度计算函数。搜索帧与模板帧的目标像素集合相似度计算后输出目标信息G。

频率特征补偿网络在保证图像完整性的同时,突显了目标边缘特征,达到降低目标、背景之间相似度的效果,使特征表达在目标外观变化或背景干扰等情况中具有更强的适应性,进行模板比对时可以更加准确的在搜索帧中分割出目标轮廓。

2 实验结果与分析

实验使用NVIDIA GeForce 1080Ti显卡,基于Python3.7和PyTorch1.1.0框架实现。

2.1 实验设置

骨干网络由ResNet50前四层组成,在YouTube-VOS[16]的3 471个训练分割序列上进行预训练。训练过程使用ADAM(Adaptive Moment Estimation)[17]优化器,学习速率为10-3,每15个epoch衰减0.2次,用64对图像对批量进行40个epoch训练,每个epoch迭代1 000次。计算分割预测和真值之间的交叉熵,作为训练误差。

评估主要基于两个短时跟踪数据集:VOT2016[18]、VOT2018[19]。为保证实验公平性,实验中涉及跟踪算法数据结果均来源于对应论文或使用其开源代码和给定参数实际运行所得。

2.2 评价指标

通过比对精度(Average Overlap over Successfully Tracked Frames,Acc)、鲁棒性(Failure Rate,Rob)和期望覆盖率(Expected Average Overlap,EAO)[18]衡量跟踪器性能。

2.3 实验结果

在VOT2016和VOT2018数据集上与现阶段较为优秀的跟踪算法进行对比试验,实验结果见表1。

表1 VOT数据集评估比较结果

从表1可以看出,本文算法在VOT2016和VOT2018上三项指标均优于全部测试跟踪器,取得了非常具有竞争力的表现。VOT2016中,与原算法D3S相比,EAO、Acc和Rob分别提升1.68%、0.29%和0.32%。在VOT2018中FCNet较D3S算法EAO、Acc和Rob分别提升1.16%、0.30%和0.59%。在不同视觉属性下跟踪器精度比对见表2,鲁棒性比对见表3。

表2 不同视觉属性下Acc对比

表3 不同视觉属性下Rob对比

如表2所示,FCNet虽然在遮挡、运动变形情况下精度略微下降,但在其他挑战下均有改善。为更好展示算法性能,本文在VOT2016、VOT2018两个数据集中选择了四组具有代表性的视频序列,将本文算法与基准算法D3S实际表现进行对比,部分视频帧可视化如图6。

图6 FCNet与D3S[12]跟踪实际表现对比

图6第(1)行处于实际交通场景中,由于相机运动,造成前方目标模糊、变形,D3S无法准确框定目标,在第57帧和第419帧中只能捕捉到目标局部,而本文算法可以准确锁定目标轮廓。第(2)行中足球作为目标快速移动,D3S跟踪器在第14帧出现跟踪漂移,直到视频序列结束。FCNet与之相比定位目标更准确,没有出现目标丢失的现象。第(3)行所示目标为河面上飞行的鸟,目标在运动过程中尺度变化较大,在第142帧和第217帧中,D3S没有完全捕获目标,而FCNet可以很好应对目标变形情况。第(4)行中白色兔子在雪地中奔跑,目标与背景相似度极高,第66帧中,D3S出现无法准确框定目标,到第99帧时,给出目标框的范围过大,不够准确,第114帧又出现目标丢失的状况。FCNet表现足以证明算法可以更好应对相似背景下的挑战。

2.4 消融实验

为验证特征补偿模块中模块级数差异、不同频率特征融合方式的有效性,在VOT2018上对不同级联方式进行消融实验,三项指标对比见表4。若模块Φ采用第一级融合输出高频信息SH作为第二级的特征输入,第二级输出低频信息SH作为第三级输入,最后一级输出处理得到的低频信息SL,调节模块表示为ΦHHL。

表4 不同级联方式在VOT2018数据集上的实验结果

从实验结果可以看出,ΦHLL采用三级级联,提取高频段中相对低频,更趋向于中频特征信息,这部分区间可以更好地提供补偿特征。相比融合纯高频的部分,摒弃更多细节信息,专注中间信息,可以使目标背景区分更明显。ΦHLH在精度上略有影响,但在鲁棒性上有明显改善。因此,选取恰当的级联方式,调节频率信息融合比例,可提高图像特征的表达能力,实现鲁棒跟踪,其中ΦHLL模块的级联方式效果最佳。

3 结 论

本文提出一种目标跟踪频率特征补偿网络,采用频率调节单元改变图像中的频率信息比例,通过级联调节单元的方式为网络提供指定频率区间的特征补偿。突出边缘纹理等高频特征并保留用于完善图像的低频特征,使特征图兼具区分性和完整性。经实验验证,本文算法可以有效提高模型的特征提取能力,改善了目标出现非刚性变形、相机快速移动等情况下的跟踪效果,具有良好的鲁棒性。

猜你喜欢

分量卷积补偿
一种霍尔传感器温度补偿电路及其补偿方法
基于全卷积神经网络的猪背膘厚快速准确测定
中国耕地生态保护补偿的省级差序分区及补偿标准
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
画里有话
一斤生漆的“分量”——“漆农”刘照元的平常生活
一物千斤
论《哈姆雷特》中良心的分量