APP下载

自适应信息选择的变尺度相关滤波红外目标跟踪算法

2024-01-15孙梦宇王鹏徐均琪李晓艳郜辉邸若海

光子学报 2023年12期
关键词:精确度直方图滤波器

孙梦宇,王鹏,徐均琪,李晓艳,郜辉,邸若海

(1 西安工业大学 光电工程学院,西安 710021)

(2 西安工业大学 电子信息工程学院,西安 710021)

0 引言

视觉目标跟踪任务作为机器视觉领域中的重要环节近年来受到了广泛的关注[1-4]。红外目标跟踪是基于热红外图像对目标进行跟踪的视觉任务,根据热红外图像的成像原理,在目标受到部分掩体遮挡时,依然能够获取目标信息,且在黑夜条件下,红外相机能够对目标进行观测,而可见光无法获取目标图像。但红外图像相较于可见光图像而言缺少纹理信息,并且红外图像中目标边界模糊且存在噪声,使得目标与背景区分难度更高[5-8]。

依据在线训练的优势,相关滤波算法具备良好的鲁棒性[9-12],同时基于手工特征的相关滤波算法无需图形处理器(Graphics Processing Unit,GPU)或神经网络处理单元(Neural-Network Processing Unit,NPU),适用于部署在计算能力弱的嵌入式硬件平台上。由于相关滤波算法训练无关图像模态,因此较多学者以基于可见光图像的滤波算法[13-16]作为基础开展研究,但直接将其应用难以获取较好的表现。GUNDOGDU E等[17]训练了红外卷积网络用于特征提取。YU Tianwen 等[18]提出了基于连续卷积和自适应特征融合的鲁棒性红外跟踪器(Robust TIR tracker based on the Continuous Correlation Filters and adaptive feature fusion,RCCF-TIR),采用相关峰值作为权重实现响应图的融合。ZHANG He 等[19]提出了基于水平集的ECO 算法(Efficient Convolution Operators based on the Level Set method,ECO_LS),额外加入图像分割器,将分割结果与跟踪结果融合。YUAN Di 等[20]提出了自适应多特征融合模型(Adaptively Multi-Feature fusion Tracker,AMFT),根据Kullback-Leibler 散度衡量各个特征对应的响应图。上述滤波算法更多关注于融合深度特征与手工特征,运算负担较大,而ECO_LS 仅采用手工特征,获得了较好的表现,但其采用的并行结.构同样使其无法完成实时运算。

近年来深度学习的目标跟踪算法收到了广泛的关注[21-22]。目标感知的深度跟踪算法(Target-Aware Deep Tracking,TADT)[23]利用回归损失和排序损失提高网络对前景的分辨能力;结合分割的孪生网络跟踪算法(SiamMask)[24]将分割结合作为头部加入跟踪网络中,获得更为精确的目标状态信息;交叉模态蒸馏的判别预测模型(Discriminative Model Prediction with Cross-Modal Distillation,CMD-DiMP)[25]利用知识蒸馏将可见光信息转化为红外信息,获取更高的跟踪精度;HUANG Yueping 等[7]提出利用无监督方法优化特征提取网络,采用多通道滤波融合深度与浅层特征,获得更好的目标表达能力;LI Yingchao 等[26]将红外图像转换至希尔伯特空间,并级联多个通道注意力机制获取更好的跟踪精度。但基于深度学习的网络需要大量的计算资源以及存储资源的支持,须具备较好的硬件平台才能达到实时表现。

针对上述问题,本文提出了自适应信息选择的变尺度相关滤波红外目标跟踪算法,为增强红外目标特征表达能力,在原有提取的手工特征上,重新提取尺度为2 的梯度信息,丰富目标信息,并在响应图融合阶段加入权值,获取更高的跟踪精度;在训练过程中,将各个通道信息独立看待,对每个通道做空间选择,从而获取更为准确的表达能力;为适应目标边界框比例的变换,在传统的尺度估计后,构建变尺度滤波器,调整边界框比例,获取更为准确的边界框。

1 基于通道与空间信息选择的变尺度红外目标跟踪算法

提出的红外目标跟踪算法的整体结构如图1 所示,红色连接线表示样本帧特征流向,绿色连接线表示当前帧特征流向,黄色箭头表示跟踪过程。wt表示本帧的滤波器系数,wt-1表示上一帧求解的滤波器系数,f表示样本特征,y表示理想响应函数。

图1 算法整体框架Fig.1 Overall algorithm architecture

算法共分为三个部分,分别是特征提取器、定位滤波器以及尺度滤波器。首先,在样本帧和当前帧中选取提取区域,将其送入特征提取器中提取特征信息,在特征提取器中,采用梯度直方图以及灰度特征作为基础特征,提取灰度特征后,在其基础上额外提取新的梯度直方图[27],用于补充目标特征;然后,样本帧特征信息将会输入至定位滤波器中,在学习定位滤波器的阶段,加入时间正则项以及空间信息选择,以通道作为单位学习每个通道的空间权重,减少滤波器系数;其次,学习到的定位滤波器系数将会与当前帧的特征信息进行卷积运算,将多种特征对应的响应图加权融合,获取目标位置;最后,从获取的目标位置提取变尺度样本,根据所求的尺度滤波系数进行卷积,获取对应的尺度因子,从而确定边界框比例,获取最终目标的边界框。

1.1 特征提取器

由于红外图像分辨率低,可能会出现图像模糊、背景区分度不高等情况,如图2 所示,这会导致原始提取到的手工特征难以表示目标信息,并且模糊部分过多,原始的手工特征感受野过小,所提取到的特征与原有特征难以匹配。为此,在提取的灰度特征图中重新提取梯度直方图,其具备更大的感受野,并且与原始的梯度直方图不同,能够提取到不同表示的梯度信息,增强对目标的表达能力。

图2 数据集图像Fig.2 The images in datasets

图3 展示了部分特征可视化结果,为了方便展示,将特征均重新缩放至样本大小,其中梯度直方图部分与基于灰度特征的梯度直方图部分均是选用了同一梯度方向通道的可视化结果,可以看到虽然两种特征对应的梯度方向一致,但其所获得信息不同。由此完成了特征提取,所提取的特征将用于构建定位滤波器。

图3 特征可视化Fig.3 The visualization of features

1.2 定位滤波器

由于目标跟踪为时序任务,目标在整个跟踪过程中是运动的,其背景同样会出现变化,为了有效提高滤波器时序表达能力,在构建定位滤波器过程中加入时间正则项,有效应对目标运动、部分遮挡等情况带来的特征变化明显的问题。同时在图3 中可以看到,并不是所有特征均能对目标有较好的表达能力,部分特征对目标表达能力较弱,因此在定位滤波器中加入了通道独立的空间信息选择,由此保留对目标定位有效的信息,从而获的更高的定位精度。

假设目标样本特征为f∈RH×W×N,其中H和W分别表示特征空间大小,N表示通道数量,滤波器系数为w∈RH×W×N,理想响应函数为y∈RH×W×N,则定位滤波器公式为

式中,上角标i表示第i个特征通道,‖ • ‖F表示F 范数,⊗表示循环卷积运算,wt-1表示前一帧保存的滤波器系数,λ1和λ2分别表示空间信息选择项和时间正则项的正则化系数。‖w‖F用于稀疏化滤波器系数,时间正则项则是在训练过程中,让本帧训练出的滤波器系数接近上一帧的滤波器系数,搭建时序的联系。

用增广拉格朗日对式(1)求解,定义松弛变量w′=w,式(1)重写为

式中,Γ为拉格朗日乘子,μ为惩罚系数。

将式(2)拆分,分别求解w、w′,则

由于式(3)中含有卷积运算,为了加快对w的求解速率,将其转换至频域,由此式(3)中的上式改写为

式中,符号^为变量的频域表示。

式(4)具备解析解,根据Sherman-Morrison 公式,频域下滤波器系数可表示为

根据式(5)求解出滤波器系数w后,将其带入w′的求解式(3)中,对w′继续求解。式(3)存在解析解,因此,w′可表示为

随后更新拉格朗日乘子以及惩罚因子,更新公式为

式中,α为尺度因子,用于平滑更新过程。

由此整个定位滤波器求解完成,将其迭代两次,获取滤波器系数w的近似解。在求解过程中,获得第一次迭代结果后,对求解的变量取均值,将小于均值的变量置0,将其带入下一次迭代过程。

随后,在提取下一帧的图像特征后,利用求解的滤波器系数与特征进行卷积,获取位置滤波响应图为

提取了3 种特征,共计算获取3 个位置滤波响应图,将其缩放至同一尺度,进行加权求和,获取最终响应图Sf为

式中,Sgray、Shog、Sgray_hog分别表示灰度特征、梯度直方图以及基于灰度特征的梯度直方图的响应图,β为权重,设为0.01。基于灰度特征的梯度直方图用于补充目标特征信息,增强目标表达能力,但由于数据集中存在较多小目标,如图2(b),此特征具有较大的感受野,包含了较多的背景信息,使得目标信息淹没,无法发挥作用,因此将其权重设置较低。

1.3 尺度滤波器

目标在运动过程中,其尺度不断变化,边界框比例同样可能产生变化,但原有的目标尺度估计方式无法应对边界框比例变化问题,仅通过在定位阶段选择多个固定比例尺度采集尺度样本,对每个尺度样本均进行定位,选择响应值最高的结果作为估计尺度。

在原有尺度估计后,重新构建了用于变尺度估计的尺度滤波器,以原有的尺度估计结果作为基础,在其基础上重新采集变尺度样本,并将其展平为1 维特征进行拼接。

假设,s=1,2,…,M表示边界框变化比例,在采集变尺度样本时,以本帧估计的目标位置作为中心点,设c×c为目标基础空间尺寸,变尺度采集的空间尺度为aKc×aKc,a表示尺度因子,其中,表示向下取整,在此将M设置为5,但由于采集的是变尺度样本,实际样本数量为M2,即25 个变尺度样本,长和宽分别对应5 个尺度变化,并对其进行排列组合,将s设置为1.01。

由于灰度特征无法用于准确判别样本的尺度变换,因此在尺度样本提取的过程中,仅利用窗口大小为4的梯度直方图作为尺度特征。在获取到样本后,构建尺度滤波器,公式为

下角标s 表示尺度滤波,将式(10)转换至频移,其具有解析解,解析解形式为

求解后对所获得的变尺度样本特征进行卷积,即

由此,获得多个变尺度下的尺度响应图,选择其中响应值最大的对应的尺度,即为所估计的尺度。

在原有的尺度估计基础上进行二次变尺度估计,构建的变尺度估计滤波器虽具备在边界比例变换的情况下的尺度,但单独使用并不能够有效提高算法精度,主要原因有:

1)尺度滤波器若单独工作,在定位阶段将提取单尺度样本,缺乏尺度信息,从而使得定位滤波器精度下降,此现象与尺度自适应多特征跟踪器(Scale Adaptive with Multiple Features tracker,SAMF)[28]和判别式尺度空间跟踪器(Discriminatiive Scale Space Tracker,DSST)[29]两种算法相同,两种算法采用相同的基础定位滤波器,但SAMF 在定位阶段采集多尺度样本,在获取目标边界框估计能力的同时,也提升了算法定位精度,DSST 则设计了额外的固定边界框比例的尺度滤波器,其定位精度低于SAMF。

2)目标在整个运动过程中前后两帧的边界框比例变化不大,采用定尺度估计的方法可以判别目标框整体变化情况,本文所设计的变尺度滤波器则进行进一步微调,在整体估计后的基础上,重新采集变尺度样本,能够有效减小变尺度滤波器中样本采集的数量,降低变尺度滤波器的计算负担。

所提算法的伪代码如表1 所示。

2 实验

为了验证算法的有效性,选择LSOTB-TIR 数据集[30]与PTB-TIR 数据集[31]作为测试集。LSOTB-TIR数据集共包含了120 个测试序列,序列最大长度为2 110 帧,最小长度为105 帧,平均长度为684 帧,共计82 000 帧图像,包含了22 种目标类别,12 种类别属性,对序列采集场景进行了标注,类别与标注信息如表2和表3 所示。

表2 场景定义Table 2 The definition of scenarios

表3 序列属性Table 3 The attributes of sequences

PTB-TIR 数据集是红外行人跟踪数据集,目标尺寸变化较小,包含60 个测试序列,9 种类别属性,共30 029 帧图像,最小序列长度为50 帧,最大序列长度为1 792 帧。共选取了8 个算法作为对比算法,用于展现本文所提算法的优越性,其中有效卷积算子跟踪器(Efficient Convolution Operators for tracking,ECO)、自适应学习判别式相关滤波(Learning Adaptive Discriminative Correlation Filters,LADCF)、自适应通道选择跟踪器(Adaptive Channel Selection Mechanism for Discriminative Correlation Filters,ACSDCF)、基于空间正则项的判别式相关滤波器(Spatially Regularized Discriminative Correlation Filters,SRDCF)[32]为相关滤波算法,仅使用了手工特征,即梯度直方图以及灰度特征,TADT、SiamMask、多域卷积神经网络跟踪算法(Multi-Domain convolutional neural Networks for visual tracking,MDNet)[33]和SiamFC 为深度学习算法。LADCF 与ACSDCF 的结果均采用作者公布的原始代码在数据集中测试获得,其余对比算法的结果均来自于数据集官方公布的测试结果。实验均在MATLAB2018a 上进行,实验平台处理器为Intel(R) Core(TM)i7-7700HQ CPU @ 2.80 GHz 2.81 GHz,内存为8 G。

2.1 数据集对比实验

2.1.1 LSOTB-TIR 数据集测试结果

依据LSOTB-TIR 数据集官方的测评指标,共采用3 种指标对算法进行对比,分别为精确度、归一化精确度以及成功率。其中精确度与归一化精确度均以中心位置误差进行衡量,中心位置误差计算公式为

式中,x和y分别表示中心点x坐标和y坐标,下角标g 和p 分别表示真值和预测值。精确度和归一化精确度则是根据不同的中心位置误差作为阈值,统计全部序列结果计算获得。

成功率根据重叠率(Intersection of Union,IoU)计算获取,计算公式为

式中,B表示边界框。与精确度和归一化精确度类似,成功率同样依据不同IOU 阈值计算获取。

3 种指标的曲线如图4 所示。可以看到本文所提算法在3 个指标中均取得了最优的表现。与相关滤波算法对比,本文算法在精确度上超过第二名的ECO 算法2.7%,相较于LADCF 和ACSDCF 分别提高了3.1%和3.4%;在归一化精确度中,本文算法相较于第二名的LADCF 算法提高了1.6%;在成功率曲线中,本文算法相较于LADCF 和ACSDCF 分别提高了2.5%和2.9%。证明了进行通道独立的空间信息选择策略的有效性,同时额外提取的基于灰度特征的梯度直方图信息能够进一步提供目标信息,变尺度滤波器使得边界框估计效果得到了提升。

图4 LSOTB-TIR 数据集测试结果Fig.4 The evaluation results of LSOTB-TIR dataset

与深度学习算法对比,本文算法相较于TADT 在3 种指标下分别提高了0.7%、1% 和0.7%,比SiamMask 分别高出了1.2%、0.8%和1.5%,该算法在仅利用手工特征的基础上,可以超过部分深度学习算法,同时,算法无需训练,在线推理过程中也仅利用CPU 即可,所需计算资源较少。

2.1.2 PTB-TIR 数据集测试结果

PTB-TIR 数据集采用了精确度和成功率作为评价指标,测试结果曲线如图5 所示。

图5 PTB-TIR 数据集测试结果Fig.5 The evaluation results of PTB-TIR dataset

可以看到,本文所提算法在成功率指标中取得了优异的表现。与相关滤波算法相比,本文算法与SRDCF 在精确度指标中取得了同样的表现,而成功率提高了1.8%。相较于LADCF 和ACSDCF,本文算法的精确度指标分别提高了2.3%和3.0%,成功率分别提高了2.3%和3.1%。由于PTB-TIR 数据集中目标的边界框比例变化较小,且比例变换属性下的序列数量少,因此变尺度滤波器对算法提高较小,数据集中更注重前景与背景的区分,因此所提的特征提取与信息选择策略发挥了更为重要的作用。

相较于深度学习算法而言,MDNet 的精确度高于本文算法1.3%,MDNet 依据于所获取的初始样本,在线对网路中的头部进行更新,速率较慢,但能够取得更高的分类精度,而本文算法的成功率相较于MDNet提高了0.7%,说明MDNet 虽对前景与背景区分效果更好,但边界框回归效果较差。本文算法在仅利用手工特征的基础上,可以获取更为准确的边界框。

2.2 消融学习

为了验证各个模块的有效性,在LSOTB-TIR 数据集中进行实验,以LADCF 和ACSDCF 作为基础算法,本文所提算法和这两种算法所采用的优化过程相似,LADCF 仅考虑空间信息,对每个通道采用同样的空间采样模板,而ACSDCF 则认为通道应该独立看到,仅对通道做了选择,本文算法则是将在各个通道中对空间信息做不同的选择方式。消融实验结果如表4 所示。

表4 消融实验结果Table 4 The results of ablation experiments

从表4 中可以看到,采用通道独立的空间信息选择的方法,可以达到0.707 的精确度和0.589 的成功率,相较于LADCF 和ACSDCF 分别高出了0.21、0.24 的精确度以及0.2、0.24 的成功率,同时每秒帧数 (Frames Per Second,FPS)均高于两者,证明了本文采用的信息选择方式更为有效,所学习到的滤波器更为稀疏,加快整体优化过程;而在加入变尺度估计后,精确度提高了0.06,成功率提高了0.02,FPS 仅下降了1.49,说明变尺度滤波器可以在原有尺度滤波的基础上进一步优化边界框估计效果;加入基于灰度特征的梯度直方图后,精确度提高至0.717,成功率提高至0.594,FPS 下降了3.49,说明加入的新特征可以丰富目标表达的能力,有效提高跟踪精度,并且本文所提算法最终可达34.85 的FPS,达到实时处理效果。

2.3 超参实验

为了验证超参数对本文算法的影响,以LSOTB-TIR 数据集作为测试集,对定位融合权重β、尺度样本数量M两个超参数进行实验分析。

2.3.1 定位融合权重

对定位融合权重进行消融实验时,将尺度样本数量固定为5,其余参数不变,结果如图6 所示。可以看到当定位融合权重β为0.001 时效果最好。当权重增大时,曲线下面积 (Area Under the Curve,AUC)降低,分析认为是所提取的基于灰度特征的梯度直方图虽能补充目标信息,但由于其感受野较大,使得其所提取特征中包含了部分背景信息,致使响应图主峰周围存在较多的次峰,过多融合相应的响应图,使得主峰不再突出,降低了目标定位的精度。而当权重进一步降低时,基于灰度特征的梯度直方图所能提供的信息过少,无法达到较好的补充效果,因此与未加入基于灰度特征的梯度直方图的表现无明显区别。

图6 定位融合权重消融实验结果Fig.6 The ablation result of location fusion weight

2.3.2 尺度样本数目

对尺度样本数量进行消融实验时,将定位融合权重固定为0.001,其余参数不变,结果如图7 所示。可以看到,当尺度样本数量M选择为5 时,效果最好。当尺度样本数目设置过多时,尺度池中存在长宽比例变化较为严重的尺度,在目标定位位置存在一定偏差或仅定位到目标部分信息时,易对目标的部分区域进行边界框估计,从而获取错误的估计结果,因此导致AUC 下降。而当尺度样本数目较少时,无法适应全部的变化情况,边界框估计结果不准确。

图7 尺度样本数目消融实验结果Fig.7 The ablation result of the number of scales

2.4 定性分析

在LSOTB-TIR 数据集中选择了4 个序列,将跟踪结果进行了展示。图8 中,蓝色框为本文算法跟踪结果,红色框为ACSDCF 跟踪结果,绿色框为LADCF 跟踪结果,黑色框为ECO 跟踪结果。

在bus_V_003 序列中,目标车辆处于运动状态,其视角在整个运动过程中发生了变化,从而导致目标车辆在图像中的边界框比例发生了变化,可以看到本文算法可以适应目标车辆的比例变化情况。在第2、3、4 列的图像中,其余算法虽然依然可以跟踪到目标车辆,但其边界框估计结果保留了原始长宽比例,本文算法则可根据目标车辆的比例变化改变所估计的边界框长宽比例,其跟踪效果更好。

在person_D_023 序列中,目标周围存在同类型目标,且在运动过程中两者在图像中出现了重叠。在第2 列的图像中,相似物距离目标较近,ACSDCF 跟踪产生漂移,跟踪错误目标;在第3 列相似物与目标在图像中重叠后分开,LADCF 跟踪错误,而在后续中,LADCF 重新跟踪目标,可以看到本文算法和ECO 可一直准确跟踪目标;但在第4 列的结果中,本文算法的尺度估计更为准确。

在boat_D_001 序列中,目标快速移动,并在运动过程中背景存在干扰物。在第2 列和第3 列图像中可以看到,目标快速移动,同时镜头发生位移,导致目标运动距离较大,ACSDCF 和LADCF 两种算法均跟踪失败,而本文算法和ECO 算法跟踪成功。

在airplane_H_001 序列中,目标在起飞阶段与背景区分度较低,而在飞行过程中其尺度发生变化。可以看到在第2 列的图像中,ACSDCF 未能准确区分背景与前景,导致跟踪漂移,在后续序列中重新跟踪到目标;在第3 列中,目标尺度发生快速变化,所有算法虽能成功跟踪目标,但尺度估计效果一般,本文算法和ECO 算法估计效果更好,ACSDCF 由于尺度估计错误未能跟踪目标主体;在第4 列中,可以看到ACSDCF由于尺度估计偏差严重,在后续序列中未能跟踪目标,其余算法均可以跟踪目标,但可以看到本文算法的尺度估计效果更好。

本文算法通过在灰度特征图中额外提取梯度信息,增强目标表达能力,并且在定位滤波器训练过程中,设计通道独立的空间信息选择,使得所设计出的定位滤波器更具判别能力,能够在目标快速运动、背景存在同类别物体或相似目标时准确区分目标,如序列person_D_023 和boat_D_001;设计的变尺度滤波器能够有效应对目标由于势角变换等情况导致的边界框比例变换的问题,能够自适应调整比例变换,如序列bus_V_003 和airplane_H_001,证明了本文算法改进的有效性。

3 结论

本文提出了自适应信息选择的变尺度相关滤波红外目标跟踪算法,能够在红外跟踪序列下准确跟踪到目标。在提取红外图像特征的过程中,为了弥补目标信息少以及图像模糊、分辨率较低等带来目标特征不明显的问题,在原有的灰度特征基础上重新提取了梯度直方图信息,丰富目标表现能力;在滤波器训练中则是加入时间正则项与通道独立的空间信息选择,将每个通道信息独立看待,同时对空间信息进行独立选择,有效保留判别信息,增强滤波器判别能力;在原有尺度滤波的基础上,将目标的长宽信息分别看待,设计独立的变尺度滤波器,采集多尺度样本信息,从而适应目标在运动过程中比例变化的问题。

本文算法在LSOTB-TIR 数据集中跟踪效果显著,精确度和成功率分别达到了71.7%和59.4%,相较于同样进行信息选取的滤波器算法LADCF 和ACSDCF,精确度分别提高了3.1%和3.4%,成功率分别提高了2.5%和2.9%,同时超过了部分深度学习跟踪算法的表现,仅在CPU 上运行,达到了34.85 帧/s 的运行速率,具备良好的实时性以及跟踪精度。

本文算法依然存在一定的局限性。算法虽能够应对尺度比例变化问题,但当结合尺度的定位置信度较高时,变尺度滤波器并不能完全发挥其作用,仅能保持原有目标比例;在背景干扰物较多的情况下,传统手工特征难以准确区分目标,与基于红外的深度网络所提取的特征相比存在一定差异;算法中存在较多的超参,虽大部分参数在不同数据集下敏感度低,无需变化,但需要人为设定,依赖经验值和实验数据。

猜你喜欢

精确度直方图滤波器
符合差分隐私的流数据统计直方图发布
研究核心素养呈现特征提高复习教学精确度
“硬核”定位系统入驻兖矿集团,精确度以厘米计算
从滤波器理解卷积
用直方图控制画面影调
开关电源EMI滤波器的应用方法探讨
基于Canny振荡抑制准则的改进匹配滤波器
基于空间变换和直方图均衡的彩色图像增强方法
基于TMS320C6678的SAR方位向预滤波器的并行实现
基于直方图平移和互补嵌入的可逆水印方案