基于可靠相关度的实时多模态目标跟踪方法

2019-05-08鲁玉龙李成龙

安徽大学学报（自然科学版） 2019年3期

鲁玉龙，李成龙，汤进,2,罗斌,2*

(1.安徽大学计算机科学与技术学院，安徽合肥 230601；2.安徽省工业图像处理与分析重点实验室，安徽合肥 230039)

由于视觉跟踪在运动分析、行为识别、监控以及人机交互等场景下的广泛应用，使得其成为一个非常热门的研究课题[1-3].近些年来，人们提出了很多基于不同机器学习技术的目标跟踪方法，如相关性滤波[1-2]、支持向量机[3-4]、稀疏表示[5-7]等.然而，这些方法都是针对可见光视频的，在复杂的视频场景下，特别是低照度(甚至是零照度)等，容易导致这些跟踪算法的性能较差.为了提高跟踪算法在复杂场景下的稳定性，一些学者使用多种传感器，如热红外和深度传感器来获取不同模态的视频数据[8-9]，以此弥补可见光源在某些条件下的不足.论文针对可见光和热红外的多模态数据，研究如何有效利用它们进行持续稳健的自适应跟踪.

研究者们提出了很多融合可见光和热红外的跟踪方法[8-13].Chen等[8]提出使用概率图模型来处理热红外与可见光的融合问题，进而在跟踪过程中充分利用了热红外与可见光的统计结构数据.该方法具有较好的稳定性，但是具有较高的计算复杂度.程咏梅等[9]提出以热红外和可见光通道的Bhattacharyya系数为权值、基于加权Mean-Shift的可见光/热红外双通道的目标跟踪算法，实现光照突变时的稳定持续跟踪.该方法具有较快的处理速度，但是对噪声比较敏感.Wu等[10]直接将灰度图像和热红外图像的特征拼接在一起，使用稀疏表示模型计算候选样本的似然值，在粒子滤波框架下实现目标的跟踪.Liu等[11]使用联合稀疏表示模型对两个模态进行表达，通过稀疏表示系数构造目标的似然函数.这类方法能够通过稀疏表示模型有效地融合两种模态，但如果某个模态的噪声过大，会影响最终的跟踪结果，并且实时性较差.

论文提出了一种自适应利用多模态信息的跟踪方法,并有以下3点主要贡献：(1)提出了一种实时的多模态跟踪算法，能够自适应地利用热红外和可见光信息实现目标的持续稳健跟踪;(2)设计一种有效的模型更新方法，能够使得模型适应目标外观的变化，且避免噪声的影响;(3)为了有效地评价多模态跟踪方法，论文拍摄6组多模态视频，涵盖了多种挑战因素，如低照度、背景杂乱和热交叉等.在此数据集上，与可见光跟踪方法和多模态跟踪方法进行了实验对比.实验结果表明，该算法能够有效地实现目标的持续稳健跟踪，并且具有实时的处理速度.

1 KCF目标跟踪算法

简要介绍核化相关性滤波器(kernelized correlation filters,简称KCF[1])目标跟踪算法的相关知识.

设有大小X×H维的训练图像块x，且跟踪目标位于x的中心.为了充分利用循环矩阵的特性，对x进行循环移位并适当调整像素位置，将得到的所有图像块x循环移位的结果xw,h,(w,h)∈{0,1,…,W-1}×{0,1,…,H-1}作为KCF分类器的训练样本.同时由于其回归的目标函数y符合高斯分布，即位于中心的样本目标函数值为1，而其他循环移位样本的函数值将平滑地减小到0，即y(w,h)是样本xw,h的标签值.训练分类器的目标是找到一个函数f(x)=ωTz, 这个函数能够使样本xw,h和其回归目标y(w,h)的方差达到最小，即

(1)

其中：φ表示通过核κ将样本xw,h映射到希尔伯特空间,而x和x′的内积可以表示为〈φ(x),φ(x′)〉=κ(x,x′),参数λ为正则化项.

通过φ核化操作，将原本的线性问题x映射到非线性特征空间φ(x)后，式(1)中的解ω可以表示为ω=∑w,hα(w,h)φ(xw,h)，其中

(2)

其中：F和F-1分别表示傅里叶变换和逆傅里叶变换，kx=κ(xw,h,x).

(z)=F-1(F(kz)⊙F(α))，

(3)

2 基于可靠相关度的目标跟踪算法

基于可靠相关度的多模态目标跟踪模型的总体框架如图1所示.

图1 论文方法的框架图

设有视频模态m∈{V,I}，Tm(1)是初始帧目标真值，Tm(i-1)是第i-1帧的目标跟踪结果，则此模态第i帧经公式(3)得到的置信图为

(xm(i))=F-1(F(kxm(i))⊙F(α)),

(xm(i)))，

(4)

由公式(4)可知，热红外与可见光双模态视频数据经KCF算法后，得到两个模态的独立目标响应值.使用最大峰值主副比值(peak-to-sidelobe ratio，简称PSR)，作为两个模态最终跟踪结果的选取准则，即

(5)

(6)

选取准则示例如图2所示.图2显示了两个模态第i帧跟踪结果及相应的PSR值，此选取准则确保了两个模态第i帧的最终跟踪结果是跟踪置信图PSR值最大的模态值，从而保证了跟踪过程中始终选取跟踪结果最优的模态作为最终的跟踪结果.

图2 选取准则示例

由公式(4)可知，不同模态的KCF跟踪参数是独立的，仅取决于各个模态自身的状态，这在单模态场景复杂时，会导致该模态跟踪结果偏差大.为了避免这种情况，笔者使用一个联合模型更新方式，来使各个模态的跟踪状态处于稳定状态.

设TV(i) ,TI(i)分别表示可见光与热红外视频第i帧的跟踪结果，T(i)是两个模态最终的跟踪结果，PSR最大值为PSRmax=max(PSRI,PSRV)，相应的跟踪模态为Tmax，PSR最小值为PSRmin=min(PSRI,PSRV)，相应的跟踪模态为Tmin，则有模型更新公式

(7)

即每个模态按最优的跟踪结果进行更新，较为可靠的模态一定更新，保持模型的适应性，而较欠可靠的模态设置一个阈值ε决定是否要更新.在实验中ε=0.5*PSRmax时，跟踪性能较好.较差模态的更新方式，在信息可靠的情况下，保持模型的有效性；在噪声很大的情况下，可以避免对模型的干扰.

3 实验结果及分析

由于当前公开的多模态数据集，如OSU、ACI等，场景单一、视频序列较少，为了评估论文提出的跟踪算法的性能，笔者构建了一个包括低照度、背景杂乱等条件的多模态视频数据集，这些视频包含了低照度条件下的单人行进、两人交叉遮挡、单个刚体自行车行进等挑战性因素，如图3所示.所有的测试视频均包括可见光视频和热红外视频，分别由普通CCD摄像机(型号为Sony TD-2073)和在线式热红外热像仪(型号为巨哥电子MAG32)所采集.为了清晰，只展示了标有真值的第一帧视频帧，图3(a)～(c)为热红外视频出现热交叉现象，即目标与背景的温度相似，此时，热红外信息不太可靠；图3(d)～(f)为可见光受限的情形，即光线照度较低.

图3 论文拍摄的6组视频

实验中，为了对比在单个模态下的跟踪性能，论文使用了两个快速的视觉跟踪算法作为对比，分别是KCF[1]和Spatio-Temporal Context (STC)[2].而针对多模态跟踪算法，论文选取了L1-PF[8]多模态跟踪算法作为对比.为了公平比较，论文的算法参数在实验中都是固定的，其中正则化项系数λ=10-4，高斯核带宽σ=0.2，线性插值因子设为0.02，采用的HOG特征描述符为4个像素大小.而针对其他两个跟踪算法，直接使用其提供的原始代码，并且其算法的参数也设置为算法提供的默认值.

实验在相同的硬件条件下完成，即在MATLAB 2010a下运行实验代码，主机配置为Intel Xeon® 2.66 G主频处理器，内存12 G.论文方法与KCF，STC和L1-PF方法下的6组视频的跟踪结果精度比较如表1所示，其中黑体表示最优的结果，V表示跟踪方法以可见光视频作为输入，T表示跟踪方法以热红外视频作为输入.从表中可以看出，论文方法达到了实时的处理速度，具有较高的实用性.

表1 中心位置差(CLE)和平均帧率(FPS)

从表1中可以看出，论文方法能够有效地选取可靠的模态进行目标的稳健持续跟踪.特别地，有低照度条件下，可见光视频不能提供有效的目标信息，以可见光作为输入的KCF和STC具有较差的跟踪精度.在热红外视频中，如果出现相似温度的物体或背景，会使得热红外信息具有歧义性，这时以热红外作为输入的KCF和STC则具有较差的跟踪精度；而作为对比的多模态跟踪算法L1-PF在两个模态视频较好时跟踪结果相对准确，但当热红外或者可见光有明显的光照变化时，其跟踪结果有较大的波动.论文方法根据定义的可靠相关度能够自适应地选取不同的模态信息进行目标的跟踪，进而达到稳健持续跟踪的目的.

图4展示了一些跟踪结果图.

图4 实验结果

从图4可以看出，图(a)～(c)是热红外视频不可靠的情况，此时对比算法在热红外视频上跟踪结果较差；图(d)～(f)则是可见光不可靠的情况，此时KCF和STC在可见光视频上跟踪结果较差.算法L1-PF在6组数据集上，当某个模态视频数据发生明显的光照变化时，其跟踪结果就会产生明显的波动.论文方法对于这些情况，均能有效地进行跟踪.