复杂场景中的视觉跟踪研究

2016-03-22丁建伟刘伟

电脑知识与技术 2016年1期

丁建伟++刘伟

摘要：现有的视觉跟踪方法在复杂场景中依然难以有效跟踪运动物体，而融合多种特征能有效地提升算法在复杂场景中的跟踪效果。该文研究了在粒子滤波框架下基于多种特征融合的视觉跟踪算法，通过在线训练支持向量机分类器构造判别式目标表观模型。在复杂场景视频中进行测试，实验结果表明该文跟踪算法具有较好的鲁棒性和准确性。

关键词：视觉跟踪；复杂场景；融合；支持向量机；粒子滤波

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2016）01-0196-02

Research on Visual Tracking in Complex Scenes

DING Jian-wei1，LIU Wei2，3

（1.People's Public Security University of China， Beijing， 102623， China； 2.School of Electro-mechanical Engineering， Nanyang Normal University， Nanyang 473061， China； 3.Oil Equipment Intelligent Control Engineering Laboratory of Henan Province， Nanyang Normal University， Nanyang 473061， China）

Abstract：It is still difficult for existing visual tracking algorithms to track effectively moving objects in complex scenes. However， it can promote tracking performances largely by integrating multiple features in complex scenes. This paper proposes a multiple features fusion based visual tracking algorithm in particle filter framework. And the online trained support vector machine classifier is used to construct the discriminative appearance model. The method is tested in videos with complex scenes， and experimental results shows that the proposed tracking algorithm is robust and accurate.

Key words：visual tracking； complex scenes； fusion； support vector machine； particle filter

1 概述

视觉跟踪研究如何让计算机自动确定感兴趣的目标在视频中的位置、轨迹以及运动参数等信息，是计算机视觉的关键研究问题。近年来，虽然视觉跟踪研究有了长足的进步，但当场景中存在严重的图像噪声、快速的光照、姿态变化以及复杂的目标运动时，现有的目标跟踪算法依然很难解决这些难题，原因在于跟踪的核心问题目标表观建模还没有得到根本解决。

对目标表观进行建模，一般需要首先提取跟踪物体的视觉特征，常用的特征有原始像素特征[1]和直方图特征[2]等，这些特征都有其优缺点，并不适用于任意场景和物体。因此，本文研究基于多种视觉特征描述目标表观，避免使用单一特征存在的缺点，提升跟踪算法在复杂场景中的性能，

2 算法框架

在粒子滤波框架下，跟踪可以看做是贝叶斯状态空间推理问题：

[p（Xt|Ot）∝p（ot|Xt）p（Xt|Xt-1）p（Xt|Ot）dXt-1] （1）

其中[Ot={o1，o2…ot}]是目标的观测集合，[ot]是目标在t时刻的观测向量。[Xt]是目标在t时刻的状态参数，[Xt=（xt，yt，ht，wt）]，其中[xt]，[yt]，[ht]和[wt]分别表示目标在横轴和纵轴的位移，以及跟踪方框的长度和宽度。跟踪过程由表观似然度函数[p（ot|Xt）]和目标动态函数[p（Xt|Xt-1）]决定，下面分别讨论。

2.1表观似然度函数

表观似然度函数[p（ot|Xt）]表示目标状态为[Xt]时观测为[ot]的概率，基于在线学习的目标表观模型计算得到。目标表观模型可分为生成式和判别式两种，由于判别式模型融合了背景信息，因而在跟踪时能够比生成式模型更好的区分相似物体的干扰，本文选择判别式表观模型描述目标，具体包括特征提取和在线分类器学习。

2.1.1 多特征融合

为了克服单一特征造成的局限性，提高跟踪算法在复杂场景下的准确性，本文选择融合HSI颜色特征、局部二值模式（Local Binary Patterns，LBP）特征、方向梯度直方图（Histogram of Oriented Gradient， HOG）特征描述目标。

HSI颜色特征：基于HSI颜色空间提取的特征，包括色度（Hue）、饱和度（Saturation）和灰度（Intensity）。将输入图像从RGB空间转化到HSI空间，调整图像尺寸为标准大小，例如24×24像素，并将该颜色特征向量进行归一化。

LBP特征：是一种有效的纹理描述算子，用来度量和提取图像局部的纹理信息，具有旋转不变性和灰度不变性等显著的优点。

HOG特征：HOG特征[3]通过计算和统计图像局部区域的梯度方向直方图来描述物体，对图像的几何和光学形变都能保持较好的不变性，因而在计算机视觉领域获得了广泛应用，特别是在图像检测领域取得了巨大的成功。由于原始的HOG特征提取比较费时，因此本文采用文献[7]描述的快速HOG特征提取方法，并对提取的HOG特征进行归一化。

将HSI颜色特征、LBP特征和HOG特征组合，即可得到目标图像的特征描述子[ot]。

2.1.2 在线分类器学习

在判别式跟踪框架中，表观似然度函数[p（ot|Xt）]由在线学习的二分类器计算得到，本文选择支持向量机（Support Vector Machine， SVM）分类器。SVM分类器的输入是特征描述子[ot]，设输出的分类结果为[y∈{+1，-1}]，其中数值-1代表背景，而数值+1代表跟踪目标，则目标表观似然度由下式计算得到：

[p（ot|Xt）∝f（ot）=wTot+b] （2）

式中[f（ot）]是输入为特征向量[ot]输出分类结果为[y=+1]的概率，[w]和[b]是SVM分类器的模型参数。

在得到每一帧跟踪结果后，在跟踪结果周围提取新的样本，然后用来训练SVM分类器，得到新的模型参数，在实验中使用了L2正则化的SVM训练方式[4]。

2.2目标动态函数

目标动态函数[p（Xt|Xt-1）]表示连续帧之间目标状态的转移概率，考虑到算法的实时性要求，一般认为目标在当前帧的状态与前一帧的状态相差不大，因此可以假设[Xt]服从以[Xt-1]为均值的高斯分布，即

[p（Xt|Xt-1）=N（Xt；Xt-1，Φ）] （3）

式中[N]表示高斯分布，[Φ]是对角协方差矩阵，[Φ=diag（σ2x，σ2y，σ2h，σ2w）]，[σ2x，σ2y，σ2h，σ2w]是常数参数。

3 实验

为了验证算法在复杂场景下跟踪目标的有效性，本文选择了三段公开的跟踪测试视频[5]，视频中存在各种跟踪难题，包括光照突然变化、大的姿态变化、杂乱背景和低质量图像等。

图1、图2和图3分别是在视频“David”、“Car4”、“Woman”上测试的跟踪结果截图。图1跟踪的目标是人脸，视频中存在光照突变，姿态变化和杂乱背景等。图2跟踪的目标是汽车，视频中存在光照突变，尺度变化等。图3跟踪的目标是行人，视频中存在物体遮挡，和杂乱背景等。由图可知，本文算法可以准确的跟踪目标。

图1 在视频“David”上的跟踪结果截图

图2 在视频“Car4”上的跟踪结果截图

图3 在视频“Woman”上的跟踪结果截图

4 结论

本文研究了复杂场景中目标跟踪的难题，为了改善基于单一特征很难有效跟踪目标的缺点，本文通过融合多种特征对目标进行跟踪。为了检验算法的有效性，选取了复杂场景的视频进行测试，实验结果表明使用多种特征能准确鲁棒的跟踪目标。

参考文献：

[1] Ross D A， Lim J， Lin R S， et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision， 2008，77（1）：125–141.

[2] Comaniciu D， Ramesh V， Meer P. Kernel-based object tracking[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence， 2003，25（5）：564–577.

[3] Navneet Dalal， Bill Triggs. Histograms of Oriented Gradients for Human Detection. IEEE Conference on Computer Vision and Pattern Recognition[C]. San Diego： IEEE Press， 2005：886-893.

[4] Zhuang Wang， Slobodan Vucetic. Online training on a budget of support vector machines using twin prototypes[J]. Statistical Analysis and Data Mining， 2010， 3（3）：149-169.

[5] Wu J， Lim J， Yang M H. Online Object Tracking： A Benchmark. IEEE Conference on Computer Vision and Pattern Recognition[C]. Oregon： IEEE Press， 2013：2411-2418.