基于博弈论的颜色与运动特征融合跟踪

2018-08-17金泽芬芬

计算机工程 2018年8期

金泽芬芬,,,

(空军工程大学信息与导航学院,西安 710077)

0 概述

在计算机视觉领域中,在长视频流中跟踪机动目标是一项具有挑战性的任务[1]。视觉跟踪技术主要包括视频监控[2]、人机交互[3]和机器人学[4]等。许多学者围绕视觉跟踪技术开展了研究工作,近几年在该领域的理论研究也取得了很大的进展。但在实际应用中,仍面临着许多挑战。在跟踪过程中,目标本身存在尺度、旋转、姿态等复杂的运动情况,此外还有复杂背景环境、遮挡、光照变化等干扰的严重影响,容易导致在目标跟踪过程中出现目标丢失和误跟踪的情况,影响跟踪结果的精度和稳定性。

面对复杂的跟踪情况,采用单一特征的跟踪算法往往缺乏鲁棒性。研究结果表明,基于多特征融合的跟踪算法能够改善目标的检测与跟踪效果,不同特征各有适应较好的场景。如颜色特征对旋转和缩放不敏感、边缘特征对光照不敏感、LBP特征具有较好的旋转不变性和灰度不变性等。多特征融合的跟踪算法主要考虑特征各自的优缺点,通过融合具有互补性的特征来表示目标,以提高目标模型对场景的适应性问题[5-8]。而融合的过程一般是在跟踪中动态地调整不同特征的权值以适应环境的变化[9-12]。文献[5]结合了交互式多模和粒子滤波器来融合CBWH、CLTP和HOG特征。文献[8]提出了一种基于像素、纹理和边缘的多特征关联稀疏表达的跟踪算法,并使用方差比度量来自适应地调整不同特征的权重。文献[11]通过评估目标状态和背景状态之间的不相似性,并最小化加权熵来寻找最优特征组合,从而融合多个特征。这些算法使用不同的方法来融合多个特征,有效地提高了不同程度的跟踪性能。但是,它们会在融合过程中增加不可忽视的计算开支,影响跟踪速度。此外,这些算法对于特征的加权主要依赖于对目标与背景区分度的判断,当区分度较低或判断不准确时,会较大地影响算法的精度。

在目标跟踪中,颜色是一种重要的视觉特征,通常表示为直方图分布的形式,它对目标旋转、非刚体变换及遮挡都比较鲁棒,因此被广泛地应用在视觉目标跟踪中。而在运动特征中的光流场,不仅包括运动信息,还包含了图像区域的三维结构信息,在视觉运动的研究中非常重要。

因此,本文采用颜色特征和光流法表示的运动特征,提出一种在均值迁移(Mean Shift,MS)框架下融合两特征的跟踪方法。该方法将2种特征视为2个博弈者,通过博弈寻找均衡点完成目标跟踪。

1 MS跟踪原理

MS算法是目标跟踪领域中的一个重要算法。该算法是一种非参数的密度估计算法,能够快速地通过迭代在概率密度函数的局部最大值处收敛[13]。其跟踪思路是首先选取目标的所在区域,并计算其参考特征直方图模型。

在后续的图像序列中,以上一帧目标所在的位置为初始位置y,计算目标跟踪窗口所在图像区域的特征直方图:

将该直方图与参考直方图用Bhattacharyya系数来进行测量,表示如下:

其中,m表示直方图位数,其余参数与式(3)一致。为寻找使Bhattacharyya系数最大的中心位置,对式(5)在p(y0)处泰勒展开,得:

则选取目标中心位置为:

其中,g(·)为k(·)函数的导数。通过重复上述步骤,能够实现目标跟踪。

2 目标特征提取

视觉跟踪中的目标特征提取是在表征图像信息的同时降低信息尺度的过程[14]。由于传统MS跟踪方法用矩形或椭圆形选定目标区域,在计算目标的颜色直方图分布时会将部分相邻背景的像素统计为目标像素,这种误差容易导致MS跟踪方法无法对目标准确跟踪或跟踪失败。而运动特征能够很好地弥补原始MS算法中这种用单一的颜色特征来描述跟踪目标的缺陷。因此,采用这2个特征进行目标表示。考虑到传统MS跟踪方法中采用颜色直方图来表征目标,故在本文中,采用颜色直方图作为颜色特征,并通过光流场的计算来构造光流直方图作为运动特征。

2.1 改进巴氏指标的颜色直方图

在颜色直方图匹配问题上,本文采用改进的巴氏指标作为相似性度量的方法,该方法能够抑制背景干扰,从而提升算法的跟踪性能[15]。具体方法如下:

对目标区域进行延伸,选取面积1.44倍于目标区域的范围为背景区域(则背景区域的长和宽都是1.2倍于目标区域),计算目标区域的颜色直方图HO(v)和背景颜色直方图HQ(v),则定义颜色区间v(设置颜色区间为16,故v为0～15的整数)的置信度为[15]:

将其引入式(6),得到新的像素点权值公式:

如此所得到的结果抑制了背景对目标的影响。这种方法通过对背景中的像素进行直方图计算,并用所得到的结果作为目标直方图各个区间的权值,减小在背景中出现较多的颜色区间的权值,从而达到抑制目标区域中背景像素作用的目的。这种方法使算法不容易被与目标周围背景颜色相近的物体影响。

2.2 光流直方图

MS跟踪算法根据颜色直方图对目标建模,用Bhattaharry系数作为相似性度量来确定运动目标在下一帧中的位置,从而实现目标的跟踪。类似地,可以提取目标的光流直方图来描述运动特征。

本文采取的光流计算方法是在Horn-Schunck[16]算法的基础上通过一种由粗到精(Coarse-to-Fine)[17]的方法,得到2幅图像之间点对点的对应关系,从而描述目标的运动场。每个像素点的光流由水平方向和竖直方向上的分量所组成的向量表示,即点i的光流表示为(xi,yi)。将计算得出的光流映射到16个区间,如图1和图2所示。图1中的0～15对应x或y轴分量上光流的幅度大小。例如,点i对应光流矢量的x轴分量xi的映射结果为(8×xi/xmax+7)(最大幅值对应方向为正时)或(8×xi/xmax+8)(最大幅值对应方向为负时),其中xmax为该帧图像所计算出的光流最大幅值。图2中浅色的区域代表x轴方向的光流,深色区域代表y轴方向的光流。如此得到光流直方图,并在后续的直方图比较中采用巴氏系数作为直方图相似性度量。

图1 光流映射方式

图2 光流映射直方图

目标的运动特征模型,即初始帧和第二帧的目标区域所计算得的光流直方图为:

其中,式(11)中各参数含义与式(1)一致。

由于在目标运动的过程中,光流会持续变化,因此光流模板必须不断更新。考虑到光流在短时间内不会发生剧烈变化,本文应用在过去一段时间内的光流信息,采用以下公式进行模板的更新:

qt=((1-α)qt-1+αpt)

(12)

其中,qt和pt分别是第t帧的参考直方图和当前帧直方图,qt-1为第t-1帧的参考直方图,α为模型更新率。在本文实验中,通过大量测试,选定α取值为0.1。

光流直方图利用了运动目标的方向信息,配合模型更新,能够更准确地掌握目标的运动变化,从而达到提升算法精度的目的。

3 基于博弈论的融合策略

不同特征在面对不同环境时,往往有各自的优缺点。因此,融合策略能否针对跟踪场景的动态变化更好地表示目标至关重要。本文算法采用博弈论的思想进行特征融合,使不同特征在跟踪中动态地达到最佳平衡,以提高特征表示的鲁棒性。

博弈论主要用于在多个决策主体之间存在利益关联或冲突时,根据自身能力和所掌握的信息,做出有利于自己或群体的决策[18]。博弈论中的均衡是一种策略组合,使得每个参与者都得到令自己满意的决策结果。常见的均衡主要包括上策均衡、纳什均衡、防共谋均衡、颤抖手均衡、完美贝叶斯均衡等等。其中,纳什均衡在博弈论中应用最广泛。纳什均衡的特点是,每个参与者的策略都是对其他参与者的最优反应。这一特性最符合本文所期望的博弈结果,故在本文的博弈中采用纳什均衡。

文献[19]提出的基于博弈论的跟踪算法采用了颜色特征和帧差法表示的运动特征进行融合跟踪,取得了一定的效果。但帧差法对环境噪声十分敏感,对颜色一致的运动目标在提取时容易出现目标内部的空洞,导致提取的目标不完整。因此,本文在文献[19]的基础上,提出改进算法。主要的改进内容有以下3点:

1)区别于文献[19]所采用的颜色特征,本文采用改进的巴氏系数进行颜色特征的匹配。

2)相较于帧差法,采用运动信息更完整更丰富的光流法作为运动特征。

3)考虑到运动特征不断变化的特性,对运动特征进行了模型更新。此外,区别于文献[19]所采用的融合方式,在纳什均衡的基础上,寻求博弈的轻微利他均衡[20],使每一个参与者的收益都能够受到其他参与者的决策影响,从而实现决策信息的交互。由于这种影响是轻微的,因此能够避免影响过度导致某一特征被始终抑制的情况。

式(13)是依赖于ε的博弈中参与者i的收益函数,除了自身收益fi(x)之外,还对其他n-1个参与者的收益有所考虑,因为ε一般较小,作用轻微,所以称为轻微利他均衡。

从式(13)中可以看出,本文提出的融合框架不受特征数目的限制,只需要调整参与者集合N={1,2,…,n},并给出对应的ε,就能够改变融合的特征及特征数量。

本文采取的博弈框架中特征数目为2个,记参与者集合为N={1,2},f1和f2为2个参与者的收益函数,Y1和Y2为2个参与者的行动空间。其中,颜色特征和运动特征为两参与者,图像中的像素点位置视为参与者的行动空间。定义参与者的初始收益函数如下:

其中,ρ(qc,pc(y1))和ρ(qm,pm(y2))分别为颜色特征和运动特征的Bhattacharyya系数。

为达到博弈过程中信息交互的目的,根据式(13)引入轻微利他均衡,定义新的收益函数为:

其中,ρ(qc,pc(y1))和ρ(qm,pm(y2))的含义同式(14)。

由于不同场景下特征的可靠性不同,因此通过参考特征的可信度来设定参数ε的取值。在实验过程中观察发现,当光流特征匹配的相似度大于0.9时,跟踪结果较为准确,否则容易出现误跟踪的情况;另外,当颜色特征匹配的相似度大于0.85时,跟踪结果较为准确,否则会出现跟踪框漂移的情况。因此,分别将0.9和0.85作为光流特征和颜色特征可信度的阈值。当特征匹配的相似度大于阈值时,对其对应的ε取较大的值,否则,取较小的值,以此动态地调整该特征在跟踪过程中的作用。

为确定不同情况下ε的取值,本文进行大量实验测试。为避免出现信息交互的过程中,某一特征的影响过大而导致另一特征始终被抑制的情况,采用的是轻微利他均衡。因此,在对照实验中,对ε的取值范围为0.1～0.3。

实验结果如表1所示。其中,ε1L表示当光流特征的可信度小于阈值时参数ε1的取值,ε1H表示该可信度大于或等于阈值时ε1的取值。同理,ε2L表示当颜色特征的可信度小于阈值时参数ε2的取值,ε2H表示该可信度大于或等于阈值时ε2的取值。表1数值为此取值下,综合所有视频的跟踪结果得到的精度值(文献[21]中定义)。

表1 参数ε取值变化对比

根据表1的结果比较,选取使得精度值最高的情况,对参数ε的取值规则设定如下:

1)ρ(qm,pm(y2))≥0.9时,ε1取0.2,否则,取0.1。

2)ρ(qc,pc(y1))≥0.85时,ε2取0.2,否则,取0.1。

4 本文算法流程

基于两特征博弈的跟踪算法框架如图3所示,具体跟踪流程如下:

步骤1读入连续两帧图像和前一帧图像中目标的初始位置y0。

步骤2根据初始位置,分别计算颜色直方图ρc(y0)和光流直方图ρm(y0)。

步骤5分别将y1、y2代入式(5)分别计算相似度,输出相似度较大的位置作为y;并将y→y0返回步骤2。

5 实验结果与分析

为对跟踪结果进行定量分析,引入精度和成功率[21]作为评价指标来对算法进行对比分析。其中跟踪精度由跟踪结果的平均中心位置误差得出,而成功率的大小取决于跟踪结果对目标真实位置的覆盖率。

由于算法限制,无法对灰度视频进行目标跟踪,因此将文献[21]提供的50组视频中的15组灰度视频去除,对剩余的35组彩色视频进行实验。实验结果如图4所示。其中,算法名称后的中括号中分别给出成功率值和精度值。部分跟踪视频结果比较如表2所示,其中,括号前的数字表示覆盖率为0.5时的成功率,括号内的数字表示平均中心误差(像素),粗体数据为每个图像序列对应的最优算法结果,斜体数据为次优算法结果。

图4 成功率与精度曲线对比

表2 部分跟踪视频结果比较

相比于对比算法,本文算法的成功率始终保持在较高水平,平均中心误差保持在较低水平,成功率AUC值和精度值均为最高。表2的MountainBike视频和Woman视频,由于场景变化较为单一,且目标未出现明显姿态变化,本文算法的跟踪结果相较对比算法而言准确度稍逊。在其他视频中,本文算法的结果均为最优。在面对较为复杂的场景和目标变化时,本文算法具有更为明显的优势。通过对实验结果进行统计分析能够看出,相较于与乘性融合和加性融合算法,本文算法的融合策略的跟踪精度更高;相较于单一特征的算法,跟踪性能具有明显的提升。

从跟踪速度上看,本文算法在实验平台上对35组视频的跟踪运行时间为平均2 frame/s,实时性良好。

6 结束语

为使不同特征在融合过程中能够适应场景的变化,充分发挥各自优势,本文提出一种颜色和运动特征博弈融合的跟踪算法。通过采用改进巴氏指标的颜色直方图和光流直方图进行博弈,并在MS的迭代下寻找使收益函数最大的目标中心位置,实现准确的目标跟踪。在本文的跟踪过程中,颜色特征和运动特征分别描述了目标的外观信息和局部运动信息,并通过信息交互提升了算法的跟踪性能。本文通过对35组实验进行定量分析和定性分析,结果验证了本文算法的有效性。在后续的工作中,将进一步研究更多鲁棒特征的组合,以期得到鲁棒性效果更好的特征跟踪方法。