基于超像素的多特征融合的水平集轮廓跟踪

2018-10-18陈科鑫冯媛媛邹见效

电子科技大学学报 2018年5期

周雪，陈科鑫，冯媛媛，邹见效

(电子科技大学自动化工程学院成都 611731)

由于超像素具有计算高效、富含语义、保持边界等优点，近年来被广泛应用于目标跟踪领域[1-3]。当应用于基于水平集的主动轮廓跟踪，该类方法需要一个有效的速度函数来引导轮廓进化，采用超像素作为图像描述和表达的基本单元来建模取得了比像素表达更显著的跟踪效果[3]。

越来越多的基于水平集的方法尽可能多地从数据自身挖掘更多的信息用于建模速度函数，因此，融合多种特征对提高方法的鲁棒性十分重要[4-5]。如果一种特征被干扰失效，剩下的仍然能够继续提供有效的特征保证跟踪可以稳定持续下去。文献[4]在像素级的水平集跟踪框架中融合了颜色、形状和运动信息。运动信息主要体现在检测突然运动，并采用粒子群优化算法提取全局运动信息初始化当前帧轮廓。类似地，除了表观特征(如颜色、纹理等)，运动特征作为一种有效的补充特征在水平集跟踪方法中提供了有关目标多一层的信息。文献[5]直接考虑特征层面的融合，将颜色、纹理和运动特征串成一个特征向量，通过建立联合概率密度函数在贝叶斯框架下对问题进行建模。这类方法通常建立的是产生式模型，只关注目标信息，缺乏对背景信息的考虑，通常不具有判别性，而且不同特征的权重一般通过标定好的数据集获得。为了构建更加具有判别性的速度函数，本文引入以超像素为基本单元的图像描述方式，考虑在决策层对表观特征(包含颜色和纹理)和运动特征进行融合，同时引入背景信息建立判别式模型。即在表观和运动的联合决策空间，同时具有较高的属于目标的置信值并且较低的属于背景的置信值，获得最终的更高的决策值。该决策融合思想反映了目标和背景的竞争机制。

在上述研究动机启发下，本文也同时考虑颜色、纹理和运动3种特征，提出一个融合多特征的基于超像素的主动轮廓跟踪方法。该工作的主要创新点存在于以下3个方面：

1)提出了一个超像素驱动的判别式表观模型构建方法，该方法基于非参数核密度估计，不需要任何模型先验假设，直接利用已有样本来估计每个超像素与目标或背景的相似程度；

2)利用运动目标光流场的统计特性，提出一个自适应选择阈值机制，通过该阈值区分并加强目标区域和背景区域的相对运动，得到一个更适合轮廓进化的光流速度场；

3)在半朴素贝叶斯框架下，在决策层融合表观和运动信息，获得具有更显著判别性的速度场用于引导水平集轮廓进化。

1 超像素驱动的水平集跟踪

1.1 水平集跟踪框架

一般来说，水平集跟踪可以看作是一个迭代轮廓进化问题，其中轮廓C通常建模成与能量函数相关，在数学上通过采用变分的方法最小化能量函数进行求解，即基于下述的梯度下降法指导轮廓进化：

式中，E(C)是关于轮廓C的能量函数，轮廓采用隐式的水平集描述方式，即一个n维的轮廓以n+1维的水平集函数Φ的零值代表[6]：水平集函数通常用一个带符号的距离函数Φ来表达：

式中，Rin和Rout分别代表轮廓C的内部和外部区域；是像素点(x,y)距离轮廓C最短的欧式距离。根据欧拉−拉格朗日理论，水平集进化方程为：

式中，F代表速度函数；为单位法线向量。速度函数F通常由两部分组成：内部能量速度项Fcurv(与轮廓曲率相关，有平滑轮廓和防止尖点振荡的作用)和外部能量速度项Fdata。Fdata依赖于图像数据，通常建模成反映目标区域和背景区域竞争关系的能量项，通过不同的符号引导轮廓朝不同方向进化，因此它在引导轮廓进化过程中起着十分重要的作用。本文重点关注如何融合表观和运动信息，产生更具有判别性的速度项Fdata。

1.2 超像素驱动的判别式表观模型

本文采用以超像素为图像描述基本单元建模目标表观模型。为了更有效提取超像素的判别信息，提出了一个基于非参数核密度估计的超像素分类决策，在不需要仔细选择模型的条件下同时将类间可分性考虑进来。基于计算效率，类似于文献[1]，只考虑目标周围的感兴趣区域，并对该区域进行SLIC(simple linear iterative cluster)超像素分割[7]。

已知来自于测试图像中的一个分割好的超像素sp，定义一个基于目标表观似然函数比l(sp)的对称的置信分数为：

1.3 基于光流场统计特性构建水平集速度场

当表观特征单独作用容易被噪音干扰时，用光流刻画的运动信息能够作为其有效的补充[9-10]。因此在表观特征的基础上继续引入运动信息，设计了一个基于光流运动场的水平集速度函数以此区分和增强目标和背景的相对运动。

1.3.1 局部到全局的光流方向直方图

首先，对感兴趣区域进行稠密光流计算[9]，产生的光流速度场中每个像素的速度分量用向量(u,v)表示。采用孟塞尔颜色系统将光流场可视化，不同的颜色代表不同的运动方向，颜色的深浅则代表运动的幅度大小，即颜色越深，代表运动越快，反之越慢，如图1a、图1b所示。

然后，对光流场彩色图像采用SLIC方法进行超像素分割[7]，具有相同运动属性的像素被聚集成一个超像素单元。为了获取更精准的目标运动场并去除来自背景的噪音干扰，采取一个分层的局部到全局的策略获取光流方向直方图。通过光流的统计信息获取可能的目标区域模板。

1)局部光流方向直方图统计。类似于HOG(histogram of gradient)对梯度进行方向直方图统计[11]，统计每个超像素内所有像素的光流方向直方图，将方向区间(−180°～180°)划分成12个bin子区间，每个子区间依次增加30°，将落入每个方向bin子区间内的像素光流幅值进行累加作为直方图的纵坐标，归一化后得到每个超像素的局部光流方向直方图。选取幅值最大的bin所在的方向和幅值作为该超像素的速度主方向。图1c为超像素的光流主方向结果，每个超像素用质心点的一个主方向代表，箭头所指的方向即为光流主方向，箭头的长短代表幅值的大小，即箭头越长，幅值越大。具有较小光流幅值的超像素则忽略不计。

2)全局光流方向直方图统计。由于运动目标具有较明显且方向一致性的光流场。因此根据这一特性，在得到了每个超像素主光流的基础上，对所有超像素统计其全局光流方向直方图，仍然按照12个bin子方向划分，统计落入每个子区间的超像素的光流幅值累加和。将所有bin的幅值累加和从大到小排序，取前70%所对应的超像素为可能的目标区域，其他超像素对应的区域为可能的背景区域，形成一个二值目标模板Mask(用M标记，目标用1代表，背景则用0)。图1d为包含了前70%最大运动幅值的目标模板，从图中可以看出，该方法计算得到的模板确实以较高的精度实现了目标和背景区域的分割。

图1 目标感兴趣区域光流场可视化以及灰度级调整对比效果图

1.3.2 自适应调整光流灰度级

基于得到的可能目标区域模板M，可以得到一个粗糙的分割结果。为了提高目标和背景可分性，提出了一个基于自适应选择阈值的灰度级调整机制。首先将光流彩色图转换成灰度图：其中R、G和B分别代表彩色空间3个通道的值。将M与1−M分别和光流灰度图Igray做点乘运算，可以得到目标区域和背景区域的光流灰度值向量。假定服从正态分布，对目标区域和背景区域光流灰度采用最大似然估计分别估计出两个正态分布的参数(即均值和方差)。在等先验概率条件下以及服从贝叶斯公式[12]，最大化后验概率可以由最大化似然函数近似：

式中，c为类别标记，来自obj或者bac。因此，根据最小错误率贝叶斯准则[15]，决策的分界线是两个似然函数的交点，即目标区域和背景区域的分割阈值T。样本x落在分界线T左右两侧分别归为目标obj类或背景bac类。距离阈值越远的样本说明它们属于某个类别的置信度越高，反之如果位于阈值近邻的样本点，则本身具有极大的不确定性。根据这一思想，提出了一种动态调整灰度级、提高目标类和背景类差异性的方法。调整的方向(增加或减小)由样本与阈值的差值的符号决定，调整的幅度则由样本离阈值的远近决定。因此，设计了如下的动态调整系数

式中，sign(⋅)为符号函数；r为控制指数函数变化幅度的参数。对于分别位于阈值两边的样本，为了使调整的幅度平滑变化，并且更加符合原始分布，2σ根据Igray位于T的两端分别取其对应的原始分布的方差[15]，即：

式中，σobj和σbac分别对应目标和背景正态似然函数的方差参数。得到了灰度级调整系数以后，对原始光流灰度值乘以调整系数得到改变后的光流灰度值图1e、图1f为根据分割阈值动态调整光流灰度级与未改变之前的对比示意图，可以看出，通过调整灰度级，目标和背景的区分度更加明显，分界处更加清晰准确。这样，可以得到的改变后的光流灰度图标记为Iadjust。

1.3.3 产生用于轮廓进化的速度场

为了使得到的速度场更适合水平集进化，需要对Iadjust做归一化和尺度上的调整操作。首先将调整后的灰度级范围约束到区间

然后再将其归一化到[−1,1]区间内，并令其等于基于运动信息的水平集进化速度函数Fm，即：

1.4 融合表观和运动信息的水平集函数进化

在分别得到基于表观的速度函数Fa和基于运动信息的速度函数Fm以后，本文提出在决策层进行两种特征的融合。Fa和Fm可以看成是分别在表观和运动通道的置信决策值。融合策略同时兼顾目标类和背景类，即在表观和运动联合置信空间，具有较高的属于目标的置信度同时较低的属于背景的置信值，该样本则具有更高的置信度，是来自于目标的。

定义带符号的最终的置信值Ffinal为：

式中，上标i代表第i个样本；后验概率反映了已知样本i在表观和运动通道的置信值，其最终属于目标类的概率；同理类推

图2为基于随机蕨框架的决策层融合示意图。

图2 基于随机蕨框架的决策层融合示意图

根据贝叶斯准则以及等先验概率假设，后验概率正比于似然函数。因此问题最终归结为求取联合似然函数由于表观和运动两个特征空间可以看作是独立的，借鉴随机蕨方法中的思想[13]将每棵蕨独立看待，最终在一个半朴素贝叶斯框架下融合多棵蕨的似然概率值。训练样本按照结构输入到每棵蕨中。Fa和Fm的取值范围都在[−1,1]之间，将该区间等间隔分成10个小区间。Fa作为第一棵蕨，Fm作为第二棵蕨，分别在每一棵蕨上用直方图统计样本属于目标obj类或背景bac类的似然概率。因此，基于半朴素贝叶斯框架，最终的置信值为：

最终，将Ffinal赋值给Fdata，迭代更新水平集函数。初始轮廓在基于数据驱动的速度分量Fdata和基于曲率的速度分量Fcurv的联合作用下，逐渐收敛到目标的边缘处，完成对目标轮廓的跟踪，有：

式中，Fcurv=εκ是正比于曲率κ的内在速度分量，起着平滑轮廓防止尖点振荡的作用[14]。

2 实验结果及分析

为了验证本文提出方法的有效性，在9个视频序列上进行了一系列的实验，其中包括与现有其他代表性方法的比较实验。这些序列包含了轮廓跟踪过程中常会遇到的难题：相似背景颜色的干扰、噪音干扰、部分遮挡、运动模糊等。对于每一个序列，第一帧用来初始化，手动勾画的初始轮廓用于标定超像素的标签信息。

实验中的参数配置如下：SLIC超像素分割算法中的空间邻近权重和超像素个数参数分别为15和500。对于每个超像素，提取125维的颜色直方图和30维的LBP直方图作为表观特征。核密度估计中的参数k和1σ分别取值为10和20。正负样本池的容量分别为1 000和2 000，式(8)中的参数r设为10。

实验结果如图3所示，图中第1列对应的是超像素在光流彩色图上的分割结果，第2列和第3列分别对应经过灰度调整以及未进行灰度调整的轮廓跟踪结果，每个结果图的右上角是跟踪结果的放大示意图。实验中只考虑光流信息，并基于获得的光流灰度图直接进行轮廓进化，将经过灰度调整与未进行灰度调整的结果进行对比。从结果可以很明显看出，本文提出的经过灰度调整后的轮廓跟踪结果比没有调整的更加准确和鲁棒。作为常用表观特征的有效补充，融合多个特征可以使得跟踪结果更加优化。

为了更好地体现本文方法的优势，将该方法与现有代表性的两种方法进行了定性和定量的比较。这两种方法分别记为SPT(robust superpixel tracking[1])和OFL(optical flow and level set[5])。为了定量评估这几种跟踪方法的准确率，引入一种基于PASCAL VOC覆盖率的准确率分值(Ascore)，即反映了跟踪轮廓Ct和标准轮廓Cgt之间的重叠率：

SPT[1]方法是基于均值漂移聚类算法得到的表观置信图，然后基于置信图继续采用水平集的轮廓跟踪方法得到最终的跟踪轮廓。OFL[5]则是在特征层融合颜色、纹理及运动信息。

图3 Lemming序列上的对比实验结果

图4 为在3个序列上不同方法的对比跟踪结果。

Lemming序列是在一个杂乱的背景中跟踪一个刚性玩偶，跟踪过程中存在严重的运动模糊以及部分遮挡，目标有时还处于静止的状态。该序列能更好地体现本文方法在运动模糊表观特征失效时，运动特征体现的作用以及静止状态下运动特征失效，而表观特征体现的作用。

Bottle序列是在有相似颜色背景中跟踪一个水杯，当颜色信息失效的时候，运动信息作为其有效的补充，可以提高超像素的置信度，获得鲁棒的跟踪结果。

Walk序列是在部分遮挡情况下跟踪一个非刚体人体目标，体现了本文方法在结合表观和运动信息在处理大形变目标上的优势。从跟踪结果中可以看出，由于SPT方法没有考虑目标的运动信息，因此在有相似颜色背景干扰情况下，很容易把一部分背景也包括进去；并且该方法依赖于不是很精确的均值漂移分类结果，随着跟踪不断进行，属于背景的超像素逐渐被包含到目标类中，造成跟踪误差累积，容易出现漂移或跟踪失败等情况。OFL方法融合多个特征通道，然而其基于像素级别的特征融合策略缺少考虑背景信息进行判别，容易受噪音干扰最终影响跟踪结果的精准度。

从图4的对比跟踪结果可看出，本文的方法无论是在相似背景颜色干扰、杂乱背景或者部分遮挡等情况下都能获得比较准确的轮廓跟踪结果。表1是3个序列的描述以及不同方法的跟踪精度对比。

图4 3个方法在3个序列上的跟踪结果对比

表1 3个序列的描述以及不同方法的跟踪精度对比

更进一步，图5为3个方法在9个视频序列上的定量跟踪精度的对比结果。很明显在大多数情况下本文的方法在鲁棒性和准确率方面优于另外两种方法。

图5 3个方法在9个序列上的跟踪准确率定量比较

3 结束语

本文提出了一个超像素驱动的用于水平集轮廓跟踪的判别式速度函数建模方法。提取以超像素为基本单元的中层视觉特征，并将其融入到判别式表观模型构建中，能更有效区分目标和背景。更进一步，作为表观信息的有效补充，充分利用光流场的统计信息在决策层与表观信息进行融合，产生更加可靠有利于轮廓进化的速度函数。和现有几种代表性方法的定性和定量对比，验证了本文方法在具有相似背景颜色干扰、运动模糊以及部分遮挡等情况下的有效性和鲁棒性。