一种抗遮挡的时空上下文目标跟踪*

2019-07-20沈茂先陈国栋

火力与指挥控制 2019年6期

梁宵，沈茂先，陈国栋

（沈阳航空航天大学自动化学院，沈阳 110136）

0 引言

目标跟踪是计算机视觉领域一个热门的研究方向，其广泛地应用于军事与民用方面。军事方面如飞行器上对空中和地面目标进行跟踪、武器的精确制导等；民用方面如对交通状况进行视频监控等。近些年目标跟踪出现了许多的跟踪算法，如基于压缩感知的跟踪算法［1-2］、相关滤波算法［3-8］、粒子滤波算法［9］、基于神经网络的跟踪算法［10-14］、MIL（Visual Tracking with Online Multiple Instance Learning，MIL）算法［15-16］、TLD（Tracking-Learning-Detecting，TLD）算法［17］等等。压缩感知算法是基于稀疏感知理论，通过一个满足RIP（Restricted Isometry Property，RIP）条件的稀疏测量矩阵对原图像特征空间进行投影，得到一个低维压缩子空间，这种低维压缩子空间可以很好地保留高维图像特征空间的信息。相关滤波算法采用相关运算和循环样本转化到频域加速的方式进行跟踪。在相关滤波的框架下，J.F.Henriques等人［3］将线性空间通过核函数转化到非线性空间，并使用了多通道的梯度直方图特征，使相关滤波的跟踪性能得到了进一步提升。GAO等人［4］在相关滤波的基础上针对边界效应提出解决方案，其加入了空间惩罚项，在效果上取得了突破性的进步，但空间惩罚项的加入破坏了岭回归方程的封闭解，只能用高斯-赛德尔迭代法求解，降低了运算速度。C.Ma等人［5］在相关滤波的基础上增加了置信度滤波器，其借鉴了TLD［17］中的随机蕨分类器，并改进了长时间目标跟踪的效果。该算法能够处理遮挡情况，用Peak SideLobe Ratio（PSR）来判断目标是否遮挡，遮挡后用随机蕨分类器重新定位目标，精度相较于传统相关滤波算法明显提高，但是由于每帧都训练随机蕨分类器导致实时性降低。前述的算法一般只能达到一个方面的要求，比如实时性或者跟踪精度。模板匹配方法的实时性虽然可以达到要求，但是其精度却受提取目标特征的限制，特征复杂时实时性差，特征简单时跟踪精度差。卷积神经网络应用于目标跟踪时，其跟踪精度虽然很高，但是实时性难以满足要求。

为了达到理想的跟踪目的，Zhang等人［18］提出的时空上下文目标跟踪算法（Spatio-Temporal Context，STC）取得了不错的效果。时空上下文利用目标的空间上下文信息和时间上下文信息对目标进行了跟踪，提高了目标的跟踪精度，并把时空上下文信息转换到频域进行快速傅里叶变换，保证了跟踪的实时性。Liu等人［19］对目标进行分块遮挡判别并进行子块匹配，同时结合粒子滤波进行轨迹预测达到抗遮挡跟踪的目的。Xu等人［20］针对上下文的不同区域，对目标的重要程度赋予了不同的权重，增强了鲁棒性。

由于时空上下文在进行目标跟踪时对目标进行了加窗处理，消除了目标边缘一些噪声的影响，所以即使有噪声干扰也会是在目标的附近，在置信图中表现为多个峰值，但是当发生了漂移（即使漂移很小），滤波模板的更新也会发生相应的错误，随着跟踪的不断进行，误差会不断地进行积累，以至于最后丢失目标。当上一帧与当前帧的实际目标位置距离较远时，加窗处理会把目标的实际位置消除，这时检测出的目标位置与实际的目标位置会有较大偏差。在特征方面STC算法使用了单一的灰度特征，易受到噪声的干扰。

针对以上情况，本文分别加以改进并提出一种抗遮挡和噪声的方法：对于在目标周围产生的噪声影响，本文提取当前帧置信图中与上一帧目标点置信值相近的目标点，用匹配算法与先前保存的目标模板进行匹配，提取出匹配度最高的目标点；将HOG特征与灰度特征进行组合，改进原有的单一特征置信图判别力较低的缺点；采用相邻间目标位置的欧式距离为参数对学习率进行自适应调整。仿真结果表明，与原时空上下文跟踪算法相比，本文的算法提高了跟踪鲁棒性。

1 STC视觉跟踪算法

时空上下文跟踪算法，是对目标周围区域与目标的空间关系（空间上下文）和上一帧与下一帧的时间关系（时间上下文）进行建模，然后通过全概率公式计算出每个像素点是目标点的概率，最后选取概率最大的点为目标点（即选取置信图的峰值）。

当前帧目标可能的位置为x∈R2，目标的中心位置用x*表示，则当前帧的上下文特征集合为：

其中，z表示像素位置坐标，I（z）代表图像中z处像素的灰度值，ΩC（x*）是跟踪目标中心x*生成的局部上下文区域。

通过全概率公式，置信图可以表示为：

其中，P（x|v（z），o）表示当 v（z）发生时，该位置是跟踪目标的可能性。P（x|v（z），o）表明了跟踪目标与其周围上下文的关系。P（v（z）|o）是上下文环境发生的概率（该概率是已知的）即上下文先验概率。从式（2）可以看出，x为目标位置的前提是上下文特征的发生，然后才能判断是否为目标的位置，这在一定程度上可以抑制目标的漂移。

目标与其周围的上下文关系（空间上下文）可以表示为：

其中，hsc是非径向对称函数，当出现两个相似的点x1，x2，这两个点与z的距离都相同，但是这两个点与z的空间关系是不同的。

上下文先验概率模型可以表示为：

其中，ωσ是高斯加权函数，其表示为：其中，a 是将 P（v（z）|o）限制在 0~1 范围内的归一化常数并使其满足概率的定义，σ是尺度参数。式（5）表明了距离跟踪目标越近的上下文其对下一帧目标预测的重要性就越大。

第一帧目标的位置已知，以第一帧为基础对期望的置信图进行建模如下：

其中，b是归一化常数，α是尺度参数，β是形状参数。文献［12］指出，β=1时可以获得稳定的效果。

综合式（3）、式（4）代入式（2）并结合式（1）、式（5）、式（6）可得出：

式中，塥代表进行卷积操作。

为使算法具备一定实时性并提高计算速度，将式（7）转化到频率域，进行快速傅里叶变换（FFT）可得：

式中，F表示进行快速傅里叶变换，Θ表示对所有元素进行点积操作。由式（8）可以推出：

式中，F-1是进行逆傅里叶变换，得到的是空间上下文，当是第一帧图片时

其他帧：

式中，Hstc是时空上下文。则t+1帧的置信图为：

找到置信图中值最大的位置就是当前帧目标的位置：

2 改进的时空上下文

STC算法是将目标的空间上下文和时间上下文结合起来组成时空上下文模型并计算置信图，并将置信图中值最大的位置作为当前帧目标的位置，经过实验仿真表明STC算法能够解决光照变化，目标变形等常见的一些问题。但是当目标发生了遮挡或者受到噪声干扰时，时空上下文模板的更新就会发生相应的错误，这就会导致置信图的可信度降低，进而导致跟踪目标的丢失。

因此，改进的思路为：通过相似性度量的模板匹配修正噪声带来的误差，采用自适应学习率更新模板。

2.1 基于HOG和灰度特征融合的置信图改进

STC算法中只用了灰度特征，对噪声比较敏感，因此，提出将HOG特征与灰度特征进行融合，这样得到的置信图将会由两种特征共同决定置信图的可信度较高。

首先用灰度特征得到一个置信图mg，然后用HOG特征再得到一个置信图mh，则最终的置信图可表示为：

式中，ξ是权重因子，具体表示为：

其中，Smg，Smh分别是置信图mg与mh的方差，方差的大小代表了搜索区域每个位置成为目标位置的差异性，方差大表明置信图中数据之间的差异性较大，置信图的判别力较强，占最终置信图的权重就大；反之，则相反。

2.2 基于相似度匹配的噪声干扰校正

STC算法中尽管对搜索区域进行了加窗处理，但是这只能消除边缘噪声的干扰，目标周边的噪声干扰并没有被消除。在不丢帧的情况下，相邻两帧目标点的置信值在小范围波动。为了解决噪声问题，选取了当前帧置信图中与上一帧目标点置信值相近的候选目标点（本文取的波动范围为0.000 5），采用相似度模板匹配的方法对噪声的影响进行校正。采用文献［2］的相似度计算如下：

式中，NCC是归一化互相关值，取值范围［0 1］，为1时则说明a与b完全相似，为0时则说明a与b不相似；ai与bi为当前帧候选目标与匹配模板的像素值，ua与ub分别为其对应的均值。

为了避免背景在相似度匹配的过程中对匹配结果造成影响，选取目标框的一半作为匹配的尺寸。

对于相似度匹配，采用多帧模板匹配，具体分为以下3个阶段。

1）保存最真实的目标模板g（比如第一帧的目标），通过式（14）计算g与候选目标的相似度：

式中，qn表示的是候选目标。

2）选取先前帧的目标作为模板p，与选取的候选目标进行相似度计算：

式中，p是实时更新的，当最终选择的候选目标与p的相似度达到阈值γ（本文选取0.8），则以当前帧的目标对p进行更新。

3）将两种相似度进行权重组合：

其中，θ是权重因子，0<θ<1，当目标变化较小时选取较大的θ，当目标变化较大时选取较小的θ。φη是最终的相似度值，使用这种相似度测量既可以保留最真实的目标，信息也可以实时适应目标的变化。

2.3 自适应学习率的模板更新

在目标的运动过程中，目标的外观是不断发生变化的，比如光照的变化，目标的形变等，这种情况下，原始时空上下文算法的学习率存在以下问题。

1）较小的学习率使得时空上下文模板更新较慢，对目标的学习程度不够，目标最新状态信息丢失较大，随着跟踪的进行发生漂移，最终丢失目标。

2）较大的学习率使上下文模板更新较快，对目标的最新状态过度学习，丢失了较多以前的信息，降低了模板的记忆能力，一旦发生短暂干扰更新的模板就会发生较大的错误，当干扰消失时，使用该模板得到的置信图的可信度就会降低，最终导致目标跟丢。

因此，在不同的状态下使用适当的学习率对模板进行更新，使其既不会过度学习，也不会欠学习，这样才能提高跟踪的鲁棒性，使学习率的变化取决于外观的变化，目标在不同背景下的状态是不一样的，因此，以目标的移动速度为参数对学习率进行变化。

式中，v是目标移动速度，使用相邻帧目标位置的欧氏距离进行表示：

其中，（xt，yt）与（xt-1，yt-1）分别为当前目标的位置与上一帧目标的位置。

3 仿真与结果分析

为了验证算法的有效性，在两组视频序列中进行了测试与验证，分别从中抽取了可以反映整体跟踪情况的五帧跟踪结果，虚线框代表改进后的STC算法；实线框代表原STC跟踪算法。实验参数：根据文献［16］，式（6）中 α=2.25，β=1；式（11）中 ρ=0.075为初始值。对于跟踪结果的精确程度采用中心误差曲线（CLE）进行评测，中心误差曲线由目标的真正中心与算法跟踪结果中心的欧式距离表示。4组视频序列的五帧跟踪结果如图1所示，中心误差曲线如下页图2所示。

图1 部分跟踪结果视图

从图1（a）中可以看出，在159帧时目标发生了遮挡，从209帧可以看出原STC算法发生了漂移，而本文的算法跟踪较精确，这主要是因为本文采用了自适应学习率的模板更新与相似度匹配的误差校正。从389帧与462帧可以看出，原STC算法已经跟丢，改进后的算法误差始终保持在10个像素以内，当389帧在做戴眼镜动作时，对原算法影响较大而对改进后的算法不敏感，这主要是由于采用了HOG特征融合，置信图可信度提高。从中心位置误差曲线可以看出，原算法的误差总体上是增加的，而改进后的算法大部分保持在10个像素以内，虽然有小部分超过10个像素但是很快又校正到10个像素以内。从图2（b）可以看出，虽然原算法总体可以跟踪得上，但是发生了漂移，从中心误差曲线可以看出，原算法的误差是不断增加的，可以预见当长时间跟踪目标时最终将会跟丢，而改进后的算法中心误差保持稳定，大部分保持在6个像素之内，最大的误差也没有超过8个像素。图2（c）中在第55帧中发生了部分遮挡，60帧时STC算法跟丢，本文算法仍然较准确地进行跟踪，从110帧和240帧可知STC算法完全跟丢，主要原因是滤波模板已经完全更新错误。图2（d）中59帧和127帧目标受到短暂的部分遮挡，两种算法都可较好地跟踪，从215帧到230帧目标持续受到部分遮挡，滤波模板更新错误，STC算法错误跟踪了干扰项“书本”，本文算法由于相似度匹配的误差校正能力而正确跟踪了目标。

图2 中心位置误差曲线

4 结论

本文分析了STC算法存在的不足与造成原因，并及时进行了改进，将STC的单一灰度特征决定的置信图改为由灰度特征和HOG特征共同决定，提高了置信图的可信度；对目标产生的漂移将当前帧的候选目标位置与先前保存的模板进行相似度测量，选取相似值最大的位置为最终目标位置对产生的漂移进行校正；针对固定学习率模板更新，提出了一种相邻帧间目标位置的欧式距离为变量的自适应学习率更新模板，仿真结果表明，虽然速度比原算法有所下降，但是跟踪精度有了一定的提高。