多层深度特征的目标跟踪算法研究

2019-01-10胡昭华钮梦宇邵晓雯卞飞飞王珏

现代电子技术 2019年1期

胡昭华钮梦宇邵晓雯卞飞飞王珏

关键词：目标跟踪; 深度特征; 自适应核相关; 卷积神经网络; 滤波响应; 跟踪速度

中图分类号： TN911.73?34; TP391.41 文献标识码： A 文章编号： 1004?373X（2019）01?0051?06

Abstract： The manual feature or a certain layer feature in neural network is mostly used in existing target tracking algorithms， which is adverse for tracking. Therefore， a multi?layer deep feature based target tracking algorithm with adaptive updating is presented. The pre?trained deep convolutional neural network is used to extract the low?layer and high?layer information respectively to describe the spatial and semantic features of the target. Two filtering templates are obtained by studying the two?layer feature information， and the corresponding filtering responses are acquired. Two filtering responses determine the final tracking result by means of different weights. The adaptive updating scheme of object appearance model and filtering template is designed in the algorithm to adapt to the appearance variation and occlusion of the object. The multi?level deep feature is used to describe the object appearance. The extracted feature is adopted to train two filtering templates. The kernel correlation method used to solve the filtering responses can improve the accuracy of tracking results， and quicken the tracking speed. The experimental results show that， in comparison with the existing tracking algorithms， the proposed algorithm can deal with the multiple challenges perfectly， and its tracking speed can fully meet the requirement of real?time tracking task.

Keywords： object tracking; deep feature; adaptive kernel correlation; convolutional neural network; filtering response; tracking speed

0 引言

目标跟踪[1]是人们長久关注的一个领域，其在日常生活中的应用非常广泛。现有的目标跟踪算法一般分为两种：一种是基于传统特征表达;另一种是基于深度特征表达。传统的特征表达依赖于手动提取的特征，这样并不能获取目标物体的语义特征，对于目标物体表象的外观变化没有很好的鲁棒性。随着大规模可视化数据集的出现和计算能力的快速发展，深度神经网络（DNNs）特别是卷积神经网络（CNNs）用其强大的特征表达能力，在计算机视觉领域（图像分类、目标跟踪、区域检测）取得了突破性成果，这些通过CNNs从大量带标签的数据中学习获得了丰富的特征信息。对于不同类别的对象具有很强的区分能力。

目前CNNs在目标跟踪中的应用[2?5]，主要研究思路分为两种：一种是先离线训练网络，跟踪时提取网络中某一层，一般是最后一层得到的特征，进行分类从而实现跟踪;另一种是设计简化的卷积神经网络，摆脱离线训练而完全在线运行。例如文献[3]中首先在辅助数据集上离线训练一个两层的CNNs，而后将其应用于在线跟踪当中;文献[4]中提出一种在线卷积神经网络架构，其特点在于只进行在线学习。不管是在线训练还是离线训练，这些方法大多数是单一地提取某一层特征作为跟踪的外观特征，分类时也是采用单一的运动模型进行特征分类，虽然相比以前的传统特征表示，跟踪效果有了很大改善，但是跟踪的准确性还有待提高。

从2010年文献[6]将相关滤波的思想第一次应用于目标跟踪领域之后，近几年，核相关滤波算法飞速发展。文献[7]的工作主要解决的问题是核相关滤波算法的boundary effects（由循环矩阵导致的），在loss function中引入惩罚项，期望抑制离中心较远特征的影响。随着深度学习的发展，文献[8]又在文献[7]的基础上结合深度卷积特征，使准确率相应地有所提高。

CNNs具有以下特性：网络最后几层的特征主要反映目标的语义特征，这些特征能很好地应对目标的外观表象变化;浅层及中间层特征主要包含目标物体的空间特征，能更精确地确定目标的具体位置。

本文融合这两种层级特征的优点，并且结合计算速度较快的核相关滤波算法跟踪框架，提出一种基于多层深度特征的自适应更新跟踪方法。该方法利用經过预训练的CNNs提取目标区域图像的卷积第8层和第16层特征，分别利用岭回归方法训练两个不同的滤波模板，根据响应图的形状确定更新策略。本文利用多层特征的信息能更好地描述目标物体，并且采用自适应更新模板策略，在跟踪中能更好地应对目标外观变化、遮挡等挑战因素。

1 本文的算法总体思路

本文提出的基于多层深度特征的目标跟踪算法的具体思路如图1所示。算法主要分为三个阶段：

1）当跟踪视频输入网络后，如图1所示，首先确定视频当前帧的目标搜索区域，将此区域图像输入已经完成预训练的CNNs（图1中的CNNs网络是简图，完整结构见图3）中，分别提取卷积第8层和卷积第16层特征，运用核相关的知识求得相应的两个滤波模板[w8]和[w16]（见式（5））。此阶段可视为学习阶段。

2）每一次学习阶段之后都及时更新学习阶段得到的目标外观[x]和滤波模板[w]（见式（9）和式（10））。

3）由上一帧的检测结果确定当前帧的搜索区域，通过之前已经预训练好的CNNs的其中两层（conv8和conv16）确定新的两个目标外观表达，与更新之后的目标外观作互相关计算，再与上一帧更新之后的滤波模板作用得出相应的滤波响应，将两个响应加权求和得出结果的峰值即最后的跟踪位置。

3 实验及评估

网络预训练采用的是ImageNet数据集，实验结果分析基准为Visual Tracker Benchmark。本实验中利用已经训练好的VGG?19[11]提取目标区域的特征，具体采用19层网络中的卷积第8层和卷积第16层特征，得到的响应图所占权重分别为0.5和1，学习率为0.02。初始帧目标位置已知。

为了测试本文提出算法的性能，实验中对包含了51个不同属性的视频标准测试集进行测试。这些视频中涉及目标遮挡（Occlusion，OCC）、光照变化（Illumination Variation，IV）、尺度变化（Scale Variation，SV）、快速运动（Fast Motion，FM）、背景杂乱（Background Clutters，BC）、平面内旋转（In?Plane Rotation，IPR）等多种挑战因素。实验中将本文算法与目前比较流行的10种跟踪算法进行定量和定性的对比。这些算法分别简写为DeepSRDCF[7]，TLD[8]，IVT，CSK[9]，CT[12]，DFT，ASLA，L1APG，ORIA，SCM。

3.1 定性评估

本文从实验数据集中随机抽取4个同时包含较多挑战因素的视频，如图6所示。图6a），图6b），图6d）都存在严重的目标遮挡干扰因素，图6b）除了目标遮挡还存在明显的光照变化，图6b），图6c）中目标进行剧烈运动，会导致目标发生明显的形变。这些视频都存在很多干扰跟踪结果的因素，对于检测跟踪器的性能更有说服力。

从这些视频的检测结果中可以看出，本文算法相比其他跟踪器来说可以更好地跟踪到目标。如图6所示，CSK是一种仅采用一层深度网络的跟踪算法，从结果中可以明显看出本文算法比CSK算法跟踪效果更好。TLD、DeepSRDCF算法都是采用传统特征的跟踪算法，对比结果中也可以看出本文算法的优越性。

实验结果验证了本文算法的优势：

1）本文采用深度特征表达目标，并且利用多层的特征，能更精确地确定目标的外观模型表达;

2）本文提取多层深度特征，并没有直接将特征表达融合，而是对应地训练两个滤波模板，最后使两个滤波模板相互作用，使在外观变化明显的情况下也能有效地实现跟踪;

3）本文算法进行逐帧实时更新目标外观模型和滤波模板，能克服目标的外观变化以及变化的背景等干扰因素。

3.2 整体性能评估

为了分析算法的整体性能，本文使用中心位置误差（Center Location Error）以及最新的评估基准：TRE（时间鲁棒性度量，Temporal Robustness Evaluation）、OPE（一次性评估，One?pass Evaluation）和SRE（空间鲁棒性度量，Spatial Robustness Evaluation）进行定量评估。

实验中测试了对于含有较多挑战因素的10个视频序列的平均中心位置误差，表1展示了本文方法和其他6种方法的对比结果。其中最好的结果用粗体和下划线表示。规定中心位置误差越小，跟踪效果越好。从表1可以看出，虽然本文方法不是在每个视频中都有最小的中心位置误差，但是相对其他跟踪算法来说，整体上本文算法有很好的跟踪效果。

本文图7表示本文算法与当前比较流行的6种算法对于三个评估指标的对比。其中图7a）～图7c）评估的是算法的精度（precision），图7d）～图7f）评估的则是算法的成功率（success）。从图7可以明显看出，对于两种指标，无论是成功率还是精度，本文算法都在其他算法之上，说明本文提出的方法性能有很好的优越性。

同时跟踪的效果会受到不同挑战因素的影响。本文加入了外观模型和滤波模型的自适应更新策略，对目标遮挡、快速运动等情况有更好的鲁棒性。图8举例说明和分析了本文跟踪器在OCC，SV，FM三种挑战因素下的成功率。从图8中可以看出，在这三种情况下本文算法都位居第一，并且远远高于第二名，说明本文算法跟踪的效果更好。而其他的算法都是采用传统的特征提取方法，这表明深度特征的优越性，以及自适应更新策略的效果，能更好地表达目标并实现跟踪。

4 结语

本文提出一种多层深度特征的目标跟踪算法。采用经过预训练的深度学习框架CNNs表示目标外观特征。低层特征能很好地识别目标的边界信息，可以准确地反映目标的位置变化，而高层特征反映的是目标的语义特征，可以很好地表达目标的外观变化。综合运用不同层特征能对目标外观变化有更好的鲁棒性，同时通过核相关的方法弥补了深度卷积神经网络运行时间长的缺点，大大缩短了计算时间，并且算法中设计了滤波模板和目标外观实时更新模块，能有效地应对目标的外观变化。通过大量的实验结果表明，在面对不同的挑战因素时，本文提出的算法都有较大的优势。但是本文设计的算法在运行卷积神经网络过程中损失了一定的速度，虽然提高了准确率，但使得跟踪的速率有所降低，今后将寻求解决这一问题的方案，使得效率和准确率更高。

参考文献

[1] LI X， HU W， SHEN C. A survey of appearance models in visual object tracking [J]. ACM transactions on intelligent systems and technology， 2013， 4（4）： 5801?5848.

[2] WANG L， LIU T， WANG G， et al. Video tracking using learned hierarchical features [J]. IEEE transactions on image processing， 2015， 24（4）： 1424?1435.

[3] WANG N， LI S， GUPTA A， et al. Transferring rich feature hierarchies for robust visual tracking [J]. Computer science， 2015（1）： 45?53.

[4] HONG S， YOU T， KWAK S， et al. Online tracking by lear?ning discriminative saliency map with convolutional neural network [C]// Proceedings of the 32nd International Conference on Machine Learning. Lille： ACM， 2015： 597?606.

[5] LI H， LI Y， PORIKLI F. Deeptrack： learning discriminative feature representations online for robust visual tracking [J]. IEEE transactions on image processing， 2016， 25（4）： 1834?1848.

[6] BOLME D S， ROSS BEVERIDGE J， DRAPER B A， et al. Visual object tracking using adaptive correlation filters [C]// 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco： IEEE， 2010： 2544?2550.

[7] DANELLJAN M， HAGER G， KHAN F S， et al. Learning spatially regularized correlation filters for visual tracking [C]// IEEE International Conference on Computer Vision. Santiago： IEEE， 2015： 4310?4318.

[8] DANELLJAN M， H?GER G， KHAN F S， et al. Convolutional features for correlation filter based visual tracking [C]// 2016 IEEE International Conference on Computer Vision Workshop. Santiago： IEEE， 2016： 621?629.

[9] HENRIQUES J F， CASEIRO R， MARTINS P， et al. High?speed tracking with kernelized correlation filters [J]. IEEE transactions on pattern analysis and machine intelligence， 2015， 37（3）： 583?596.

[10] 胡昭华，邢卫国，何军，等.多通道核相关滤波的实时跟踪方法[J].计算机应用，2015，35（12）：3544?3549.

HU Z H， XING W G， HE J， et al. Real?time object tracking method based on multi?channel kernel correlation filter [J]. Computer applications， 2015， 35（12）： 3544?3549.

[11] SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large?scale image recognition [J]. Computer science， 2014， 34（2）： 1409 ?1456.

[12] ZHANG K， ZHANG L， YANG M H. Real?time compressive tracking [C]// 2014 European Conference on Computer Vision. Berlin： ACM， 2014： 864?877.