一种融合有效卷积操作子和颜色直方图的目标跟踪算法
2020-12-14郑耿峰
郑耿峰
摘 要:基于有效卷积操作子的相关滤波跟踪算法能够自然融合不同特征,并且通过模型降维,达到良好的跟踪性能。而基于颜色信息的模型虽对光照变化效果不好,但能很好地对形变进行处理。考虑到上述两种算法在特性上可互补,文章提出了一种基于颜色直方图模型和有效卷积操作子的方法,采用加权求和的方式求得目标最终位置。该算法能够提高目标跟踪的鲁棒性,提升跟踪精度和速度。最后,采用数据集的方法验证了该算法的有效性。
关键词:目标跟踪;相关滤波;有效卷积操作子;颜色直方图
中图分类号:TP391.4 文献标志码:A 文章编号:2095-2945(2020)36-0073-04
Abstract: The correlation filtering tracking algorithm based on effective convolution operators can integrate different features naturally and achieve good tracking performance through model dimensionality reduction. Because the algorithm relies on spatial layout of the object, it is sensitive to deformation. The model based on color statistics is exactly complementary, it can handle deformation well, but not good for illumination changes. This paper presents a method of integrating effective convolution operators and color statistics histogram model. The final position of the target is obtained by weighted summation. The algorithm can improve the robustness of object tracking and improve the precision and speed. Finally, through making datasets, the performance of the improved algorithm is tested and evaluated.
Keywords: object tracking; correlation filtering; effective convolution operator; color histogram
1 概述
目标跟踪是计算机视觉中的一个重要研究方向,有着广泛的应用,如:视频监控,人机交互, 无人驾驶等。过去二三十年视觉目标跟踪技术取得了长足的进步。
现在主流的目标跟踪算法有判别式法和生成式法两类。判别式法也可名为检测跟踪法[1],用在判别式法上的较有代表性的机器学习算法有SVM(结构化支持向量机)[2]和TLD(跟踪学习检测)[3]。而生成式法的代表性算法主要有颜色统计直方图[4]、均值漂移[3-4]和LK法[7-8]等。
近年来,深度学习方法[9-10]和基于相关滤波器的目标跟踪方法[11-12]在目标跟踪领域得到越来越广泛的应用。其中,深度学习方法精度高,但计算量大,实时性较差,对硬件要求也相对较高,而相关滤波器的目标跟踪方法计算量小(通过傅立叶变换计算)。相关滤波器的目标跟踪方法中有效卷积操作子是综合性能最优的算法,该算法能兼顾精度和实时性,且能保存样本,具备模型更新和长时跟踪能力。但有效卷积操作子同样存在著缺点,即对形变缺乏鲁棒性。针对上述问题,本文提出了一种将有效卷积操作子和颜色直方图模型融合的方法,并用多个数据集进行实验,验证了改进算法的有效性。
2 有效卷积操作子算法
有效卷积操作子以C-COT算法[12]为基准,训练目标即为利用之前的样本训练一个相关滤波器,对视频帧进行特征提取得到样本,再利用检测样本与滤波器的相关操作得到目标响应图,目标位置定为响应图中响应值的最大值,然后利用该检测样本为训练样本,进而更新滤波器。
在该算法中,采用CNN和CN和HOG特征的全面组合,需要更新的参数超过八十万个,容易产生过拟合且跟踪速度慢。为减少参数量,本文定义了因式分解的卷积操作子。从全部的D个滤波器中选择贡献较多的C个,用该滤波器的线性组合表示每一维特征。如公式(1)所示。
其中,是一个D×C矩阵,每一行代表一组线性系数,表示用C个滤波器的线性组合表示原来的D个滤波器。矩阵P需要在第一帧中学习得到,并在之后跟踪中保持不变。效果类似主成分分析(Principal Component Analysis,PCA),可以视为用PCA初始化的有监督降维。
目标函数中,为约束P,加入一个P的酉不变范数作为正则化项,如公式(2)所示。
得到新的损失函数是一个非线性最小二乘(Non-Linear Least Squares,NLLS)问题。其中,函数第一项具有双线性(bi-linearity),因此又和矩阵因式分解问题类似,采用高斯-牛顿(Gauss-Newton)和共轭梯度(Conjugate Gradient)优化此二次规划问题。最终,在不改变特征通道数的前提下,采用深度特征时,模型参数减少了80%,滤波器个数从512降低到64个;采用HOG和CN特征时,滤波器个数从42降到13个。
以前模型更新策略采用保存新样本丢弃老样本的方式,使得在遮挡和相似目标污染情况下,会导致模型漂移(Model drift);保存样本集也会使空间效率低,增加计算负担。为减少样本数量,有效卷积操作子算法采用紧凑的样本集生成模型。采用高斯混合模型合并相似样本,建立具有代表性和多样性的样本集,将需要保存和优化的样本集数量降到C-COT算法的1/8,实验中,样本数目从400降到50个。
此外,由于每帧更新容易导致模型漂移。因此采用稀疏更新策略,每隔6帧更新一次模型,提高了算法速度,提高了对突变,遮挡等情况的稳定性,防止模型漂移。由于样本集是每帧都更新的,所以稀疏更新并不会错过间隔期的样本变化信息。
3 融合颜色直方图的有效卷积操作子算法
3.1 颜色直方图模型
对于该模型,用每个像素均值投票来表示直方图分数,如公式(3):
4 实验与分析
4.1 数据集
为模拟较为复杂和苛刻的环境,本文选取嘈杂的实验室环境作为背景,拍摄获取目标运动视频。针对运动模糊、尺度变化、固定遮挡、光照变化4种典型场景,各拍摄70个视频,且转化为每一帧图像,并选取其中的70帧作为样本集,对每个样本进行目标边界框左上角位置、像素坐标和边界框的长、宽等四个数据进行手工标注,形成4组数据集,记录于相应的txt文档。
程序开始运行,利用txt文档中的第一组数据对跟踪算法进行初始化;运行中,不断记录跟踪框位置,即记录每个位置的4个数据;将记录数据与标注数据结果进行对比,利用中心位置偏移量计算平均精度。
4.2 实验结果与分析
本文对使用HOG和CN特征的有效卷积操作子算法,性能较优秀的STAPLE-CA算法,以及本文改进算法进行实验研究。
采用不同算法,并加入跟踪速度指标,首先在运動模糊场景中进行性能测试。如表1所示,其中,第二列精度5px、10px和15px表示中心位置误差跟踪边界框与真值框中心位置误差在5个像素、10个像素和15个像素以内的跟踪成功的视频帧所占比率;第三列表示精度-定位误差阈值图曲线下面积。
其中,有效卷积操作子算法采用的样本学习率λ为0.02,保存样本数m为10,尺度因子α为1.08,间隔帧数n为3;此外,STAPLE-CA算法中,直方图融合因子α为0.3,学习率η为0.3;本文算法中,模型参数和有效卷积操作子算法相同,直方图融合因子α为0.1,学习率η为0.8。
上述可得,在运动模糊场景中,基于相关滤波算法跟踪性能优越,特别是在15px范围内,跟踪成功率已完全达到要求。此外,由于本文提出的算法在有效卷积操作子算法基础上引入颜色直方图模型,使得其相比调参后的有效卷积操作子算法效果更好,AUC值提升了0.011。
然后,运动模糊、在尺度变化、固定遮挡、光照变化4个典型场景中,不同算法的目标跟踪性能对比如表2所示。
可以看到,调参后的有效卷积操作子算法和STAPLE-CA算法,AUC在0.8左右,达到较高的水平。本文提出的有效卷积操作子改进算法在综合性能精度上最优,AUC比有效卷积操作子算法提升0.011,速度比有效卷积操作子算法提升0.13fps。实验验证了改进算法的有效性。
5 结束语
本文在有效卷积操作子算法的基础上,提出了一种改进算法,引入颜色直方图模型,二者进行融合,从而减轻模型漂移,提高了算法的鲁棒性。对改进算法进行性能测试,实验结果验证了本文改进算法在多种跟踪场景中的优越性能。此外,由于深度学习方法对特征提取能力和分类能力较强,将传统方法、相关滤波方法和深度学习方法结合是未来可以继续研究的方向。
参考文献:
[1]Yang Han-xuan, Shao Ling,Zheng Feng, et al. Recent advances and trends in visual tracking: A review[J]. Neurocomputing, 2011,74(18):3823-3831.
[2]S. Hare, A. Saffari, P. H. Torr. Struck: Structured output tracking with kernels. In 2011 International Conference on Computer Vision, pages 263-270. IEEE, 2011.
[3]Z. Kalal, K. Mikolajczyk, and J. Matas. Tracking-learning detection. IEEE transactions on pattern analysis and machine intelligence, 2012,34(7):1409-1422.
[4]Possegger H, Mauthner T, Bischof H. In defense of color-based model-free tracking[C]// Computer Vision and Pattern Recognition. IEEE, 2015:2113-2120.
[5]Comaniciu D, Ramesh V, Meer P. Real-time tracking of non-rigid objects using mean shift. In: Proceedings of the 2000 IEEE Conference on Computer Vision and Pattern Recognition. Hilton Head, SC, USA: IEEE, 2000. 142-149.
[6]Vojir T, Noskova J, Matas J. Robust Scale-Adaptive Mean-Shift for Tracking[J]. Pattern Recognition Letters, 2014, 49(3):250-258.
[7]B. D. Lucas, T. Kanade. An iterative image registration technique with an application to stereo vision. In IJCAI, 1981: 674-679, .
[8]C. Tomasi and T. Kanade. Detection and tracking of point features. Technical Report CMU-CS-91-132, School of Computer Science, Carnegie Mellon Univ. Pittsburgh, 1991.
[9]Wang L, Ouyang W, Wang X, et al. Visual Tracking with Fully Convolutional Networks[C]// IEEE International Conference on Computer Vision. IEEE, 2016:3119-3127.
[10]Held D, Thrun S, Savarese S. Learning to track at 100 fps with deep regression networks[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 749-765.
[11]Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
[12]Bertinetto L, Valmadre J, Golodetz S, et al. Staple: Complementary learners for real-time tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1401-1409.