道路复杂交通场景下的改进MDnet目标跟踪算法
2021-12-30王小平施新岚
王小平,施新岚
(1. 重庆城市管理职业学院 大数据与信息产业学院,重庆 401331; 2. 重庆邮电大学 通信与信息工程学院,重庆 400065)
0 引 言
运动目标跟踪技术是智能交通应用背景下的研究重难点,其主要目的是持续确定机动车、非机动车和行人目标在视频图像序列中的位置。通过分析可以得到目标运动速度、加速度等运动参数,经进一步处理,得到图像画面中目标的运动轨迹、实时姿态信息,从而实现对运动目标的行为分析与理解,最终判断目标是否违反交通规则[1]。
相关滤波器及深度学习目标跟踪算法是目前2种主流技术。相关滤波器的本质是利用目标前景与背景信息间的差异设计分类器[2]。深度学习算法在视频图像序列中以其多隐藏层的结构提取目标特征,并由模式识别完成运动目标的跟踪[1,3-4]。
POSTECH实验室在2016年提出一种被称为MDnet多域网络的新型CNN网络体系结构[5],MDnet网络规模较小,兼顾了多种目标跟踪的通用性。这种高实时性的模型非常适用于智能交通领域,但是智能交通领域中复杂的交通道路还有目标尺度变化、目标被遮挡、目标模糊等特性问题需要解决。MDnet在这些问题中表现的相对一般,依然存在改进空间。
运动目标跟踪技术的应用载体是视频图像序列。由同一摄像头捕获的视频图像序列信息与时间相关,一般呈现出图像连续变化的特性。根据图像连续变化的时间相关特性,收集前序图像中的目标运动信息对当前帧目标位置进行预测;同时,视频图像序列中背景信息相对运动目标变化较少,输入图像中存在较多的冗余信息,因此可以忽略部分背景信息,把更多的计算资源用于目标图像区域,从而提高信息处理效率。L.YONG等[6]提出的SIN不仅处理当前图像物体的外观信息,还利用图片中背景信息和目标之间的关联信息、当前帧图像的上下文信息实现目标的有效检测。目标跟踪与目标检测的原理类似,因此这种利用背景与目标关联信息、上下文信息的方法也可以迁移至目标跟踪领域,并由多种信息融合实现目标有效跟踪[7]。
笔者在原来的MDnet上基于时间相关性对其进行改进,利用视频图像序列的时间相关性,由前序帧目标信息,结合当前帧信息的时空结合信息共同计算,得出道路复杂交通场景下机动车、非机动车以及行人目标所在位置。
1 基于时间相关性的改进MDnet算法
目标快速运动使得图像中目标区域边界模糊,边缘特征不明显,运动目标的前景、背景信息难以区分。当目标被其他物体遮挡时,如果是轻微的遮挡,会出现目标定位出现偏差,若是大面积且长时间遮挡,则真实目标跟丢,目标器转而跟踪遮挡的物体或者其它物体。在一些智能交通跟踪系统中,由于系统闭环控制作用,系统控制模块会随着目标运动,控制摄像头移动保证目标始终处于摄像头捕捉范围内。若目标被交通道路中遮挡物干扰,系统跟踪目标切换至假目标,加之系统闭环控制作用,跟丢的现象愈发严重,会导致违章目标跟踪失败。
为解决目标跟踪场景中运动模糊、障碍物干扰,造成跟踪出现偏差甚至跟丢的问题,常使用轨迹预测的方式,保证目标不脱离视场,实现目标遮挡情况下的目标有效跟踪。CNN不同规模的卷积核提取特征的能力不相同,有研究人员提出用更多、更小的卷积核代替单个的大卷积核,从而获取更多的图像信息,提升运动目标跟踪的准确性。
1.1 轨迹预测
图像中常用颜色、纹理以及边缘信息作图像特征,而遮挡物会破坏目标的图像特征,导致跟踪算法鲁棒性下降。对于残缺的目标特征,通常使用运动目标的前序信息补充,补充后的目标信息在一定程度上修正遮挡物带来的影响,提升跟踪的准确度。
常用的轨迹预测方式,是使用当前帧的前序信息,获取目标光流信息,预测当前帧目标所在区域。图像中运动目标由于其特殊性,无法直接获取二维坐标信息。由于系统闭环控制作用,无法体现目标的真实运动轨迹,在图像中只体现了目标局部信息。因此可以借鉴采样的思想,提取图像中运动目标的光流特征表征目标运动信息。
光流是空间运动物体在成像平面中像素运动的瞬时速度,通常将二维图像平面特定坐标点上的灰度瞬时变化率定义为光流矢量。在三维空间中,由运动场描述运动,而在二维图像中,物体的运动描述方式是通过图像序列同一位置的像素灰度变化体现。当运动由三维空间变换映射到二维图像时,运动变化表现为光流变化,这种运动描述方式也称为光流场。光流场中以二维矢量场的形式记录了各像素点灰度变化趋势,并作为每一个像素点灰度变化产生的矢量瞬时速度集。三维空间中的运动场与二维图片平台的映射关系示意图如图1、图2,相邻帧图像获取的运动光流场示意如图3。
图1 三维空间的矢量场Fig. 1 Three-dimensional space vector field
图2 矢量场在二维平面内的投影Fig. 2 Vector field projected on two-dimensional plane
图3 可视化光流场Fig. 3 Visual optical flow field
图像中运动目标所提取的光流特征,由于摄像机抖动、光照干扰等因素影响,难免会提取到存在误差的光流信息。对所提取的光流特征进行预处理:删除异常处异常光流特征点,并在特征稀疏处插值填充光流特征,最后利用有效的轨迹预测方法实现运动目标轨迹预测。其中轨迹预测是指由前序帧采集光流信息或其它时序信息,经过预处理后分析时序信息规律,预测下一帧运动目标所处位置[8]。
采用目标探索策略判别式进行轨迹预测,首先在前序帧目标的位置周围区域采样[17],随后确定目标探索空间,探索空间范围计算式如式(1):
y={(m,n)|m2+n2 (1) 式中:m,n为前序帧目标所在中心位置;r为圆形探索空间半径。 在探索空间y中进行局部一致性全采样,得到前序时序信息后,由结构化输出SVM模型建立目标位置预测函数[9],用于预估目标在后续帧的位置信息预测函数如式(2): (2) 理论上卷积核的大小可以是任意的,但大部分CNN中使用的卷积核都是奇数形式的正方形核。且在感受野相同的情况下,卷积核越小,模型参数和目标跟踪计算量越小[10]。 文献[10]指出,能够捕获单像素以及相邻八领域信息的最小卷积尺寸是3×3,且1个5×5卷积核的感受野与2个3×3卷积层堆叠相同,同理1个5×5卷积核的感受野与3个3×3卷积层堆叠相同。因此,在保证感受野一致时,可通过小尺寸卷积层的堆叠替代大尺寸卷积层。每个卷积层后会附带1个激活函数,激活函数的作用是让判决函数拟合性更强,使用多个小卷积核代替大卷积核,会使得跟踪模型准确率更高。同时,多个3×3卷积层也减少了目标跟踪模型参数。当输入特征图大小都是C×C时,使用1层7×7卷积核的参数个数为49C2,使用3层3×3卷积核的参数个数仅为3×(3×3×C×C)=27C2,使用3层3×3卷积核的网络模型参数数量更少。 那么1层7×7卷积核由3层3×3卷积核代替,1层5×5卷积核由2层3×3卷积核代替的模式,不仅增加了隐藏层,还利用激活函数起到隐形正则化的作用,并减少了模型参数数量。 笔者提出的改进MDnet融合时间与空间2种信息,网络结构中信息处理模块拥有时间、空间2个处理部分,图像特征处理模块部由多个小型卷积核与激活函数组合而成。改进MDnet网络结构示意如图4,改进的MDnet由采集时空信息,特征目标提取及处理,运动目标位置确定3个步骤实现道路复杂交通场景下有效目标跟踪。 图4 基于时间相关性的改进MDnet网络结构Fig. 4 Improved MDnet network structure based on time correlation MDnet模型的图像输入大小为107×107,随后确定目标探索空间,再输入至堆叠的6层卷积层,得到大小为3×3的特征图,通过2层大小为512个单位的全连接层。最后一层是多分支的,每个分支均是具有分支属性的全连接层,并且负责对目标进行2分类。除最后一层独立域的全连接层,其余层都共享特征图。 时空信息采集模块采集前序帧的光流特性信息作为时间信息,采集由光流信息轨迹预测所得目标探索空间作为空间信息。时空信息采集模块的流程示意图如图5。收集并处理前序光流特征信息,由目标搜索策略,计算轨迹预测的趋势以及设定的搜索空间大小,将目标探索空间这一局部图像信息输入图像特征提取及处理模块,而当前帧图像中搜索区域外的其它图像将被抛弃。 图5 时间信息采集模块的流程示意Fig. 5 Flow chart of time information acquisition module 只保留待处理图像的探索空间区域的原因在于发现图像特征后,确定特征在图像的精确位置不是重点,特征与其它特征的相对位置关系才是最重要的。跟踪目标与背景图像的联系紧密程度与距离相关,相隔较远的背景图像对目标的跟踪性能的影响力较小。且运动目标在图像中的位置变化是连续的,因此使用探索空间图像训练网络模型。 在模型的训练中采用long-term和short-term互补的更新方式,long-term是固定时间间隔内的主动更新,short-term是当出现固定个候选框评分低于准确率阈值时的被动更新。原MDnet中卷积层处理图像的全局信息,基于时间相关性的改进MDnet卷积层只处理目标探索空间处图像,运动目标候选框为负样本的概率相比未改进前的网络概率低,因此模型整体更新速度更快,模型收敛速度也更快。基于时间相关性的改进的MDnet模型long-term为每5帧更新1次,short-term为20个候选框评分低于0.65时更新1次。 笔者在道路复杂交通场景下,基于时间相关性的改进MDnet机动车、非机动车及行人目标跟踪模型,由Pytorch深度学习框架搭建,并由GPU加速训练。具体实验环境如表1。 表1 实验相关环境配置Table 1 Experiment related environment configuration 笔者的目标跟踪算法,针对MDnet算法利用视频图像序列间的时间信息相关性进行改进。在本节的实验中,改进算法对比原MDnet在公开OTB数据集进行跟踪准确率、成功率的定量对比分析,不同特性的视频序列以实验结果图示的方式进行定性比较分析。 2.1.1 定量分析 在MATLAB平台使用公开的OTB数据集,对原MDnet目标跟踪方法与改进的MDnet目标跟踪方法评估,根据实际跟踪结果得到这2种方法的目标跟踪准确率、成功率曲线图。OTB公开数据集标准库2种目标跟踪方法的准确率、成功率如图6; OTB目标模糊自选库2种跟踪方法的目标跟踪准确率、成功率如图7。括号内为最高准确率、成功率。 图6 基于标准库的跟踪方式准确率与成功率Fig. 6 Accuracy and success rate of tracking method based on standard library 图7 基于目标模糊自选库的跟踪方式准确率与成功率Fig. 7 Accuracy and success rate of tracking method based on target fuzzy self-selection database 由图6可以看出:基于时间相关性的改进MDnet目标跟踪方法相比于原MDnet目标跟踪方法在整体性能上基本保持一致,并且略有提升。由图7可以看出:针对目标快速运动、目标模糊、目标遮挡问题,这些需要更多纹理细节来判断道路复杂交通场景下的目标跟踪,改进MDnet的目标跟踪方法准确率、成功率都要高于原MDnet目标跟踪方法。 因此基于时间相关性的改进MDnet在保持目标跟踪通用性的前提性下,拥有更强的针对性,对目标快速运动等其它特性的智能交通监管应用场景具有更高的应用价值。 2.1.2 定性分析 对基于时间相关特性的MDnet目标跟踪方法定性分析,图8、图9为实验结果示意。图中实线框为改进MDnet的目标跟踪结果,虚线框是目标的标准位置。图8、图9中右上角三位数字代指该帧在视频序列中的序号。 1)目标快速运动、模糊与遮挡特性分析 图8(a)的walking交通监控图像中地形开阔,遮挡物较少,跟踪目标为行走的行人。图8(b)的Crowds视频序列是交通监控中常见的行人目标跟踪应用场景,道路周边由于树木的遮挡,光线斑驳,行人区域图像颜色不均匀。图8(c)的Car视频序列是交通图像中机动车跟踪场景,被跟踪目标与目标拍摄者两者相对运动,存在运动模糊、背景图像存在与机动车跟踪目标相似物的干扰,且由于天桥、道路周围的遮挡,光照不均匀。图8(d)CarDark视频序列是智能交通系统中机动车夜间跟踪场景,由于地面湿滑反光,且目标机动车速度快,机动车跟踪目标图像更模糊。 图8 目标快速运动、模糊与遮挡特性实验结果Fig. 8 Experimental results of target fast motion,blur and occlusion characteristics 实验结果可以看出:图8中改进的MDnet对跟踪目标区域图像整体模糊问题,背景与目标色系相同即目标边界分割模糊问题,快速运动小目标问题能有效解决,并准确跟踪目标所在位置。 2)目标尺度变化、面内旋转、形变特性分析 在图9(a)的CarScale视频序列中,被跟踪目标是运动中的小汽车,视频的特性有目标发生的尺度变化、目标被树枝遮挡、目标发生面内旋转现象。图9(b)为Couple视频序列跟踪目标为行走的一对夫妇,由于拍摄视角改变,目标发生面内旋转与目标形化。 图9 目标尺度变化、面内旋转、形变特性实验结果Fig. 9 Experimental results of target scale changes,in-plane rotation and deformation characteristics 实验结果可以看出:图9(a)中可以有效跟踪目标,当目标发生面内旋转时,改进的MDnet方法可以定位部分目标区域图像,但是目标真实区域无法全部覆盖。图9(b)中目标物由2人组成,但是目标由于视角变化,目标旋转发生形变,造成目标短暂跟丢,但是很快又找回目标。 根据以上分析,基于时间相关性的改进MDnet利用目标图像的上下文信息,能有效的解决道路复杂交通场景下目标快速运动、模糊以及低分辨率场景下的目标跟踪。能在一定程度上解决部分图像信息缺失的目标遮挡问题,基本实现目标的有效跟踪,当目标发生短时间局部信息突变但是后续目标图像还原时,目标在丢失一段时间后可以找回。 总体而言,基于时间相关性的改进MDnet的模型参数较少,目标跟踪耗时较短,具有较好的实时性。因此,改进的MDnet对实时性有要求,低分辨率、目标图像存在模糊现象,短时间局部图像缺失的运动目标跟踪智能交通应用场景有较高的应用价值。 运动目标跟踪算法的评价指标主要从实时性、准确率2个方面评估算法可用性。基于时间相关性的改进MDnet新增了轨迹预测模块,笔者将分析增加轨迹预测模块对目标跟踪性能实时性、准确率的影响。目标跟踪的实时性能,包括模型训练过程中,模型拟合所消耗的时间、测试过程中目标跟踪模型在单位时间内目标跟踪的帧数。目标跟踪准确率,是指在测试集中跟踪准确率。分析不同大小的目标搜索空间半径r对目标跟踪效果的影响,根据式(2)计算所得目标探索空间是圆形,但通常视觉处理任务中输入图像的形状是矩形,因此把该圆形探索空间的直径2r作为边长得到正方形输入图像,目标探索空间如图10。 图10 目标探索空间示意Fig. 10 Schematic diagram of target exploration space 目标搜索空间半径r大小与跟踪准确率的关系示意如图11(a),随着半径r的增长,跟踪准确率也随之升高,但是当目标探索空间半径r为(1+70%)r时,目标跟踪准确率增长速度减慢。目标搜索空间半径r与模型拟合速度关系示意如图11(b),模型拟合速度随半径r的增大而变慢。目标搜索空间半径r与帧实时处理速度示意如图11(c),当半径r增大时,帧实时处理速度变慢,算法实时性能下降。 图11 探索空间半径r对目标跟踪的影响Fig. 11 Influence of exploration space radius r on target tracking 图10的实验结果证明:随着搜索半径r的越大,模型拟合速度越慢、实时性下降的现象越明显,但是模型在r取(1+70%)r时,目标跟踪准确率达到93.81%,随后准确率提升不明显。相比不使用轨迹预测和搜索空间的方法在实时性,模型拟合速度,准确率等性能都有所提升。 笔者分析拥有较高准确率的目标跟踪MDnet,针对智能交通领域中常见的目标遮挡、目标快速运动导致运动模应用场景,实现对目标的有效跟踪,帮助判断目标是否有违章行为。目标遮挡与目标模糊容易跟丢的原因在于目标图像不可见,目标前景信息与背景信息不可区分,当前帧可用信息相比无遮挡不模糊图像可用信息较少,因此需要借助前序帧图像的时间信息确定当前帧目标探索空间,利用小尺寸卷积核以小视野提取目标探索空间的更多纹理信息。截取当前帧图像目标探索空间,抛弃其它图像信息,小卷积核提取图像特征,提高模型目标遮挡与运动模糊场景的跟踪准确率。 改进的MDnet能有效解决跟踪目标区域图像整体模糊问题,背景与目标色系相同即目标边界分割模糊问题,快速运动小目标问题,实时跟踪目标所在位置。改进的MDnet使用边长为(1+70%)r的探索空间,模型训练long-term为每5帧更新1次,short-term为20个候选框评分低于0.65时更新1次。最终经过标准库实验验证,改进后的MDnet目标跟踪准确率可达到93.81%,高于改进前93.00%的准确率;经过自选的目标模糊自选库实验验证,改进后的MDne目标跟踪准确率可达95.93%,高于改进前93.92%的准确率。实验结果表明改进的MDnet可提升运动目标跟踪的准确性。1.2 不同核大小的卷积神经网络结构设计
1.3 改进MDnet结构
2 实验验证与分析
2.1 实验设置与结果分析
2.2 轨迹预测对跟踪性能的影响
3 结 语