基于VGG-M 网络模型的前方车辆跟踪∗

2019-02-15刘国辉张伟伟吴训成宋晓琳温培刚

汽车工程 2019年1期

刘国辉，张伟伟，吴训成，宋晓琳，许莎，温培刚

(1.上海工程技术大学机械与汽车工程学院，上海 201600； 2.湖南大学，汽车车身先进设计制造国家重点实验室，长沙 410082)

前言

近年来,基于车载相机的视觉目标跟踪技术已被成功应用在ADAS(advanced driver assistance systems)上,其对于ADAS系统前方车辆的距离判断、碰撞预警等具有重要意义。传统的视觉跟踪方法主要分为生成式和判别式[1]。生成式的代表性算法有稀疏编码、在线密度估计和主成分分析等。LU H等[2]使用了一种新颖的pooling校正方法探索目标的部分信息和空间信息,在局部补丁上进行pooling得到的相似性,不仅定位目标更准确,且能适应一定程度的遮挡,该方法有效地利用稀疏系数在目标与背景之间的差异性,降低了跟踪漂移概率。与之相对地,判别式方法通过训练分类器来区分目标和背景,将目标跟踪转化为一个二分类问题。文献[3]中使用随机森林算法,通过在线学习高置信度的特征来更新目标模型,跟踪性能表现更加稳定。

前两种方法都依赖于浅层的手工特征,有一定的局限性,无法利用目标的高级语义信息[4],导致其泛化能力不足,往往在复杂场景难以实现稳定的跟踪,如尺度自适应变化、遮挡后复原跟踪。近年来,深度学习的方法凭借其卓越的性能已经在图像识别和检测领域取得了成功。在跟踪系统中,影响其性能的关键在于特征的表达,深度学习因为其深层结构可以提取图像的高级语义特征,其较强的特征表达能力在目标跟踪领域有较好的应用潜力。

本文中的跟踪模型是通过一个卷积网络的全连接层softmax分类器和在线观测模型来定位前方车辆,通过常规更新方案来更新网络,实现对前方车辆的稳定可靠跟踪。

1 基于深度学习的车辆跟踪器

将深度学习的方法应用到车载相机的目标实时跟踪上,主要瓶颈在于短时间内可供在线训练的样本不足。WANG N在文献[5]和文献[6]中提出了DLT(deep learning tracker)算法,通过线下预训练获得物体特征的通用表示,一定程度上减少了目标训练样本的需求。但是DLT因线下训练的数据集分辨率较低,无法学习到足够强的匹配跟踪序列的特征表示。2015年在DLT的基础上提出了SO-DLT(structured output deep learning tracker),该模型使用类似AlexNet的网络结构,利用图片本身的结构化信息,直接从概率图确定目标框的位置。

文献[7]中使用经过预训练的VGG-16(visual geometry group)网络[8],提出 FCNT(fully convolutional networks tracker)跟踪器,对卷积神经网络特征在目标跟踪的性能进行较为深入的研究,提出VGG-16网络的特征图可以做定位,且网络的最后一层(Con5-3①)深层的特征图具有较高的语义特征,可区分目标类间的特征差异,Conv4-3①较浅层的特征图可区分类内差异,该方法不再把CNN(convolutional neural network)视为黑箱子,充分利用深度神经网络的结构特点来对目标定位。但是在实际测试中,对遮挡的表现鲁棒性不强。文献[9]中在VGG-19网络[8]上提取 Conv3-4①,Conv4-4①,Conv5-4①层的特征并结合相关滤波器提出了粗/精式的跟踪算法,同样取得了不错的效果。

2016年文献[10]中提出MDNet(multi-domain network),运用多维的训练思路,将每个训练视频序列当成一个单独的域。该方法应用了大量的线下预训练,而减少了在线训练的样本需求。文献[11]中提出了一种简单有效的正则化技术branchout,减少了集成学习方法在模型多样化和训练样本中噪声标签较少的限制,为深度学习应用在跟踪领域上提供了一种新的方法。

在文献[12]中,通过研究不同卷积网络的深层结构,并对网络的性能进行比较,确定了重要的实现细节,得出VGG-M的网络结构具有更快的检测速度和更强的性能表现。VGG-M网络是一个中等架构的卷积网络,其网络结构见文献[12]中表1。其良好的目标特征表达能力和合理的网络架构使其更加适合应用于目标跟踪领域。本文中在VGG-M网络特征的基础上实现前方车辆的稳定跟踪。

2 车辆跟踪模型结构

2.1 卷积网络模型

本文中跟踪模型的特征来自于CNN网络结构,CNN可以通过训练学习获得目标的外部特征,网络结构如图1所示,网络的输入为107×107 RGB图像,网络结构的隐藏层一共5层,包括3个卷积层和2个全连接层,最后一层为softmax回归模型。该网络模型在文献[12]中提出的VGG-M网络结构的基础上丢弃了卷积层Conv4和Conv5,全连接层fc4和fc5使用dropout进行正则化,最后一层全连接层fc6即为softmax分类器。除了softmax,其余所有权重层的激活函数都是ReLU(rectified linear unit)。在跟踪之前,将网络在ImageNet[13]进行预训练。

跟踪器采用较浅层的网络模型,是因为过深的网络结构不利于参数训练,且深层的特征不利于目标的定位,不能完成精确的跟踪[14]。在线跟踪过程中,浅层网络在正向传播和反向传播阶段可以节省很多时间,且具有较好的跟踪性能表现,通过大量跟踪实验对比分析发现,较少的卷积层数可得到更快的跟踪速度,且由于浅层网络特征含有更多的空间位置信息,具有更好的定位精度。本文中选择3层卷积网络来搭建跟踪模型。VGG-M不同卷积层下跟踪性能表现如表1所示。

在车载监控的条件下,可以假设前方车辆的目标大小随着与镜头距离的远近呈现近似的高斯分布[15],于是本文中使用高斯模型,基于上一帧目标框的中心位置在其周围对当前帧的车辆位置及尺度生成N个候选框Xti(i＝1,…,N),针对某一位置,出现新的尺度时,及时对高斯均值和标准差更新。

图1 输出的特征和图像层

表1 VGG-M不同卷积层数下的性能比较

式中：∂为学习率；St为第t帧车辆外接矩形框的面积；μt+1和σt+1分别为第t+1帧高斯均值和标准差。车辆的位置可以通过fc6层softmax分类器来估计,分别求的每个候选框Xti(i＝1,…,N)的得分来获得。

通过候选框得分的高低构建一个高质量样本集,样本集的每个框用其所在位置分别标记为Ω＝{wk｜k＝1,…,K},对于每一个候选框位置wk与其候选框的尺寸共同构建了mini-patch,利用在线观测模型去估计他们的置信度。

2.2 在线观测模型

VGG-M网络应用于跟踪时,网络层数的加深,空间信息会被稀释,从而影响分类器的定位精度,且卷积神经网络更新的缓慢与滞后特性导致softmax分类器可能会出现误差。为了提高VGG-M网络的跟踪精度,本文中特采用包括一个转移模型和一个目标框尺度模型的在线观测模型。该模型来源于在线被动攻击算法(passive-aggressive algorithm)[16-17]。CNN特征包含输入图像的空间结构信息见图2,通过在目标周围提取负样本mini-patches来训练在线观测模型。

盛旦老师轻轻敲了下桌子，给了查理一张纸，示意查理念出上面的文字，查理念道：“一张牌可以睡个懒觉，一张牌可以逃学一次，一张牌可以迟到一次……”念完所有的文字，班上就炸开了锅。

由于一张输入图片有大量的负样本和少量的正样本,这样可能会影响训练模型的质量。为平衡正负样本数量的差异对模型的影响,构建了一个二分模型解决这个问题,如果第k个mini-patch的中心落在预测框内就定义rt,k＝1,否则rt,k＝-1。其中Zt表示第t帧的转移模型,xt,k(k＝1,…,K)表示第t帧、第k个样本的特征。转移模型通过优化函数获得：

图2 在线观测模型训练样本

式中若xt,k为正样本特征时Y＝Y+,否则Y＝Y-,其中Y+和Y-为经验参数,是为了减少正样本与负样本由于数量上的差异对训练模型造成的误差。ξ为松弛变量,其中 Z1＝0,Zt,0＝Zt,Zt+1＝Zt,K。式(4)为一个凸优化问题,可以通过拉格朗日乘子的方法解决。

使用转移模型 Zt∈ℝW′×H′×D′计算每一个 minipatch的置信度SZt(Xt,k),每个候选框wk的置信度S(wk,xt,k)通过式(6)计算：

目标框尺度模型是一个被动攻击的回归模型,首先对K个mini-patch样本定义不同的尺寸,回归值rt,k∈[0,1]由mini-patch的softmax的得分来设定,通过式(7)优化函数得到目标框尺度模型：

式中：ε为尺度变化的灵敏度,S1＝0,St,0＝St,St+1＝St,k,对于任意一个mini-patch的置信度cSt(xt,k)可通过式(8)计算：

目标定位过程如图3所示,图3(a)为在车辆上一帧位置使用高斯模型得到的车辆候选框。首先将候选框输入卷积网络softmax分类器,使用一个固定阈值选取置信度较高的候选框(图3(b)),最后使用在线观测模型与车辆高置信度样本响应大小确定车辆的最终位置与尺度(图3(c))。

图3 在线观测模型优化目标框位置和尺度流程

算法流程图如图4所示。利用VGG-M的特征辅助在线观测模型对车辆定位。跟踪过程中,从上一帧跟踪的结果周围取正负样本训练VGG-M网络,通过判断目标是否丢失而使用不同更新策略,提高跟踪模型对多种工况的鲁棒性。

图4 跟踪算法流程图

3 网络模型训练

卷积网络模型的检测效果一定程度上依赖于训练样本的质量,符合正态分布的样本可以得到更好的效果。但跟踪过程中相邻帧的目标具有相似的运动状态,太多的相似样本易产生过拟合的现象,影响卷积网络模型质量。使用文献[18]中的方法,用优化训练集的方式去合并样本。联合概率分布p(x,y)中,x为训练样本的特征图谱,y为训练样本得分。

式中：p(x)为Gaussian Mixture Model(GMM)的概率密度；δy0(y)为训练样本的狄拉克函数。p(x)＝其中 L 为正样本组件的总数量,πl为不同组件的先验权重,μl为组件l的期望值,协方差矩阵I使用一个固定矩阵,避免高维样本空间的复杂的推理计算。高斯混合模型的参数通过EM算法(expectation-maximization algorithm)估计,因为车辆不同尺度的卷积特征的差异性,不同组件呈不同尺度样本分布。

当有新的样本xj出现时,通过初始化一个新的部件 Cn,令 πn＝λ,μn＝xj。所有正样本被划分为{C(1),C(2),…,C(L)}。如果组件的样本超过最大值X时,就删除一个候选框得分最小的样本。当组件的数量超过L时,就合并两个相识度最高的组件。

式中Ca和Cb为两个相识度最高的组件。

鉴于从邻近帧提取的样本最能体现车辆重新出现时的特征,对样本生成模型进行了改进,增加一个邻近部件用来保存最近X个样本,如图5所示。若跟踪出现遮挡的情况,就将邻近部件作为第L+1个组件作为训练样本。当目标出现遮挡时,及时更新网络避免发生目标丢失。

图5 改进的样本生成方案

4 网络自适应更新模型

4.1 非常规更新

当检测到新的特征图谱时(即光照变化、角度变化、遮挡等),为了不丢失跟踪目标,需要及时更新网络,通过softmax预测框的置信度来量化,当连续3帧的预测得分的值均小于0.5时,即时,认定目标发生遮挡或者丢失,对于丢失目标视频帧数,停止更新样本生成模型,避免使用错误的样本训练分类器导致误差不断积累,发生跟踪飘移的现象。

4.2 常规更新

当远方目标距离本车较近时,其外部轮廓边界信息较为清晰,单位面积内信息熵增加,softmax分类器的预测会更加准确；相反地,当目标距离本车较远时,车尾图像面积较小,内部像素信息熵急剧降低,其表面特征尤其是类内特征差距较小,因此需要动态提高更新频率。本文中提出一种自适应更新模型,基于跟踪输出框大小和目标框与目标框尺度置信度联合在线实时调节更新频率n。