多交互车辆轨迹预测研究
2021-06-11秦胜君
秦胜君,李 婷
广西科技大学 经济与管理学院,广西 柳州545006
近年来,监控摄像机被大量应用于交通监控中,各个交叉路口或主要交通路段都安装了监控摄像机设备,设备的不间断运行可收集海量交通图像数据。通过使用图像处理、分析等有关信息技术,可以提取出车辆的行驶轨迹、速度、加速度等微观层面数据。将数据用于意图检测[1-2]、轨迹预测[3-4]、智能驾驶[5]、驾驶行为分析[6]、安全风险检测等研究领域,可助力于智能交通系统,从而提高交通安全性,降低交通事故发生率[7]。
轨迹预测研究主要是根据行驶车辆的当前位置信息、历史行驶轨迹和道路环境等信息动态预测出行驶车辆的未来轨迹。车辆轨迹预测具有广阔的应用前景。譬如,可以根据交通监控系统提前检测和预判车辆的行驶轨迹,过往车辆可以根据其他车辆的情况选择最佳路线,可缓解交通压力;有关交通部门可以预知未来的交通状况,合理进行道路规划或者提前交通分流。另外,如果可以提前预知其他车辆的轨迹,及时提醒车辆在过路口时注意开车路线,防止发生车辆碰撞等交通事故[8]。由此可见,轨迹预测的研究具有较高的应用价值,是智慧交通的重要研究方向。
影响车辆行驶轨迹主要有以下三个因素:(1)驾驶员行为特征。驾驶员由于驾驶经验、性格等特征不同,驾驶车辆的轨迹会出现不同,急躁的驾驶员可能会频繁超车,车辆轨迹较为弯曲,性格稳定的驾驶员的行驶轨迹则相对平缓。同一个驾驶员在不同时刻的心情不同,也将会影响行驶轨迹。(2)车辆自身情况。车辆所处的位置、速度和车况等特征都有可能影响车辆将要行驶的轨迹。(3)车辆的外界环境。外界环境包括路况、周围车辆行驶情况等。周围车辆对当前车辆的行驶轨迹会有一定的影响,比如超车、行驶速度等都会受到附近车辆的制约。本文主要考虑车辆自身情况和外界环境两个影响因素,提出Q-LSTM模型预测车辆的行驶轨迹,其中Q表示强化学习中的Q-learning算法,LSTM表示深度学习中的长短记忆模型(Long Short Term Memory)。Q-LSTM模型的优势如下:
(1)交互车辆的动态性。区域关联车辆会出现交互现象。例如,同一个优势车位可能会引起多车辆的争夺,如果某车辆争夺成功,其他车辆会自动避开。但是如果两车同时争夺,可能会发生碰撞。由此可见,道路行驶关联车辆会发生交互行为,道路上车辆都会主动寻找速度加快的占位。本文使用Q-learning对关联车辆之间的交互进行建模,在场景下寻找最优路径,符合驾驶员的行为特征,因此预测车辆行驶轨迹的扩展性更强。
(2)时空数据的融合性。行驶车辆随着时间的不同处于不同的地理位置,因此轨迹数据具有时间和空间二维特性。本文提出的模型中LSTM可以捕获轨迹数据的时间特性,而Q-learning则获取空间变换特性,QLSTM模型有效地融合了轨迹数据的时空特性,从而提高模型预测精度。
(3)轨迹预测的合理性。在轨迹预测时,除了考虑车辆坐标偏移度,还应该考虑车辆所在坐标的合理性,很多研究没有考虑车辆长宽,出现预测坐标落于其他车辆车身位置等不合理情况,尤其是在车辆类型混合时更容易发生,该问题如果频繁出现,则预测结果不合理性越高。
1 相关研究
近年来,许多专家学者对轨迹预测进行了研究,研究的方法一般可分为两大类:一类是基于模型驱动的方法,这类方法主要是根据专家知识建立动力学或运动学模型。第二类是基于数据驱动的预测方法,这类方法本质是分析历史数据,使用深度学习等模型学习车辆行驶轨迹特征,从而预测车辆行驶轨迹。现将两类方法的研究现状阐述如下。
1.1 模型驱动
模型驱动的方法可以使用车辆的移动信息包括行驶速度、时间和角度等构造非线性运动函数预测移动对象的轨迹[9]。比如,谢枫等[10]建立车辆在坐标系中的多项式方程,并以地图中的车道线曲率作为约束,筛选出最佳的预测轨迹。车辆移动轨迹除了受动力学约束,也受到复杂地形的影响,可以结合车辆动力学模型和安全约束条件设计车辆轨迹跟踪模型[11]。基于模型驱动的方法适用于短时轨迹预测,但是在长时域预测时具有一定的不足。
1.2 数据驱动
基于数据驱动的预测方法根据使用模型不同,可以分为深度学习和非深度学习两大类。
(1)非深度学习方法
不少研究者使用马尔可夫模型、回归模型、高斯过程等模型对移动轨迹进行预测。例如,毛莺池等[12]考虑车辆在路径选择时的不确定性,提出了一种补全路径的基于马尔科夫链的轨迹预测方法。该方法的优势在于弥补了不确定性历史数据的不完整性。预测车辆轨迹时,可以利用线性回归预测车辆加速度[13],或者使用高斯过程分析轨迹方差[14],再修正车辆轨迹。非深度学习方法在进行短时轨迹预测时可以获得较好的精度,但是不能捕获时空数据特征,在进行长时轨迹预测时具有一定局限性。
(2)深度学习方法
深度学习有关算法在轨迹预测的研究领域受到广泛的关注。Cheng等[15]提出一种多上下文编码器网络的方法,通过对过去和将来的场景上下文、交互上下文和运动信息进行编码,使用一组随机潜在变量捕获未来模式和变化。Li等[16]将关系归纳偏差与动态图形表示相结合,提出一种通用的生成神经系统,以对不同实体进行关系推理。Jeon等[17]提出SCALE-Net网络,将边缘增强图卷积神经网络(EGCN)用于车辆间交互嵌入网络,以解决网络中不同数量车辆问题。季学武等[18]提出一种基于LSTM的车辆轨迹预测模型,该模型首先使用Softmax函数计算出驾驶意图,再使用LSTM网络预测车辆轨迹。以上研究使用深度学习相关模型对实体关系推理、随机数量车辆轨迹等问题进行了研究,但大多只分析单车辆的行驶轨迹,没有考虑多车辆的交互过程。
关于单目标的轨迹预测已经有了广泛研究,不少方法考虑了周围车辆的影响,但是这些方法大多只关心单向交互,忽略了双向交互。也有一些工作使用串联或池化操作来混合不同Agent的功能,可是无明确的关系推理,无法实现混合实体的交互建模。本文中使用时空图表示车辆所处的场景以及车辆之间的关系,使用强化学习实现车辆之间的动态交互。
2 Q-LSTM模型
本文提出Q-LSTM模型预测车辆行驶轨迹,该模型首先应用自动编码器(AutoEncoder)进行数据特征压缩,另一方面由于车辆的数量随机,AutoEncoder可以统一特征维度。然后使用LSTM从时间维度预测车辆的特征,包括速度、角度等,Q-learning则从空间维度预测车辆的坐标,Q-learning可以从逻辑关系角度推理车辆关系以及空间的变化。Merge模块可以融合Q-learning和LSTM的预测结果,并且进行解码,从而得到预测车辆的行驶轨迹。Q-LSTM模型的框架图见图1所示。
图1 LR-LSTM模型的框架图
2.1 问题描述
本文的目标是基于历史状态的多个交互式车辆和上下文信息预测未来的行驶轨迹,场景中涉及的车辆数量在不同情况下可能会有所不同。假设场景中有N辆车,每辆车作为图中的一个节点,则场景的节点特征矩阵可以表示为X,X由位置坐标(x,y),速度v、加速度a、车身长L、车身宽W和航向角度θ组成。为了方便表示车辆运动参数,文中使用固定的参数坐标,在t时刻,某车辆的y轴方向指向道路方向,x轴垂直于y轴。X矩阵表示如式(1)所示:
图的邻接矩阵用H表示,hij表示车辆之间距离,同一车辆的距离为0,否则为车辆之间的欧式距离。
车辆的航向角可以使用坐标(x,y)计算出来,计算公式如式(4)所示:
其中,(xt,yt)表示节点t时刻所在的坐标位置,d表示车辆发生角度变化的时间间隔,由于数据集中车辆的平均速度较快,因此取d=3。轨迹预测的目标是根据历史数据预测未来轨迹,可以描述如下所示:
式中,Ψ表示历史轨迹到未来轨迹的映射,s表示历史轨迹的数据是从当前t时刻往前s段轨迹,r表示要预测的未来轨迹是r段。
2.2 Q-learning模型
强化学习,又称为增强学习,主要是描述智能体(Agent)在与环境交互过程中,通过给予奖励或惩罚的策略,不断尝试不同的行动,从而达到利益最大化或实现特定的目标[19]。
Q-learning算法是强化学习中具有代表性的一种算法。在Q-learning算法中,首先初始化行动价值函数Q(s,a),Agent根据策略选择行动a,执行行动之后获得即时奖励r,进入新状态s+1,更新Q(s,a)函数,重复上述过程,直到Agent达到目标状态。行为驾驶函数Q的更新方程如式(6)所示[20]:
其中,s和a分别表示当前动作和状态,s+1和a+1表示下一状态和动作,r为即时奖励。μ是学习率,表示是否保留之前训练的结果。γ为折扣因子,γ越大则越重视以往经验,越小则重视眼前利益,0≤μ≤1,0≤γ≤1,Q表示在状态s下采取动作a能够获得的期望最大收益。
在车辆行驶轨迹预测中,将行驶车辆视为一个智能Agent,则轨迹问题可以转换为Agent如何寻找路径问题。一般而言,在道路上行驶的车辆可以有三类动作:前进、向左、向右,如图2所示。
图2 车辆行动
假设车辆在采用动作a之后,速度得以提高则Q值为+2,速度不变Q值为+1,速度降低Q值为−1,不能到达的节点Q值为0,如果路段前方为目标停车点,比如红绿灯等,则速度降低Q值设为+1。Q表是根据车辆行驶情况和路况动态生成的。假设每个网格为一个节点,在t时刻车辆行驶情况,则对应的Q表如图3所示。
图3 生成Q表
图3中Q表省略了7~11节点,其中4、5、6号节点到7、8、9号节点的Q值分如图4所示。
图4 Q表补充
车辆驶行过程中,所有的车辆一起发生变化,因此不能只研究某车辆的轨迹,而应该考虑道路上目标区域所有车辆的轨迹变化,因此在进行动作选择时,也应分析邻居车辆的行动选择。另外,车辆在行驶时会主动寻找较优的行驶路线,也就是偏向能提升速度的动作,换而言之,可以加快速度的动作具有较高的概率被选中。Q-learning算法中行动策略可以选择ε贪婪算法,网络中Agent都会选择自己的动作,需要生成n个随机数,其中n为网格数。本文对ε贪婪算法进行了改进,步骤如下:
(1)假设wi为网格节点i的权重,权重wi初始化为1,qi为Agenti的动作策略中最大的Q值。
(2)令εi=wi/(C-qi),产生随机数ri,如果ri<εi,则选择Q值最大的动作去执行,否则选择动作。式中C表示大于Q表中最大值的某个实数,文中取C=3。
(3)如果Agent发生碰撞,则发生碰撞的Agent重新选择动作执行。
改进之后ε贪婪算法仍然优先选择Q值较大的动作,较小的概率选择其他动作,wi权重参数将会和LSTM一起训练,调整wi目的是为了和LSTM预测的结果融合。
2.3 LSTM模型
长短时记忆模型LSTM是循环神经网络(RNN)的一种改进模型,可以解决RNN在处理较长输入序列时梯度消失或梯度爆炸等问题。LSTM具有记忆功能,并且可以选择记忆或放弃信息,其主要有输入门、遗忘门和输出门三个部件,分别用来控制输入信息、是否遗忘当前信息和是否输出当前信息。LSTM结构图如图5所示。
图5 LSTM框架
LSTM的内部计算流程如下:
(1)计算遗忘门
ht-1表示在t-1时刻的输出值,xt表示在t时刻的输入值,Wf是需要训练参数,bf为偏置项,σ是sigmoid函数,其公式如式(8):
(2)计算输入门
(3)计算状态单元
(4)计算输出门
以上为LSTM的前向计算流程,其训练目标是找到W和b的最优解,使其预测结果接近真实结果[21]。LSTM的训练算法是反向传播,损失函数如式(14):
式中,θ表示LSTM中的参数W和b,z(t)表示t时刻的预测轨迹,y表示历史轨迹特征向量。除此之外,轨迹预测的时空特性要融合,即要求LSTM和Q-learning的预测结果尽可能相近,因此损失函数可以定义为:
JS表示JS散度(Jensen-Shannon divergence),P和Q分别是LSTM和Q-learning的预测轨迹的概率。结合J1和J2可以将最终损失函数定义为:
β表示J2在总损失函数中所占的比重,取值在0到1之间。
3 实验与分析
3.1 数据集
本文使用德国汽车工程研究生发布的HighD数据集[22],下载网址为https://www.highd-dataset.com/,该数据集通过使用无人机以鸟瞰视角测量每辆车的位置和运动情况,可以获取准确的车辆纵向和横向尺寸信息。为了应对场景描述的复杂性,数据集从道路信息、交通路牌、道路临时表更信息、可移动物体、环境信息等五个水平来衡量驾驶场景。HighD数据集的轨迹数据如图6所示。
图6 HighD数据集
HighD数据集包括来自6个地点的16.5 h测量值和110 000车辆,车辆行驶的总里程为45 000 km,包括5 600条完整的变道记录,定位误差通常小于10 cm,相较于以往的数据集,HighD数据集就有较高的准确度。HighD数据集的相关统计信息如表1所示。
表1 HighD数据集
与其他数据相比,HighD数据集中货车占据了较大的比例,比例分布如图7所示,其中频率是指货车比例在选取的序列中出现的次数比例。
图7 货车比例分布
采用滑动时窗的方法提取轨迹序列,时间步长设置为1 s,从每个时间点t开始,t+1为下一个时间节点,序列长度为14。车辆如果在下一个时间点出现在另外一条车道,则表明该车辆进行了变道。数据集记录了400 m的车辆行驶数据,文中以50 m作为一个观察区域,用于分析车辆的交互情况。在数据集中随机选取180 000条序列,其中80%作为训练集,20%作为测试集。
3.2 动作选择性能分析
本文提出的Q-LSTM模型能够捕获较为复杂情况下的整个交互道路状况,有助于提高车辆行驶轨迹的预测精度。另外,Q-LSTM模型可以解释车辆在交互过程中推理关系,弥补深度神经网络在预测时不容易解释的缺陷。
实验首先分析了在不同车流量的场景下车辆选择动作的性能指标。车辆在行驶过程中可选择的动作包括向左转、向右转和直行。该实验的性能分析使用召回率(Recall)、精准率(Precious)两个评价指标。Recall表示正类预测为正类与所有真正的正类的比例;Precious表示将正类预测为正类与所有预测为正类的比例。假设车辆直行为一类,左转和右转作为另外一类,两类分开考虑Precious和Recall。实验1的结果如图8所示。
图8 车辆动作选择性能分析
图8中,假设车辆直行设为正类,其他为负类,则精准率和召回率的曲线呈现凹形,道路上车辆少和较多预测精度较高,精准度和召回率最高达到93%,但是在车辆数量8~12时,精准度降低,最低是88.5%。主要是由于车辆少,车辆都可以选择直行可以保持最大速度,不需要换道。车辆较多时,密度较大,车辆换道的机会较少,因此直行较多。但是在车辆数量10左右,车辆变道的可能性较大,预测精度略有下降。假设换道为正类,直行为负类,预测时精准度和召回率的曲线呈直线型缓慢上升,精准度最高91.3%,最低是88.3%,召回率曲线比精准度稍低。路面上车辆较少时,直行或者是换道都能获取加速度,但是在这种情况下车辆一般会优先选择直行,所以预测精度稍低,随着车辆数量的不断增加,车辆换道的可选择性越来越小,因此预测精准率逐渐提高。
3.3 完整模型性能分析
为了体现Q-LSTM模型的优势,本文将模型与其他几个类似的轨迹预测模型进行性能比较,比较的模型介绍如下:
(1)Q-LSTM模型,结合Q-learning和LSTM模型。
(2)Social-WaGDAT模型[16],将关系归纳偏差与动态图表示相结合,用于多主体轨迹预测的通用生成神经系统。
(3)SCALE-Net模型[17],SCALE-Net将边缘增强图卷积神经网络(EGCN)用于车辆间交互嵌入网络。
(4)CNN-LSTM模型[23],在网格地图的基础上,基于CNN的场景嵌入实现完全可扩展的预测网络。
本部分实验主要使用HighD数据集,根据不同的预测期和不同的货车比例进行模型的性能比较。性能比较指标是使用预测轨迹和真实轨迹的均方根误差(RMSE),RMSE计算方式如式(17)所示:
式中,n表示视线区域中某种类型车辆的数量,r表示预测时长或预测期,disti为车辆i的实际坐标与预测坐标的偏差,计算方式如公式(3)类似。
该部分实验分别考虑了视线区域内小车和卡车在不同预测时长的模型性能分析,实验重复10次取平均值,运行结果分别如图9和图10所示。
图9 不同预测期的RMSE比较(小车)
图10 不同预测期的RMSE比较(卡车)
由图9可知,在预测期为3之前,各种模型的RMSE相差不大,但是随着预测期逐渐增加,CNN-LSTM模型的RMSE增长最快,高于其他模型,主要CNN-LSTM模型关注轨迹特征的提取,但是在车辆交互上考虑不足。SCALE-Net模型的RMSE比CNN-LSTM略低,但是也高于另外两个模型,SCALE-Net模型研究重点是如何解决道路上车辆数量随机变化所带来扩展性问题,对于长时期轨迹预测弱于Q-LSTM和Social-WaGDAT模型。Q-LSTM和Social-WaGDAT模型都关注车辆的交互,预测期短时,Q-LSTM的RMSE值稍微高于Social-WaGDAT模型,预测期达到6 s时,Q-LSTM的RMSE值逐渐低于后者。Social-WaGDAT使用双层注意力模型进行互动主体之间的关系推理,因此在时期短时具有一定的优势,但是注意力模型没有考虑车辆长时期交互问题。而Q-LSTM使用强化学习中的Q-Learning算法分析车辆的交互,提高了模型的学习和泛化能力,在长时期的预测问题上具有优势。
由图9和图10可以看出,四种模型在预测卡车时,每个预测点的RMSE都低于小车的值,整体预测性能优于小车,主要是由于相对于小车,卡车的行驶路径变化较小,直行时间长,转向动作相对较少。在预测时期6 s之前,四种模型的RMSE值相差不大,数据较接近大,但是7 s之后,性能值差距逐渐增大。本文提出的Q-LSTM模型表现最优,相对其他模型RMSE一直最小,主要因为该模型中考虑了车辆的长度以及是否可以转向,随着预测时期的增长,车辆路径发生变化的可能性变大,因此,模型的性能优势也变大。
在交通轨迹预测时,除了将预测坐标与实际坐标之间的偏离程度,还应考虑轨迹的合理性,由于很多模型都没有考虑车身的长度,因此出现预测车辆之间的距离小于车身长度或宽度等问题,此为碰撞现象,该现象出现越多,则轨迹预测越不合理。本文对不同货车比例情况下撞车概率进行了实验,从测试集中随机抽取50条不同货车比例的序列,轨迹预测期长为6 s。碰撞概率的计算方式如式(18)所示:
式中,ci表示在第i条序列中预测轨迹出现撞车的次数,l和r分别是序列的数量和预测期长,本实验中,l=50,r=6。本次实验运行结果如图11所示,为与相似模型做比较,将上述四个模型中SCALE-Net模型替换为Multi-Model模型[24]。
图11 不同货车比例的碰撞率比较
为了避免碰撞事件,在模型中应考虑车身长度和宽度,Social-WaGDAT模型在处理车辆交互时具有一定的优势,但是由于没有考虑车辆长度,因此在四个模型中表现最弱,CNN-LSTM模型从图片上提取车辆信息,因此碰撞概率比Social-WaGDAT模型稍微低一些。Multi-Model模型和Q-LSTM模型在建模时都考虑了车辆的长宽,但是由于Multi-Model模型没有处理碰撞事件的机制,而Q-LSTM模型在交互过程中不断深入学习避免碰撞,因此Q-LSTM模型的碰撞概率较低,而且随着货车比例的增加,碰撞概率并没有明显提升。由此可见,本文提出的Q-LSTM模型在处理碰撞事件上具有较大优势,预测轨迹数据更符合实际道路情景。
4 结束语
本文提出了预测多交互车辆行驶轨迹的Q-LSTM模型,该模型结合了强化学习的Q-learning算法和深度学习的LSTM模型,同时考虑统计上下文信息、交互车辆轨迹和物理可行性约束。Q-LSTM模型使用LSTM从时空动态图中捕获时间特征,而Q-Learning算法表现了车辆之间交互过程,获取了车辆轨迹的空间特性,另外算法整体是寻找最优路径,符合驾驶员的行为方式,从而提高了模型的扩展能力。另外模型考虑了车辆碰撞现象,提高预测结果的合理性。Q-LSTM模型被用于HighD数据集,并与其他类似三个模型进行比较,实验结果表明,Q-LSTM在长时期的多交互轨迹预测中具有一定优势,同时预测结果的合理性也比其他模型要强。未来的工作可以集中在扩展其他方案并添加驾驶员的习惯性驾驶特征等影响因素,进一步提高模型的适应性和可扩展性。