APP下载

基于时空图的行人多模态轨迹预测方法

2022-10-17冲,周

计算机工程与设计 2022年10期
关键词:障碍物行人轨迹

姚 冲,周 晖

(南通大学 信息科学技术学院,江苏 南通 226019)

0 引 言

行人的未来轨迹对于无人驾驶技术、道路安全、机器人导航[1]等的发展至关重要。研究目标是使无人驾驶等设备能够预测行人的未来轨迹,并在没有人为干预的情况下安全有效地执行任务[2]。Karasev等[3]通过输入一种具有指导方向的意图函数预测未来方向。Rathore等[4]提出了一个可扩展的聚类和基于马尔可夫链的混合框架,以此处理密集重叠的轨迹。在Saleh等[5]的研究中结合了逆向强化学习和双向递归神经网络来预测行人轨迹。Alahi等[6]提出的Social-LSTM通过对周围行人的网格化建模,隐藏池化行人特征等预测行人轨迹。Xu等[7]对行人间不同的距离影响进行了探索。通过结合两种不同的LSTM以及建立同时模拟个人与群体活动的模型[8,9]来预测行人轨迹。虽然长短期记忆(long short-term memory,LSTM)网络在序列学习[10]方面表现优秀,但其仍有缺陷。Fernando等[11]提出一个基于LSTM网络的注意力机制框架,在真实世界场景中为准确预测行人轨迹提供了参考。孙等[12]运用注意力机制描述行人交互的运动模式。通过引入不同的注意力机制[13,14]能够有效提高行人轨迹预测的准确性;考虑轨迹多模态并由生成对抗网络(generative adversarial network,GAN)[15,16]进行模型泛化也为预测的准确性做出很大贡献。Sadeghian等[1]在基于GAN的框架下,利用场景图像信息预测个体的行为轨迹,但当前基于数据驱动预测行人轨迹的方法还是存在准确率低等问题。

针对上述存在的问题,提出基于时空图的生成对抗网络(spatial-temporal graph GAN,ST-GAN)架构,该架构综合考虑人与环境的交互,通过时空图与全局节点提高计算效率,并可生成合理的多模态预测轨迹。

1 轨迹预测模型构建

1.1 问题定义

(1)

(2)

(3)

(4)

其中,t表示任意时刻,tobs表示可观测时刻,tpre表示预测时刻。

1.2 轨迹预测生成模型

如图1所示,ST-GAN的整体网络架构主要由轨迹生成器、编码器模块、融合判别器、鉴别器模块组成。首先,编码器模块接收行人与固定障碍物的历史轨迹即二维坐标,利用LSTM对每个节点进行特征编码,同时对行人轨迹的多模态通过生成控制点进行预测并作为假设建议。然后,将行人节点、障碍物节点合并为一组全新的空间合并向量,通过非线性嵌入功能处理空间合并向量并通过LSTM获得全局节点编码。其次,通过使用缩放点积注意力机制将全局权重分配到每个行人节点上得到交互式特征编码。接着,将行人节点编码与噪声编码、交互式特征编码作为轨迹生成器的条件生成预测轨迹。最后,利用融合判别器将两者的结果进行相似度S分析,α为预定义阈值。预测轨迹与真实轨迹共同输入鉴别器模块,以此生成更加真实的行人未来轨迹。

2 场景解析

(5)

(6)

(7)

3 轨迹预测网络结构设计

3.1 控制点生成多模态轨迹

对行人的轨迹进行多模态预测,将行人在有限时间内的轨迹建模为连续的曲线,避免传统的以散点图为主的轨迹预测带来爆炸性的低效组合。通过减少建模过程中对曲线参数的改变,来更好产生多模态预测曲线组反映行人行走倾向及意图。

对时间长度为T=tobs+tpre的轨迹计算拟合误差。选择以三次多项式为基础的曲线进行计算,以确保曲线的复杂度能够达到预测的精度要求。由于参数的微小变化也会使曲线的形状大幅改变,故创造性地选用一组点表示曲线。这些点包括两个控制点,即终点和曲率点,另外还有一个历史轨迹点。曲率点通过反映轨迹曲线的弯曲程度,决定轨迹曲线的走向,曲率点由距离变量γ决定。距离变量γ定义为轨迹曲线到当前所在点与终点连线中点的垂直距离,如图2所示。将曲率点编码为γ,可以灵活地生成具有不同弯曲程度的曲线,对此可以更好地进行轨迹多模态预测。

(8)

由行人历史可观测位置,可得到可能的轨迹曲线

(9)

对于行人未来轨迹的预测,由先验知识可知一些极小概率的情况是不会发生的,所以可以由此过滤一部分不可能区域。利用历史轨迹确定出行人未来会行走的一个多边形区域,即行人可移动区域。通过式(10)得出在行人可移动区域之外的不可能性分数来明确约束预测轨迹

(10)

其中,r是未来行人在可移动区域之外的比率,σ是衰减因子。与放弃可移动区域以外的预测结果相比,衰减分数保证了预测结果的多样性。

3.2 轨迹生成器设计

(11)

(12)

(13)

(14)

(15)

当共同考虑场景中的行人节点与障碍物节点时,交互式特征编码称为全交互式特征编码;当仅考虑场景中行人节点时,称为部分交互式特征编码。至此,利用LSTM完成对各节点的特征编码。

(16)

(17)

其中,v是符合标准正态分布的噪声向量,MLP(·)是多层感知器,Wmix、Wmixe是嵌入的权值。

3.3 轨迹融合判别器设计

(18)

(19)

(20)

由式(20)得到以上两种方法所求行人未来轨迹的相似度。当相似度S大于等于预定义阈值α时,我们认为这两种方法所求出的结果是相似的,同时这个结果也是最优的。当相似度S小于预定义阈值α时,我们认为这两种方法求得的结果存在差异。此时通过动态调整权重以及距离变量γ的方法重新求取行人未来轨迹,直至相似度S达到要求,并将预测结果作为GAN的输入。

3.4 GAN

在生成行人的未来位置坐标后,为使结果更加准确,通过GAN对预测轨迹进行评估,生成一个合理的未来行人轨迹分布图。GAN由两个相互对立的神经网络组成:生成器G与鉴别器D。生成器G用于捕捉真实数据的数据分布,使其具备一定的模仿真实数据的能力,鉴别器D估计所给样本数据是来自训练集中的真实行人轨迹数据而不是生成器G中数据的概率。通过鉴别器D对行人轨迹的评估,使行人未来轨迹的分布更加符合真实情况

(21)

(22)

Ride_i=MLP(hide_i;Wide3)

(23)

3.5 损失函数

文中对提出的ST-GAN模型的期望目标如下

(24)

式中:λ是加权系数,其中LGAN(G,D) 和LL2(G)的定义如下

(25)

(26)

对于损失函数的设计构造,除了实现了min-max问题的对抗性损失,还使用了L2损失函数来评估行人真实未来轨迹与预测轨迹之间的差异。

4 实验分析

本节利用两个公共数据集对提出的ST-GAN模型进行测评。首先介绍实验中的数据集和相关设置,然后通过介绍所要计算的性能参数来评测模型效果,最后和其它模型进行比较。

实验部分运用到的两个公共数据集分别是ETH[18]和UCY[19]。其中,ETH数据集包含ETH-univ和ETH-hotel两个场景,UCY数据集包含UCY-zara1、UCY-zara2、UCY-univ这3个场景。具体的包括行人穿梭交叉、路口处行人转弯、行人跟随、行人躲避固定障碍物等。实验中,选择使用8 s内的数据进行模型评测,时间步长为0.4 s。将8 s分为两部分,第一部分为前3.2 s是训练数据,共8个时间步长;第二部分为后4.8 s是测试数据,共12个时间步长。除此之外,实验还记录了模型的推理时间。在模型评测中,研究方法与之前研究方法类似[15],使用平均位移误差(average displacement error,ADE)和最终位移误差(final displacement error,FDE)作为基准度量标准。

在ST-GAN行人轨迹预测框架中,没有使用卷积神经网络来提取图片特征以对场景信息进行建模[20]。其中,实例节点的坐标嵌入为16维向量,LSTM网络隐藏层单元个数在编码器与解码器中分别为16和32。使用Adam优化器训练生成器和鉴别器模型,初始学习率为0.001。该模型基于PyTorch搭建,GPU为NVIDIA Titan XP。

(27)

FDE定义为所有行人未来预测轨迹与实际轨迹最终位置的平均L2欧式距离

(28)

在实验评测中,选择5个模型作为对比模型。这5个模型分别为:LSTM[6]、S-LSTM[6]、SA-LSTM[13]、S-GAN[15]和Social-BiGAT[16]。本节中将仅考虑行人节点的方法称为ST-GAN-1,同时考虑行人节点与固定障碍物节点的方法称为ST-GAN-2。在表1中,总结了这7个模型的创新点和建模角度。应当注意的是,只有在测试ST-GAN-2模型时,才考虑场景中固定障碍物节点的坐标,而其它模型不将此信息作为输入。

表1 模型创新点与建模角度

4.1 定量评估

定量评估是通过运用数学模型对所要进行分析的对象在各项关键性能指标上的评估分析。表2中列出了两个公共数据集上以ADE和FDE为指标的5种场景对应模型的评估结果,ADE与FDE用斜线隔开。从表中可以看出,LSTM模型的预测效果很不理想,因为此模型只是从个体的角度出发,没有考虑人与环境交互的影响。由于S-LSTM模型考虑到了人与环境交互的影响并利用池层捕捉社会交互,故总体上S-LSTM模型的预测效果优于LSTM模型。对于SA-LSTM模型,其在S-LSTM模型的基础上引入了社会注意力机制,提高了整体模型对人群交互的掌控。通过捕捉每个行人在人群中的相对重要性,从而更好了解不同运动状态对行人未来轨迹的影响。对两者进行性能比较可知,在5种场景下的数据集所计算出的平均ADE和平均FDE分别下降了14%和12%。数据表明,引入注意力机制有助于提高轨迹预测模型的精准度。

表2 各模型在5个公共数据集上的ADE和FDE

除以上3种模型外,基于图注意力机制的Social-BiGAT模型和基于GAN的轨迹预测模型S-GAN,其多模态预测轨迹的预测效果优于上述3种模型。这两种模型的预测结果与前3种模型相比具有较小的预测误差,这也是多模态预测的优势。在某些数据集上虽然Social-BiGAT模型性能优于本文模型,但是由于其选取了VGG编码器处理原始图像,故模型实时性将受到影响。与Social-BiGAT和S-GAN模型不同,ST-GAN-1模型通过融合行人节点的交互信息进行多模态预测行人轨迹。评估结果表明,ST-GAN-1模型进一步减小了轨迹预测的误差。有趣的是,尽管ST-GAN-2模型同时考虑了场景信息中的行人节点与固定障碍物节点,但是在UCY-zara1、UCY-zara2、UCY-univ这3个场景中,ST-GAN-1模型与ST-GAN-2模型所表现的评估结果并无很大的差异。通过场景观察,认为行人轨迹与固定障碍物的位置有关。以上3个场景中只有停在路边的车辆,其对行人的路线决策影响较小。在ETH-univ和ETH-hotel两个场景中,行人在行走过程中有很多的固定障碍物需要躲避,所以考虑了固定障碍物节点的ST-GAN-2模型表现得更为出色。与S-GAN模型相比,5种场景下ST-GAN-2模型的性能指标平均ADE与平均FDE分别降低了19%和14%。

除此之外,模型的推理速度对于轨迹预测至关重要,在自动驾驶技术中尤为突出,快速的推理速度给予系统更多的决策时间,从而使得决策更加合理。在表3中记录了各个模型的推理速度,可以看出准确率最低的LSTM模型的推理速度最快。S-LSTM模型需要计算每个行人在网格范围内与其他行人的交互,计算效率相对较低,推理速度不理想。SA-LSTM模型通过成对交互计算来捕捉人群中每个行人对于整体的相对重要性,该方法重复计算且大量消耗计算资源,推理速度最慢。和推理速度最快的S-GAN模型相似,所提出的ST-GAN模型通过前向计算将所有的实例特征节点汇总到全局节点。实验结果表明,全局节点能够更有效地捕捉交互特征。对比SA-LSTM模型,ST-GAN-1模型的推理速度提高了25.4倍,ST-GAN-2模型的推理速度提高了23.3倍。

表3 模型的推理速度

4.2 定性评估

以ETH-hotel、ETH-univ、UCY-zara1这3个场景数据集为背景对ST-GAN-2模型进行定性评估。可视化结果如图3所示,在所列出的场景中,当行人处于稳定的行走状态时,模型以多模态轨迹预测方法得到的行人未来轨迹分布与真实的未来轨迹高度一致。实验结果表明,所提模型可以很好地理解实验中所列举出的复杂场景,比如行人在行走过程中躲避障碍物、行人之间的穿插以及跟随等。具体地说,图3中,粗虚线表示历史轨迹,粗实线表示真实未来轨迹,大量细实线表示多模态预测轨迹。在图3(a)、图3(b)中,此模型成功预测了行人在行走过程中躲避树木和路灯的行动。图3(b)、图3(c)中,此模型很好地理解了行人之间的跟随并做出了准确预测。图3(d)、图3(e)中,该模型准确地预测了行人交互以及躲避路边石球的行为。综上所述,本文提出的模型具有良好的预测性能,在简单场景中预测轨迹与真实轨迹完全贴合。

然而,实验发现当行人的运动状态突然发生巨大改变时,模型对行人的轨迹预测与其真实轨迹之间会发生很大的偏差。例如在图3(f)中,模型对此场景的预测输出是防止两者发生碰撞。但是实际上,当两行人见面后,其中一人改变了行走方向,两人朝着同一方向行进。但是在图3(g)、图3(h)中模型对正在直线行走的两个行人预测出了存在转弯的倾向。在其它场景中,通过观察行人的真实未来轨迹与模型预测轨迹,可以发现,随着场景信息进一步的输入到训练模型中,预测的未来轨迹分布与真实的未来轨迹之间的偏差在逐步减小。

5 结束语

本文提出了一种基于ST-GAN框架的行人轨迹预测模型,通过灵活的时空图结构完整地模拟了人与环境各类型的交互。创新性地提出用于集成场景上下文信息的全局节点,并结合了两种预测行人轨迹的方法。此外,通过引入GAN对行人轨迹进行多模态预测。实验结果表明,提出的框架是准确有效的,精确度与速度都得到了提高。

在未来的研究中,探索如何将人物行为姿态融入框架,并且在框架中加入丰富的语义信息处理网络。通过对模型的进一步完善,针对行人未来轨迹预测的工作,其预测的精度、速度等将会有很大的提升。

猜你喜欢

障碍物行人轨迹
解析几何中的轨迹方程的常用求法
毒舌出没,行人避让
轨迹
轨迹
高低翻越
赶飞机
路不为寻找者而设
月亮为什么会有圆缺
我是行人