APP下载

基于时空图联合关系路径的行人轨迹预测框架

2023-03-07范勇强牟利平谢海兵

无线电工程 2023年2期
关键词:顶点行人时刻

孙 科,鄢 府,范勇强,牟利平,谢海兵

(1. 数字泸州产业投资集团有限公司,四川 泸州 646004;2. 四川省金科成地理信息技术有限公司,四川 成都 610095;3. 成都市生态环境数智治理中心,四川 成都 610015;4. 四川省烟草公司泸州市公司,四川 泸州 646004;5.中国人民解放军联勤保障部队,湖北 武汉 430013)

0 引言

通常,行人在行走时可能会受到多种因素的影响,如行人的预期目标位置、预期行动路线上的障碍物,以及附近其他行人的移动状态等。近年来,传统的行人轨迹预测技术并没有考虑与其他行人的交互关系[1-4]。基于学习的方法也存在一定局限性,如没有充分利用时空图的结构信息,无法理解不同时间段各个行人空间坐标的变化关系,导致轨迹预测模型的性能下降[3]。

时空图被广泛应用于路线规划、定位和导航等领域[5-11]。目前,已经有许多将时空图应用于轨迹预测的案例[1, 3, 5, 8],并且取得了不错的成果。然而,上述方法并没有充分利用时空图中的所有信息,只是倾向于使用可以从时空图中获得的部分特征信息。例如,ST-LSTM[1]只使用固定时间步长的空间信息,而忽略了长短期空间依赖关系的特征。

关系路径应用于社交网络分析等领域[12],能够显式地捕获节点之间的长短期关系。利用关系路径来准确捕捉时空图中的结构信息,能够为行人轨迹预测任务提供新的思路。

本文提出了一种基于时空图联合关系路径的行人轨迹预测框架(Spatio-Temporal Graphs with Relationship Path Trajectory Prediction Framework,STRP-TPF)。STRP-TPF利用关系路径来准确捕捉时空图的结构特征。STRP-TPF基于时空图构建关系路径,并基于关系路径构建因子图。STRP-TPF将因子图作为EdgeRNN和NodeRNN模型的输入,输出行人的预测轨迹。STRP-TPF充分学习行人在不同时间和空间点的轨迹关系,相比目前最先进的方法能表现出更好的性能。在行人轨迹预测任务中,STRP-TPF的预测轨迹更加符合真实的行人轨迹。

本文第1节介绍了时空图、关系路径以及轨迹预测的相关工作;第2节介绍了STRP-TPF的架构;第3节介绍了实验流程和实验结果;第4节进行了总结与展望。

1 相关工作

1.1 时空图

时空图不仅被应用于机器人任务,而且被广泛应用于交通预测、路线规划和轨迹预测等领域[13-14]。时空图中存在多个交互实体,这些实体的属性往往与时间和空间相关。在时空图中,顶点代表实体在场景中不同时刻的属性;空间边描述了同一时刻不同顶点之间的位置关系;时间边描述了不同时刻同一顶点位置的变化关系。行人场景如图1所示。

图1 行人场景Fig.1 Pedestrian scene graph

1.2 关系路径

关系路径是指连接2个实体的一个关系序列。如图2所示。连接2个author可以有不同的关系路径,例如author1→paper1→author3,表示author1和author3之间的合作关系;author1→paper1→venue→paper2→author2,表示author1和author2参加同一个会议的关系。关系路径包含丰富的语义关系,能够指示2个没有直接连接的实体之间的语义关系。因此,关系路径应用于知识图谱[15]以及社交网络分析。关系路径对于寻找图中的新模式和语义关系至关重要。

图2 关系路径示例Fig.2 Example diagram of relationship path

1.3 轨迹预测

传统的轨迹预测方法主要是基于物理的方法[16],但规则复杂、约束性强以及可扩展性较差[17],往往只能应用于特定领域。基于学习的轨迹预测方法不依赖于专家经验的物理规则,而是基于数据驱动,根据观察的轨迹数据来学习不同时间段的各个空间位置之间的变化规则。基于学习的方法(如基于RNN[18])已经在轨迹预测任务中有良好的表现,例如ST-LSTM[1],ST-Transformer[3],Social GAN[4],SR-LSTM[19]和Social Attention[20]。然而,上述方法并不显示使用时空图中的结构信息,导致轨迹预测模型的性能下降。

2 STRP-TPF架构

首先,定义行人轨迹预测任务;其次,介绍如何基于行人轨迹预测任务构建时空图;接着,介绍如何在时空图中构建关系路径并且基于关系路径构建因子图;然后,介绍如何基于因子图构建EdgeRNN模型和NodeRNN模型;最后,介绍STRP-TPF的工作机制。

2.1 行人轨迹预测任务定义

2.2 行人轨迹预测任务时空图的构建

在行人轨迹预测任务中,根据行人的空间坐标集来构建时空图G,行人被视为时空图中的顶点,行人轨迹预测任务的时空图G如图3所示,红线代表空间边,黑线代表时间边。

图3 行人场景的时空图Fig.3 Spatio-temporal graph of pedestrian scenes

时空图G表示为:

G=(V,Es,Et),

(1)

式中,V表示一组顶点集;Es表示连接2个顶点的空间边集,空间边是指将同一时刻的不同顶点进行连接;Et表示连接2个顶点的时间边集,时间边是指将同一顶点在不同时间的空间坐标进行连接。V,Es,Et的定义如下:

(2)

(3)

(4)

(5)

(6)

(7)

2.3 时空图联合关系路径

在复杂的行人轨迹预测场景中,各个行人的轨迹往往相互影响,预测行人轨迹取决于以下3个关键因素:① 其他行人的位置在过去时间中如何变化;② 其他行人的位置与之前时刻的位置发生了怎样的变化;③ 在预测时间内与其他行人位置的空间关系。这3个关键因素基于一个事实:人们在移动中会观察周围其他的主体,并通过与其他主体的时空关系做出决策。换句话说,人们不仅关注当前其他行人的距离,还考虑其他行人的移动方式。基于时空图的关系路径正好契合这种观点。

在时空图中,从一个顶点到另一个顶点有多条不同的路径。连接任意2个顶点的路径为关系路径,路径可包含不同类型的边,如时间边和空间边。在时空图G中,长度为k的关系路径M被定义为顶点vi和顶点vj之间的路径。例如,有一条从顶点vi到顶点vj的路径为vi→v1→…→vj,共包含k条不同类型的边,关系路径M为m1-m2-…-mk,其中m1对应顶点vi和顶点v1之间的边。

通常,若图中包含b种类型的边,对于给定长度为l的路径,共有bl种不同类型的关系路径。在时空图中共有2种类型的边:空间边和时间边。因此,对于给定长度为2的关系路径,在时空图中共有4种关系路径,分别是时间边→时间边、时间边→空间边、空间边→空间边、空间边→时间边。每种类型的关系路径均可以表示不同的信息。例如,一条关系路径为空间边→时间边,可以表示行人相对其邻居是如何进行跨时间移动;关系路径为时间边→时间边,可以表示行人的空间位置在一段时间内的移动情况;关系路径为时间边→空间边,可以表示行人在一段时间内的位置相对其邻居的位置如何变化;关系路径为空间边→空间边,可以表示行人与其邻居的位置关系。4种关系路径的表示方式如下:

在时空图中可以构造长度更长的关系路径。但是,在本文中,仅限于长度为2的关系路径,因为增加关系路径的长度往往会增加模型的复杂性。此外,长度较短的关系路径往往会比长度较长的关系路径产生更多关键的特征[21]。主要是因为长度较短的关系路径往往包含更准确的结构特征信息,更容易描述不同时空内各个行人之间的位置关系,能够提供更多关键的特征。长度较长的关系路径虽然能够包含更多的特征信息,但是往往无法准确地捕捉行人与其邻居之间的多种位置关系,进而容易忽略关键的结构特征信息。需要注意的是,长度为1的关系路径只是时空图中的边。

基于时空图中的关系路径构建因子图,如图4所示。设定关系路径的长度为1和2。共有7种类型的因子,分别是节点因子、空间关系路径因子、时间关系路径因子、空间→空间关系路径因子、时间→时间关系路径因子、时间→空间关系路径因子、空间→时间关系路径因子。

图4 基于关系路径的因子图Fig.4 Factor graph based on relationship path

因子图中同类型的因子均由一个RNN模块处理,如多个空间关系路径因子、多个时间关系路径因子、多个节点因子分别由单个RNN模块进行处理。因此,RNN模块的数量不会随时空图中顶点数量的变化而变化,进而STRP-TPF不用考虑行人的数量,可以扩展到复杂的行人轨迹预测场景。

2.4 基于因子图构建EdgeRNN和NodeRNN模型

为了构建STRP-TPF中的EdgeRNN模型,根据因子的类型,将每种因子由EdgeRNN模型进行处理生成不同类型的特征向量。EdgeRNN模型处理同类型的关系路径因子的过程如图5所示。

图5 EdgeRNN模型处理关系路径因子的过程Fig.5 Process of EdgeRNN model processing relationship path factors

EdgeRNN模型将同一类型的所有关系路径因子作为输入,并输出一个表示该类型的所有关系路径的特征向量。首先,EdgeRNN将所有输入的关系路径因子相加,生成一个累加向量;然后,将累加向量输入到编码器生成编码向量;最后,将编码向量输入到RNN模块中。RNN模块将同一类型所有关系路径的编码向量和上一时刻输出的隐藏向量作为输入,输出当前时刻的隐藏向量。当前时刻的隐藏向量作为EdgeRNN模型的输出再传递出去作为下一时刻的输入,直到终止状态。

(8)

(9)

(10)

图6 NodeRNN模型处理节点因子的过程Fig.6 Process of NodeRNN model processing node factors

NodeRNN模型将EdgeRNN模型输出的隐藏向量作为输入。首先,NodeRNN模型将隐藏向量和表示顶点位置的编码向量进行串联,生成一个串联向量;其次,将串联向量输入到RNN模块中。RNN模块将串联向量和上一时刻输出的隐藏向量作为输入,输出当前时刻的隐藏向量;最后,将隐藏向量输入到偏移解码器,生成一个偏移量,偏移量与当前时刻顶点的空间坐标相加来预测下一时刻的顶点位置。

NodeRNN模型负责汇总从时空图中收集的所有信息,并预测下一时刻的顶点位置。NodeRNN模型的学习参数包括节点编码器的参数NEncoder,RNN模块的参数NRNN以及偏移解码器的参数NDecoder。

(11)

(12)

(13)

(14)

(15)

2.5 STRP-TPF的工作机制

STRP-TPF的工作机制如图7所示,由EdgeRNN模型和NodeRNN模型组成。EdgeRNN模型和NodeRNN模型的编码器由一个linear层、tanh激活函数层以及一个dropout层组成。NodeRNN模型的解码器包括一个linear层和tanh激活函数层。

图7 STRP-TPF工作机制Fig.7 Working mechanism of STRP-TPF

STRP-TPF将当前时刻顶点的位置和各种类型的关系路径因子作为EdgeRNN模型和NodeRNN模型的输入。STRP-TPF预测下一时刻的顶点位置(行人空间坐标),并输出EdgeRNN模型和NodeRNN模型中所有的隐藏状态,为进一步预测后续时刻的顶点位置做准备。

在观测时间内,STRP-TPF利用时空图来获取行人的当前位置,并且初始化EdgeRNN模型和NodeRNN模型的隐藏向量。首先,STRP-TPF基于时空图来构建关系路径,预测下一时刻所有行人的位置;然后,将时空图进行更新,并且基于时空图来构建新的关系路径,进而继续预测后续时刻所有行人的位置。

3 STRP-TPF应用于行人轨迹预测

首先,介绍评估STRP-TPF性能的数据集;然后,介绍实验的实施细节、所有基准对比方法以及定义评估指标;最后,将STRP-TPF与最先进的方法进行比较,并给出实验结果及讨论。

3.1 数据集

评估STRP-TPF性能的数据集为ETH[22]数据集和UCY[23]数据集。ETH数据集由2个子集组成:ETH-UNIV和ETH-HOTEL。UCY数据集由3个子集组成:UCY-ZARA01,UCY-ZARA02和UCY-UNIV。ETH数据集和UCY数据集中的轨迹以2.5帧/秒的速率采样。首先,对ETH数据集进行预处理,获得了3 837个8 s的场景,其中包含多个行人的互动关系和移动方向。为了评估STRP-TPF的泛化能力,仅使用4个子集对STRP-TPF进行训练,并在余下的一个子集上对STRP-TPF进行测试。STRP-TPF预测了在整个观测时间内的每个场景中所有行人的轨迹。所有基准方法采用类似的方法进行实验。

3.2 实验设置

对每个场景的轨迹进行3.2 s的观察,并预测后续4.8 s的轨迹。在训练期间,输入时空图当前时刻所有行人的位置,并且结合Teacher Forcing机制来预测下一时刻所有行人的位置。训练集占数据集的80%,测试集占数据集的20%。在STRP-TPF中,任何模型计算之前,所有轨迹均标准化为[-1,1],并且预测期间的行人轨迹不使用标准化。

STRP-TPF经过100个epoch的训练,并且使用ADAM优化器进行优化,学习率为0.001,损失函数为均方差函数。实验设备的主要配置为英特尔至强E-2388CPU,128 GB内存以及NVIDIA RTX 3090 GPU。

3.3 基准方法

基准方法包括Vanilla-LSTM (VLSTM)[24]和Structural-RNN (SRNN)[25]。VLSTM是一个简单的LSTM模型,其将当前时刻行人的位置作为输入来预测下一时刻行人的位置。VLSTM作为基准方法是由于相比于线性模型和Social Force模型,能表现出更好的性能。SRNN由Jain等提出。SRNN与STRP-TPF的区别是SRNN没有涉及到关系路径。

3.4 评估指标

评估指标分别包括平均位移误差(Average Displacement Error, ADE)和最终位移误差(Final Displacement Error, FDE)。ADE是指在预测期间的每个时刻,计算预测轨迹和真实轨迹之间的L2距离的平均值。ADE的数值越小表示预测轨迹与真实轨迹越吻合。FDE是指在预测期间的最后时刻,计算预测轨迹和真实轨迹之间的欧氏距离。FDE的数值越低表示预测终点更接近真实终点。

3.5 实验结果

(1)ADE分析

在ETH数据集上评估STRP-TPF与VLSTM以及SRNN的ADE,结果如图8所示。

图8 基于ETH数据集的不同方法的ADEFig.8 ADE of different methods based on ETH dataset

由图8可以看出,STRP-TPF的ADE明显小于VLSTM和SRNN。STRP-TPF的ADE比VLSTM和SRNN分别低65.6%和16.5%。这表明STRP-TPF的预测轨迹更吻合真实轨迹,VLSTM和SRNN的预测轨迹更偏离真实轨迹。主要是因为STRP-TPF将时空图结合关系路径能够捕捉时空图的整体结构信息,并且理解各个行人轨迹之间的交互关系,使得STRP-TPF能够预测更符合真实场景的轨迹。

在UCY数据集上评估STRP-TPF与VLSTM以及SRNN的ADE,结果如图9所示。由图9可以看出,STRP-TPF的ADE为最小,STRP-TPF的ADE比VLSTM和SRNN分别低80.5%和42.3%。这表明STRP-TPF能够预测更加真实的轨迹。VLSTM和SRNN比STRP-TPF的ADE更大,表明VLSTM和SRNN的预测轨迹与真实轨迹偏离较大。主要原因在于STRP-TPF利用关系路径捕捉了基于时空图的关系路径特征,能够学习其他行人的移动轨迹对目标行人产生的影响,使得STRP-TPF的预测轨迹更加匹配复杂行人场景中的真实轨迹。

图9 基于UCY数据集的不同方法的ADEFig.9 ADE of different methods based on UCY dataset

(2)FDE分析

在ETH数据集上评估STRP-TPF与VLSTM以及SRNN的FDE,结果如图10所示。

图10 基于ETH数据集的不同方法的FDEFig.10 FDE of different methods based on ETH dataset

由图10可以看出,STRP-TPF的FDE小于VLSTM和SRNN。STRP-TPF的FDE比VLSTM和SRNN分别低70.4%和21.9%。这表明STRP-TPF的预测轨迹的最终位置更接近真实终点,VLSTM和SRNN更偏离真实终点。此外,相比于ADE,在FDE方面,STRP-TPF与VLSTM以及SRNN的差距更大。主要原因是STRP-TPF能够提取时空图的整体结构信息,更好地预测行人的最终位置。

在UCY数据集上评估STRP-TPF与VLSTM以及SRNN的FDE,结果如图11所示。由图11可以看出,STRP-TPF的FDE为最小。STRP-TPF的FDE比VLSTM和SRNN分别低84.4%和50.4%。这表明STRP-TPF可以更精确地预测行人轨迹的最终位置。VLSTM和SRNN相比于STRP-TPF的FDE更大,表明VLSTM和SRNN的预测轨迹的最终位置远远偏离真实的终点位置。主要原因是STRP-TPF在预测轨迹的过程中结合关系路径,能够更好地理解行人最终会停留的位置。

图11 基于UCY集的不同方法的FDEFig.11 FDE of different methods based on UCY dataset

(3)整体性能分析

为了更好地评估STRP-TPF的整体性能,在2个数据集上计算STRP-TPF的ADE的均值和FDE的均值,结果如图12和图13所示。

图12 不同方法的ADE的均值Fig.12 Mean values of the ADE of different methods

图13 不同方法的FDE的均值Fig.13 Mean values of the FDE of different methods

由图12和图13可以看出,STRP-TPF的ADE均值和FDE均值为最低,说明STRP-TPF的整体性能优于其他2种基准方法。主要原因是STRP-TPF能够利用时空图的结构信息来捕捉行人位置间的时空关系,并充分学习不同时间段各个行人的空间位置的变化关系,进而能够准确地预测行人轨迹。STRP-TPF的ADE均值比VLSTM和SRNN分别低76.2%和32.6%,STRP-TPF的FDE均值比VLSTM和SRNN分别低79.3%和37.7%。主要原因在于时空图结合关系路径使得STRP-TPF的整体性能大大提升。SRNN的性能最接近STRP-TPF,主要原因在于STRP-TPF进一步考虑了时空图的结构信息,并且充分利用关系路径来捕捉时空图的关键特征,为后续EdgeRNN和NodeRNN模型提供更丰富的行人位置关系。此外,SRNN的性能优于VLSTM的主要原因在于VLSTM没有考虑行人容易受到邻居轨迹的影响,进而没有利用时空图的信息,而是仅仅将当前时刻的行人位置作为序列模型的输入,进而预测下一时刻的行人位置。

4 结束语

本文提出了新型基于时空图联合关系路径的行人轨迹预测框架STRP-TPF。STRP-TPF利用时空图构建关系路径,并基于关系路径来构建因子图,能够更好地捕捉时空图的整体结构信息。此外,基于因子图构建EdgeRNN和NodeRNN模型,最终预测行人下一时刻的位置,并且在时空图中预测出所有行人的完整轨迹。大量实验证明,STRP-TPF在行人轨迹预测任务上表现出最佳的性能,在ADE和FDE方面,均优于当前主流方法。未来还将考虑更长的关系路径对行人轨迹预测任务的影响;使用更复杂的数据集来探索STRP-TPF的泛化能力;引入外部因素如行人的社会关系来研究复杂的行人轨迹预测场景。

猜你喜欢

顶点行人时刻
冬“傲”时刻
过非等腰锐角三角形顶点和垂心的圆的性质及应用(下)
过非等腰锐角三角形顶点和垂心的圆的性质及应用(上)
捕猎时刻
毒舌出没,行人避让
路不为寻找者而设
我是行人
曝光闯红灯行人值得借鉴
一天的时刻
数学问答