基于多图时空注意力的轨道交通客流预测模型

2023-05-16陈俊彦黄雪锋韦俊宇卢贤涛卢小烨

郑州大学学报（理学版） 2023年4期

陈俊彦, 黄雪锋, 韦俊宇, 卢贤涛, 卢小烨

(1.桂林电子科技大学计算机与信息安全学院广西壮族自治区桂林 541004; 2.广西云安全与云服务工程技术研究中心广西壮族自治区桂林 541004)

0 引言

在我国,随着市民公共交通出行需求逐渐增加,轨道交通成为市民重要的出行方式。准确的轨道交通客流预测有助于公共安全和车辆调度,对智慧交通的发展有着重要意义。本文的目标是根据轨道交通站点历史刷卡数据提供准确的站点客流量短期预测。在轨道交通网络中,站点刷卡设备记录的乘客刷卡数据可以生成交通时间序列数据和地理信息,为轨道交通预测提供了丰富的数据。早期,研究人员使用时序分析模型解决轨道交通客流量预测问题,但这些模型很难处理动态的非线性数据。后来,研究人员采用机器学习对客流量进行预测,但是仍然难以同时考虑高维交通数据的时空相关性。由于轨道交通客流有着复杂的时空相关性以及较大的波动性,采用传统的机器学习算法实现轨道交通客流预测有较大的难度。近年来,研究者采用深度学习方法来处理高维时空数据,即采用卷积神经网络(convolutional neural network,CNN)有效提取网格数据的空间特征[1]或采用图卷积神经网络(graph convolutional neural network,GCN)描述基于图的数据空间相关性[2]。然而,这些方法仍然不能同时对交通数据的时空特征和动态相关性进行建模。

针对上述问题,本文提出了一种基于注意力机制和多图视角图神经网络的轨道交通客流预测模型(multi-graph convolutional neural network for spatial and temporal attention,MGCNSTA)。该模型可以直接在原始的基于图形的交通网络上处理交通数据,有效地捕捉动态时空特征。本文的主要贡献有:设计了一种基于邻接图和出发地-目的地(OD)图的多图视角模型,用于建模交通数据的时空相关性;设计了一种时空注意力机制和时空卷积模型来捕获轨道交通数据的动态时空相关性,该模型使用空间注意力机制以及图卷积模块捕获不同站点间动态的空间关系,并使用时间注意力机制以及时间卷积模块捕捉不同时间之间的动态时间相关性;使用真实地铁刷卡交通数据集进行大量实验,验证了本文的模型优于基线方法。

1 相关工作

对于轨道交通的客流量预测,当前研究方法主要有下面几种。

1) 统计模型及线性方法。在交通流量预测领域,早期研究人员提出了许多统计学方法和线性模型来预测交通流量。如动态线性方法[3]、自回归移动平均(auto-regressive moving average, ARMA)预测模型[4]、基于概率树的客运量模型[5]、卡尔曼滤波方法[6]等。由于客流具有显著的非线性特征,这些方法对于复杂的交通流量预测效果不佳。

2) 非线性模型及机器学习方法。研究人员根据交通流量的非线性特征建立了如小波分析和SVM相结合的模型[7]、BP(back propagation)神经网络[8]等方法对交通流量进行预测。然而,这些传统的机器学习方法需要特征工程的支持,将原始数据转换为合适的内部特征以匹配模型。同时,轨道交通客流预测的重要特征是时空相关性[9],但通过特征工程难以建立时空相关性的特征。

3) 深度学习方法及多模型融合方法。随着传感技术的发展,人们可通过交通监控设备获取大量的交通信息化数据,这便促成研究人员使用深度学习或多模型融合的方法对交通流量进行预测。有学者采用LSTM(long-short term memory)及其改进方法[10]来对交通流量进行预测。这些模型比传统机器学习的预测方法具有更好的准确性,但LSTM无法捕获空间相关性信息导致其预测效果有限。有研究人员采用CNN构建二维网格的形式描述路网进行建模。但这种方法未考虑道路网络的拓扑依赖关系。对于轨道交通这种图结构网络,采用GCN或GCN的改进方法挖掘图结构的空间相关性可取得更好的效果[11]。还有一些研究人员创建基于时空相关性的STGCN[12]、ASTGCN[13]、STFGNN[14]、MCSTGCN[15]、FC-LSTM[16]、CVSTGCN[17]等混合模型来预测公共交通流量。STGCN可以有效地捕捉道路网络空间结构的相关性。ASTGCN是在STGCN的基础上增加了注意力机制,并且加上周、日和近期三个时间段的信息输入,能够更好地捕获到交通网络流量中时间和空间信息,从而达到较好的预测效果。而STFGNN则提出了时空图的概念,把时间维度和空间维度的信息结合在一起,能够使模型捕获到更直观的时空信息。但以上模型大都运用在道路车流量网络,而在轨道交通客流预测上的研究甚少。并且ASTGCN模型过于庞大,而STFGNN虽然结合了近期的时间维度,但未彻底解决无法学习长期时间维度上的问题。CVSTGCN结合坐标方法来指定不同特征信息在不同时空维度上的影响程度,通过图卷积网络来指定不同时空维度的时空信息。

本文提出的MGCNSTA针对轨道交通的时间空间相关性特征以及刷卡数据产生的OD图视角,运用基于注意力机制和多图视角的卷积神经网络对轨道交通客流数据预测进行建模。

2 模型设计

2.1 变量定义

T.v=vandT.τ∈t}),

(1)

T.v=vandT.τ∈t}),

(2)

其中:xin、xout分别为进站、出站客流量;τ为当前时刻表示。

(3)

2.2 MGCNSTA模型

图1 MGCNSTA模型总体架构Figure 1 MGCNSTA general framework

(4)

(5)

取该时间段内乘坐i至j的所有乘客的乘坐记录数之和再取对数,这是为了避免OD图边的权值有较大的差值。

2) 长期序列和短期序列。轨道交通网络具有长期时间和短期时间的时间相关性。为了捕获数据长期序列与短期序列的周期特征,本文设置了长期与短期两种序列采样方式。假设采样频率为每天n次,当前时间为t0,待预测时间段为Wf,本文按照时间序列截取M和L两种长度的时间序列片段,分别作为短期和长期分量的输入,均为Wf的整数倍。短期分量为连续序列,其输入的截取为

XM=(Xt0-M+1,Xt0-M+2,…,Xt0)∈RN×R。

(6)

长期分量为离散序列,其输入的截取公式为

XL=(xt0-(L/Wf)*n+1,…,xt0-(L/Wf)*n+Wf,…,

xt0-(L/Wf-1)*n+1,…,xt0-(L/Wf-1)*n+Wf,…,

xt0-n+1,…,xt0-n+Wf)∈RN×L。

(7)

3) 注意力机制模块。在轨道交通网络中站点在不同的时间片段下相关性是不一样的,例如在上下班高峰时期,商业区、工业区和住宅区的站点客流量会有明显增高。因此在不同的时间片段下对所计算站点的客流量影响也是动态变化的。本文运用注意力机制动态捕获站点在不同时间下当前相关性较大的关键特征。空间和时间注意力矩阵计算公式分别为

(8)

(9)

(10)

(11)

(12)

(13)

其中:Φ为卷积核;*为卷积操作。

(14)

2.3 模型训练

本文模型训练首先根据地铁站点连接关系构建邻接矩阵,根据时间区间内乘客进站、出站记录构建OD 矩阵,随后设定每个样本的输入序列长度和预测窗口长度,采用滑动窗口的方法依次向前滑动训练窗口和预测窗口,构建训练、验证和测试数据集,接着使用训练集对模型进行训练。在模型训练过程中,采用均方误差损失函数(mean squared error loss function,MSE)作为损失函数,采用Adam作为优化器,最后得到训练完成的MGCNSTA模型。当使用训练完成的模型进行流量预测时,直接将测试样本以及交通站点邻接矩阵输入到模型中,即可得到预测的流量值。模型训练的步骤如算法1所示。

算法1MGCNSTA模型训练算法

输入: 轨道交通历史流量序列X={XR,XL}, 站点邻接矩阵Aadj,站点OD矩阵AOD,输出的时间序列长度Wf,batch_size,epochs。

输出: 训练完成后的模型以及模型参数。

01) Fori=1 ton-Tin-Tout+1 {

02)xi=(XRi,XLi);

03)yi=(Xi+1,Xi+2,…,Xi+Wf);

04)Data_tarinadd(Xi,yi);

05) }

06) 初始化模型net;

07) Whileepochs!=0 {

08)Data_batch=Data_train[batch_size];

09)OD_graph_module(Data_batch.xi){

12) };

13) Station_graph_module(Data_batch.xi){

16) };

18) 计算训练输出和真实值误差;

19) 反向传播更新模型参数;

20)epochs=epochs-1;

21) }

3 实验验证

3.1 实验环境和参数设置

本文实验所用计算机CPU为AMD 2700,GPU为GTX1080,内存容量64 GB,操作系统为window 10。实验使用Pytorch框架搭建模型。

采用杭州地铁轨道交通数据集验证本文模型。该数据集由乘客进站、出站刷卡记录数据生成的。轨道交通网络包含81个站点,包括2019年1月1日至26日共六千五百多万条刷卡数据。由于夜间地铁不运行,不产生流量,因此只选取6:00—23:59的数据,并通过线性插值法补全空缺值。实验每隔10 min截取计算客流量,因此设置时间步长为10 min。选取数据的80%作为训练集,10%作为验证集,10%作为测试集进行实验。

在训练中,MGCNSTA模型中时间卷积层的卷积核时间维度为2,参数设置如表1所示。

表1 MGCNSTA模型训练参数设置Table 1 MGCNSTA training parameter setting

3.2 实验性能比较

本文实验选取均方根误差(root mean square error,RMSE)和平均绝对误差(mean absolute error,MAE)评估模型优劣,其计算公式分别为

(15)

(16)

采用GCN、TGCN[2]、GRU、Chebnet、LSTM[10]和ASTGCN[13]作为基线模型来对比预测结果。

各模型的输入序列总长度与MGCNSTA一致,在预测时间步长为6时,即预测一个小时各个站点的客流,各模型预测结果如表2所示。实验表明MGCNSTA相对于基线模型中表现最优的ASTGCN,在MAE上有15.06%的改进,在RMSE上有20.05%的改进。本文所使用的数据集为真实的轨道交通数据集,预测难度较高,其预测难度主要体现在模型不仅要考虑时间和流量的相关性,而且要考虑到站点连接上的空间相关性。同时,数据由人的刷卡行为产生,人的乘坐意愿即源和目的地的空间相关性也需要被考虑。轨道交通客流量存在短时间的高峰时期和低谷时期,并且高峰时期和低谷时期的流量差距较大,每日的流量波动也受天气、节假日、政策等影响,这也是轨道交通与普通路网交通的流量预测差别。而GCN、Chebnet只关注了空间结构的信息,因此效果较差。GCN相对Chebnet可学习参数较少,没有学习到更多的空间信息。而GRU和LSTM同为RNN模型,LSTM能够捕获长时间信息的效果更好。TGCN由于不能对局部流量的变化精准预测,即TGCN输出效果更为平滑,不能准确预测轨道交通实际的波动较大的客流变化,导致整体的预测效果较差。ASTGCN是交通流量预测的优秀模型,优于其他基线模型。但其对数据要求较高,在本文数据集中,仅有26天的数据,可用于训练的数据只用20天。在这种小规模的数据上,ASTGCN并不能很好地发挥作用。并且因为ASTGCN没有考虑到轨道交通站点与乘客源和目的地的特殊性。本文方法MGCNSTA能够捕获到时间空间信息,并且结合了注意力机制,选取长期序列和短期序列输入模型,并且考虑乘客的源和目的地的空间相关性构建OD图视角进行学习,因此在所有模型中,预测结果是最优的。

表2 与基线模型预测效果对比Table 2 Compared with baseline model

图2为MGCNSTA模型的预测值和真实值的对比,选取的测试数据为测试集中随机一个预测时间片。实验表明MGCNSTA不仅能够学习流量的趋势,在局部变化较大时,也能够准确预测。图3为训练损失值和评估损失值下降比较,在300个epoch前模型已经收敛。

图2 MGCNSTA预测值与真实值的可视化Figure 2 Visualization of MGCNSTA predicted value and real value

图4 MGCNSTA消融实验Figure 4 MGCNSTA ablation experiment

此外,本文还做了MGCNSTA的消融实验,实验输入、输出与前文实验一致,实验结果如图4所示。对于流量预测的任务,本质上仍然是时间序列的预测。因此在消融实验中,MGCNSTA模型发挥最大作用的是时间卷积模块,时间卷积模块能够学习到站点在时间维度的相关性。空间注意力在MGCN中也发挥了重要作用,这是因为在轨道交通中,如果只运用图卷积神经网络去捕获空间信息会忽略掉轨道交通本身的轨道线路的物理条件。虽然有换乘站点能够使不同线路的乘客任意搭乘,但是在列车运行时,通过站点换乘的乘客数量是要少于列车行进方向的站点下车的乘客。因此,通过注意力机制能够让模型学习不同站点的空间相关性。而OD图则是能让模型学习乘客在不同时间下源和目的地的相关性,即跨物理连接的站点空间相关性。这对于轨道交通来说是十分重要的。在普通路网下,不存在固定的站点,也不存在固定站点连接路线,无法为OD图建模。而轨道交通数据可建立OD图,因此能够使用OD图让模型学习更多的隐含信息,显著提升了预测结果。实验表明MGCNSTA的各个模块都发挥了不可或缺的作用,各个模块的结合使得MGCNSTA在轨道交通流量预测上有优秀的效果。

4 结论

本文设计了一种时空注意力机制和时空卷积模型来捕获轨道交通数据的动态时空相关性。该模型的空间注意力机制以及图卷积模块用于捕获不同站点间动态的空间关系。时间注意力机制以及时间卷积模块用于捕捉不同时间之间的动态时间相关性。并且该模型基于邻接图和OD图多图视角的图卷积模型,用于建模交通数据的时空相关性。本文使用杭州地铁刷卡交通数据集进行大量实验,验证了本文的模型与基线方法相比具有较优结果。目前本文模型在适用性上有待改进,并且未来考虑强化轨道交通线路的时空信息捕获,在更多的轨道数据集上进行验证。