基于速度门控时空图卷积网络的交通流预测*
2022-08-30杨国亮温钧林赖振东
杨国亮,温钧林,赖振东,张 硕
(江西理工大学 电气工程与自动化学院,江西 赣州 341000)
0 引 言
交通流预测是智能交通系统中不可或缺的组成部分。准确的交通流预测能帮助交通管理部门提前预知交通拥堵等情况,事先做出相应的措施,提高路网的工作效率,降低事故发生的风险。
随着深度学习的发展,人工智能在交通预测领域取得了一系列突破。LSTM[1],GRU[2]等循环神经网络模型比HA,ARIMA[3]等传统模型更有效地提取交通数据的时间相关性。为了考虑交通路网的非欧氏空间特征,DCRNN[4]利用有向图对交通路网进行建模,以扩散图卷积的方式捕获交通数据的空间依赖性,并使用Seq2Seq结构来提取时间相关性。STGCN[5]则构建了一个全卷积的时空图网络模型,利用图卷积和一维卷积分别对交通数据的空间和时间特征进行建模。而ASTGCN[6]进一步考虑交通数据的周期性,搭建了一个多组件时空图卷积网络,对近期、日周期和周周期的交通流数据进行建模,并利用注意力机制考虑时间和空间的动态特性。综上,挖掘交通数据的时空相关性是交通预测的关键,但大多数现有的交通预测模型很少关注不同交通数据之间存在的联系。
本文探索了交通流与交通速度数据之间的相关性,并提出一种速度门控时空图卷积网络(speed gated spatial temporal graph convolution network,SGSTGCN),尝试以交通速度的角度辅助模型进行交通流预测。在真实高速公路交通数据集上进行实验验证,SGSTGCN的预测性能优于近期经典的时空图网络预测模型DCRNN,STGCN。
1 问题定义
1.1 交通路网
交通路网是典型的非欧氏结构数据,因此,本文将其定义成无向图G(V,E,A),其中V为图上|V|=N个节点的集合,E为连接节点的边。邻接矩阵A∈RN×N代表图G中节点的连接情况,当节点i和j相连时,Aij=1;否则Aij=0。
图1 小型交通路网示意
1.2 交通流预测
交通流预测问题可被定义为,寻找一个函数f,在给定历史Tp时段交通数据X={X1,X2,…,XTp}∈RN×C×Tp的情况下,预测未来Tq时段的交通流数据Y={Y1,Y2,…,YTq}∈RN×C×Tq。函数的映射关系可以表示为
Y=f(X,G)
(1)
2 基于SGSTGCN的交通流预测模型
2.1 总体框架
本文提出的SGSTGCN的总体框架如图2所示。
图2 速度门控时空图卷积网络的总体框架
2.2 TS_block
TS_block的结构如图3所示。其采用一维扩张卷积(dilated convolution,Dconv)捕获路网上每个节点的时间相关性,并利用门控线性单元GLU控制时间卷积网络层之间的信息流动,得到门控扩张卷积
图3 时空卷积块
=(θ1(r)*X)⊗σ(θ2(r)*X)
(2)
式中θ1(r),θ2(r)为两个不同的扩张卷积核,通过调节扩张率r,往卷积核的元素间填充r-1个零值,进而扩大时间维度的感受野。为输出的时间特征,σ,*分别为Sigmoid函数和卷积算子,⊗为哈达玛积。
接着,利用K阶切比雪夫近似图卷积(GCN)[7]对每个t时刻路网的空间特征进行建模,且t时刻的输出为
(3)
式中θ∈RK为切比雪夫系数向量,Tk(x)=2xTk-1(x)-Tk-2(x),T0(x)=1,T1(x)=x为切比雪夫多项式。而=2L/λmax-IN,λmax为图拉普拉斯矩阵L的最大特征值,IN为单位阵。
经过图卷积的处理后,每个节点将聚合K阶相邻节点的特征。而通过多个时空卷积块的叠加,模型在时间和空间2个维度的感受野将得到逐步扩大。
2.3 SG_module
除了对交通流数据的时空特征进行挖掘外,本文发现速度信息能有效地辅助模型对路网特征进行理解,从而实现更准确的交通流预测。假设图1中路段1的交通流量很大,速度却很慢,则该路段有可能发生突发事件造成了拥堵,短期内该路段的交通流变化趋势不会很明显。同时,路段1的突发状况可能会影响相邻路段的通行效率,从而导致其他路段的交通流量增大。
因此,本文提出了SG_module对上述常见且复杂的交通关系进行建模。如图2所示,SG_module构建了2个时空卷积块分支,分别提取交通流数据Xf与速度数据Xs的时空特征,得到Hf和Hs。接着,通过Sigmoid函数将速度特征Hs处理成(0,1)取值范围的特征权重,最后利用哈达玛积融合该权重与交通流特征,得到输出
=Hf⊗σ(Hs)
(4)
3 实验分析
3.1 实验数据
本文选取ASTGCN[6]公布的真实高速公路数据集PeMSD4和PeMSD8对模型的有效性进行验证。数据集中包含了交通流和交通速度数据,相关描述可见表1。该数据是由美国加利福尼亚州的PeMS(Caltrans Performance Measurement System)[8]基于30 s/次的频率采样实时采集的,并汇总成以5 min为时间间隔的样本。本文以6︰2︰2的比例将数据划分成训练集、验证集和测试集,并对其进行零均值化(zero-mean)处理。
表1 数据集描述
3.2 实验设置
在Nvidia Tesla P100 GPU的环境下,本文采用网格搜索法对模型的超参数进行寻优。实验表明SG_module个数M=8时,SGSTGCN在验证集中表现最优。在这8个SG_module中,TS_block的门控扩张卷积的扩张率r分别为1,2,1,2,1,2,1,2,而卷积核大小均为3,个数为64。图卷积的卷积核个数也为64。批大小(Batch Size)设置为64,且采用学习率为0.001的Adam优化器来优化Smooth L1损失函数。本文Tq和Tp均为1 h,即利用历史1 h的交通流与速度数据预测未来1 h内的交通流数据。并利用平均绝对误差(mean absolute error,MAE)、均方根误差(root mean square error,RMSE)和平均绝对百分比误差(mean absolute percen-tage error,MAPE)对模型未来1 h内的平均预测误差进行评估。指标的值越小,则说明模型的预测效果越好。
3.3 基准方法比较
表2展示了本文提出的SGSTGCN模型与基准方法SVR,LSTM,DCRNN,STGCN在PeMSD4和PeMSD8数据集上的预测效果。由表2可以观察到,仅考虑交通流数据时间特征的SVR,LSTM预测结果并不理想。而引入图神经网络对交通路网空间特征进行建模的DCRNN,STGCN均取得较好的效果。
表2 不同交通流预测模型的性能比较
相比于前述模型,SGSTGCN在各个指标中均达到最佳性能。在PeMSD4上,SGSTGCN的MAE/RMSE/MAPE相比基准方法中表现最好的STGCN分别提升了4.11 %/5.57 %/1.71 %;在PeMSD8上,则提升了7.62 %/5.30 %/6.47 %。这得益于SG_module以交通速度的角度有效地辅助模型更全面地理解整个路网的动态变化,进而实现更准确的交通流预测。同时,层层叠加的SG_module利用门控扩张卷积非线性地扩大时间维度的感受野,使得模型有能力感知更长时间跨度的时序特征,从而对交通流长期的时序特征进行建模。
3.4 变体模型比较
为了对各个模块的有效性进行评估,在PeMSD8数据集上对SGSTGCN与如下变体模型进行比较。1)Basic模型:一个以一维卷积与图卷积为基础模块,且只考虑交通流数据的时空图卷积网络模型;2)TGLU模型:将Basic模型中的一维卷积替换成门控扩张卷积;3)SGM模型:在Basic模型基础上,加入速度门控注意力模块。
图4对比了各个模型未来1 h中每个时间节点(以5 min为间隔)的预测性能。从图4(a),(b)可以发现,4种模型短期(5~15 min)的MAE和RMSE差距较小,但随着预测时间的加长,这种差距逐渐扩大。而在图4(c)中,虽然SGM模型从5 min到20 min的MAPE比TGLU大,但在25 min后的预测中,SGM的指标低于TGLU,并逐渐逼近预测效果最好的SGSTGCN。
图4 变体模型在PeMSD8上各时间点的预测效果
上述实验表明:1)门控扩张卷积能有效地通过控制时间维度的感受野,捕获交通流长期的时间相关性;2)速度特征是交通流预测的有效辅助信息,并在长期交通流预测时,起到了较大的促进作用;3)结合了上述两个模块的SGSTGCN在长短期预测中均表现出优秀的效果。
4 结束语
本文提出了一种基于速度门控时空图卷积网络的交通流预测模型SGSTGCN,该模型结合门控扩张卷积和图卷积来捕获交通数据的时空特征,并引入速度门控模块,利用交通速度特征辅助模型对交通流进行预测。实验结果表明:本文提出的速度门控模块能有效地辅助模型对交通流进行长期预测。并且,SGSTGCN在不同规模的数据集上均优于近期提出的时空图网络预测模型DCRNN,STGCN。