APP下载

基于图小波注意力门控循环神经网络的交通流预测

2023-01-31李松江黄小莉

计算机应用与软件 2022年12期
关键词:交通流量交通流时空

李松江 黄小莉 王 鹏

(长春理工大学计算机科学技术学院 吉林 长春 130022)

0 引 言

近年来,深度学习在捕获交通数据的复杂时空相关性方面取得了很好的成果。由于交通流预测是基于历史序列数据,大多数现有深度学习模型是建立在循环神经网络(RNN)及其变体的基础上[1],如LSTM和GRU,它们虽然可以有效地利用自循环机制学习交通数据的时间依赖关系,但是忽略了城市道路的空间结构特征,使得交通数据的变化不受城市路网的约束,无法准确预测交通流量。充分利用时空相关性是解决交通流预测问题的关键[2]。通过卷积神经网络(CNN)与RNN或其变体(RNNs)结合的方法捕捉交通数据的时空特征以预测交通流量,该方法具有一定的局限性。一方面,RNNs主要提取静态的时间相关性,适用于短期的交通预测[3]。考虑到注意机制在依赖关系建模方面的高效率和灵活性[4],将注意力机制应用于交通预测以捕获时间序列的长期动态依赖关系。另一方面,传统的卷积运算只能捕捉规则网格结构的特征,无法处理复杂的城市网络拓扑结构的交通流数据。随着图卷积网络模型(GCN)的发展[5],它可以捕获图网络结构的交通流特征,为上述的问题提供了一个很好的解决方案。基于谱图理论[6]提出了用于交通预测的时空图卷积神经网络[7]、扩散卷积递归神经网络[8]、图卷积递归神经网络[9]。由于图卷积网络不能提取图中局部空间特征,在这些基于图卷积的模型中,交通数据局部特征的提取过程缺乏灵活性仍然是一个大问题[10]。小波变换能够解决图卷积中局部化的问题,文献[11]提出了图小波卷积神经网络对图数据进行高效卷积来解决半监督分类问题。受图小波神经网络的启发,考虑了交通网络的局部图结构和交通数据的动态时空模式,同时采用图小波卷积和注意力门控循环单元捕获交通数据的时空特性,以达到对图结构的交通数据进行流量预测的目的。

1 预测模型

1.1 交通流时空特性分析

由于时变的交通模式和道路网络的空间结构具有一定的规律性,通过分析交通数据的特性能够为建立交通流预测模型提供有效的依据。一方面,在城市路网拓扑结构的限制下,上下游路段之间的交通状态会相互作用,相距较远路段之间的交通状态也会相互产生间接的影响,这表明交通流在空间维度上呈现出局部和全局依赖关系。另一方面,由于城市道路上的交通状况会随着时间的推移逐渐向邻近区域扩散,相邻的历史时间序列对其影响较大;交通流量的变化在不同工作日可能呈现出相似的模式,图1(a)展示了某一周交通流量的变化趋势,可以看出工作日的交通流量变化趋势大致相似,非工作日的交通流变化趋势大致相似。图1(b)为2019年8月1日到2019年8月12日连续两周每周一的交通流量折线图,可以看出,以周为单位的相同工作日的交通流的波动情况大约一致,反映了人们在工作日的出行规律,故交通流在时间维度方面具有很强的动态性和长期性。

(a) 一周交通流的变化趋势

(b) 连续两周每周一的交通流量图1 交通流情况

1.2 模型设计

该节描述了如何使用GW-AGRU模型来实现基于城市道路的交通流预测任务。GW-AGRU模型主要由两部分组成:图小波卷积神经网络和注意力门控循环单元。如图2所示,根据路网的拓扑结构构造一个无向图G=(V,E,A),其中:V是一组节点集,V={v1,v2,…,vN};N为节点数;E表示节点间连通性的一组边;A∈RN×N表示节点间的连接性的邻接矩阵。将路网流量信息转换为交通流特征向量X=[X1,X2,…,Xt,…,XT]∈RT×N,Xt∈RN表示在时间戳t处的交通流信息,T为历史序列的长度。由于传统的卷积神经网络(CNN)无法处理非欧几里得结构的交通数据,不能准确地捕捉交通数据的空间依赖关系。为了能够处理任意图形结构的交通数据并捕获城市道路的局部特征,利用图小波卷积神经网络从每个图节点中学习邻近特征以提取交通流的局部空间特征。循环神经网络(RNN)是处理时间序列数据应用最广泛的神经网络模型,但存在梯度呈指数增长或衰减[12],LSTM模型和GRU模型是循环神经网络的变体,已证明可以解决上述问题。GRU模型结构相对简单、参数较少而且训练能力较快,但对于长期的预测,距离预测时段较远的交通状态对交通流的影响可能会被低估,而不能得到准确的预测结果。为了捕捉交通流的长期动态时间特征,将得到的具有空间特征的序列和注意力机制融入到门控循环单元,并通过单元之间的信息传递来捕获交通流特征的动态变化。最后结合全连接层预测整个路网的交通流量。

图2 模型整体设计

1.3 基于图小波的空间特征提取

(1)

式中:z为卷积核,⊙为哈达玛积。由于图的卷积运算是基于U定义的,图卷积算子的接受域覆盖了整个图的结构,图的卷积在顶点域不是局部的。为了克服这个限制,文献[13]提出了一个多项式滤波器,利用相邻顶点的k跳信号对一个顶点进行图卷积,在传统的CNN中作为局部接受域,过滤器定义为:

(2)

式中:K是确定节点邻域范围的超参数;θ∈RK是多项式系数的向量;Λk是K阶拉普拉斯对角特征值矩阵。但使用多项式逼近限制了在图上定义卷积的灵活性,即当使用较小的K,很难用自由参数来逼近对角矩阵Λk。当使用较大的K时,将不再保证局部性。因此,本文通过用图小波变换代替图的傅里叶变换以解决交通流的局部相关性问题。

(3)

式中:g(sλi)=eλis,λi是拉普拉斯矩阵L的第i个特征值。再运用傅里叶反变换可以得到:

(4)

式中:m∈{0,1,…,N-1}是图中第m个顶点的索引。根据式(3),将小波变换应用到脉冲函数δn上,计算出单顶点n上的谱图小波变换如下:

(5)

式中:ψs,n∈RN。类比式(4),任意顶点m对顶点n进行小波变换得到:

(6)

(7)

(8)

1.4 基于注意力门控循环单元的时间特征提取

hT-i=GRU(yT-i-1,hT-i-1)

(9)

(10)

(11)

(12)

(13)

式中:Wh为注意力层的权重参数;[]表示两个向量相连接。

图3 注意力门控循环单元的示意图

1.5 图小波注意力门控循环神经网络

(14)

(15)

(16)

(17)

通过全连接层将预测值yT+1输出,如式(18)所示。

(18)

图4 GW-AGRU模型的体系结构

2 实 验

2.1 数据描述

该模型以青岛市126个交通卡口的过车信息作为数据集,包含了2019年8月1日至2019年8月23日的过车量。以5分钟为时间间隔汇总卡口的交通流量,并使用线性插值的方法来填充数据中的缺失值。此外,将80%的数据作为训练集,其余的20%作为测试集,预测未来时间序列的交通流量。

2.2 评价标准

使用四个指标评估GW-AGRU模型的预测性能,均方根误差(RMSE)、平均绝对误差(MAE)、准确率(Accuracy)、决定系数(R2),它们的定义如下:

2.3 设置模型参数

手动调整学习率为0.001,批量大小为32,将隐藏单元的数量设置为64,训练迭代次数为1 000,此外,使用Adam optimizer来优化模型。

2.4 实验结果与分析

2.4.1预测值与实际值对比分析

为了更好地展示GW-AGRU模型预测的效果,选取路网中某一个探测点在8月19日的交通流量进行分析,并将GW-AGRU模型的测试集的预测结果可视化。图5显示了5分钟、15分钟、30分钟、60分钟预测区间的可视化结果,可以看出,无论预测的范围如何,GW-AGRU模型的预测结果与实际值基本相符,较为准确地反映交通流变化趋势,该特征有助于分析预测交通拥挤和其他交通现象。

(a) 5分钟可视化结果

(b) 15分钟可视化结果

(c) 30分钟可视化结果

(d) 60分钟可视化结果图5 可视化结果

2.4.2与基线模型比较

将GW-AGRU模型的性能与5个基线方法进行了比较。自回归综合移动平均模型(ARIMA)[14],一种将移动平均和自回归相结合的时间序列预测模型;支持向量回归模型(SVR)[15],利用历史数据对模型进行训练,得到输入与输出之间的关系,通过训练后的模型预测未来的交通数据;长短时记忆(LSTM)和门控循环单元模型(GRU)[16],由输入门、输出门和遗忘门组成,考虑了时间相关性,但不捕获空间相关性;图卷积网络模型(GCN)[17],能够处理任意结构图上的信号。表1显示了GW-AGRU模型和其他基线方法在数据集上平均的预测性能。GW-AGRU模型在几乎所有评价指标下都获得了最佳的预测性能,证明了该模型对时空交通预测任务的有效性。

表1 与基线模型预测性能的比较

相比于基准模型,GW-AGRU具有以下优势:

(1) 较高的预测精度。可以发现,基于神经网络的方法,包括GW-AGRU模型、GRU模型,LSTM模型,强调了时间特征建模的重要性,通常比其他的基线,如ARIMA模型和SVR模型具有更好的预测精度。例如,GW-AGRU模型的RMSE误差与GRU模型和LSTM模型相比分别减少了约8.13%和9.34%,准确率分别提高了约0.93%和1.18%。而GRU与LSTM模型都是RNN的变体,各种性能指标都相差不多。GW-AGRU模型和GRU模型的RMSE误差分别比ARIMA模型降低了约48.5%和43.9%,两种模型的准确率分别提高了25.8%和24.3%。与SVR模型相比,GW-AGRU模型和GRU模型的RMSE误差分别降低了36.8%和31.2%,分别比SVR模型提高了约12.5%和11.4%。这主要是由于ARIMA和SVR等方法难以处理复杂的非平稳时间序列数据。GCN模型的预测效果较低,因为GCN只考虑了全局空间特征,而忽略了局部空间特征以及交通数据是典型的时间序列数据。

(2) 时空预测能力。为了验证GW-AGRU模型是否具有从交通数据中描绘时空特征的能力,将GW-AGRU模型与GCN模型和GRU模型进行比较。如图6所示,基于时空特征的方法(GW-AGRU)比基于单因素(GCN,GRU)的方法具有更好的预测精度,这说明GW-AGRU模型可以从交通数据中捕获时空特征。例如,在15分钟预测中,与只考虑空间特征的GCN模型相比,RMSE减少了约38.1%,而在45分钟交通预测中,GW-AGRU模型的RMSE减少了41.1%,表明GW-AGRU模型能够捕获空间依赖关系。与只考虑时间特征的GRU模型相比,在15分钟和30分钟的交通预测中,GW-AGRU模型的RMSE误差分别降低了约20.7%和22.3%,说明GW-AGRU模型能够很好地捕捉时空依赖关系。

图6 不同模型RMSE的对比

(3) 长期预测的能力。无论预测步长如何变化,与基本的模型相比,GW-AGRU模型都可以通过训练获得最佳的预测性能。而且随着预测范围的增大,这种性能的优势越明显。图7分别显示了所有模型在不同预测步长时RMSE和Accuracy的变化。可以看出,GW-AGRU模型与不同层次的基型相比误差增加的程度较小,而且精度下降的趋势不大,具有一定的稳定性。

图7 不同模型RMSE和Accuracy的变化

2.4.3GW-AGRU与其变体模型的比较

为评估GW-AGRU模型中各个模块的有效性,将GW-AGRU模型与其变体模型进行比较,变体模型如下:

(1) G-GRU模型:该模型是在GW-AGRU模型基础上,用图卷积代替图小波,并去掉注意力机制。

(2) GW-GRU模型:该模型是在GW-AGRU模型基础上,去掉注意力机制。

(3) G-AGRU模型:该模型是在GW-AGRU模型基础上,用图卷积替换图小波。

表2为变体模型的实验结果,可以看出,相比三个变体模型,GW-AGRU模型的误差最小,且精度及相关性最高,表明图小波卷积和注意力机制均对GW-AGRU模型产生影响,将其组合能够得到更好的预测性能。由于图小波卷积可以有效地提取交通数据的局部和全局空间性,GW-GRU模型在预测精度方面的性能优于G-GRU模型,GW-AGRU模型优于G-AGRU模型。将GW-AGRU模型和GW-GRU模型对比可以发现,纳入注意力机制能够捕获较远序列的交通流特征,有助于提高交通流的预测效果。

表2 变体模型预测性能比较

3 结 语

本文提出一种新的图小波注意力门控循环神经网络(GW-AGRU)的交通流预测方法。由于道路上的交通状况受上上游/下游路段和附近路网的影响较大,使用图形式表示道路网络的空间信息,将图小波卷积神经网络作为提取空间特征的重要组成部分,从每个图节点中灵活地学习邻近特征。这样既考虑了路网的底层拓扑结构,还考虑了路网的交通状态,能够克服图卷积不能很好地局部化的问题,且提高了计算的效率。通过注意力机制对门控循环单元进行改进,不仅捕捉了交通流的时间依赖性,而且弥补了门控循环神经网络的短期预测的缺陷。因此,该模型具有同时捕获交通流的时空特性的能力。为了验证GW-AGRU模型的有效性,在真实城市路网的交通流数据上进行实验,并选取了ARIMA、SVR、LSTM、GRU和GCN五种广泛应用于交通预测的方法,及GW-AGRU的三种变体模型,在同一数据集上进行对比。实验数值表明,GW-AGRU模型在不同的预测水平下均能获得更好的性能,这表明该模型在捕获交通数据的时空特征及相关性方面具有优势,可以很好地应用于大规模路网流量预测。

猜你喜欢

交通流量交通流时空
基于LSTM的沪渝高速公路短时交通流预测研究
京德高速交通流时空特性数字孪生系统
跨越时空的相遇
镜中的时空穿梭
基于XGBOOST算法的拥堵路段短时交通流量预测
玩一次时空大“穿越”
基于GA-BP神经网络的衡大高速公路日交通流量预测
时空之门
混合非机动车交通流超车率影响因素模型
基于复合卡和ETC的交通流量采集研究