APP下载

基于图卷积网络的交通预测综述

2021-08-05王竟成胡永利尹宝才

北京工业大学学报 2021年8期
关键词:编码器时序卷积

王竟成,张 勇,胡永利,尹宝才

(1.北京工业大学信息学部,北京 100124;2.北京工业大学多媒体与智能软件技术北京市重点实验室,北京 100124)

随着城市化进程的加快以及交通数据的爆炸式增长,智慧交通的重要性日益显著,而交通预测则是智慧交通发展的基石.精准的交通预测对于许多实际交通应用至关重要.例如:路面交通的车速及流量预测对于公众出行路径规划以及交通指挥智能调控等需求具有重要意义;轨道交通客流预测对于站点客流压力测试以及线路时刻安排同样至关重要;对于网约车的用车需求预测则可以协助网约车公司动态分配运营车辆,从而实现调度效率最大化.

交通预测问题有多种分类方式,针对不同的预测任务,可概括为流量预测、速度预测、到达时间预测以及交通需求预测等.根据交通预测的实际场景可分类为高峰期预测、平峰期预测以及异常状况下的预测等.对于交通预测问题的划分同时侧面反映了交通预测模型对于实时性、准确性以及异常状况下的可靠性要求.

不同于其他时序预测问题,交通预测的主要挑战在于包含路网结构拓扑连接关系在内的复杂耦合关联关系及其不断变化的时空特征.空间上,路网中相邻节点存在着直接相互影响的强关联关系,非相邻节点在交通流模式上也存在着基于交通出行起止点(origin-destination,OD)的隐含空间关联.时间上,交通数据呈现出极强的时变性与周期性,例如早高峰与晚高峰、周中与周末等.

传统的基于数理统计的方法以及经典机器学习方法往往针对路网中某一观测点的时序数据进行建模分析以及预测.较有代表性的方法有历史平均值(historical average,HA)[1-2]、整合移动平均自回归(autoregressive integrated moving average,ARIMA)模型[3-5]、卡尔曼滤波模型(Kalman filtering model)[6]、非参数回归模型(nonparametric regressive model)[7]以及动态模式分解(dynamic mode decomposition)[8]等.后续随着深度学习的发展,端到端的卷积神经网络(convolutional neural networks,CNN)[9]、循环神经网络(recurrent neural network,RNN)[10]及其变体长短期记忆(long short-term memory,LSTM)网络[11]以及门控循环单元(gated recurrent units,GRU)[11]等网络模型被广泛用于时序预测问题.

上述方法可以捕获时序数据的非线性特征,但针对单个节点的时序预测难以描述节点之间的相互影响.依赖路网结构的交通预测问题显然无法满足对单节点的逐一分析.虽然部分传统方法考虑了交通拓扑结构中观测点之间的连接属性,但并未进行充分利用[12].路网作为一种离散化非规则排列且易受距离影响的结构,图表示以及图卷积网络(graph convolutional network,GCN)[13]被自然地应用于交通预测问题且取得了优异的结果.

在交通预测领域,由于交通数据特有的时序及空间特征,诞生了许多基于图卷积的方法模型[14],实现了对交通数据时空特征的提取.本文针对基于GCN的交通流预测模型进行归纳总结.

1 图卷积网络概述

1.1 符号定义

首先给出本文以及相关文献中常见通用的符号定义.

表1 符号定义Table 1 Symbol definition

一般地,G=(V;E;W)用于表示交通预测问题中常用的无向带权图[15].A表示图的邻接矩阵(adjacency matrix),定义节点之间的相互连通关系.H为关联矩阵(incidence matrix),用于定义图中边与节点之间的连接,其中元素的定义为

(1)

对于图中的节点,其度矩阵Dv中元素定义为连接到该节点所有边的权重之和,即

(2)

相似地,De中元素定义为连接到该边的节点数量之和,即

(3)

1.2 图卷积

传统卷积神经网络局限于对欧氏空间数据进行建模,而图卷积操作利用图表示对非欧氏空间数据进行处理,使卷积操作更加适用于交通数据结构.图卷积操作主要包括基于空域以及频域的图卷积2类.空域图卷积将图卷积操作定义为图中相邻节点之间的特征信息的聚合,基于频域的图卷积则利用图信号处理(graph signal processing),引入滤波器实现频域图卷积的推导.

1.2.1 空域图卷积

与深度学习中常用的例如图像等欧氏空间的卷积相比,图结构中由于节点数量及连接关系的不确定性,难以通过固定大小可学习的卷积核对特征进行提取.针对此问题,空域图卷积从节点域出发,通过特征的聚集直接在图上定义卷积操作以找到适用于图的可学习图卷积核.该过程将某中心节点与周围邻居节点的信息通过定义的聚合函数进行聚合,实现中心节点的特征更新.空域图卷积的通用聚合函数在消息传递神经网络(message passing neural network,MPNN)[16]中的定义被广泛应用.该网络提出一种空域图卷积的形式化框架,即空域卷积被分解为消息传递与状态更新2个过程,分别表示为Ml(·)与Ul(·).该框架可表示为

(4)

式中:u和v均为图中节点;hl为图卷积在第l层的特征,即该框架中各节点在第l层的信息通过Ml(·)函数聚合后通过Ul(·)函数实现第l+1层的特征更新.MPNN实现了对于整张图进行空域卷积操作,但面对庞大的图时全图卷积的方法需要占用过多计算资源.GraphSAGE[17]则针对此缺陷利用节点邻居的特征信息通过采样和聚集进行学习.该模型通过训练聚合器函数实现节点邻域的信息聚合.来自给定节点的不同跳数的或深度的信息可通过聚合器进行特征抽取并计算节点处的损失,实现节点特征的嵌入.GraphSAGE中提出了3种聚合器,分别为均值聚合器、LSTM聚合器以及池化聚合器.以LSTM聚合器为例,其表达式为

(5)

该聚合器将节点的前一层表示与聚合的邻居信息进行级联.Liu等[18]则通过GraphSAGE模型的均值聚合器进行了路面交通的短期车流速度预测.其均值聚合器表示为

(6)

节点v是在节点u的周围在固定长度上随机游走的节点.聚合器的权重矩阵由基于图的损失函数通过随机梯度下降进行调整,最终实现使用GraphSAGE模型预测交通流速度.

Li等[19]针对路况的动态变化,将交通流建模为有向图上的扩散过程,并提出了基于空域图卷积的扩散卷积神经网络(diffusion convolutional recurrent neural network,DCRNN),基于双向随机游走理论捕获空间相关性,实现了大规模路网的交通流量预测.Chen等[20]也同样在卷积网络中引入了扩散图卷积进行空域上的图卷积操作.因此,Chen等[20]为了捕获交通网络的连通性和全局性,提出了基于残差递归架构的网络模型Res-RNN,实现路面交通流预测.Song等[21]在图的邻接矩阵中增加了前后时刻的时空关联关系,并利用空域图卷积层与门控线性单元的多个组合网络构建其整体预测框架.Bruna等[22]则认为显式图结构难以表示真实的图中节点关系,并提出了基于节点嵌入学习的图神经网络架构Graph WaveNet.该网络架构中图卷积层即通过空域图卷积提取节点间的结构特征.

1.2.2 频域图卷积

空域图卷积借鉴了欧氏空间的卷积,频域图卷积则从信号处理的角度利用图信号的傅里叶变换实现卷积操作.频域图卷积最早由Bruna等[23]提出.对于图G,其拉普拉斯矩阵可表示为L=Dv-A.归一化后拉普拉斯矩阵表示为

(7)

因拉普拉斯矩阵L为半正定的实对称矩阵,可将特征分解为L=UΛUT.与欧氏空间的卷积操作相似,对于图信号x及图卷积核g的图卷积可表示为

x*Gg=U(UTx∘UTg)=U(UTg∘UTx)

(8)

式中:∘为哈达玛乘积;*G特指图卷积操作.将UTg作为可训练的图卷积核gθ,图卷积操作可简化为

x*Gg=UgθUTx

(9)

在训练频域卷积神经网络的过程中,由于拉普拉斯矩阵的所有特征值以及特征向量的计算量过大,所以为加速特征矩阵的求解,切比雪夫网络(ChebNet.)[24]以及一阶切比雪夫网络(1stChebNet.)[25]应运而生.

切比雪夫网络首先通过切比雪夫多项式

(10)

(11)

(12)

式中θ0与θ1均为全图共享的可学习参数.在实际操作中,为了进一步限制参数的数量以解决过拟合问题,令θ=θ0=-θ1,图卷积操作可进一步简化为

(13)

(14)

1.3 图卷积网络

GCN即利用空域图卷积或频域图卷积构建的深度网络模型.Kipf等[13]所提图卷积神网络模型中输入层与输出层均为图信号数据,其中隐含层为图卷积层,图结构在各层中共享,最终实现节点的聚类或节点值的预测等输出.

空域图卷积网络与频域图卷积网络虽然均不是针对交通预测问题而提出的,但由于交通数据的天然图结构属性,令GCN在交通预测领域展现出优于传统方法的高效率与高准确率.无论是空域图卷积还是频域图卷积,本质上都是对图拓扑结构的建模利用,即空间特征的提取.例如Lee等[25]利用路面传感器间的距离和位置等信息构建非欧氏关系,并利用GCN提取空间特征进行交通速度预测.Geng等[32]则以相邻街区以及相似功能区等为节点,构建多种基于图结构的表示,在此基础上使用多组GCN进行空间相关性建模,实现乘车需求预测.

基于GCN的交通预测大都建立在频域图卷积或空域图卷积的基础之上,通过图结构约束节点间的数据关系,利用图卷积对非欧氏空间数据进行结构化空间特征提取,实现交通预测.

2 基于GCN的交通预测模型

目前,GCN已成为交通预测研究的基础模型以及实验的基准方法.由于交通数据本身为时序数据,如何挖掘时序特征且与空间特征融合预测成为用于交通预测的神经网络模型的改进重点.此外,图注意力机制同样被用于交通预测模型且能显著提升模型性能.同时,当前研究已不满足静态图、单图的卷积网络,动态图卷积网络、多图卷积网络以及多任务学习的框架不断被提出.

2.1 图时空网络

交通数据是标准的时间序列数据,如图1所示,即同一数据集内所有数据内容依时间按照统一时间口径进行排列组织.其中:橙色虚线表示某节点延边对邻居节点产生影响;蓝色虚直线表示某节点交通数据该时刻对下一时刻的影响;蓝色虚曲线表示跨时刻的长远影响.由于交通数据存在明显的时序特征,许多时序预测模型便被应用于交通预测问题,例如最常用的传统交通预测方法ARIMA[33].该方法基于单个交通节点的时序数据构建统计模型,进而分析数据实现预测.传统机器学习方法,例如支持向量回归(support vector regression,SVR)[34],相较于基于统计的方法能更好地捕获复杂的线性关系.上述方法大多用于单一时序数据的识别与预测问题,难以对全局交通数据进行端到端的统一整体化分析及预测.

图1 时序交通数据Fig.1 Time series traffic data

图神经网络将空间特征提取蕴于图卷积操作之中,但当提取空间特征与时序特征相结合的方法被用于交通预测问题时,人工智能在该领域的潜力才得以真正释放.时序特征的提取方法主要有CNN以及RNN.

2.1.1 基于CNN的时序特征提取

在Gehring等[35]所提出的卷积Sequence-to-Sequence模型(convolutional sequence to sequence,ConvS2S)的基础上,Yu等[29]代表性地利用其门控线性单元(gated liner units,GLU)组建时序卷积层并构建时空图卷积网络,实现时序特征的提取.

STGCN的模型结构见图2,2层时序卷积层与1层图卷积层组成了时空卷积模块.其中时序卷积层将一维因果卷积作用于时间轴,该操作可表示为

图2 时空图卷积网络[29]Fig.2 Spatio-temporal graph convolutional networks[29]

(15)

在利用因果卷积提取交通数据的时序特征的基础之上,Graph WaveNet[22]采用了扩张因果卷积(dilated casual convolution),亦称作膨胀因果卷积或者空洞因果卷积.如图3所示,扩张因果卷积通过跳过一定的步长在输入序列上沿时间轴进行滑动,从而增加时序卷积操作的感受野.随着扩张因果卷积层数量的增加,其捕获的时序感受野的范围呈指数级增加.该卷积操作可表示为

图3 扩张因果卷积[20]Fig.3 Dilated casual convolution[20]

(16)

Fang等[26]同样在其所提框架GSTNet的时空卷积模块中利用扩张卷积构建了多分辨率时序模块,即多层因果卷积层的堆叠.Guo等[36]不仅用卷积提取时空特征,并在其所提深度时空3D卷积神经网络(deep spatial-temporal 3D convolutional neural networks,ST-3DNet)中引入了3D卷积,从而实现端到端的交通拥堵状态预测以及人群流量预测.Yao等[37]针对不平衡空间分布的交通数据,提出使用少量训练数据实现模型训练,并通过迁移学习实现不同城市的交通流预测问题.在其提出的MetaST模型中将CNN与LSTM相结合,构成其元学习网络模型.

2.1.2 基于RNN的时序特征提取

同样为了在深度图卷积网络中提取时序特征并用于交通预测,Zhao等[38]较早地提出了时序图卷积网络T-GCN.他们认为RNN作为处理序列数据的最广泛使用的模型,其变体LSTM网络与GRU能克服训练过程中梯度爆炸与消失的缺陷.LSTM模型与GRU模型均使用门控机制来“记忆”尽可能多的长期信息.

T-GCN的网络架构如图4所示,其以历史交通数据作为模型的输入,通过GCN以及门控循环单元后获得预测结果.为了获取交通数据的时序特征,T-GCN利用了参数较少并且训练更快的门控循环单元而非LSTM网络.其计算过程表示为

图4 时序图卷积网络[38]Fig.4 Temporal graph convolutional networks[38]

ut=σ(Wu[f(A,Xt),ht-1]+bu
rt=σ(Wr[f(A,Xt),ht-1]+br
ct=tanh(Wc[f(A,Xt),(rt∘ht-1)]+bc
ht=ut∘ht-1+(1-ut)∘ct

(17)

式中:ut和rt分别表示t时刻的更新门和复位门;ht和ht-1分别表示t时刻和t-1时刻的输出;σ(·)表示Sigmoid激活函数;f(A,Xt)表示图卷积操作;W和b则分别表示训练过程中的权重以及偏置项.Chen等[20]在门控循环单元存储长期依赖关系的基础上,利用跳跃链接(hop-links)的方案捕捉周期性的时间相关性.同时将残差加入循环图网络中,从而改善深层网络里长期反向传播(long-term back-propagation)的梯度爆炸和消失的问题.Li等[39-40]则分别在其共享单车需求预测的模型以及出租车需求预测模型中使用了LSTM进行时序建模.该建模过程可描述为

(18)

式中Wa、Ua、ba(a∈{i,f,o,g})均为可学习变量.Wang等[41]针对交通时间预测,提出了2层LSTM堆叠的模型,并考虑道路交叉口以及交通信号灯对预测结果的影响以提升模型性能.

GRU与LSTM作为时序依赖的循环网络建模方法,在车速预测[42-43]、道路占有率预测[44]、人群密度预测[45]、网约车需求预测[46]、出租车需求预测[47-48]、出租车OD预测[49]、公交到站时间预测[50-51]以及空气质量预测[52]等实际需求问题上均取得了优异的预测效果.

2.2 图自编码器

以交通数据等标准的序列化数据作为输入,自编码器(auto-encoder,AE)架构在预测问题上的效果更加稳定且泛化效果更好[53].Li等[19]所提DCRNN模型中,在使用门控循环单元提取时序特征的基础上利用了自编码器的架构.其中编码器和解码器都是基于DCRNN的递归神经网络.其模型的基本框架如图5所示.

图5 扩散卷积递归神经网络[19]Fig.5 Diffusion convolutional recurrent neural network[19]

在训练过程中,历史交通数据序列首先被输入编码器,并使用其最终状态初始化编码器.在测试过程中,预测值被用于替换真实值.基于图的自编码器较早由Kipf等[54]提出,包括变分图自编码器(variational graph auto-encoders,VGAE)以及图自编码器(graph auto-encoders,GAE).VGAE将变分自编码器迁移到了图领域,以图卷积作为编码操作,用已知图通过编码学习节点向量化表示的分布对其采样,从而得到节点的向量表示,通过解码操作重新构建图以实现链路预测等任务.GAE则包括2层GCN,解码器计算连接2个节点边的存在概率进而重构图.Lv等[55]较早地利用自编码器模块化地构建深层网络模型并用于交通流预测.其提出的堆叠式自编码器(stacked auto-encoder,SAE)模型的输入与输出可分别表示为

y(x)=f(W1x+b1)
z(x)=g(W2y(x)+b2)

(19)

式中:x为训练样本;y(x)为编码器的隐藏表示,并于解码器中得到z(x);W1和W2以及b1和b2分别为编码器和解码器的权重矩阵以及偏置向量.在此基础上,Lv等[55]将多个自编码器堆叠,在获得第1个隐藏层后,将第k个隐藏层的输出作为第k+1个隐藏层的输入,最后通过输出层实现回归预测.在此基础上,Zhao等[56]设计并提出了一种分层递归自编码器,使用3层堆叠式自编码器架构来获取时序依赖并使用递归神经网络进行预测.在Bai等[30]的工作中将捕捉长期时序特征与捕捉短期时序特征的编解码器分别同步进行训练用以缓解基于RNN的解码器模型固有的误差积累问题.Lin等[57]则利用基于自编码器架构的图滤波器模型提取共享单车与出租车用车数据的时空特征,并预测共享单车的需求量.自编码器的架构灵活多变,可基于CNN[58],亦可基于LSTM[59-61].编码器与解码器在功能与架构上相辅相成,在GEML[31]、Forecaster[62]、ST-GRAT[63]及ARU[64]等模型中均展现出优异的效果.

2.3 图注意力网络

注意力机制首先被提出用于自然语言处理[54],如今已被广泛应用到许多序列相关的任务之中.例如:Liang等[65]利用多级注意力的循环神经网络自适应地调整多个地理传感器采集到的时序数据间的相关性并用于空气质量等预测.其优点在于可以放大序列中重要部分的影响,将注意力机制引入图神经网络,其可同样受益.GCN由于依靠拉普拉斯矩阵的特征值,使得卷积操作难以抽离于整体的静态图结构.在图注意力网络(graph attention networks,GAT)[66]中,不同节点被分配以不同权重,训练过程凭借成对的相邻节点,而非具体图结构,即不依赖于整个图的全部信息.在时空图卷积网络的基础上,注意力机制被引入并广泛用于时空特征的提取.

在处理空间特征时,以路面交通为例,某道路的交通状态在一定程度上必然受到直接相邻或间接相邻道路的影响.此种影响的范围以及程度随位置、距离以及时间等因素不断变化.在Guo等[67]提出基于注意力的时空图卷积网络(attention based spatial-temporal graph convolutional networks,ASTGCN)中,空间注意力矩阵可定义为

(20)

(21)

在进行图卷积操作的过程中,邻接矩阵A与注意力矩阵S′将同时动态地调整节点之间的权重关系以捕获空间维度上节点之间的动态相关性.Pan等[68]同样认为,两节点之间的空间相关性与其地理信息相关.在其所提模型中,提取空间特征的注意力机制与元学习(meta learning)相结合,使其注意力模块的权重从元知识中学习而来.在用于共享单车需求预测的STG2Vec[39]模型中同样利用注意力机制对空间特征进行提取.Chen等[69]则为双分量图卷积(bicomponent GCN)提出了多范围注意力机制(multi-range attention mechanism).其模型首先分别构建节点图与边缘图,在通过双分量图卷积实现边与节点交互的基础上,利用多范围注意力聚合邻域的信息,从而动态地了解不同聚合范围的重要性.Zhang等[70]则在所提门控注意力网络(gated attention networks,GaAN)中利用多头注意力机制(multi-head attention mechanism)对节点及其邻居的特征进行聚合.与传统多头注意力机制不同,GaAN使用了卷积子网(convolutional sub-network)来控制每个注意力头的重要性,并用以解决交通速度预测问题.

与空间特征方法类似,在处理时序特征时,注意力机制被作用于时间维度以对长期序列数据进行建模.例如:Yao等[71]为解决动态的空间依赖以及周期性的时间依赖,设计了一种周期性转移的注意力机制来处理长期周期性时序偏移.在同一模型中将注意力机制同时用于空间特征以及时序特征的提取已被证明卓有成效[67,72-75].

注意力机制可被用于辅助时空特征的提取,也可以摒弃卷积操作,借鉴Transformer[76]架构仅利用注意力机制完成交通预测任务.在图变换网络(graph transformer networks,GTN)[77]相关工作中提出,传统GCN的结构固定,即其中邻接矩阵为图的固有属性不随模型训练过程而改变.GTN则能够挑选有价值的多跳连接的元路径(meta-path),从而实现基于可学习图结构的预测.

GCN无论是引入注意力机制还是与Transformer架构的结合[78],目的均是更有效地提取空间特征与时序特征.Li等[62]利用该框架提出了Forecaster模型.从学习图结构开始,将学习到的结构表示不同位置数据之间的空间依赖,再基于图拓扑对Transformer进行稀疏处理以提升模型强度,从而实现精准的出租车需求预测.

3 公开数据集

鉴于大范围跨时空交通数据采集的难度,高质量的数据集对于交通预测问题的研究至关重要.交通数据类别丰富,包括但不限于交通运输数据、交通管理数据以及用于辅助的气象数据和事件数据等.

其中交通运输数据主要采集于路面交通、轨道交通以及航运交通的实际运营过程,例如路面车流量、路面车速、路面车道占有率、出租车需求量、网约车需求量、共享单车轨迹、公交车客流量、公交车到站时间、地铁进出站客流量以及地铁换乘客流量等.交通管理数据则包括信号灯调度数据、潮汐车道数据以及私家车限号数据等.在此基础上,气象数据与交通数据密切相关,主要源自气象部门的信息化系统,包括气象卫星以及地面气象监测站等获取的数据,其中重点关注雨、雪、雾、霾等各种恶劣天气对交通情况的影响.事件数据则包括大型活动数据以及交通事故数据等.本文将重点介绍数个目前应用较多的全球公开交通数据集.

1)PeMS

PeMS为加利福尼亚运输局的性能测量系统(performance measurement system)的缩写.该数据集的内容由39 000余个独立传感器以5 min为时间间隔实时收集,其范围覆盖了加利福尼亚州所有主要城市区域的高速公路系统.该数据集可由其官方网站http:∥pems.dot.ca.gov/获得.由于PeMS全部数据体量较大,目前衍生出数个常用子数据集,包括PeMS-03、PeMS-04、PeMS-07 、PeMS-08、PeMS-SF以及PeMS-BAY等.子数据集覆盖了不同大小的区域,包含不同数量传感器采集的不同时间跨度以及不同时间粒度的交通流信息.

2)METR-LA

该数据集采集自洛杉矶高速路的207个传感器,每组数据的时间间隔为5 min,该数据由其官网https:∥www.metro.net/获得,并用于DCRNN[19]模型的实验测试中首次使用.

3)LOOP[28]

该数据集由部署在华盛顿州西雅图地区的4条相连的高速公路上的323 个地感线圈收集而来.该数据集包含2015年全年的速度数据,时间间隔为5 min.数据地址:https:∥github.com/zhiyongc/Seattle-Loop-Data.

4)NYC Taxi

该数据集由纽约出租车与轿车委员会(Taxi and Limousine Commission)提供,收集了纽约出租车的行程记录,包括上下车的日期与时间、上下车的位置、行程距离、分项票价、费率类型、付款类型以及乘客人数等信息.数据集所含数据的时间跨度为2009—2020年且仍在不断更新之中.该数据集可通过网址https:∥www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page获得.

4 未来研究方向

随着智慧交通以及深度学习的发展,近年交通预测领域已取得长足的进步,但目前仍存在许多富有研究价值与意义的问题和挑战.本文将从应用、模型以及多源数据的角度分类讨论未来研究的方向,以及目前富有价值与意义的尝试.

4.1 应用研究

近年来,交通预测领域内对图卷积网络的应用已日渐丰富,包括但不限于道路车辆流量预测[58,79-83]、道路车辆平均速度预测[84-85]、道路车辆占有率预测[44]、道路交通状态预测[28,72,86-87]、行人轨迹预测[88-89]、车辆轨迹预测[90]、通勤时间预测[91-92]、轨道交通客流预测[93-94]、物流时间预测[95]、出租车需求预测[31-32]以及共享单车需求预测[60,96]等.

然而,目前的交通预测成果大多集中于短时常态预测,对于长时以及非常态下的研究相对较少.

1)长时交通预测

对于长时交通预测而言,由于更复杂的时空依赖性和更多不确定性因素,长时预测比中短时预测更加困难.Wang等[97]即利用LSTM网络以及自编码器架构对数据的长时特征进行学习,并在其自编码器中提出了一种基于学习相似模式的硬注意力机制以增强神经元的记忆并减少误差在传播过程中的累积.但上述模型均未以图结构对数据进行建模表示且模型中利用CNN及RNN对单时序数据的时空特征进行提取,忽略了时序数据之间的相互影响.因此,未来可针对此问题在此基础上通过图结构对数据进行表示,并引入GCN以实现更加精准的长时交通预测.

2)非常态交通预测

交通异常状况即发生于交通营运过程之中,或发生于交通体系之外,但影响到交通正常运行的情况及事件,例如突发交通事故,人群大规模聚集,恶劣天气导致的路面结冰、积水等非常态情形.虽然非常态数据体量较小,但可借鉴小样本学习以及迁移学习的思想.异常交通事件对于公共出行安全具有极大威胁,因此,该研究方向具有重要社会价值.交通异常事件往往具有突发性强以及连锁影响范围广等特点.Guo等[98]测试了KNN、RNN以及TDNN算法在异常状况下交通预测的准确率,并表示KNN效果较好.Li等[99]则发现当同时使用来自多个传感器的交通信息时,可以在短期趋势上提高预测准确性.其研究表明,对于异常状况下的交通流预测,交通流序列之间的空间关系变得更加重要.因此,对于该问题,将图卷积网络引入其中可作为未来重点研究方向之一.

4.2 模型研究

GCN由于对图结构数据进行卷积操作,所以,图表示与图卷积操作均具有深入研究价值.对于构建图,目前研究热点包括但不局限于动态图卷积网络、多图卷积网络以及深层图卷积网络.

1)动态图建模

由于许多交通网络本质上均为图拓扑结构,为充分利用该拓扑信息,交通数据均依靠图建模进行表示.在构建图的过程中,邻接矩阵承担了空间信息的载体.大多数用于交通预测的GCN均采用了静态邻接矩阵,即假定节点之间的关联关系不随时移而改变.该邻接矩阵往往由研究人员根据实际交通情况手工设计而来,最常见的即表示路面节点间连接关系的0-1矩阵以及表示节点之间实际地理距离的距离矩阵.

但目前有研究者认为预定义的邻接矩阵并不能很好地反映节点之间真正的相关性及其时空依赖[89],反而从数据中学得的动态邻接矩阵在相关交通预测问题上表现出更加准确的效果.例如:Guo等[100]在训练阶段通过数据驱动的方式学习优化图,从而从交通数据中揭示了路段之间的潜在关系.在图卷积的过程中,拉普拉斯矩阵由邻接矩阵计算而来,Diao等[27]设计了动态拉普拉斯矩阵估计器,给定一个代表交通网络静态结构的全局拉普拉斯矩阵,同时利用短期交通流变化估计实时拉普拉斯矩阵,从而实现动态建模.

GCN无疑依赖于良好定义的图结构信息[101].当基于空间位置的邻接矩阵不明确时,对于交通数据这种多元时间序列可分析多元变量间的因果关系,并动态地构建邻接矩阵.

此外,超图[102]作为一种图的表示方法,由于可以表示个体之间的高阶关系,目前被广泛应用于社交网络或通信网络等领域之中.与普通图相比,超边可同时连接多个节点,从而突破两两关系的限制.例如:Wang等[103]在轨道交通预测中利用静态的超边表示轨道交通的线路,在此基础上对交通流OD进行分析,挖掘不同时间跨度下的车流或客流的出行规律.以北京地铁为例,天通苑站及周围站点与中关村及其周围站点在轨道网络中并非直接相连,但由OD分析可发掘出两者之间存在客流强关联且该关联随时移呈现出不同模式.因此,可据此构建动态超边,与静态超边同时纳入超图之中,并通过超图时空卷积网络实现交通预测.

2)多图卷积网络

随着GCN的发展,单图所承载的信息越来越难以满足交通预测的需求.研究者即通过多图卷积网络,尤其是异质图卷积网络,对交通预测问题进行了更加精细化建模.

Lv等[104]认为现有工作多数局限于利用时空模型进行交通预测,而道路之间的语义相关性(semantic correlation)同样重要.在其所提时序多图卷积网络(temporal multi-graph convolutional network,T-MGCN)中利用道路之间的空间相关性以及语义相关性构建多图,对多图分别进行图卷积后将结果融合,再通过GRU提取时序特征,实现交通流预测.Chai等[105]则通过共享自行车站点之间的距离以及行驶记录相关性等关联关系构造多图.与Lv等[104]的方法不同的是,Chai等[105]在处理多图卷积时,先进行图融合操作,再对融合图做图卷积.类似地,Ke等[106]也通过空间距离以及语义相关性为出租车的OD预测构造多图 .针对轨道交通,进出站客流在不同时间跨度下的出行模式也可以通过多个超图进行建模[103].针对路面交通,Song等[21]针对时序特征,设计了不同时间段的多个模块以有效地捕获时空图中的异质性.Zhang等[107]则通过路网节点之间的距离、方向以及位置关系构建多图神经网络.在复杂多层次交通数据的建模上,多图卷积网络取得了良好的效果.如何挖掘更深层次的多图表示,如何实现更高效的多图卷积操作,仍是目前及未来的研究热点.

3)多任务图网络

与多图卷积网络不同,多任务图网络借鉴了多任务学习(multi-task learning)的架构.多任务学习的初衷在于仅关注单个任务可能会忽略相关任务中潜在但有益的信息.通过在一定程度上共享任务之间的参数或特征,可提升主要任务的表现.通常,多任务可以分为同构任务和异构任务.同构任务可直接共享模型的参数,从而降低训练中过拟合的风险.异构任务的模型不同,但通过在训练中共享中间层特征,从而相互提供额外信息[108].

在交通预测领域,Huang等[109]提出了一种基于多任务深度网络架构,该架构由底部的深度信念网络(deep belief network)以及顶部的多任务回归层组成.Zhang等[110]将地理位置划分为交通单元,利用多任务学习对每个交通单元通过时间卷积实现乘客需求预测.Gao等[111]则利用多任务学习融合了GPS轨迹、智能手机数据和道路网络结构以估计出租车乘客的出行时间.多任务学习为深度网络模型提供了优化并利用了多源数据的潜力,在交通预测领域基于GCN的多任务学习框架仍具有很高的研究价值.

4)图卷积优化

GCN可以使图信号更加平滑,这是图卷积的固有优势.但是,在GCN的层数不断加深时,其训练结果极易出现过平滑的情况[14].由于图卷积是特殊形式的拉普拉斯平滑,在图卷积聚合邻居节点特征的过程中,平滑操作使信号在特征层面更加一致,从而使信号失去其多样性,导致相关预测任务的性能急剧下降,该现象在小数据集上更加明显.因此,GCN不能像一般卷积模型那样不断深入地堆叠,但浅层神经网络又存在感受野和特征提取能力有限的问题.

针对该问题,一种解决思路是基于随机游走(random walk)的协同训练(co-training)[112]方法.因为随机游走可以探索全局图结构,弥补了图卷积操作局部平滑的缺陷.另一种增大图卷积感受野的思路是自训练(self-training)方法.该方法首先训练带给定标签的GCN,随后为每个类别选择最可靠的预测并将其添加到标签集中.在此基础上,使用预先训练的GCN继续使用扩展标签后的数据集训练GCN.上述2种方法也可以同时进行,其目的都是扩展训练集.

在图卷积操作过程中,由于中心节点的特征易于向邻居节点传播,而边缘节点的特征则很难辐射至其余边缘节点.为克服此缺点,可引入一种通用的自动编码器网络架构,将数据内容信息补充到GCN,实现类似于残差网络的效果,或使用跳跃图卷积网络实现特征的有效传递.为了更好地捕获数据样本之间的高阶关系,同时可以利用注意力融合机制对可判别信息进行突出.基于上述思路,在深度堆叠的GCN中,每一层都用于捕获数据的不同潜在特征.

4.3 多源数据融合

近年来交通预测方法不断由模型驱动转变为数据驱动,即由数学模型推导演变为挖掘并学习数据本身的特征.目前,基于单一数据源的学习已逐渐完备,但实际中交通数据多源异构的特点决定了该领域研究必将从单源走向多源.同时空内,跨媒体交通数据类型多样并结构复杂,但同时相互影响且互为补充.针对多源交通数据的挑战,本文将小样本学习、跨媒体数据融合以及交通知识图谱嵌入作为未来研究方向的参考.

1)小样本学习

目前,大多数交通预测的解决方案均通过密集的历史交通数据进行训练,但由于交通数据采集等问题,城市之间交通数据量级不同,部分城市交通数据量较小或质量较差.同时,用以辅助交通预测的极端天气、交通事故、交通管制以及其他异常事件等发生频率远低于交通数据采集频率,使得学习过程异常困难.因此,交通预测领域的小样本学习问题同样为未来研究方向之一.

元学习在监督学习领域为小样本学习提供了解决思路,Pan等[68]即提出了元-图注意力模块与元-循环神经网络模块.其中注意力模块的权重是通过地理属性中提取的节点和边的元知识生成的,因此,理论上可以对各种空间相关性进行建模,而循环神经网络根据每个节点的元知识生成门控循环单元的所有权重,从而实现元学习的GCN模型.

解决此问题的另一种思路是通过迁移学习来执行跨城市的交通预测任务.该思路旨在将交通知识从数据源丰富的城市转移到数据稀缺的目标城市.但目前该研究方向尚未进行彻底的探究,例如如何设计一个高质量泛用性强的用于交通预测的迁移学习框架,或者如何实现小样本外部数据的嵌入学习等.

2)跨媒体数据融合

目前,交通领域已经汇聚了监控设备采集的视频、图像,线圈卡口采集的流量、速度、占有率以及车载设备采集的GPS等海量多源异构的高维交通数据,同时恶劣天气、交通事故以及交通管制等辅助数据同样对于交通预测具有不可忽视的价值.由于难以从单一数据源全面且精准地捕获交通特征,并且针对体量大、时空跨度广以及结构复杂等特点,对多源交通数据进行融合、协同分析已成为该领域未来研究方向之一.对于多源交通数据融合,本文认为需研究跨媒体数据的有效表达方法及协同分析模型.

无论是图时空网络或图注意力网络,其关注点均主要在于时空特征的提取.在此基础上,若引入交通流数据之外有价值的信息,势必对交通预测问题有所提升.Ni等[113]通过研究社交媒体的动态进而感知交通事件的发生,并通过分析表明轨道交通的客流量与社交媒体的发帖率之间存在正相关关系.基于该发现,Ni等[113]提出了基于标签的事件监测算法并与SARIMA模型相结合,用于轨道交通的客流预测.同样针对轨道客流预测问题,Chen等[114]则利用刷卡数据对异常事件进行捕获,并结合ARIMA模型实现预测.社交媒体数据[115]、刷卡数据[116]、遥感数据[117]及天气数据[118]均被用作提升预测精度的外源数据.Zhang等[118]在其所提框架中将雨雪天气等外部因素通过门控机制融合至预测模型之中.但目前上述方法均未考虑交通数据的图表示及GCN,因此,在GCN的基础上,通过多任务学习等方法融合多源异构交通数据具有广阔的研究前景.

3)交通知识图谱嵌入

知识图谱是对某领域的知识整合以及利用的重要工具,由大量知识实体及其之间的关系交织而成.交通运输领域的知识存在于海量多源异构的交通数据之中.对于交通知识图谱,未来主要研究图谱构建以及知识嵌入两方面内容.

知识图谱构建方面,早期主要为泛领域化的语义网络,强调广义概念之间的关联关系.近年来面向特定行业应用领域的知识图谱逐步涌现,例如语义网络知识图谱[119]以及医疗知识图谱[120]等.对于交通领域,则需要明确知识实体以及实体之间的多层次关联关系,挖掘跨域全时交通数据之间的深度关联与知识聚合,实现交通知识图谱构建.在构建交通知识图谱的基础上,可研究知识的嵌入模型.目前,主流方法有基于TransE[121]及其扩展和变体的平移距离模型以及基于Rescal[122]的扩展和变体语义匹配模型等.交通知识的嵌入对于交通预测模型而言可提供无法由交通流数据中学得的额外信息.因此,如何对交通知识进行抽取并构建相关知识图谱,如何将交通知识嵌入交通预测模型之中,如何将富有价值意义的交通知识应用于实际交通预测问题之中是未来交通预测领域的重点研究方向之一.

5 结论

1)本文首先梳理了交通预测问题以及图卷积神经网络的基本定义.在此基础上对不同类型的基于GCN的交通预测模型进行分类介绍,包括图时空网络、图自编码器以及图注意力网络等.

2)针对交通预测实验,本文介绍了目前全球范围内广泛用于科学研究的部分公开交通数据集,包括其数据来源、数据内容以及数据获取地址等信息.

3)讨论了未来的几点研究方向,包括应用研究方向、模型研究方向以及多源数据研究方向.本文适合用于快速了解GCN在交通预测领域的模型及应用.

猜你喜欢

编码器时序卷积
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
基于全卷积神经网络的猪背膘厚快速准确测定
基于ResNet18特征编码器的水稻病虫害图像描述生成
基于图像处理与卷积神经网络的零件识别
清明
基于GEE平台与Sentinel-NDVI时序数据江汉平原种植模式提取
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于Beaglebone Black 的绝对式编码器接口电路设计*
你不能把整个春天都搬到冬天来