基于时空联合学习的城市交通流短时预测模型

2023-01-27葛宇然付强

计算机工程 2023年1期

葛宇然，付强

（同济大学道路与交通工程教育部重点实验室，上海 201804）

0 概述

实时准确的交通流预测对城市交通管理和智慧城市建设具有积极作用。交通流具有典型复杂系统的不确定性与高度非线性，其动态时空演化在宏观和微观层面呈现不同的表现形式与规律，准确建模和预测交通流变化非常具有挑战性［1］。随着大数据与人工智能等新兴技术的发展，结合时空序列数据对交通流的演化机理和运行规律进行学习具有十分重要的意义［2］。

针对交通流预测问题，国内外已有众多学者开展了大量研究，诸多典型的数据驱动方法得以应用，如自回归移动平均模型（ARIMA）［3］、向量自回归（VAR）［4］、K 最近邻（KNN）［5］、支持向量回归机（SVR）［6］、卡尔曼滤波［7］等。但是，这类模型通常基于线性假设或需要人工干预进行学习，难以捕捉过于复杂的交通流时空关联性。

图神经网络（Graph Neural Networks，GNNs）处理非结构化数据时具有出色能力，因此，基于GNNs的各种时空学习模型成为交通流预测领域的发展趋势和研究重点［8］。文献［9］提出STGCN，其利用由图卷积和时间卷积依次串联组成的时空模块学习交通流空间和时间关联性。文献［10］提出ASTGCN，引入注意力机制学习交通流数据中的时间和空间动态关联性。文献［11］和文献［12］分别提出DCRNN 和GWN，通过扩散卷积提取交通流的空间依赖关系，然后分别利用LSTM（Long-Short Term Memory）和TCN（Temporal Convolutional Network）学习空间特征序列中蕴含的时间关联。

上述模型或利用串联的空间和时间模块依次提取交通流的空间与时间特征，或通过并行的方式分别学习空间和时间特征后再进行融合。这类时空分离式的学习模块设计割裂了时间和空间维度间的内在联系，仅从单一视角揭示交通流的时空演化特征。本质上，这些模型类似于通过不同函数嵌套而成的复合函数学习时空模式，时间和空间规律由2 个不同的函数所决定。

对比单一视角下的学习，基于时空域的联合学习模型更加关注目标在时空序列中的运动变化。利用时空联合学习模块，可从多个维度同步提取时空特征。目前，这类模型多应用于多主体轨迹预测［13］与人体行为识别［14］领域，将其应用于交通流预测领域具有重要的价值与意义。文献［15］提出STG2Seq，利用沿时间轴而堆叠的多层图卷积构造一种时空联合学习模块，并由注意力机制融合不同模块的输出。文献［16］提出STSGCN，通过多个邻接矩阵拼接构造时空图，然后基于时空图堆叠多层时空图卷积用以学习交通流局部时空下的异质性，其提高了预测精度。但是，上述模型对交通流变化中其他丰富的时空交互关系以及动态演化规律等方面的探究较为有限，因此，在时空关联模式挖掘和预测精度上仍存在一定的改进空间。

本文针对交通流在不同时空尺度下的动态演化规律和协同变化，提出一种基于时空域联合学习的动态层次网络（Joint Spatial-Temporal Dynamic Hierarchical Network，JST-DHNet）。JST-DHNet 基于动态时空图的层次化结构，利用图乘积构建多种时空关联关系。结合小波变换和傅里叶变换分别在捕捉局域性和全域性变化方面的优势，设计2 种不同的时空同步卷积以实现分层学习。不同于时空分离式模块，JSTDHNet 联合时空局域和全域卷积将时间与空间学习融入同一运算，从而捕捉多尺度的时空交互联系。此外，本文将图神经网络与内嵌物理知识的学习相融合，基于广义偏微分方程建模交通波的时空转移规律，学习交通流时空动态演化过程中复杂的时空交互机制。

1 问题描述

本文旨在解决交通流的时空联合学习问题，为此，首先针对城市交通流数据固有的空间和时间属性进行结构化表达，给出空域图和时域图的定义。本文所涉及的关键符号定义如表1 所示。

表1 关键符号定义Table 1 Key symbols definition

定义1（空域图）路网的空间拓扑结构可以表示为图GS=(VS,ES,AS)，其中，ES为边的集合，连接图中|VS|=N个节点。每个节点对应路网中的交通检测器。邻接矩阵AS∈RN×N描述节点间的空间联系。空域拉普拉斯矩阵为LS=DS-AS，DS为度矩阵。

定义2（时域图）城市交通流的变化具有周期性，有限周期性时间序列可结构化为环图，每个节点对应一个时间步。对于|VT|=T个时间步构成的环图GT=(VT,ET,AT)，其邻接矩阵AT∈RT×T为循环矩阵。边的权重表示时间步间的关联强度。时域图的拉普拉斯矩阵LT=DT-AT也为循环矩阵。当LT满足对称性时其特征值与时频相对应，时域图上的卷积运算近似于时序滤波。

本文将t时刻交通流数据视为图信号Xt=，其中，为第i个节点处的特征观测值。时间窗口T内的历史观测序列可表示为时变图信号X=[X1,X2,…,XT]∈RN×T，其矢量形式写作x=vec(X)∈RN×T。基于上述定义，交通流预测问题为学习一个时空联合函数f，该函数将历史时间段T内的输入映射为未来时间段H内的输出，如下：

2 基于时空联合学习的交通流预测模型

2.1 模型结构

图1（a）所示为本文JST-DHNet 模型的框架结构，主要包括时空元知识学习器、联合时空全域和局域学习网络、多尺度动态聚合器等4 个部分。

JST-DHNet 首先应用时空元知识学习器从输入的历史时空序列X∈RN×T中学习动态变化的关联信息，并与静态知识混合生成动态时空图J=(VJ,EJ,AJ)；然后将输入X和时空图J 分别送入联合时空全域、局域学习网络这2 个子网络进行多层次的时空联合学习，如图1（b）所示，每个子网络都先经过一个联合时空卷积层来提取交通流在不同时空尺度下的特征，再由时空VAR 或时空扩散卷积模块学习其演化规律，其中，联合时空全域学习网络用于学习交通流的整体分布特征与变化共性，联合时空局域学习网络用于感知不同区域的特异性变化与演化规律，2 个子网络的输出Οglobal和Οlocal通过多尺度动态聚合器进行耦合，实现交通流宏观与微观特征的统一；最后模型将与Οglobal拼接并传入输出层，得到未来时间段内的交通流预测值Y′∈RN×H。

图1 JST-DHNet 模型整体架构Fig.1 The overview architecture of JST-DHNet model

2.2 动态时空图生成

JST-DHNet 模型基于时空元知识学习器融合静态基本属性和动态变化信息，自适应学习时空拓扑结构。利用注意力机制分别构建动态的空间和时间邻接矩阵：

图2 3 种时空图结构的可视化效果Fig.2 Visualization effect of three spatio-temporal graph structures

根据不同的时空关联关系，时空图的拉普拉斯矩阵LJ∈RNT×NT计算分别为：

2.3 全域时空演化特征学习

为捕获交通流全域态势和学习交通流整体的变化趋势，本文提出一种由联合时空全域卷积和时空VAR 串联组成的联合时空全域学习网络，如图1（b）中的左图所示。

2.3.1 基于时空傅里叶的联合时空全域卷积

全局时空特征反映了区域性的总体变化，能够描述特定时间段内出行者在城市空间中分布的整体情况，存在较为明显的区域协同性。傅里叶变换通常能体现信号的全局特征并分离局部扰动。给定时空图J，时空傅里叶变换（Joint time-vertex Fourier Transform，JFT）［18］定义为：

结合卷积定理，本文设计基于JFT 的联合时空全域卷积，提取区域交通流的整体运行特征，从而学习全局时空表征。具体计算为：

其中：aq为联合滤波器hglobal(λ,ω)的Q阶多项式拟合系数。由于联合滤波函数计算复杂度较高，为优化运算效率并适应多样化的时空关联结构，文献［19］设计基于快速傅里叶切比雪夫算法（Fast Fourier Chebyshev algorithm，FFC）加速的联合时空全域卷积，这种联合时空全域卷积通过频谱域中的迭代近似任意时空滤波器，从而将计算复杂度降低为O(T|ES|K+NTlogaT)，K、ES和N分别为切比雪夫多项式阶数、空域图中边集和节点数。对应广义时空图J=GS⋄GT=(VJ,EJ,AJ) 上的输入X∈RN×T，基于FFC 的联合时空全域卷积计算方式为：

其中：θ为待学习参数。图3 所示为联合时空卷积与图卷积GCN［20］的差异。具体而言，联合时空全域卷积经由快速傅里叶变换FFT 将输入X映射至频域中，然后再利用联合滤波提取时空关联特征，最后再由IFFT 将输出还原至时空域。联合时空全域卷积可提取若干连续帧间的时空联合特征，学习到更多的时空交互信息，而定义在空域中的GCN 无法提取空间实体间的时间关联。

图3 3 种卷积运算的对比Fig.3 Comparison of three convolution operations

2.3.2 全域变化趋势追踪

利用VAR 建立交通流序列随时间推移所呈现的宏观变化规律，从而提取交通流时空协同变化趋势。在宏观上，交通流通常具有亚稳态特征和滞后效应，t时刻的全域交通流状态可近似由历史的时滞序列线性表示。设时间窗口为T，时空VAR 单步预测的计算方式为：

其中：βτ为学习参数；εt∈RN为t时刻的扰动。

多步预测基于时间滑动窗口构建，依次拼接H次滑动输出此外，将1D 时间卷积加入在时空VAR 前用于增强长距离时间依赖性［21］。

2.4 局域时空演化特征学习

为捕捉局部时空扰动和学习局域时空演化规律及交互影响，本文设计由联合时空局域卷积和时空扩散卷积串联而成的联合时空局域学习网络，如图1（b）中的右图所示。

2.4.1 基于时空小波的联合时空局域卷积

受外部因素和时空差异的影响，交通流内部的稳定性时常伴随局部扰动的产生，这些局部差异难以被GCN 等过平滑或全局特征提取器识别。鉴于小波变换在奇异性检测和局部细化特征提取方面的有效性，本文利用小波捕捉交通流中产生的局部时空扰动。给定时空图J，时空小波变换（Joint timevertex Wavelet Transform，JWT）［19］定义为：

其中：g(·)是定义在频谱域上的核函数。考虑到交通流变化的局部时空分异，设计核函数为g(λ,ω)=g1(λ)g2(ω)，则有：

为避免矩阵特征分解，引入基于惰性随机游走［22-23］的图小波算子。当尺度因子为2j时，图小波算子Ψj可写为：

2.4.2 基于领域知识嵌入的时空扩散卷积

在宏观交通流理论的动力学模型中，交通流被视为由大量车辆组成的可压缩连续流体介质，反映车辆集体的综合平均行为，近似具有时空交互作用的粒子流，每个粒子代表一辆车［24］。交通系统本质上属于离散的非线性动力系统，伴随反复发生的局部扰动和自发簇效应等非线性动态现象。为还原交通流性态，模拟非线性扰动波传播和发展趋势，本文引入广义二阶偏微分方程——基于图的波动方程，以模拟交通流的时空演化规律。

为保证时间和空间上的传播连续性，时域和空域拉普拉斯矩阵会经过掩码处理。给定输入Z∈RN×T，以拉普拉斯矩阵为离散二阶微分算子，标准的波动方程可推广为非欧域中的广义形式，即：

其中：MT∈RT×T保留相邻时间联系；MS∈RN×N过滤非地理位置相邻的空间联系；v=α2对应波动的传播速度。在相关条件已知时，t时刻的解可近似由初始条件线性表达。设z0为初始扰动状态，则式（17）的解为：

时空扩散核函数Kt,v是关于传播时间t和速度v的矩阵函数，其在谱域中的形式［25］为：

其中：c0和c1分别为矩阵主、次对角线上的元素。由于arccos(x)的定义域为[-1,1]，v应满足v≤c1+c0/2，以保证计算稳定性。图4 所示为模拟的交通波随传播时间演化的物理过程可视化效果。由卷积定理，时空扩散卷积定义为：

图4 不同传播速度v 下的时空扩散核可视化Fig.4 Visualization of spatio-temporal diffusion kernel under different propagation velocities v

但是，交通流不同状态的演变实际上是一个强非线性的复杂时空协同过程，本文将交通领域知识嵌入到神经网络学习中，训练聚合器函数实现交通波扩散过程中各种时空交互的融合。一个可学习的阻尼系数项Θdamp∈RN×(T+H)用于自适应交通流扰动波形随时间的变化，即：

为降低时空扩散卷积的运算开销，本文利用FFC 算法加速训练，保证在计算资源有限的设备上能够高效运行。最终，时空扩散卷积的输出Οlocal∈RN×H计算方式为：

图5 所示为DCRNN 扩散卷积与JST-DHNet 时空扩散卷积的差异，就每个节点而言，DCRNN 扩散过程仅发生在时刻t，忽略了后续时空下的时滞，JSTDHNet 时空扩散卷积建立的是非稳态扩散过程，扰动传播强度会随距离和时间而发生变化，描述了交通波随时空变化的一般规律。

图5 JST-DHNet 时空扩散卷积与DCRNN 扩散卷积的对比Fig.5 Comparison between JST-DHNet spatio-temporal diffusion convolution and DCRNN diffusion convolution

2.5 基于Attention 的多尺度特征融合

联合时空局域学习网络的输出Οlocal表征交通流中局部扰动的传播结果，与交通流的宏观时空分布以及演化存在关联。微观区域的持续变化会逐渐扩散至更大的区域层面，积累到一定程度甚至会影响城市交通整体的运行水平。联合时空全域学习网络的输出Οglobal表征宏观区域时空演化的结果，也会对局部区域的变化过程产生影响。两者间具有协同演化、相互作用的关系。本文设计一种基于注意力机制的多尺度动态聚合器，用于学习这种复杂的动态耦合关系。以Οglobal作为“查询”Query、Οlocal作为“键”Key，动态聚合器的计算公式为：

其中：dlocal为缩放因子，对应节点数；σ为激活函数Sigmoid；Diag 保留注意力矩阵对角线元素；Winter表达全域交通流对微观区域变化的反馈。通过融合全域时空信息对Οlocal进行动态更新，

2.6 输出层

其中：Y为真实值；Y′为预测值；δ为对误差敏感度的阈值，实验中取值为1.0。

3 实验分析

3.1 数据集与预处理

为评估JST-DHNet 模型的交通流预测性能，选取4 种实际交通场景下的交通流数据进行实验，包括PeMS03、PeMS04、PeMS07、PeMS08［16］。这些数据集来自美国加利福尼亚州路网的实时交通数据。将30 s/次采样频率的原始数据汇总为5 min 时间间隔的交通流数据样本，每个检测器每天共得288 个数据样本。各数据集的具体信息如表2 所示。利用线性插值方法对数据集中的缺失值进行修复，同时，为降低量纲差异的影响，采用Z-score 对数据进行标准化预处理。所有的数据集按时间戳划分为6∶2∶2的训练集、验证集和测试集。

表2 数据集信息Table 2 Datasets information

3.2 实验设置

针对不同网络规模的数据集，适当调整参数值，PeMS08 等小规模交通网络中，时空小波尺度因子jt和jS被设置为1；PeMS07 等较大规模的交通网络中，时空尺度因子jt和jS被设置为2；其他路网中时空尺度因子jt和jS可分别被设置为1 和2。高斯核超参数为0.2，拟合阶数Q、K和P设置为3、5 和10，C1、C2、C3和C4设置为32、1、64 和128。1D 时间卷积核尺寸为3。模型训练阶段以Adam 为优化器，设置学习率为0.001，批大小为32，训练200 轮。所有参数在验证集上经反复测试以获得模型的最佳表现。设T=12，H=12，实验以历史1 h 观测数据预测未来1 h 交通流量，统一在Tesla P100-16 GB 上经过10 次测试。

3.3 评价指标与基准模型

为保证实验结果的公平合理，所有基准模型均不额外使用天气、节假日等外部信息。分别选择经典的统计模型VAR 和机器学习模型SVR 以及FC-LSTM［26］、DCRNN、STGCN、GWN、ASTGCN、STG2Seq、STSGCN等深度学习模型，与JST-DHNet进行实验比较。表3 从方法特点、类别、关键技术等方面对6 种基准模型进行归纳总结。利用平均绝对误差（MAE）、平均绝对百分比误差（MAPE）和均方根误差（RMSE）这3 种指标来评价预测表现。另外，3 种不同形式的JST-DHNet也参与实验对比，分别为基于克罗内克乘积图、笛卡尔乘积图、强乘积图的JST-DHNet（K）、JST-DHNet（C）和JST-DHNet（S）模型，以分析不同时空关联结构对预测性能的影响。

3.4 结果分析

3.4.1 时空联合学习模型的预测效果分析

在表4 中，“_”为最佳基准模型，提升率=|本文模型误差-最佳基准模型误差|/最佳基准模型误差。从表4 可以看出，本文JST-DHNet 模型具有最佳的预测表现。VAR、SVR、FC-LSTM 等时序模型忽略了交通流的空间关联特征，使得预测效果欠佳。深度学习类模型具有比VAR、SVR 等传统模型更强的表达能力。DCRNN、STGCN、ASTGCN、GWN 等采用时空分离式学习模块的深度学习模型由于无法提取交通流数据中复杂的时空交互关系，导致预测精度较为有限。

表4 交通流预测模型的性能对比Table 4 Performance comparison of traffic flow prediction models

在时空联合学习的同类模型中，STG2Seq 利用图卷积时序模块建模时空关联性，实现相邻时空域中节点特征的简单聚合，难以表达复杂的时空交互与协同变化。STSGCN 由多个空域邻接矩阵的拼接构建时空图，但其时空图表现为固定的关联结构，难以适应动态变化的时空关联关系。受GCN 过平滑问题的影响，STSGCN 捕获到的局部时空异质性有限。相比之下，JST-DHNet 基于时空元知识学习器生成随输入变化的动态时空图，具有更强的时空联合表达能力。

3.4.2 时空关联特征学习的作用分析

表5所示为JST-DHNet与3种变体的预测性能对比。JST-DHNet（K）反映周边历史交通态势对目标区域的影响，JST-DHNet（C）更关注目标区域自身交通流变化和周边区域的关系。强乘积图相当于克罗内克乘积图与笛卡尔乘积图的一种混合，因此，JST-DHNet（S）能够表达更复杂的时空关联关系，具有比JST-DHNet（K）和JST-DHNet（C）更佳的预测表现。基于广义时空图的JST-DHNet具有较好的泛化性，可兼容多种时空关联结构，预测精度更优，可见丰富的时空关联关系对交通流预测具有重要作用。

表5 不同变体模型的预测性能对比Table 5 Comparison of prediction performance of different variant models

3.4.3 模型学习效率分析

时空图的计算代价较高，为在复杂城市网络场景下对模型进行线上部署，对各模型的效率和收敛性进行对比实验。从图6（a）、图6（b）可以看出，JST-DHNet（S）需要比JST-DHNet（K）和JST-DHNet（C）更长的训练和推断时间，可见越复杂的时空交互关系所需学习时间越长。JST-DHNet通过引入惰性随机游走、FFC 等多种加速策略，使得在时空图上的运算效率得到有效改善。从图6（c）、图6（d）可以看出，JST-DHNet具有更快的学习速度，且收敛时间更短。

图6 各模型的效率与收敛性分析Fig.6 Efficiency and convergence analysis of each model

3.4.4 参数分析

如图7 所示，尺度因子jt和jS影响联合时空局域卷积的局域尺度，其最优值随着交通网络规模的增大而增加，在路网规模较小的PeMS08 数据集上，更小的尺度因子对应更好的预测性能。联合时空全域卷积用于捕获交通流全局时空特征，随着阶数K的增加，其在时空域内的感受野增大，能够更好地表征全局性，预测误差也随之降低。但是，当K过高时，容易引起过拟合问题，影响预测性能。阶数P的增加使得对交通流局部扰动传播的模拟更加准确，模型预测误差先显著降低后逐渐趋于平稳，每个迭代周期的训练时间明显增加。为平衡模型计算精度和训练时间，时空扩散卷积的阶数P宜取10。

图7 JST-DHNet 的关键参数分析Fig.7 Analysis of key parameters of JST-DHNet

4 结束语

本文提出一种基于时空联合学习思想的层次网络模型JST-DHNet。通过动态时空图上的时空同步卷积操作，对时空序列数据中嵌入维度间不同层次的交互作用进行学习。将交通领域知识嵌入神经网络训练中，应用数据和知识混合驱动的学习方式，模拟真实交通场景下交通流扰动传播的物理规律。4 个真实路网交通流数据集上的实验结果表明，丰富的时空交互关系挖掘对交通流预测具有重要作用，基于时空域的联合学习模型具有更强的时空表达能力，较对比预测模型，JST-DHNet 在预测性能和运算效率方面有较大提升，具备在复杂城市路网环境下高效准确预测交通流的能力与更好的解释性。同时，实验结果也表明经典交通流理论蕴含的领域知识对深度学习的网络设计具有重要指导意义。下一步考虑引入更多的外部信息用于联合训练与学习，如天气、节假日、POI 等相关的元知识，从而进一步提高模型的预测效果。