基于时空注意力网络的动态高速路网交通速度预测

2023-02-20邹国建赖子良李晔

计算机工程 2023年2期

邹国建，赖子良，李晔

（1.同济大学道路与交通工程教育部重点实验室，上海 201804；2.同济大学交通运输工程学院，上海 201804）

0 概述

高速公路速度预测对于智能交通系统（ITS）至关重要，可为出行者和交通管理部门预先提供有用的交通信息［1］。目前，高速公路交通速度预测研究主要聚焦于短时预测，对于长时间速度预测能力略显不足［2］。根据交通速度预测研究的特点，可以将现有的研究方法分为统计方法、传统机器学习方法和深度学习方法三类。

统计方法成功应用于交通速度预测任务，包括历史平均模型（HA）和自回归综合移动平均模型（ARIMA）［3-5］。HA 使用同一时间的历史数据的平均值作为未来预测任务中相同时刻的预测值［3］。ARIMA 作为传统的时间序列预测方法，结合了移动平均和自回归分量来对历史时间序列数据进行建模［4-5］。然而，由于交通速度具有非线性的性质，参数化方法基于先验知识、理论假设和简单的数学统计，在精准预测交通速度方面表现不佳。

传统机器学习方法缓解了统计方法遇到的难题，此类方法通过提取交通大数据中的非线性特征来提高预测的精准度［6-10］，如：VANAJAKSHI等［6］提出一种支持向量机（SVM）的回归技术用于交通速度的短期预测；JIANG等［7］使用隐马尔可夫模型（HMM）来表现单个车辆的速度与路段交通速度之间的统计关系；SHIN等［8］提出一种基于随机模型的车速预测算法，使用具有速度约束的马尔可夫链作为基础；ZHANG等［9］提出一种基于高阶多元马尔可夫模型的交通因素状态网络模型（TFSN）来建立速度与相关因素之间的关系。然而，传统机器学习方法主要提取浅层数据特征，无法对复杂的交通路网时空数据特征进行深度建模［2，7-9］。

相比传统机器学习算法，深度学习技术在处理复杂的非线性交通数据方面优势更为明显［11-14］，在相关研究中：CSIKÓS［11］等使用人工神经网络（ANN）进行交通速度预测；JIA等［12］提出深度信念网络（DBN）模型用于短时交通速度预测；TANG等［13］提出一种基于改进模糊神经网络（FNN）的交通速度预测模型。然而，这些方法处理复杂的交通路网时空数据特征能力有限，迫切需要更为有效的深度学习方法。

循环神经网络（RNN）是一种用于时间序列预测任务的深度学习方法，可以有效提取数据的时间关联特征［15］。目前，许多交通速度预测任务使用RNN 作为时序特征提取器来提高预测精准度［16-20］，在相关研究中：GU等［17］建立一种基于长短期记忆（Long Short-Term Memory，LSTM）网络和GRU 的新型融合深度学习（FDL）模型，以捕捉车道短时速度预测的时空特征；WANG等［18］使用双向长短期记忆神经网络对每个关键路段进行建模的方法（Bi-LSTM NN），使用堆叠Bi-LSTM 层来合并时间信息。上述方法使用RNN 作为特征提取器来提取交通数据的时间的相关性，但是忽略了数据的空间相关性对预测产生的影响。为解决RNN 遇到的问题，基于CNN 的时空预测模型被广泛应用于交通速度预测任务中［21-27］，在相关研究中：为捕捉复杂的动态交通信息，ZHOU等［25］提出一种称为时空深度张量神经网络（ST-DTNN）的速度预测方法，主要用于混合道路类型的大规模城市网络；YANG等［26］提出基于路径的速度预测神经网络（PSPNN），其由CNN和双向LSTM（Bi-LSTM）网络组成，用于提取历史数据的时空特征，实现基于路径的速度预测；ZANG等［27］提出一种基于CovLSTM 的多尺度时空特征学习网络（MSTFLN），用于高架公路长期交通速度预测的研究任务。然而，传统的CNN 只适用于欧几里得空间结构数据，而交通数据具有非欧几里得空间性质。因此，基于CNN 的交通速度数据空间特征提取存在较大的缺陷。

最新研究将CNN 扩展到可以处理非欧几里得空间结构数据的图卷积神经网络（GCN）［28］，并且已成功应用于交通预测任务中，其中包括交通速度预测［29-31］。高速路网中每条道路之间的相关性随着时间动态变化，而GCN 受限于捕获高速路网的动态空间相关性。考虑到图注意力网络（GAT）可解决动态的空间相关性问题［32］，本文提出一种基于时空注意力网络的动态高速路网速度预测模型（ST-ANet），结合GAT 和LSTM 设计高速公路网络时空特征提取块（GLSTM-block）。首先使用基于空间注意力机制的GAT 网络提取高速路网的动态空间相关性，然后通过LSTM 网络提取输入数据和GAT 输出特征的时间相关性，最后基于时间注意力机制计算历史输入数据和预测值之间的时间相关性。

1 高速公路速度数据

本文的研究区域为中国宁夏回族自治区银川市滨湖新区的高速路网，如图1 所示，共采集8 个高速公路收费站的ETC 行车数据，包括49 条高速公路路段的交通速度数据。高速公路交通速度数据包括速度、时间和道路位置三个因素，时间跨度为2020 年5 月1 日—2020 年8 月31日。每隔1 h 采样一次，得到交通速度数据的时间序列形式{xti|-∞＜ti＜+∞}，其中：xti∈ℝN×3；N表示道路的条数。道路位置不随时间变化，共有49 条道路，即49 个位置索引。本文使用80%的数据作为训练集，20%的数据作为测试集。

图1 研究区域Fig.1 Study area

2 ST-ANet 模型

2.1 问题定义

本文的研究目标是：预测高速公路网络中每一条道路未来一段时间内的交通速度情况。将输入的高速路网图定义为G=(V，E，A)，其中：V代表节点集；E表示边集；A∈ℝN×N，表示邻接矩阵；N表示节点的数量。需要特别强调的是高速路网图，本文将每条道路抽象为图中的节点，将道路的连接抽象为边，每条线段代表一条高速公路，每条道路都可以映射为图网络节点。邻接矩阵A表示道路之间连接关系，1 表示两条道路之间存在连接，0 表示没有连接。假设输入时间步长为P，预测时间步长为Q，且ti∈{t1，t2，…，tP，…，tP+Q}。本文研究问题的核心是如何揭示高速路网交通数据的时空相关性。因此，使用ST-ANet来学习隐藏在公路交通数据中的时空特征，实现高速路网交通速度的精准预测。本文以有4 条道路的高速公路网络为例，如图2 所示（彩色效果见《计算机工程》官网HTML 版）。其中：图2（a）表示物理高速路网，每条道路由不同的字符和颜色表示；图2（b）为高速路网的图表示，道路用节点表示。

图2 高速路网示例Fig.2 Example of expressway network

2.2 模型框架

针对时空特征提取和长期公路交通速度预测，本文提出ST-ANet 预测模型，模型框架如图3 所示（彩色效果见《计算机工程》官网HTML 板），其中包含编码器和解码器2 个部分，编码器用于提取输入数据的时空特征，解码器用于预测未来高速公路交通速度。

图3 ST-ANet 预测模型框架Fig.3 Framework of ST-ANet prediction model

1）编码器。公路交通数据x={xt1，xt2，…，xtP}，xti∈ℝN×dmodel以流水方式馈入到ST-ANet中，通过GLSTM-Block 学习每个时间步的时空特征。GAT 提取输入交通数据的动态空间相关性，使用LSTM 提取GAT 输出的空间特征的时间相关性。

2）解码器。基于编码器输出，解码器使用基于GLSTM-Block 的解码器来预测长期高速公路交通速度。在整个解码器预测过程中，使用时间注意力机制来计算历史输入数据与每个时间步预测值之间的相关性。

对于本文提出的ST-ANet，为整个网络添加了密集连接和层归一化技巧，以防止网络信息丢失和内部协变量偏移问题。下文将详细描述ST-ANet 模型每个部分的实现过程。

2.3 嵌入层

每个节点包含3 类数据信息，包括位置信息、时间戳信息和交通速度信息。输入变量可拆分为3 种类型的嵌入表示，包括位置嵌入、交通速度嵌入和时间戳嵌入（小时、周、月）∈ℝN×d。时间戳和位置嵌入方法与Transformer 的嵌入方法相同，通过one-hot映射到稠密矩阵［33］。交通速度嵌入方法通过线性变换完成。对于每一个类型数据嵌入，数据维度可表示为d=dmodel/ 3=64。

2.4 GLSTM-Block

GLSTM-Block 由动态空间特征提取器和时间特征提取器两个关键部分组成。在本例中，高速路网表示为图（Graph）。在高速路网中，每条道路的通行速度受全局道路通行速度的影响，并且不同时期的影响权重w不同，定义为动态空间相关性。使用多层GAT 捕捉高速路网的动态空间相关性。此外，对于不同的时间步，同一条道路具有时间相关性，表现出动态连续变化的特性，定义为时间相关性。使用多层LSTM 来捕捉高速路网的动态时间相关性。GLSTM-Block 整体框架如图4 所示（彩色效果见《计算机工程》官网HTML 版），其中⊕和⊗分别表示按元素求和和矩阵乘法。

图4 GLSTM-Block 框架Fig.4 Framework of GLSTM-Block

由于本文将会高频使用非线性变换函数，因此首先将其定义为：

其中：x代表输入变量；W和b代表可学习参数；ReLU 代表非线性激活函数。

1）动态空间特征提取器

本文使用GAT 在每个时间步ti提取高速公路网络图中任意节点vj的动态空间相关性，如图5 所示（彩色效果见《计算机工程》官网HTML 版）。其中，图例使用 2 层 GAT 提取高速公路交通数据的动态空间相关性，每层获取全局空间相关性特征。

图5 动态空间关联特征提取过程Fig.5 Dynamic spatial correlation feature extraction process

对于案例图节点vj，输入为，动态空间相关性可以通过多头自注意力机制计算得到［33］。所有节点V对节点vj的影响可通过第k头自注意力计算得到，如式（2）所示：

其中：表示节点vj与节点v之间的相关性。

相关性可以通过节点vj的查询向量和v的键向量的内积得到，如式（3）所示：

在获得影响权重后，节点vj的隐藏状态可以通过以下公式计算：

节点vj的动态空间相关性通过式（4）计算后，多头注意力被使用。多头注意力允许模型关注来自不同高速道路不同子空间的信息。并行M头注意力机制并行计算，拼接不同的子空间信息，vj新的隐藏状态可以通过式（6）更新得到：

其中：Wo∈ℝMd×d表示映射层，它可以帮助模型整合高速道路vj所有相关方面的空间相关性。

在ti时间步，每条路vj的空间相关性可以通过式（1）～式（6）计算得到，并且整个路网的输出为∈ℝN×d，如式（7）所示：

其中：表示动态空间相关性提取器的输出；Wl∈ℝd×d。

2）动态时间特征提取器

时间相关性是高速公路交通数据的重要特征之一，以往的研究主要从时间维度展开［11，17］。LSTM 是时间特征提取的主流方法，本文将其用作时间特征提取器。多层LSTM 被用来捕获公路交通数据的时间相关性。时间特征提取器的工作过程如图6所示。

图6 LSTM 模型结构Fig.6 LSTM model structure

对于节点vj，空间特征提取器的输出为使用LSTM 提取其时间特征。假设i、f、o分别代表输入门、遗忘门和输出门，是每个时间步ti的输入，hvj，ti是每个时间步ti的输出，σ代表 sigmoid 函数，tanh 代表 Tanh 函数，W和b分别代表 LSTM 的权重和偏置参数。时间相关性的提取过程如下：

步骤1LSTM 选择性地忘记时间步ti时细胞状态cvj，ti-1的特征信息：

步骤2LSTM 从输入特征中选取重要信息，用于更新状态单元c′vj，ti：

步骤3确定LSTM 输出：

上述整个GLSTM-Block 工作流程，介绍了在时间步ti高速公路交通数据时空特征hti∈ℝN×d的提取过程，包括动态空间特征和时间特征。

2.5 编码器

数据的时空特征提取过程已经在2.4节详细介绍。为了防止每条高速道路过分依赖周边道路信息，同时保持自身个性化的时间序列特征，本文研究独立于GLSTM-Block，专门使用时间序列网络LSTM 来提取原始输入数据的时间特征，如图3 中编码器部分所示。LSTM 的时间序列特征提取过程如式（8）～式（14）所示，并且输出时间特征为。最后，将LSTM 的输出和GLSTM-Block 的输出hST=进行相加，得到最终的时空特征

给定输入序列x={xt1，xt2，…，xtP}，xti∈ℝN×d，由GLSTM-Block 和LSTM 构成的编码器用于将输入数据的时空相特征转换为隐藏表示，用于解码器的时间注意力层。

2.6 解码器

解码器内部组成类似于模型编码器，基于GLSTM-Block，GLSTM-Block的输出为。不同之处在于解码器还包含其他两个层：一个时间注意力层和一个子任务层。时间注意力层关注历史高速公路交通数据的时空特征对每个时间步预测值的影响［33］，子任务层用全连接层实现高速公路速度预测。

2.6.1 时间注意力

直到时间步tP+i，编码器和解码器输出的时空特征和分别表示为对于示例图节点vj，可以通过多头自注意力机制计算时间相关性［33］。从t1到tP+i的每一时间步对时间步tP+i的影响权重通过多头自注意力机制计算，如式（15）所示：

在时间步tP+i，时间相关性可以通过式（15）～式（19）计算得到，整个高速路网的输出为h′′tP+i∈ℝN×d。

2.6.2 高速公路交通速度预测

对于高速公路交通速度预测任务，将解码器的输出特征直接馈送到全连接层以生成预测值：

其中：Ws∈ℝd×1表示全连接层的权重参数。

2.6.3 损失函数

3 实验

3.1 基线模型和评价方法

对于高速公路交通速度预测，将本文提出的ST-ANet模型与以下基线方法进行对比：

1）HA 模型：该模型在未来预测任务中使用每天同一时间的历史数据的平均值作为预测值［3］。

2）ARIMA 模型：该模型是一种传统的时间序列预测方法，结合了移动平均和自回归分量对历史时间序列数据建模［5］。

3）SVM 模型：该模型是一种支持向量回归技术，用于交通速度的短期预测［6］。

4）Bi-LSTM NN 模型：该模型由Bi-LSTM 网络构成，用于对每个关键路径进行建模，然后使用堆叠在一起的多个Bi-LSTM 层来合并时间序列信息［18］。

5）FI-RNNs 模型：该模型将特征注入循环神经网络，结合时间序列数据并使用堆叠的RNN 和编码器来学习交通数据的序列特征［19］。

6）HyperNet 模型：该模型使用LSTM 和RNN 网络来预测交通速度，使用自动机器学习方法搜索模型超参数以执行网络训练［20］。

7）Multi-view CNN 模型：该模型基于传统CNN 网络，将历史和实时交通数据作为模型输入预测交通速度［21］。

8）PSPNN 基于路径的速度预测神经网络，由CNN和Bi-LSTM 网络组成，用于提取历史数据的时空特征，实现基于路径的速度预测［24］。

9）MDL 模型：该模型是一种新颖的混合深度学习模型，用于预测车道级短期交通速度，由卷积长短期记忆（Conv-LSTM）层、卷积层和全连接层组成［26］。

10）OGCRNN 模型：该模型基于GCN 和GRU 网络的时空神经网络模型，用于提取路段之间交通演变的复杂时空特征以预测交通速度［30］。

11）GCN-LSTM模型：该模型基于GCN 和LSTM 网络的融合深度模型，用于提取路段之间交通数据复杂的时空特征以预测交通速度［31］。

为评估ST-ANet 模型的预测性能，使用均方根误差（RMSE）、平均绝对误差（MAE）和决定系数（R2）来评估观测值yi和预测值之间的差异。这三个评价指标的计算公式如下：

其中：T是测试集大小；yˉ表示的是观测值的平均值。高R2和低 RMSE、MAE 值表明预测性能更精准。

3.2 模型参数

ST-ANet模型中的超参数在训练过程中确定，即通过MAE 在测试集上选择性能最好的模型。首先，根据经验手动设定超参数范围：学习率｛0.01，0.005，0.001，0.000 5｝，dropout ｛0.0，0.1，0.2，0.3，0.4，0.5｝，正则化参数｛0.1，0.01，0.001，0.000 1｝，衰减率｛0.99，0.95，0.90，0.85｝。对于ST-ANet 模型，发现以下设置效果最好：将 dropout 设置为0.5，衰减率设置为0.99，正则化参数设置为0.000 1，学习率设置为 0.000 5。使用基线模型时，这些设置仍然有效。所有的实验模型通过Tensorflow框架实现，并使用Batch 大小为32 的随机梯度下降算法（SGD）优化器训练所有模型。在所有实验中，模型使用了提前停止机制，即提前停止轮次和最大 epoch 分别设置为20 和50。

经过多次训练，最终确定的模型框架参数如表1所示，其中列出了ST-ANet 模型的层数、节点数、输出大小和相关超参数。本文提出的ST-ANet 模型和对比基线模型的具体实现代码请参考个人GitHub主页（https：//github.com/zouguojian/Traffic-speed-prediction/tree/main/ ST-ANet）。

表1 模型参数 Table 1 Model parameters

3.3 不同模型表现对比

3.3.1 单步预测表现对比

交通速度单步预测任务意义显著，也是当前的研究热点。目前多数交通速度预测研究集中在下一时刻的单步预测，这与区域高速路网的交通运行状况紧密相关。因此，本文继续将下一时刻的交通速度预测作为研究目标任务，预测结果如表2 所示，其中加粗表示最优值。实验中，使用历史6 h 数据来预测下一小时的交通速度［6-1 h］。例如，上午05：00—11：00 是输入时段，上午11：00—12：00 为预测时段。

表2 不同方法的交通速度预测结果（［6-1 h］预测任务）Table 2 Traffic speed prediction results of different methods（［6-1 h］prediction task）

由表2 可以看出，HA 和ARIMA 的性能远不如所有其他基线模型，这说明了高速公路交通速度预测的难度。统计模型最佳MAE、RMSE和R2值分别为14.360、22.867 和0.427。与统计方法相比，传统机器学习方法和深度学习方法表现更好，因为它们更适合提取时空数据的非线性特征。因此，现有的研究正在逐渐从统计方法过渡到机器学习方法。

将基于RNN 和CNN 的基线模型分为时间依赖、空间依赖和时空依赖三大类。时间依赖模型包括Bi-LSTM NN、FI-RN Ns 和HyperNet，空间依赖模型包括Multi-view CNN，时空依赖模型包括PSPNN 和MDL。比较这些基线模型可以得出以下结论：

1）时间依赖模型的整体预测误差低于空间依赖模型，最佳MAE 值为 13.760。实验结果表明，时间特征显著影响交通速度预测的精准性，体现使用基于RNN 网络提取输入数据时间相关性的优势。

2）空间依赖模型的交通速度预测偏差和拟合优度优于时间依赖模型，最佳RMSE 和R2值分别为22.274和0.632。实验结果表明，空间相关性在交通速度预测中起到了积极的作用，有效缓解了预测偏差过大和拟合优度低的问题。

3）与时间依赖模型和空间依赖模型相比，时空依赖模型显著，提高了交通速度预测的性能。最佳MAE、RMSE 和R2值分别为13.630、21.626 和0.653。实验结果表明，结合输入数据的时间相关性和空间相关性两个方面的特征，可以有效提高公路交通速度预测的准确性。

在基线模型中，基于GCN 和RNN 的时空依赖模型包括OGCRNN 和GCN-LSTM。对比OGCRNN、GCN-LSTM 和PSPNN 模型可知，OGCRNN 和GCNLSTM 的预测表现更好，对应的最优MAE、RMSE 和R2的值分别为12.985，21.383 和0.661。实验证明GCN 解决了CNN 网络面临的问题，可以有效地提取非欧几里德空间中离散道路之间交通数据的空间相关性。对比OGCRNN 和GCN-LSTM 的预测结果可知，GCN-LSTM的预测结果明显好于OGCRNN。GCN-LSTM 的预测结果证明，LSTM 相对于GRU 更适用于时间序列特征提取。本文研究继续考虑非欧式空间中交通数据的空间离散分布问题，将GCN 延伸到GAT 模型：

1）使用基于空间注意力的GAT 提取高速公路网络动态空间相关性。

2）与GCN-LSTM 模型类似，使用LSTM 作为时间特征提取器获取输入数据的时间相关性。

3）使用时间注意力机制计算历史输入数据与当前预测值之间的相关性，以完成交通速度预测。通过将本文提出的ST-ANet模型与基线模型对比，ST-ANet模型的预测性能得到较大的提升。与最优基线模型GCNLSTM 相比，模型的预测误差减小了4.0%。

3.3.2 消融实验

使用以下模型进行消融实验并对结果进行分析：

1）GLSTM-Block。与GCN-LSTM 模型相比，GLSTM-Block 模型也是使用LSTM 作为时间特征提取器；不同之处是，GLSTM-Block 使用基于空间注意力机制的GAT 提取输入数据的动态空间相关性，而GCN-LSTM 是依托于GCN 提取静态空间相关性的。与GCN-LSTM 相比，GLSTM-Block 取得了更好的表现，MAE 降低了1.9%。实验结果证明：一方面，相比于GCN，GAT 考虑到了空间特征的动态变化，这对高速公路网路的空间相关性特征提取效果要更加显著；另一方面，考虑路段之间的动态影响可以有效缓解预测能力不足的问题。

2）GLSTM-Block-LSTM。高速路网中的每条公路不仅受周边公路影响，更受到自身速度的影响。相比于GLSTM-Block，GLSTM-Block-LSTM模型在Encoder部分添加独立于GLSTM-Block 模块用于提取每条公路速度时间序列特征的LSTM 网络，目的是为了保留每个路段自身的时序特征而不受周边路段的影响。与GLSTM-Block 预测结果相比，GLSTM-Block-LSTM 模型的预测表现得到提升，并且MAE、RMSE 和 R2这3 个评判指标测量值都得到更新，分别改善了1.0%、0.1%和0.2%。通过实验可知，道路的自身固有时序特征对道路交通速度预测任务影响较大。因此，在高速公路速度预测任务中，不仅需要考虑高速路网时空特征问题，而且还需要保留每一条道路固有的时间序列特征。

3）GLSTM-Block-Temporal-Attention。高速公路未来时间段的交通速度预测值会受到过去一段时间的交通速度影响。为此，本文提出基于时间注意力的GLSTM-Block-Temporal-Attention 模型。与GLSTM-Block相比，GLSTM-Block-Temporal-Attention在预测阶段会考虑当前预测与历史输入数据之间的相关性。通过与GLSTM-Block实验对比可知，添加时间注意力后的模型预测表现整体误差减小，MAE值降低了0.3%。误差降低的可能原因是，模型更加关注时间维度历史输入数据与预测值之间的相关性。这也反映了时间注意力机制在交通预测任务中的积极作用，可作为交通速度预测模型的重要组件之一。

4）ST-ANet。通过对GLSTM-Block，GLSTM-Block-LSTM和GLSTM-Block-Temporal-Attention 模型预测结果的分析，可总结得到基于空间注意力的GAT、LSTM和时间注意力机制对交通速度的预测具有不同程度的影响。为了综合三者的优势，本文在GLSTM-Block 模型中添加用于独立提取高速公路每条道路交通速度时间序列特征的LSTM，以及用于计算历史输入数据与当前预测值相关性的时间注意力机制，最终得到ST-ANet模型。与最优基线模型GCN-LSTM 相比，ST-ANet 的预测误差得到了大幅改善，MAE 减小了 4.0%。

3.3.3 长期预测表现对比

目前的交通速度预测研究主要集中在短期预测，不足以满足实际应用场景的需要。高速公路交通速度的长期预测对于预测模型来说是一项具有挑战性的任务，它关系到未来一段时间公路交通的精确管控。对于表2 中的结果，已经证明了ST-ANet在短期预测任务中的有效性，并分析了模型各部分的贡献。为了验证ST-ANet在长期预测任务中的优势，表3 分别显示了基线模型和ST-ANet 模型在未来2 h 和3 h 的交通速度预测任务中的表现。由于基线模型的局限性，本阶段从表2 中选择性能好，并适用于长期预测的基线模型进行实验对比。对于［6-2 h］交通速度预测任务，使用6 h的历史交通数据作为输入，预测未来2 h 的交通速度，例如05：00—11：00 为输入时段，11：00—13：00 为预测时段。对于［6-3 h］交通速度预测任务，使用6 h 的历史交通数据作为输入，预测未来3 h 的交通速度，例如05：00—11：00为输入时段，11：00—14：00为预测时段。

表3 不同方法的交通速度预测结果（［6-2 h］和［6-3 h］预测任务）Table 3 Traffic speed prediction results of different methods（［6-2 h］and ［6-3 h］prediction tasks）

为了更清楚地对不同模型的预测结果进行对比，对每个模型的预测误差、偏差和拟合优度进行可视化，如图7 所示。结合图7 和表3 可知，与用于长期预测任务的基线模型相比，ST-ANet表现最佳。对于交通预测任务［6-2 h］，与最优基线模型GCN-LSTM 相比，MAE改进为3.6%，RMSE 改进为0.3%。对于交通预测任务［6-3 h］，与基线模型相比，MAE 改进为 3.9%。此外，如图7 所示，与基线模型相比，ST-ANet 的误差随着时间步数的增加变动幅度较小，且误差小于所有基线模型。由于ST-ANet 的预测结果优势显著，因此具有巨大的应用前景。值得注意的是，ST-ANet 的预测偏差和拟合优度要略低于GCN-LSTM，原因可能是GCN对于降低模型偏差和提高拟合优度方面的作用要好于GAT，而GAT 对于降低模型的误差方面起着不可或缺的作用。ST-ANet 和GCN-LSTM 模型的特性给未来的交通路网交通速度预测带来了新的启发，深度结合GCN 和GAT 的优势将是未来研究的一个重要方向。

图7 长期交通速度预测能力Fig.7 Long-term traffic speed prediction ability

4 结束语

本文基于时空注意力网络，提出一种面向动态高速路网的交通速度预测模型ST-ANet。为评估模型性能，对真实世界的高速公路交通数据进行多次实验。对于高速公路交通速度短时预测，在相同的测试集上，ST-ANet比基线方法具有更准确的交通速度预测性能。对比最优基线模型GCN-LSTM，ST-ANet模型对于未来1 h 预测误差MAE降低4.0%。此外，对于长期预测任务，ST-ANet的预测误差、偏差和拟合优度的变化范围较小。对比次优基线模型GCN-LSTM，ST-ANet模型对于未来2 h和3 h内高速路网交通速度的预测误差MAE 分别降低3.6%和3.9%。后续将在ST-ANet模型中添加GCN 网络，进一步减小模型的预测误差并提高模型的拟合优度，同时并探索用于未来预测的高性能模型。