基于注意力机制和时空卷积网络的客流预测方法

2023-05-22范礼乾

运输经理世界 2023年5期

范礼乾

（中铁第四勘察设计院集团有限公司，湖北武汉 430063）

0 引言

客流预测是现代城市轨道列车运营的必然需要，也是长期以来备受关注的研究热点。目前，客流预测方法主要分为参数方法和非参数方法。

在参数模型中，自回归模型、自回归滑动平均模型和自回归综合滑动平均模型，是传统而有效的客流预测方法[1]。由于时滞变量之间的线性假设，这些模型的应用受到了限制。为了跟踪真实客流的非线性特征，研究人员引入并改进了各种非参数模型，基于神经网络的机器学习方法作为非参数方法的代表，在对任意函数具有良好映射能力的同时，具有非常好的泛化能力，备受关注。现有研究已经提出了许多机器学习方法用于客流预测，其中，递归神经网络（recurrent neural network，RNN）、长短时记忆（long shortterm memory，LSTM）网络等可以很好地捕获数据的时间序列特征，在客流预测课题上得到了广泛的应用[2]。客流表现出来的空间特征可以通过卷积神经网络（convolutional neural network，CNN）进行提取[3]。一些研究也将注意力机制（attention mechanism，AM）用在客流预测中以提升模型性能。为弥补传统机器学习在面对大量客流数据时出现的学习不足或者过度的问题，出现了组合神经网络预测模型[4]。

综上，该研究基于深度学习的网络架构，实现对客流的精准预测。该研究的贡献主要体现在两个方面：第一，综合了基于客流时间序列数据的时间特征和基于地铁站间连接和旅客出行网络的空间特征实现多站点客流数据的动态预测。第二，提出了一种具有注意机制的时空卷积网络（attention mechanism spatio-temporal network，AMSTN）模型，将嵌入AM模块的CNN 与LSTM 网络融合在一起，实现客流数据时空特征的有效捕捉。

1 问题描述

式（1）中：μ表示AMSTN 模型，相邻的站点编号站在地理上彼此相邻。矩阵的每一行都表明客流预测依赖于历史数据，是一个时间序列问题；矩阵的每一列描述了不同站点之间的客流关系，增强了模型预测的空间相关性。因此，μ的回归可以实现客流数据时空维度的双重捕获。

2 基于注意力机制的时空卷积网络

2.1 网络单元组成

针对客流数据表现出来的空间特征，选用CNN 网络用于数据空间特征的捕获。CNN 由三个主要网络层组成：卷积、池化和全连接。卷积层和池化层的任务是过滤输入数据并提取有用的信息，以用作全连接层的输入；全连接层主要是对特征信息进行合并；之后，经指数函数或逻辑函数输出最终分类标签。

在对数据表现出的时间特征捕获上选用了LSTM网络单元。LSTM 解决了RNN 的随内环深度增加带来的反向传播相关梯度消失问题，将存储单元与栅极结构相结合，以学习何时忘记先前的记忆并更新记忆，使得网络具备了长序列学习能力。

为了增加网络对关键因素的关注度，集成了AM模块。AM 有软注意力和硬注意力。硬注意机制集中于输入信息中的一个元素，基于最大或随机抽样来选择信息。软注意机制为所有输入信息赋予权重，使输入信息能够更有效地使用。因此，试验中采用软注意机制，增加网络中重要特征的信息流权重。结构见图1。

图1 AM 结构图

2.2 模型架构

最终整合了CNN、AM 和LSTM 三个网络单元，形成具有双重注意力和时空特征捕获能力的AMSTN 网络。在确定AM 位置作为每个卷积模块的输出后，AM 单元首先集成到CNN 网络中，后连接到Reshape层对数据降维。这是因为在CNN 阶段，原始的二维客流数据经过切片处理后变为三维，为了能顺利连接到LSTM 需要再降至二维。在Reshape 层之后，连接LSTM 网络单元，使网络具有处理长时间序列的能力。网络架构见图2。

图2 AMSTN 网络架构图

3 算例分析

3.1 数据处理及试验指标

在数值试验中，共收集了北京地铁13 号线西直门至东直门的16 个地铁站的客流数据，选取上午5 时至晚上11 时的数据，以5 分钟为间隔进行整理。从众多的字段中去除不相关的信息后进行数据归一化将数据映射到同一量纲：

考虑到神经网络的不确定性，将每个试验重复100 次，并以平均绝对误差（mean absolute error，MAE）指标的均值作为最终的试验结果。定义如下：

式（3）中：pi为实际客流数据；为预测客流数据；N为预测客流总数。

3.2 模型参数确定

对于神经网络，模型参数很大程度上决定了模型性能，因此，需进行一系列的试验来对其进行选择。首先，确定网络中CNN 和LSTM 层数。一般情况下，随着神经网络层数的增加，训练效果会从欠拟合到良好拟合再到过拟合。由于CNN 和LSTM 共同影响AMSTN 模型的性能，同时为平衡试验精度及成本，将两种神经网络的最深层数设置为3，通过试验，找到合适的网络层数组合。对于神经网络来说，网络深度和神经元数量相互依赖[5]，因此，在试验中将CNN 和LSTM 神经元数量均设置为64，以确定网络的层数。通过表1 可以看出，当CNN 层数为2，LSTM 层数为1时，网络性能最好。

表1 各网络深度的模型性能

通常，每个神经网络层的神经元数量为32、64、128 等。随着网络深度的增加，神经元数量逐渐增加。因此，将可能的神经元数量组合试验，找到最适合的神经元个数，结果见表2。

表2 各神经元个数组合的模型性能

结果表明，当CNN 神经元数量为32 和128，LSTM中为64 时，网络性能最好。

其次，对步长即输入序列的滑动窗口长度n进行确定。AMSTN 模型使用前n时刻的客流数据来预测下一时刻的客流数据，其中，时刻是数据中最小的离散时间单位。将n的值从6 增加到20，表3 试验结果表明最合适的步长为10。

表3 各步长的模型性能

3.3 对比试验结果

首先，验证AMSTN 模型的稳定性。通过多次迭代，发现随着训练轮数的增加，在经过20 次迭代后，模型损失逐渐稳定，并在后续的训练中一直在特定的容差范围内波动，图3 所示为模型损失收敛曲线。表明模型是收敛的，具有一定的稳定性。

图3 AMSTN 模型收敛曲线

将AMSTN 模型的预测性能与其他标准预测模型的预测性能进行比较，基线模型的神经网络单元组成及对应神经元个数如表4 所示。

表4 网络模型组成

使用四种模型对同一车站同一天的客流进行预测，得到各模型的性能表现指标如图4 所示，各个模型的预测情况如图5 所示。

图4 各模型预测性能指标

图5 各模型预测效果

可以得出：第一，三种基线模型中，AMCN 模型表现更好，因为CNN 和LSTM 单元使模型能够捕获数据之间的时空相关性。第二，相比而言，AMSTN 模型的预测效果最好，不仅可以捕捉数据之间的时空相关性，同时AM 的添加使模型能够聚焦于关键特征。第三，从预测曲线可以看出，在客流变化复杂的区域，AMSTN 的表现更为突出，说明AM 能够捕捉到影响模型的主要因素。通过模型的性能指标以及预测曲线，表明相较于其他三种基线模型，AMSTN 模型更适合客流的预测。