日交通流预测的编码器-解码器深度学习模型研究

2022-11-20茅一波

计算机工程与应用 2022年22期

曹阳，茅一波，施佺

1.南通大学信息科学技术学院，江苏南通 226019

2.南通大学交通与土木工程学院，江苏南通 226019

近年来，人均车辆保有量不断增长，各大城市交通拥堵问题相继爆发，严重影响到了城市居民正常生活出行。因此，合理的道路规划、高效的交通设施布置和实时的车流诱导成为道路交通管理部门的首要任务。而实时、高精度的交通流预测是其中的关键，它不仅可以为交通流诱导和分流提供理论基础，还能帮助出行者做出更佳的出行决策，达到缓解交通拥堵、减少碳排放、提高交通运营效率的目的[1]。

目前主流的交通流预测方案多为短期预测（预测周期在数小时以内的交通流预测模型）[2]，而有关日交通流预测（预测周期为一天的交通流序列预测模型）的研究相对较少。与短期预测相比，日交通流预测不仅能够为交通资源的分配提供更多的数据支持，还可以为交通管理者提供更多的决策支撑，帮助出行者提前制定计划，达到避开交通拥堵路段的目的。

现有的交通流预测方法主要分为两类：一类是模型驱动方法，如ARIMA（autoregressive integrated moving average）[3]、Kalman滤波[4]、灰色预测模型[5]等，这些方案计算过程简单，数据需求量小，但由于模型结构固化，当路况相对复杂时预测效果较差。另一类则是数据驱动方法，如支持向量机[6]、贝叶斯网络[7]、深度学习[8-9]等，这类方法通过大量的数据学习交通流特征，能够较好地挖掘交通流与输入参数的非线性关系。深度学习是数据驱动方法最主要的分支之一，与其他数据驱动方法相比，深度学习在高维数据处理、时空关系分析等方面更具优势。

交通流预测领域常见的深度学习模型大多为点到点的模型或者序列到点的模型。短期预测的预测结果为下一个时刻的车流量，其预测结果为一个数值，与传统深度学习模型较为契合。而日交通流预测的结果为次日的交通流序列，其预测结果为一个序列而非一个数值，因此预测难度更大。现有的日交通流预测模型大多采用两种方案对预测模型进行改进：一种是通过多步预测来实现序列的预测。如杨飞等[10]利用回声网络加强网络的多步预测能力；袁方等[11]采用PCA（principal components analysis）周期分量对交通流进行分解，对其非周期部分进行奇异值分解和滤波以保障多步预测的精度。然而由于多步预测对误差的传播更为敏感且模型的性能衰减更快，其预测精度往往会随着步长的增加而快速下降。另一种则是通过多目标预测，预测接下来的多个时间点的交通流。如Ma等[12]利用CNN和LSTM分别分析日内以及日间的交通流关系，并利用多目标输出的方式预测接下来一天的交通流；Qu等[13]通过深层神经网络挖掘天气、季节等因素与交通流的非线性关系，预测接下来多个时间点的交通流。但这些方案忽视了预测结果的时序关系，因此预测结果往往没有短期预测优越。

编码器-解码器模型是一个典型的序列到序列模型。该模型最初用于自然语言处理领域，近年来也被大量地用于时间序列预测领域。如刘臣等[14]将编码器-解码器与GCN结合，在地铁客流量预测问题中取得了优异的结果；Nguyen等[15]将基于LSTM的编码器-解码器模型与遗传算法相结合预测PM2.5浓度，其预测精度远高于传统模型。

注意力机制是Bahdanau等[16]针对编码器-解码器模型存在信息丢失等问题提出的改进机制，初期与编码器-解码器一样被广泛用于自然语言处理领域。随着编码器-解码器模型的大量使用，注意力机制已成为神经网络领域的一个重要概念。如王庆荣等[17]将注意力机制和LSTM网络结合，提出了一种考虑天气节假日等外部因素的短时交通流预测模型；桂智明等[18]提出一种结合注意力机制的卷积门控循环单元预测模型，具有较高的预测精度。

本文将编码器-解码器模型的思想进一步用于日交通流预测领域，提出了一种以LSTM为基本单元，同时通过注意力机制调节编码向量权重的编码器-解码器模型（LSTM attention encoder-decoder，LSTM AE-D）。新的模型作为一种典型的序列到序列预测模型，能较好地契合日交通流的预测需求。取美国5号州际公路西雅图段的实际交通流数据进行实验，结果表明本文提出的LSTM AE-D模型的预测结果平均绝对百分比误差与经典神经网络模型LSTM、GRU、BP、CNN、GCN相比，分别减小了10%、10%、19%、37%、18%、20%，且在平均车流密度大于40辆/km的时间段，预测结果比这五种传统模型分别减少了19%、20%、25%、16%、25%。

1 系统模型

本文所提出的LSTM AE-D模型架构如图1所示，该模型采用LSTM作为编码器-解码器模型的基本单元，同时通过注意力机制对模型的注意力系数进行调整从而提高模型的记忆能力，最后通过全连接层（Dense）将解码后的结果映射到一维进行预测。

1.1 LSTM模型

LSTM是递归神经网络（RNN）的一个变种模型，它通过引入长期记忆单元解决了训练过程中梯度消失和梯度爆炸的问题，在较长的序列训练过程中比传统的RNN有更好的表现。因此，本文采用LSTM作为编码器-解码器的基本单元。该模型的具体结构如图2所示。

LSTM模型结构中的圆圈表示对应的符号运算或函数运算，方框代表以σ、tanh为激活函数的全连接层。σ、tanh分别代表sigmoid函数和双曲正切函数，具体计算公式如式（1）～（2）所示：

LSTM模型结构中的Xt、ht、Ht、分别代表t时刻系统的输入值、输出值和长期记忆单元和系统单元状态，it、ft、Ut分别代表系统的输入门、遗忘门和输出门。3个门通过σ函数输出0-1的数以控制门的开关程度从而实现对系统输入量的控制，原有状态的保持以及输出量的控制。LSTM模型的具体计算公式如式（3）～（8）所示：

式中，YC、Yi、Yf、Yo为系统的参数矩阵，aC、ai、af、ao为系统的偏置，⊙代表Hadamard积。

1.2 注意力机制

注意力机制是图像识别、机器翻译等领域常用的神经网络优化机制，能有效加强模型对于重要信息的提取能力，从而提升网络在识别、预测等领域的效果[19]。

本文使用的注意力机制为自注意力机制，能有效地捕获目标序列及其上下文信息与模态自身的相关性。自注意力机制的注意力系数由输入向量序列h通过网络训练而来，其具体计算式如式（9）～（12）所示：

式中，α为注意力系数，h为编码器层的输出，C为计算得出的编码向量。其中注意力系数α由输入量h构成，由于α与h一般属于非线性关系，通过两层全连接网络进行计算。D和A分别为这两层全连接网络的隐藏层单元。同时为了避免注意力系数过大或者过小，利用softmax函数对其进行缩放使sum()

α=1。自注意力机制通过对网络注意力的调节使网络在每个解码时间有不同的侧重点，提高了信息利用率，从而提升网络的预测的效果。

2 模型预测

为验证本文提出的LSTM AE-D深度学习模型在日交通流预测中的有效性，取美国5号州际公路（I5）上的交通流数据集进行实验，公路位置如图3所示。该数据集来源于数字道路交互式可视化与评价网络（DRIVENET，http：//uwdrive.net/STARLab），是目前最常用的交通流预测公开数据集之一，包含了I5公路从加拿大到墨西哥的85个传感器数据。在实验中取2015年12月1日到2016年12月31日时间间隔为5 min自南向北的单向交通流数据，以第42个传感器（距离温哥华163.02英里）作为目标传感器，利用所有传感器的交通流数据预测目标传感器次日的交通流量，并与五类经典的神经网络模型LSTM、GRU、BP、CNN、GCN进行对比。

2.1 相关性分析

I5公路上的传感器数量较多，全部作为输入数据会导致网络过于臃肿，且部分传感器之间关联度相对较低反而会降低系统的预测精度。因此，选择与目标传感器关联度较高的几个传感器的数据作为输入参数。

皮尔逊相关系数[20]是广泛用于度量两个序列之间相关程度的一种参数，其计算公式如式（13）所示：

式中，Xi和Yi分别代表序列X和Y的第i个元素；Xˉ和Yˉ为这两个序列的平均数；r代表着两个序列的相关性系数，其数值在-1～1之间，其绝对值越大，代表相关性越高。所有传感器的交通流数据与目标传感器次日的交通流数据的相关性系数（大于0.85）如表1所示。

表1 皮尔逊相关系数表（大于0.85）Table 1 Pearson correlation coefficient table（＞0.85）

本文取相关性高于0.95的6个传感器（39～44）归一化后的结果作为输入，来预测目标传感器后一天的交通流量。图4是该公路42号传感器2015年12月第2周的原始交通流数据，不难看出该公路的工作日车流状况与周末的车流状况也有较大的差距，因此将输入数据是否为工作日以及预测目标是否为工作日也作为预测的输入参数。

2.2 网络训练

本文将原始数据按3∶1∶1的比例划分为预测集、验证集和测试集，训练次数设为2 000次，选取训练过程中验证集表现最好的模型参数作为最终的预测模型参数，通过测试集计算模型的损失值。考虑到随机梯度下降法在参数更新中对所有的参数更新使用固定的学习速率，下降速度慢，因此本文选用Adam（adaptive moment estimation）梯度下降算法对该算法进行训练。Adam算法通过梯度的一阶矩估计和二阶矩估计调节不同参数的自适应学习速率，具有消耗内存少、训练速度快等优点，是目前最主流的梯度下降算法之一。

2.3 评价指标

为了评价所提方法的性能，采用平均绝对误差（MAE）、均方根误差（RMSE）、测定系数(R2)和平均绝对百分比误差（MAPE）对预测结果进行评价：

式中，为预测值，yi为真实值为真实值的均值，n为预测数据的个数。MAE是真实值与预测值绝对误差的均值，能较好地显示预测值与真实值之间的偏差程度；RMSE是真实值与预测值误差平方均值的算术平方根，与MAE相比，它不仅能体现预测的偏差程度，还能体现预测误差的离散程度；R2表示预测值与真实值的线性相关程度；MAPE是误差与真实值之间的偏差百分比，避免了真实值大小对误差结果的影响，从而更精确地反映预测误差。

2.4 实验结果

I5公路2016年11月25日（工作日）与11月27日（双休日）的预测结果如图5所示。可以看出本文模型能较好地预测交通流的变化趋势，但预测结果与实际数据相比更为平缓，在波动性较强的实例中可能无法获得较好的预测结果。

为了验证本文模型的有效性，将本文模型的预测结果与LSTM、GRU、BP、CNN、GCN进行对比，六种方案I5公路2016年11月25日的预测结果如图6所示。图中纵轴代表每5 min的车流量，横轴代表时间。从图6中可以看出，LSTM AE-D以及LSTM的预测输出与实际交通流的变化范围基本一致，可以较为准确地描述交通流的变化趋势，GRU在5：05—6：00时的预测结果明显高于实际值，BP的变化趋势与实际情况相一致，但在15：55—19：00时波动情况较大，CNN的预测趋势与实际情况较为接近但在许多时段预测值略微偏小，GCN的预测结果在2：40—5：50时明显低于实际值。

六种方案的误差结果如表2所示，相较传统方案，本文提出的预测模型MAPE分别提升了10%、9%、19%、37%、20%。相比CNN模型提升幅度较高的主要原因是0：00—3：55以及23：10—24：00真实值极低时CNN模型的误差较大导致MAPE偏高。

表2 预测结果误差表Table 2 Error of prediction results

由于该路段晚上9点到早上4点之间车流密度一般小于40辆/km，交通状况较为通畅，预测结果的实际意义相对较小，因此将晚上9点到早上4点之间的数据去除再计算模型的预测误差，结果如表3所示。可以看出，在白天车流量较多的时候LSTM AE-D的预测结果更为精准，其MAPE比其余方案分别提升了19%、20%、25%、16%、25%。

表3 早上4点到晚上9点预测结果误差表Table 3 Error of prediction results from 4 AM to 9 PM

2.5 收敛速度分析

为了计算模型的收敛速度，本文记录了各模型收敛到验证集RMSE小于39.21（即归一化后均方误差小于0.004）所需的时间，实验平台参数如表4所示，记录结果如表5所示。可以看出，LSTM、GRU以及本文提出的LSTM AE-D模型由于包含类似RNN的链式结构，在训练时不仅需要计算误差随网络层级传播的分量，还要计算误差随时间传播的分量，因此消耗的时间较长。本文提出的LSTM AE-D模型的收敛速度与LSTM大致相等。

表4 实验平台参数Table 4 Parameters for experimental platform

表5 RMSE收敛到39.21所需时间Table 5 Time required for RMSE converging to 39.21

2.6 鲁棒性分析

为了验证本文模型的鲁棒性，还测试了时间间隔为15 min、30 min、60 min等不同数据集下的预测效果，2016年11月25日的预测结果如图7所示，预测误差如表6所示。可以看出，不同时间间隔的数据集中本文所提出的LSTM AE-D模型都具有较高的预测精度。

表6 不同时间间隔预测结果误差表Table 6 Error of prediction results of different time intervals

3 结束语

本文提出了一种用于日交通流预测的编码器-解码器深度学习模型。该模型以LSTM为编码器-解码器的基本单元，同时加入了注意力机制对模型进行优化，并利用Adam算法求解模型参数。最后采用美国5号州际公路西雅图段的实际交通流数据进行实验，结果表明，本文提出的预测模型与LSTM、GRU、BP、CNN、GCN等传统的预测模型相比具有较高的预测精度，是一种有效的日交通流预测模型。下一步将考虑改进网络的误差传播算法以提升网络的收敛速度，同时考虑加入图神经网络提高网络对空间特征的捕捉，从而使该模型在城市路网中也能有较好的表现。