基于深度学习的短时交通流预测模型
2020-10-24卢生巧黄中祥
卢生巧,黄中祥
(长沙理工大学 交通运输工程学院,湖南 长沙 410004)
交通流预测是城市智能交通系统(Intelligent Transport System,简称为ITS)的重要组成部分。精确的短时交通流预测,可为道路使用者提供实时的、有价值的参考信息,帮助其选择更优的出行路径,也可预测道路拥堵的地点和时间。运输从业者可以提前选择优化路径,减少道路拥堵[1]。短时交通流预测有助于ITS 的道路交通控制和交通诱导,提高道路安全性[2−3]。
目前,短时交通流预测方法有基于模型算法和数据驱动的方法。其中,基于模型算法包括:卡尔曼滤波器[4]、梯度增强树回归、时间序列的自回归统计及贝叶斯网络等经典的浅层学习算法。Hamed[5]等人利用Box-Jenkins 技术,建立ARIMA模型,实现了交通量的短期预测。张涛[6]等人应用基于K 近邻的非参数回归预测模型,利用K 值构造的预测区间,进行特殊路况的预测,获得了较高的预测精度。Hu[7]等人利用粒子群算法,优化支持向量机(Support Vector Machine,简称为SVR)参数,进行预测。
这些浅层结构的预测模型,处理小样本数据时,简单高效。处理大样本数据和复杂非线性函数时,存在局限性。深度学习和神经网络的组合不断应用于交通流短期预测的深层结构模型中,推动了基于数据驱动方法的神经网络和深度学习[8−9]等迅速发展,提供了更准确的交通流预测工具。其中,循环神经网络(Recurrent Neural Networks,简称为RNN)为变体的长短时记忆神经网络(Long Short-Term Memory,简称为LSTM),可提取数据的长期依赖特征[10]。Polson[11]等人使用 Math Container 方法,结合tanh 层的深度学习模型,成功预测特殊条件下急剧变化的交通量。Yu[12]等人利用深度卷积神经网络和长短时记忆网络相结合的深度结构,捕获交通网络路径的时空相关性,验证了卷积神经网络CNN(Convolutional Neural Network,简称为CNN)和LSTM 结合的可行性。刘明宇[13]等利用门控循环单元神经网络 (Gated Recurrent Unit,简称为GRU)进行短时交通流预测,取得较高的预测精度。作者基于时空关联矩阵,拟利用深度神经网络挖掘短时交通流数据的时空特征。采用Python 软件,将CNN 和GRU 两者结合起来,构建一种混合神经网络预测模型,并以加州交通局绩效评估系统PeMS(Performance Measurement System,简称为PeMS)的实例数据为依托,对该模型进行训练和预测。
1 基于CNN-GRU 的短时交通流预测模型
交通流在空间域和时间域上具有明显的特征。在空间域中,某些位置上的交通流,可能与附近地区有更强的依赖性(拓扑局部性)。在时间域中,部分历史交通流,会对未来的交通流产生长期影响。
1.1 CNN 模型结构
根据经验和实验数据,模型选择CNN 层作为数据输入层,预测效果更好。因此,选择使用一维CNN 结构,挖掘交通流数据中的空间特征。CNN是一种深度神经网络,能够捕获交通流数据的空间特征。CNN 层通过卷积和池化的操作,进行局部趋势学习,有效保留交通流的空间特征。神经网络模型层数越多,网络表现能力则越强。当训练数据不足时,更容易发生过拟合。为平衡模型的计算成本,模型的一维CNN 层是深度为2 的完整卷积神经网络。在深度卷积神经网络中,线性整流层的激活单元用于非线性激活。线性整流函数(Rectified Linear Unit,简称为ReLu),是一种常用的激活函数。不仅可以解决“梯度消失”的问题,而且可使深层神经网络快速收敛[14]。交通流数据具有非线性特征,所以选择ReLu 作为整流层激活函数,提高网络非线性特征的学习能力。
1.2 GRU 模型结构
由于交通流的动态性,交通流的时间特征不断变化,使得短时交通流表现出更强的相关性[15]。由于交通流还存在长期依赖性特征,如:上游交通流在拥堵状态下,需要很长时间,才能到达下游。因此,交通流的时间特征建模时,需要考虑这种长期依赖性。因为LSTM 可用于模拟交通流的时间特征[16],通过输入门、遗忘门及输出门3 个门控机制,去除或者增加信息,到LSTM 单元中,解决了RNN存在的长期依赖,所以可选择更简单的RNN-GRU模型。与LSTM 相比,GRU 的神经元更少,而且能实现与LSTM 相同或者更好的性能[17]。
GRU 只有更新门和重置门2 个门控机制。更新门的作用是决定当前输入信息(Xt)有多少是需要保留的;重置门的作用是将Xt和前面传递的信息(ht−1)相结合。这2 个门控机制使得GRU 具有交通流的长期依赖特征。
GRU 的计算步骤:
1) 在时间步t,Xt和ht−1,经过线性变换,进入更新门的Sigmoid 层,输出激活值Zt。重置门与输出门的表达式一样,但权重矩阵不同,同样输出一个激活值rt、zt和rt的值域均为[0,1]。其中,0 代表完全遗忘信息,1 代表完全保留信息。
式中:W和U为权重矩阵;Xt为t时刻的输入向量;ht−1为时间步t−1 保存的信息。
2) 由tanh 函数计算当前记忆信息。时间步t的最终记忆信息ht,由、ht−1和更新门激活值zt加权得出。
图1 GRU 结构展开Fig. 1 GRU expanded structure view
式中:∇代表Hadamard 乘积。
1.3 CNN-GRU 模型结构
CNN-GRU 模型利用卷积结构,提取交通流数据中的空间特征,门控循环单元捕获交通流数据的时间特征。在训练阶段时,神经网络从历史数据中学习交通流的时空特征,对交通流的状态和特征进行识别和记忆,得到各个网络层的权重值和偏置量。在预测阶段,将处理好的数据,输入已训练好的模型,得到交通流的预测值。
在考虑计算量和模型深度基础上,选择卷积神经网络层数为2 层,2 层之间包含一个池化层。模型使用ReLu 函数,激活2 个一维卷积层(Conv1D),提取交通流数据的空间特征。ReLu 函数能保证交通流数据的非负性,并且易于收敛。CNN 每层卷积核数目为150,卷积核时域窗长度为1×10。交通流数据经过卷积层后,使用2 层GRU 来提取时间特征,其神经元个数分别为64 和32,平衡计算成本和预测精度。Dropout 层设定随机断开50%的神经元,可有效缓解模型过拟合现象[18]。最终的CNN-GRU 模型结构如图2 所示。
图2 CNN-GRU 模型结构示意Fig. 2 An illustration of structure in CNN-GRU
2 CNN- GRU 模型训练
2.1 数据说明及预处理
采用的交通流数据来自2018 年9 月-10 月,圣地亚哥区域内标号为I5-N 高速公路,将其中连续16 个探测器记录的单向车流量数据,作为样本数据,监测点距离见表1,空间位置如图2 所示。数据采集间隔为30 s,交通量汇总为5 min。由于采集数据在工作日和周末均表现出较强且不同的周期性模式。因此,本研究只对工作日的交通流量进行预测。选择9 月1 日-10 月9 日期间的工作日所对应的数据作为模型训练集,合计9 791 个。10 月22 日-31 日期间的工作日所对应的数据,作为模型测试集,合计2 303 个。
表1 监测点间距Table 1 Distance between monitoring points
受外界因素干扰,原始的交通流数据,会出现缺失、异常等状况。本研究利用交通流理论的筛选法,剔除原始数据的异常值。根据交通流在时间上的形似性,对于某一时段缺失的数据,采用前1 d或后1 d 的历史数据替代,将交通流数据归一化到[0,1]区间,训练所有模型。
2.2 基于时空特征的输入向量
交通流预测实质是一个时间序列的预测,可以依据过去时段的交通流信息,预测未来时段的交通流状况。交通流遵循一定的规律,呈连续流状态,连续流道路的相关断面相互影响,使得断面观测到的交通流,具有时间和空间特征,需要将交通流量的数据,处理成带有时间和空间特征的输入矩阵A。假定交通流数据的采样间隔为Δt,选择的监测点总数为p,采集数据的总量为n,则所有监测点组成的一组交通流量数据为:
综合考虑各个监测点在时间与空间维度上的相关性,设预测模型的交通流量输入为X,则有:
任意监测点下一时刻的交通流量,由该监测点和各个监测点的当前时刻及前一个或多个时刻的交通流量数据来预测。训练时,利用枚举试算的方法,确定模型预测的时间滞后,设置为6,以实现模型的最低错误率。即:使用所有监测点前30 min的交通流量,作为定期输入,预测下一时刻5 min的交通流量。
2.3 模型训练
利用交叉验证法训练模型,选择最佳的层数和超参数。训练过程中,利用损失函数之均方误差(Mean Squared Error,简称为MSE)、Relu 激活函数及Adam 优化器。Adam 是一种特殊的随机梯度下降(Stochastic Gradient Descent,简称为SGD)方法,通过动态调整参数,充分提取数据的空间特征,达到快速收敛,正确学习目标。采用MSE 作为模型的目标函数,对比不同超参数的模型误差,选择最佳方案。其中,混合模型、CNN、LSTM 及GRU模型的Batchsize 参数为全数据集288,能充分学习数据的本质特征,加快收敛速度,并且满足预测精度要求。模型交通量的预测时间步长为3,6,9。3 项评价指标都很小,步长为6 时,平均精度最高。自回归移动平均模型(Autoregressive Integrated Moving Average Model,简称为ARIMA)超参数选择(1,1,1)。
在Python 语言开发环境下,所有神经网络都基于Keras 框架,进行搭建和训练。基于Keras,可将训练模型保存到本地,在预测阶段可直接调用进行预测实验。根据预测精度自适应调整模型参数,具备可移植性和灵活性。
3 CNN- GRU 模型预测结果和分析
3.1 单个监测点模型预测效果
基于训练好的混合模型和对照模型,随机选取10 月31 日编号为4 的监测点数据作为预测样本,模型预测结果如图3 所示。
从图3 可以看出,CNN-GRU 模型预测结果最好,能更好的预测出实际交通流的变化趋势,预测值和实际值的误差较小,平均误差低至1 veh/5 min。其中,交通流在凌晨(0-50 时段)比较平稳时,平均误差为0。但在早晚高峰(50-220 时段)时,交通流变化剧烈,预测误差会相应出现波动,特别是交通流峰值处,最大误差达到了5 veh/5 min。从图4 中还可以看出,CNN 模型对于交通流的峰值预测效果偏低,GRU 和LSTM 模型对于交通流变化趋势的预测效果较差。混合模型中,利用CNN 和GRU 的优点,识别了短时交通流数据的空间局部特征,并且保留了挖掘时间特征的能力,该模型有效提高了预测精度。
为了更好地分析预测结果,选取均方根误差eRMSE、平均绝对误差eMAE和平均绝对百分比误差eMAPE作为评价指标衡量模型的性能,其中,MAPE是比较不同预测模型准确性的常见评价指标之一。RMSE、MAE 和MAPE 三者定义如下:
图3 模型的预测结果和误差对比Fig. 3 Prediction results and error comparison of models
式中:yi为实际交通流量;为预测交通流量;n为样本数量。
4 号监测点的预测结果评价见表2。CNN-GRU模型与其他模型相比,在3 个评价指标中,均为最低值,预测精度最高。通过神经网络各模型的评价指标对比,CNN-GRU、GRU 和LSTM 3 种神经网络模型评价指标,基本处于同一水准。而ARIMA 模型的MAPE,高达11.13%,相比其他神经网络模型性能最差。可见神经网络的多隐含层结构,能有效提取交通流数据的特征。此外,混合模型的3 项指标最低,MAPE 相比LSTM 模型减小了19.7%,预测精度大幅提升。
表2 四种模型在4 号监测点对比RMSE、MAE 和MAPE 评价指标Table 2 The comparison of RMSE, MAE and MAPE of four models at No. 4 monitoring point
3.2 全路段模型预测效果
为了验证CNN-GRU 预测模型的适用性,选取10 月31 日16 个监测点的数据,作为预测样本,模型预测结果如图4 所示。从图4 可以看出,路段交通流随时间变化的情况。图4(b)预测交通量与图4(a)实际交通量的变化趋势一致,所提出的模型在整条实验路段上适用性较好。
图4 CNN-GRU 模型全天的预测结果Fig. 4 Forecast results of all day in CNN-GRU model
为了进一步验证CNN-GRU 模型的预测精度,本试验构建3 个对比模型:CNN、GRU 和LSTM模型。2018 年9 月-10 月16 个采样点的预测评价结果,见表3。从表3 可以看出,CNN-GRU 模型与GRU、LSTM 及CNN 3 种神经网络模型的eMAPE相比,CNN-GRU 模型的精度指标最高,均优于其他预测模型。其中,相比GRU 模型,MAPE 减少了12%;相比LSTM 模型,MAPE 减少了13%;相比CNN 模型,MAPE 减少了23%。表明:本研究所提出的CNN-GRU 模型,预测精度最好。CNN 的预测精度比GRU 更好,也进一步验证了CNN 提取短时交通流空间特征的强大能力。如果与其它体系结构相结合使用,其实用性更强。
表3 全路段预测结果评价Table 3 Evaluation of all road segment prediction results
4 结语
基于深度神经网络理论,提出一种卷积神经网络和门控循环单元神经网络相结合的CNN-GRN 预测模型,对该模型进行训练与预测,得到的结论为:
1) 利用Python 语言,完成CNN-GRU 模型的逐层构建和参数调优,实现基于CNN-GRU 模型的短时交通量的精确预测。
2) 利用PeMS 的交通量数据训练模型,并进行对比测试单个监测点和全路段的预测结果表明:CNN-GRU 模型能够对交通流的状态和特征进行识别和记忆,充分提取交通流数据的时间和空间特征,提高模型的预测精度。
3) CNN-GRN 与CNN、GRN 及LSTM 3 种模型相比,3 项评价指标均为最低,预测精度最高,具备较好的适用性。
4) 实例数据证明,CNN-GRU 模型能更精确预测交通流的短时变化,可为交通管理与控制提供有效依据。
本实验仅仅是针对某个路段,未来应该扩展到城市路网中,如此更符合城市交通智能化需要。