APP下载

使用AVL数据的公交到站时间CEEMD-LSTM预测模型

2023-12-28赖元文王鈜民

关键词:时段路段公交

赖元文, 王鈜民

(福州大学土木工程学院, 福建 福州 350108)

0 引言

自动车辆定位(auto vehicle location, AVL)系统可借助GPS卫星获取公交车辆实时经纬度坐标、 速度、 进出站标识、 时间戳等数据, 后台预测到站时间并迅速发布到各手机应用程序, 有助于出行者获取实时公交信息并制定出行方案, 既有利于合理安排时间, 又可缓解城市交通拥堵[1].

现有公交到站时间预测模型主要从考虑更全面的公交运行时间影响因素和平稳化处理原始数据两个角度来提升预测精度[2]. 考虑历史到站数据的预测方法操作简单, 流程短, 适用于交通状况简明的公交线路, 许多学者研究影响公交到站时间的因素, 采用线性回归模型进行预测[3]; 杨敏等[4]采集公交历史数据建立时间序列模型, 研究影响因素与到站时间的关系; 支持向量机方法可控制输入的变量, 从而表现公交到站时间与一些影响因素之间的关系[5]. 考虑数据非平稳性的方法致力于原始数据平稳化处理, 卡尔曼滤波能够同时考虑数据的实时性和非平稳性, 被应用于公交到站时间预测[6]; 粒子滤波可以摆脱原始信号中噪声的影响, 通过实验证明该方法较卡尔曼滤波有更高精度[7]; 神经网络模型能够处理复杂的函数, 被广泛运用于各类预测中[8], 起初多层前馈神经网络模型预测效果较好[9], 但随着深度学习的发展, 长短期记忆(long short term memory, LSTM)逐渐取代早期的神经网络模型, 该方法易于感知时间序列的变化, 且预测精度高, 受到许多学者推崇[10]. 近期有些学者考虑使用门控循环单元进行预测, 目前预测效果不佳. 由于原始数据受突发事件影响呈现复杂非线性, 而互补集合经验模态分解(complementary ensemble empirical mode decomposition, CEEMD)可以分解原始信号的时间尺度特征[11], 使数据趋于平稳, 基于此, 本研究采集自动车辆定位数据, 构建预测公交到站时间的CEEMD-LSTM模型.

本研究采集AVL数据, 提出一种依托原始AVL数据得到公交路段运行速度的方法, 考虑公交线路的时空特征, 通过Adam算法进行LSTM参数寻优, 引入CEEMD平稳化处理原始时序, 构建CEEMD-LSTM公交到站时间预测模型, 结合算例, 以减少与实际到站时间偏差为目标进行试验, 得到CEEMD-LSTM到站时间预测模型的偏差较LSTM更小的结果, 验证本研究提出的公交到站时间预测方法行之有效.

1 方法及原理

1.1 LSTM神经网络模型

LSTM包含Sigmoid和tanh函数, tanh将数值限制在值域[-1, 1]之间, Sigmoid则将数值压缩到0~1之间, 0会被直接剔除掉, 1会被完整地保留. 二者之间相互交互, 构成了遗忘门、 输入门和输出门, 每个门的目的是删减或增加细胞状态中的信息, LSTM细胞状态的详细更新过程如图1所示, 其中σ为Sigmoid函数, tanh为tan函数,ft、it、ot分别为遗忘门、 输入门、 输出门中的细胞状态,Ct为候选状态,ht为当前LSTM中输出的细胞状态.

图1 LSTM细胞单元更新详细过程Fig.1 Detail process of LSTM cell unit update

1.2 CEEMD方法

经验模态分解(empirical mode decomposition, EMD)是一种时序平稳化的方法[12]. 在EMD过程中, 原始信号会被分解成多个本征模态函数(intrinsic mode function, IMF)和残差, IMF表示原始数据中不同尺度的局部振荡特性, 残差则反映了原始数据本该具有的趋势特征. 但该过程会出现模态混叠的现象, 即分解公交到站时间序列时, 不易感知突发事件的影响.

为解决EMD存在的问题, Wu等[13]添加指定幅值的白噪声, 尽可能减少白噪声对原始时序的影响. 该方法计算量大, 随后衍生出CEEMD[14], 改为添加互为相反数的白噪声, 后经平均处理消除噪声影响. CEEMD相较于EMD可在相同次数的分解中, 得到幅值更小的残差, 节省计算资源. 在公交到站时间预测上, CEEMD步骤如下.

(1)

步骤3计算公交运行速度上下包络线均值, 可得到时间序列的均值包络线m0(t).即

(2)

步骤4进行筛分, 计算原始时间序列于均值包络线的差, 将其称为中间信号. 即

c0(t)=x0(t)-m0(t)

(3)

r0(t)=m0(t)

(4)

步骤5判断中间信号是否满足以下IMF判别的两个条件: 即极值点个数是否大致相等、 上下包络线是否大致呈轴对称. 若满足, 该中间信号就是IMF分量, 若不满足则重复上述步骤.

步骤6将残差r0(t)作为下一次筛分的初始数据x1, 继续进行筛分可得到IMF2. 则有

x1=r0(t)

(5)

步骤7重复以上过程, 直至原始时间序列被分解成多个本征模态函数和残差. 则有

(6)

式中:ci代表分解得到的多个本征模态函数;rn(t)代表无法再分解的残差.

2 构建CEEMD-LSTM公交到站时间预测模型

2.1 CEEMD过程

本研究首先采集连续多个工作日的公交AVL原始数据, 考虑公交运行的时空特征, 得到按照站点划分的各路段运行速度原始时序特征, 使用Matlab R2016b编写CEEMD. 公交路段运行速度CEEMD分解图如图2所示. 图2中, 横坐标表示样本序号, 纵坐标表示路段区间速度. 从图2中可以看出: 随着分解过程的进行, 相较于EMD, CEEMD过程中本征模态函数的频率逐渐趋于平稳, 只需个位数的分解次数就可以达到更低的IMF量级.

图2 CEEMD结果图Fig.2 Results of CEEMD

2.2 模型构建

本研究将线路首、 末班次间的运行时间定义为公交运行时间, 公交运行时间按照时间间隔划分为若干个时段. 预测场景为: 在工作日t时段, 有一乘客想乘坐a路公交, 他此时位于a路公交沿线的站点i+n站或正打算前往该车站, 此时获悉最近的公交车辆bus1正在路段站点i-1至站点i的位置o行驶. 他想知道bus1需要多久才能到达自己所在的i+n站, 即到达i+n站的到站时间, 预测模型如图3所示.

图3 CEEMD-LSTM预测模型Fig.3 CEEMD-LSTM prediction model

3 案例分析

3.1 原始数据及处理

预测时间长度设置过长则无法体现速度波动, 设置短则加大预测难度, 经多个观测时段长度时序变化分析, 选取20 min作为预测时段长度. 收集公交AVL数据, 共获取福州市公交303路上行方向在2002年2月28日—3月4日全天45个时段, 共6 525条运行速度数据. 该线路全长15.85 km, 共30个站点, 相邻站点划分为一个路段, 输入模型前需要数据预处理[15].

通过高德定位开发调用接口获取福州市公交303路上行方向所有站点经纬度坐标, 在Arc GIS 10.8中添加XY坐标将站点经纬度可视化, 根据线路折点增添了242个特征点.

相邻特征点a(lon, a,lat, a)、b(lon, b,lat, b)之间的距离sa, b计算式为

(7)

(8)

式中:LON, a、LAT, a、LON, b、LAT, b代表特征点a、b经度、 纬度的弧度形式; ΔLAT=LAT, b-LAT, a, ΔLON=LON, b-LON, a, 半正矢公式havesinθ=(1-cosθ)/2;R代表地球半径, 取R=6 378 137 m.

相邻站点A、B间的距离sA, B为

(9)

式中:sA, B为相邻站点A、B间的距离, m;n为相邻站点间的特征点总数.

计算进站时间tB与前一站出站时间tA之差, 得到该班次公交在该路段的运行速度.

(10)

式中: Δt为路段运行时间, s;tB为进站时间;tA为前站出站时间;vA, B为A、B站点间的速度, m·s-1.

3.2 实验设置

在CEEMD-LSTM神经网络模型中, LSTM有众多输入参数, 其中samples是输入运行速度的条目, 可根据训练情况进行设定; timesteps是时间步长, 代表每次输入的运行速度样本数量, 设置越大, 隐藏层的循环层数就越多, 迭代速度降低; input_dim是输入模型的数据维度. 除此之外, 还需要输入激活函数、 神经网络层数、 每层中的神经元数、 模型的优化器等参数, 将CEEMD处理的公交运行速度特征分量作为输入, 分别对输入时序长度为5~15进行实验, 综合考虑模型预测精度和时效性, 选择每次梯度更新样本数为10, 激活函数选择Tanh, 误差函数选择均方误差, 优化器选择Adam优化算法, 该方法可以处理非平稳数据, 通过计算梯度为公交到站参数设计独立的学习率, 避免梯度爆炸.

为探究神经网络层数, 分别对单、 双层神经网络下的CEEMD-LSTM模型进行了试验, 结果如表1所示. 在同等数据条件下双层神经网络预测结果要优于单层神经网络. 这是因为双层神经网络能够感知到公交路段平均运行速度中更多的时序特征. 受到样本数量的制约, 随着神经网络层数的增加, 预测结果会出现过拟合的现象, 导致误差上升, 为了平衡预测精度与训练时间的关系, 最终选取双层LSTM模型用于公交平均运行速度的预测. 通过以上实验, 确定最优的网络结构组合如表2所示.

表1 不同网络层数预测结果比较Tab.1 Comparison of prediction results of different network layers

表2 参数设置表Tab.2 Parameter setting table

3.3 评价指标

选用平均绝对值误差(EMA)、 均方根误差(ERMS)和平均绝对百分比误差(EMAP)来验证优化LSTM组合模型的效果, 指标值越接近零可视为预测精度越高, 公式为

(11)

3.4 实验结果对比分析

为了验证CEEMD-LSTM模型的有效性, 分别使用时间序列预测方法整合移动平均自回归模型(autoregressive integrated moving average model, ARIMA)、 单一LSTM、 EMD-LSTM及CEEMD-LSTM等4种方法. 选取2022年2月28日—3月3日29个路段45个时段的路段运行速度作为训练集, 2022年3月4日29个路段45个时段的路段运行速度作为测试集, 进行单个预测时段长度为20 min的多时段速度预测.

为验证各模型预测效果, 选择路段4(磨洋河站至上洋站)和路段15(省彩印厂站至双子星大厦站)进行公交路段运行速度预测, 路段4受非机动车流和平交口影响, 路段15受早晚高峰客流和共线公交滞站影响, 均表现出较大的速度波动. 图4、 5分别为各模型对路段4、 15全时段运行速度预测, CEEMD-LSTM的预测结果最接近真实数据, 且较EMD-LSTM模型更准确地预测出速度的波动, LSTM可以预测出一些明显速度的波动, 但对波动变化局部极值的预测存在一定的误差. 此外, ARIMA模型预测结果仅体现大致的运行速度走向, 许多波动均未有效预测, 因此认为该方法较为适用外界干扰因素较小的公交到站时间预测. 对于像公交运行速度这样易受到交通路况干扰的情况, 预测效果大大降低, 也应证了运行速度时序特征本身的非平稳性, 需要经过CEEMD平稳化处理原始数据, 计算各模型预测误差如表3所示.

表3 全天多时段速度预测误差表Tab.3 Table of speed prediction error in multiple periods of the day

图4 各模型对路段4运行速度预测图Fig.4 Prediction effect of the segment 4 running speed predicted by each models

从评价指标来看, CEEMD-LSTM模型路段4的MAE分别比EMD-LSTM、 LSTM和ARIMA低了0.041 8、 0.271 7和0.897 9 m·s-1, RMSE分别比EMD-LSTM、 LSTM和ARIMA低了0.027 2 、 0.320 4 和1.014 m·s-1, MAPE则是比另外3种方法分别低了1.3%、 5.7%和9.63%; 而路段15的MAE分别比EMD-LSTM、 LSTM和ARIMA低了0.066 5、 0.276 8和0.587 5 m·s-1, RMSR分别比EMD-LSTM、 LSTM和ARIMA低了0.021 8、 0.300 4和0.608 9 m·s-1, MAPE则是比其余3种方法分别低了0.75%、 5.59%和9.63%.

进行公交到站时间预测, 以303路早高峰(7: 00—9: 00)为例, 通过重构结果得到预测模型在各路段早高峰时段下的路段运行速度, 计算公交到达下一个站点的时间, 即为预测得到的公交到站时间, 重复操作预测一个班次所有站点的到站时间, 见图6 和表4.

表4 早高峰公交到站时间预测效果对比Tab.4 Bus arrival time prediction in morning peak

图6 303路早高峰公交到站时间预测图Fig.6 Prediction of 303 bus morning peak arrival time

由图6和表4可知, 经过CEEMD优化后早高峰时段到站时间的预测误差有所降低. 从不同预测模型来看, CEEMD-LSTM、 EMD-LSTM的平均绝对百分比误差较低, 而ARIMA和LSTM模型的预测误差大于上述两种模型. 从到站时间预测精度来看, LSTM神经网络模型在前期的预测误差较小, 但随着站点的增加, 单一LSTM预测准确度有所降低, 而CEEMD-LSTM模型仍能保持较高的公交到站时间预测精度, 验证所提模型的优势.

4 结语

本研究考虑公交运行路段、 运行时段和工作日影响, 构建使用AVL数据预测公交到站时间的CEEMD-LSTM模型. 首先采集公交AVL数据, 经预处理得到路段运行速度, 引入CEEMD方法进行优化, 将路段运行速度平稳化处理, 使用Adam优化器进行LSTM模型参数寻优, 重构预测结果输出预测路段多个时段下公交运行速度, 进而根据车辆实时位置, 计算到站时间. 综合比较3项评价指标, 本研究提出的CEEMD-LSTM模型预测效果最好.

使用AVL数据预测公交到站时间的CEEMD-LSTM模型对已安装车载AVL设备的城市公交线路到站时间预测效果较好, 下一步可考虑对公交数据进行重构填补, 进一步缩短时间段划分阈值, 对公交数据更多时间维度进行分析. 此外, 后续也将继续扩充原始数据样本量, 以期能将公交在周、 月维度上的运行规律考虑进去.

猜你喜欢

时段路段公交
冬奥车道都有哪些相关路段如何正确通行
一元公交开进太行深处
部、省、路段监测运维联动协同探讨
A Survey of Evolutionary Algorithms for Multi-Objective Optimization Problems With Irregular Pareto Fronts
基于XGBOOST算法的拥堵路段短时交通流量预测
四个养生黄金时段,你抓住了吗
等公交
傍晚是交通事故高发时段
分时段预约在PICC门诊维护中的应用与探讨
分时段预约挂号的实现与应用