APP下载

基于初始晚点和冗余时间的列车晚点恢复时间预测模型

2020-06-11胡雨欣彭其渊鲁工圆

交通运输工程与信息学报 2020年2期
关键词:晚点实绩列车运行

胡雨欣, 彭其渊,2, 鲁工圆,2, 李 力,2

基于初始晚点和冗余时间的列车晚点恢复时间预测模型

胡雨欣1, 彭其渊1,2, 鲁工圆1,2, 李 力1,2

(1. 西南交通大学交通, 交通运输与物流学院, 成都 611756; 2. 综合交通运输智能化国家地方联合工程实验室, 成都 611756)

列车初始晚点严重程度和运行图冗余时间配置是列车晚点恢复时间长短的重要影响因素。本文基于高速铁路列车运行实绩数据, 以初始晚点时间、站停冗余时间和区间冗余时间为变量, 使用多层感知器(MLP)和循环神经网络(RNN)建立了列车晚点恢复时间预测模型, 并采用基于运行图历史数据的冗余时间近似统计方法来提高统计精度, 降低了运行图参数数据采集的工作量成本。基于广深港铁路12个月列车运行实绩数据进行了列车晚点恢复时间预测试验, 结果表明允许误差为1 min时, MLP模型预测精度为91.6%; 允许误差为3 min时, RNN模型表现更好, 预测精度在95%以上。

高速铁路; 晚点恢复; MLP; RNN

0 引 言

近年来,我国高速铁路飞速发展。截止2017年底,高速铁路年客运量达17.52亿人次,占铁路总客运量的56.8%,较2016年提升43.47%。吸引旅客选择高速铁路的主要优势之一就是准点率,而这也是铁路运营者追求的重要指标[1]。

当列车由于天气恶劣、设备故障等因素的影响出现实际运行情况与计划运行图有偏差的现象时,需要列车调度员根据具体情况进行列车晚点恢复。晚点恢复不及时可能会导致连带晚点情况发生,甚至会导致线路短时间瘫痪,严重影响高速铁路服务质量与运行效率[2]。其中,晚点恢复时间的不确定性影响着调度员的行车调整策略[3],通过对列车晚点恢复时间的预测,有助于调度员准确把握列车到站时间,以保障列车到站正点率。

既有研究主要围绕晚点情况的恢复或缓解,而对列车晚点时间进行预测的研究较少。王勇等[4]基于TDCS数据进行数据统计分析,研究在非图定状况出现的情况下列车赶点和越行调度策略;柏赟等[5]针对运行线交叉区域列车提出一种启发式算法用于计算被干扰列车最优接近速度控制方案,有利于尽快恢复被干扰列车的正常运行,减少列车晚点;邓念等[6]构建列车运行调整混合整数线性规划模型对区间能力全失效情况下的列车运行图调整问题进行研究。

在晚点时间预测方面,Kecman等[7]基于大量动态的轨道占用数据预测列车通过各个信号机的时间以及各个站点出发和到达时间等。但目前缺乏如此精确的运行数据以支持晚点的实时适应性预测。Büker等[8]等将晚点到站时间看作服从某种分布函数的随机变量,建立列车到站时间预测模型,并用活动图表示晚点时间的传播情况。但事实上,列车晚点时间是多种因素造成的结果,使用分布函数表示并不符合实际运行情况。孙略添[9]等针对技术站货物列车,基于不同种类的晚点影响因素建立混合灰色预测模型和径向基神经网络模型对列车晚点时间进行预测,分析比较了两种预测方法的优劣并分别指出了预测方法的适用范围;袁志明等[10]在列车事件建模的基础上提出基于随机森林的列车到站时间预测模型,并证明该方法能够有效提高预测列车到站时间的准确性,其中,列车到站时间预测模型中的属性特征选取来自既有经验,而没有对其进行验证。

列车运行实绩数据反映了列车计划运行轨迹和实际运行情况,文献[11]发现,通过分析列车运行实绩数据可以清晰直观地得到列车的晚点分布情况,对合理分配冗余时间,优化列车运行图的编制以及提高铁路运输服务的可靠性具有重要意义。黄平等[12]基于列车运行实绩数据提出随机森林模型对晚点恢复时间进行研究,在误差为1 min时预测精度达79.1%;庄河等[13]基于广铁集团高速列车运行实绩数据,研究不同致因情况下初始晚点时长的分布模型。但基于列车运行实绩数据的研究还是非常缺乏。

为了弥补上述不足,本文基于广深港高速铁路(广州南—深圳北区段)列车运行实绩数据,对影响列车晚点恢复的影响因素进行分析,并提出基于多层感知器和循环神经网络的列车晚点恢复预测模型,并将12个月的历史数据按6:2:2的比例分为训练集、验证集与测试集,以校验本方法的预测精度。

1 列车晚点恢复时间预测模型

1.1 模型输入变量分析

列车晚点恢复是一个由多重因素影响的复杂过程,目前大部分文献是从定性分析的角度来分析影响晚点恢复过程的特征因素。本文使用广深港线(广州南至深圳北区段,简称广深段)12个月的列车运行实绩数据进行统计分析,定量地分析列车晚点恢复模型的主要变量。该数据共计834 098条,涉及5个车站、505 032辆列车。

既有文献多选取晚点成因、列车运行时间等作为模型研究因素[9, 10, 13],而列车晚点程度、晚点能否恢复在很大程度上受到冗余时间分布的影响,基于此本文采用了初始晚点和冗余时间为模型输入变量研究晚点恢复时间预测方法。

(1)初始晚点时间

初始站的晚点时间,即初始晚点时间,直接决定了列车晚点恢复的执行难度,影响最终的晚点恢复时间。对同一次列车,初始晚点时间越小,进行运行调整时列车与列车之间的冲突关系就越少,更容易恢复正点运行。

对广深港线列车运行实绩数据进行晚点恢复率(由终到站恢复正点运行的列车数与初始站晚点列车数的比值得出)统计,如图1所示。初始晚点时间较大的列车恢复正点运行的列车比例明显低于初始晚点时间小的列车。结果表明,初始晚点时间影响着列车最终晚点恢复情况,因此,将初始晚点时间作为模型第一个自变量。

图1 晚点恢复率统计

(2)冗余时间

冗余时间包括车站站停冗余时间、区间运行冗余时间、追踪运行冗余时间以及接续作业冗余时间等[14]。其中,车站站停冗余时间和区间运行冗余时间主要控制受延误列车初始晚点的强度和提高受延误列车发生晚点时的晚点恢复能力[15]。文献[12]指出总站停冗余时间可由各车站的停站时间之和求出,但列车在停站时需要完成到达、出发作业以及旅客乘降等工作,因此站停时间不能完全等价于站停冗余时间;其次,对于不同车型的列车,其牵引特性、制动性能以及速度等级等都有不同标准,即使在同一条线路上运行,列车在车站的站停情况和区间运行情况也是不同的。

为减少变量数据采集与统计工作量成本,本文采用了基于列车运行图实绩历史数据的方法来近似计算车站站停冗余时间:

同理,区间运行冗余时间可由下式计算:

以站停冗余时间为例,通过对列车运行实绩数据统计,验证冗余时间对列车晚点恢复的影响情况。表1和表2是对广深线各个车站不同站停冗余时间下的列车数量以及不同站停冗余时间下的晚点恢复率的统计情况。如表2所示,站停冗余时间越大的列车普遍更易恢复正点,站停冗余时间在一定程度上影响着列车晚点恢复情况。

表1 车站站停冗余时间频数统计

Tab.1 Station stop redundancy time frequency statistics

表2 不同站停冗余时间的晚点恢复率统计

Tab.2 Late recovery rate statistics of different station stop redundancy times

1.2 基于多层感知器的晚点恢复时间预测模型

多层感知器(Multi-Layer Perceptron, 简称MLP)是一种前馈神经网络模型,由输入层、输出层和隐藏层组成,可以作为多分类模型。如图2所示,每一层神经元与下一层神经元全部连接,同一层神经元之间没有连接。

图2 MLP结构示意图

对于输入序列(1,2, …,x-1,x, …)得到第2层输出序列,并将其转变为矩阵表达式为:

可将该过程推广至神经网络的任意一层,得到第层最终输出:

MLP晚点恢复时间预测模型具体建立步骤如下:

(1)确定模型实验数据,根据上文变量分析结果,生成由初始晚点时间、站停冗余时间、区间运行冗余时间组成的列晚点列车的输入序列和相对应的输出序列。

(2)对输入序列进行one-hot编码,将类别进行二进制化,便于对其类别特征进行训练。

(3)建立层多层感知器模型,包括输入层、隐藏层和输出层,确定各层节点数。

(4)设置训练参数对神经网络进行训练,在验证集上进行验证,直至找到最优参数。

(5)将测试集输入通过反复训练得到的最优神经网络模型,得到最终预测值。

1.3 基于循环神经网络的列车晚点恢复时间预测模型

路网上的列车可看作按次序发出的动态过程,且由于相邻列车之间的耦合性,此列车的晚点情况与上一列车有一定程度的关联,也很可能会影响下一列车的晚点情况。除此之外,晚点状态改变需要的时间依赖于外部客观因素和列车的自身状态,也就是说这一次的晚点恢复过程可以在历史的晚点恢复过程中找到相似的特征。在此基础上,考虑引入循环神经网络(Recurrent Neural Network,简称RNN),RNN与一般的神经网络相比,区别在于RNN不仅在层与层之间建立了连接,在层之间的神经元之间也建立了连接。如图3所示(右图是按时间轴展开的状态),使神经网络能够动态记忆历史信息,在学习新信息的同时保持历史信息的留存,能够在预测过程中保持更高的适应性。

图3 RNN网络结构

假设输入序列为(1,2,…,x-1,x,…),对于时刻的隐藏层状态:

则时刻输出为:

RNN晚点恢复时间预测模型具体建立步骤如下:

(1)确定模型实验数据,生成由初始晚点时间、站停冗余时间、区间运行冗余时间组成的列晚点列车的基于时间顺序的输入序列和输出序列;

(2)将输入序列转化为3维张量,得到新的输入序列;

(3)建立层RNN模型,包括输入层、隐藏层和输出层,确定各层节点数;

(4)设置训练参数对神经网络进行训练,在验证集上根据评价指标对其进行验证,直至找到最优参数;

(5)将测试集输入通过反复训练得到的最优神经网络模型,得到最终预测值。

2 实例分析

2.1 数据描述

以列车晚点恢复时间为研究对象,本文测试数据集来源于广州铁路集团高速铁路调度所广深港线上广州南至深圳北共计5个车站的列车运行实绩数据,数据采集范围为2015年11月1日至2016年10月31日,线路全长115km。

由于研究的是晚点时间恢复预测问题,本文仅对在初始站晚点的列车进行分析,并剔除到达终到站时晚点恢复时间为0的车次,对晚点列车在终到站,即深圳北站的晚点恢复时间进行预测。初始晚点时间过小时,可能在晚点发生的车站或者临近区间直接被缓冲时间吸收,晚点持续过程较短[12]。本文选择初始晚点时间大于3 min的数据进行实验,最后得到符合实验要求的数据共1 918条。将其中60%的数据作为训练集,20%的数据作为验证集,20%的数据作为测试集。

初始晚点时间(CSSJ)、站停冗余时间(ZTSJ)、区间运行冗余时间(QJSJ)和晚点恢复时间(HFSJ)频数分布如图4所示,表3是各变量的Pearson相关性分析。由图4和表3可知,各变量分布状态不同,且除ZTSJ和HFSJ相关系数相对较高外,其余变量相关性较弱。变量之间关系复杂,难以用传统回归模型进行拟合,使用MLP和RNN模型进行实验验证。

图4 变量频数分布图

表3 Pearson相关性分析

Tab.3 Pearson correlation analysis

2.2 MLP预测模型参数的确定

将CSSJ、ZTSJ、QJSJ作为模型的输入,输出为HFSJ。如图5所示,对HFSJ以1 min为间隔进行频数统计,被分为31类。因此,输入层设置为3个节点,输出层设为31个节点;隐藏层设为2层,每层包含128个节点。由于本模型为多分类模型,将损失函数设为交叉熵损失函数并采用Adam优化算法。将数据按6∶2∶2划分为训练集、验证集和测试集进行实验。

图5 不同批量下损失变化情况

图5展示了不同训练批量和迭代次数下的训练损失和验证损失变化情况(为了更清楚地显示出数据走势,从第10次迭代开始绘制)。由图5可知,批量为16时,训练损失收敛最快并且较为稳定,其对应的验证损失也在迭代次数为100时达到了各个验证损失中的最低点。最终确定批量为16,迭代次数为100。

2.3 RNN预测模型参数的确定

CSSJ、ZTSJ和QJSJ为模型的输入数据,HFSJ为模型的输出。因此将RNN模型的输入层设置为3个节点,输出层设为1个节点;隐藏层设为2层,每层包含128个节点。采用Adam作为优化算法,损失函数为均方误差(MSE)。将数据按6:2:2划分为训练集、验证集和测试集进行实验。训练中批量大小影响着损失下降的方向和训练速度,将批量设为16、32、64和128,在同样的模型结构下分别迭代1000次。结果如图6所示(为了更清楚地显示出数据走势,从第30次迭代开始绘制),批量越小,损失下降得越快,但与此同时,损失振荡增大,需要更多的迭代次数才能收敛。综合考虑各因素,将批量设为32,并对模型进行500次迭代。如图7所示,当迭代次数达到50次左右时,验证损失达到其最小值;随着迭代次数继续增大,训练损失减小并逐渐趋于平缓,验证损失反而呈上升趋势,呈现出过拟合现象。最终确定RNN预测模型批量设为32,迭代次数为50。

图6 不同批量下的训练损失变化情况

图7 批量=32时训练损失和验证损失变化情况

3 实验结果分析

多元线性回归(MLR)是一种广泛应用于预测任务的多因素分析方法[16]。为了更形象地评估模型预测效果,本文建立了MLR模型,与RNN模型、MLP模型性能相对比,MLR模型的变量、参数、训练集和测试集与RNN、MLP模型一致。

将初始晚点时间、站停冗余时间、区间运行冗余时间作为模型的预测变量,利用MLR、RNN、MLP三种模型进行对晚点时间进行预测。三种模型在测试集上的预测结果如图8所示,RNN模型和MLP模型预测值与真实值变化趋势基本吻合,偏差值较小;而MLR模型预测值和真实值的偏差较大,预测结果不理想。

图8 三类模型预测结果比较

为了验证冗余时间变量对模型预测效果的影响,将初始晚点时间设为模型唯一预测变量,冗余时间不作为预测变量,分别使用MLP模型和RNN模型进行晚点恢复时间预测(模型各参数、训练集和测试集不变),预测结果如图9、10所示。

图9 无冗余时间变量的RNN模型预测结果

图10 无冗余时间变量的MLP模型预测结果

由上图可知,不使用冗余时间而仅用初始晚点时间预测最终晚点时间时,预测值与真实值的偏差较大。

为了统一对模型进行评估,分别对5种模型允许误差为1 min、3 min和5 min的精度进行计算(取十次实验结果的平均值),如表4所示,结果表明MLP模型和RNN模型预测效果均远好于MLR模型。其中,MLP模型在误差精度为1min时表现最为优异,对于预测精度要求较高时MLP模型更为适用。RNN模型在误差精度达3min和5min时预测更为准确。在晚点初始时间预测的基础上,加入冗余时间共同作为预测变量时,RNN模型预测结果平均提高7.2%,MLP模型预测结果平均提高2.7%。

表4 五种模型不同允许误差情况下的精度比较

Tab.4 Accuracy comparison of five models with different allowable errors

4 结 论

本文基于列车运行实绩数据,确定了初始晚点时间、站停冗余时间和区间运行冗余时间作为列车晚点恢复模型的输入变量,并采用了冗余时间近似统计的方法降低了输入数据参数采集与处理成本。相比于以往对冗余时间的统计,本近似统计方法统计结果更加精确。在此基础上,本文提出了基于多层感知器(MLP)和循环神经网络(RNN)的列车晚点恢复时间预测模型,将其与传统多元线性模型(MLR)进行对比,模型预测结果表明:

(1)相较于MLR模型,MLP模型和RNN模型能对数据更好地进行拟合,展现出更优的预测精度。

(2)相比于仅使用初始晚点时间为变量的模型,加入冗余时间共同作为预测变量时模型的预测精度更高。

(3)在允许误差为1 min时,MLP模型预测精度为91.6%;允许误差为3 min时,RNN模型精度超过95%。

[1] 彭其渊, 李建光, 杨宇翔, 等. 高速铁路建设对我国铁路运输的影响[J]. 西南交通大学学报, 2016, 51(3): 525-533.

[2] 闫迪. 基于晚点恢复的高速铁路行车调度工作质量评价方法[D]. 成都: 西南交通大学, 2018.

[3] CORMAN F, MENG L Y. A review of online dynamic models and algorithms for railway traffic management[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(3): 1274-1284

[4] 王勇, 陈军华, 于剑. 基于数据监测的列车赶点与越行调度策略研究[J]. 物流技术, 2014, 33(9): 166-169.

[5] 柏赟, 何天健, 毛保华. 一种交叉线干扰情形下列车晚点恢复运行控制方法[J]. 交通运输系统工程与信息, 2011, 11(5): 114-122.

[6] 邓念, 彭其渊, 占曙光. 干扰条件下高速铁路列车运行实时调整问题研究[J]. 交通运输系统工程与信息, 2017, 17(4): 118-123.

[7] KECMAN P, GOVERDE R M P. Online data-driven adaptive prediction of train event times[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(1): 465-474.

[8] BUKER T, SEYBOLD B. Stochastic modelling of delay propagation in large networks[J]. Journal of Rail Transport Planning & Management, 2012, 2(1): 34-50.

[9] 孙略添, 宋瑞, 何世伟, 等. 技术站列车晚点时间预测方法[J]. 北京交通大学学报, 2018, 42(1): 94-98, 126.

[10] 袁志明, 张琦, 黄康, 等. 基于随机森林的列车到站时间预测方法[J]. 铁道运输与经济, 2016, 38(5): 60-63, 79.

[11] 刘岩, 郭竞文, 罗常津, 等. 列车运行实绩大数据分析及应用前景展望[J]. 中国铁路, 2015(6): 70-73.

[12] 黄平, 彭其渊, 文超, 等. 武广高速铁路列车晚点恢复时间预测的随机森林模型[J]. 铁道学报, 2018, 40(7): 1-9.

[13] 庄河, 文超, 李忠灿, 等. 基于高速列车运行实绩的致因-初始晚点时长分布模型[J]. 铁道学报, 2017, 39(9): 25-31.

[14] 孟令云, 冉锋, 王志强. 高速铁路列车运行图冗余时间优化布局系统研究[J]. 铁路计算机应用, 2012, 21(6): 28-30, 34.

[15] 宁骥龙. 城际客运专线列车运行图冗余时间布局优化研究[D]. 成都: 西南交通大学, 2013.

[16] 李梅, 李静, 魏子健, 等. 基于深度学习长短期记忆网络结构的地铁站短时客流量预测[J]. 城市轨道交通研究, 2018, 21(11): 42-46, 7.

Train Delay Recovery Time Prediction Model Based on Initial Late Point and Redundant Time

HU Yu-xin1,PENG Qi-yuan1, 2,LU Gong-yuan1, 2,LI Li1, 2

(1. School of Transportation and Logistics, Southwest Jiaotong University, Chengdu 611756, China; 2. National United Engineering Laboratory of Integrated and Intelligent Transportation, Chengdu 611756, China)

Initial train delay and redundant operation map configuration are two important factors affecting the length of the train recovery time. This study investigates the influencing factors of the train delayrecovery based on high-speed railway train operation records. The initial late time, station stop redundancy time, and interval redundancy time are three important factors affecting the train delay recovery. Based on the high-speed railway train operation data, this study uses multi-layer perceptron (MLP) and a cyclic neural network (RNN) to establish a train delay recovery time prediction model with the initial late time, station stop redundancy time, and interval redundancy time as the variables. The redundant time approximation statistical method based on the historical data of a running graph is adopted to improve the statistical precision and reduce the workload cost of the data collection of the running graph parameters. The train delay recovery time prediction test is performed based on the 12 months train operation datas of the Guangzhou-Shenzhen-HongKong railway. The results show that the prediction accuracy of the MLP model is 91.6% when the allowable error is 1 min.The RNN model is more accurate when the allowable error is 3 min. In conclusion, the prediction accuracy is above 95%.

high-speed railway; delay recovery; MLP; RNN

1672-4747(2020)02-0093-10

U292.4

A

10.3969/j.issn.1672-4747.2020.02.011

2019-05-21

国家重点研发计划(2017YFB1200701),国家自然科学基金项目(U1834209)

胡雨欣(1994—),女,汉族,四川成都人,硕士研究生,E-mail:yuxin@my.swjtu.edu.cn

鲁工圆(1983—),男,汉族,四川射洪人,副教授,E-mail:lugongyuan@swjtu.edu.cn

胡雨欣, 彭其渊, 鲁工圆,等. 基于初始晚点和冗余时间的列车晚点恢复时间预测模型[J]. 交通运输工程与信息学报, 2020, 18(2):93-102.

(责任编辑:李愈)

猜你喜欢

晚点实绩列车运行
基于马尔科夫链的高铁列车连带晚点横向传播
晚点的火车(外三首)
改善地铁列车运行舒适度方案探讨
学深悟透党的十九大 学以至用出实绩
高速铁路初始晚点致因-影响列车数分布模型
CBTC系统列车运行间隔控制仿真研究
善用“小事”谋“实绩”
列车运行控制系统技术发展趋势分析
让实绩主导“上”“下”
相同径路的高速列车运行图编制方法