基于梯度提升决策树级联分类方法的城市轨道交通列车突发事件延误时间预测*
2022-12-13欧冬秀张馨尹高博文吴宇森
欧冬秀 张馨尹 赵 源 张 雷 高博文 吴宇森
(1.同济大学交通运输工程学院, 201804, 上海; 2.上海市轨道交通结构耐久与系统安全重点实验室, 201804, 上海;3.上海轨道交通运营管理中心, 200070, 上海; 4.上海自主智能无人系统科学中心, 201210, 上海∥第一作者, 教授)
城市居民日常出行对城市轨道交通的依赖毋庸置疑,而突发事件时有发生,经常致使列车延误。据统计,某城市在2017年至2019年地铁全线突发事故导致列车延误5 min以上高达360次,某条单线延误达67次,其中最长延误时间达275 min,严重影响公众出行体验。为了减缓延误影响,地铁运营管理部门在信息平台实时播报地铁各条线路的运营情况和突发事件信息[1],但现阶段播报的预报延误时间与实际延误时间相比具有较大偏差。如某日某条线路预报延误时间为10 min以上,而实际延误时间长达128 min。精准的列车延误时间估计不仅能为乘客提供直观可信的地铁实时信息便于其调整出行路线,而且还能为运营管理部门调整运维方案、部署清客和救援工作提供基础数据支撑。因此,突发事故下地铁列车延误时间的预估研究对于提升地铁信息化服务水平具有重要意义。
一方面,学者们正研究运用数据驱动的人工智能方式进行故障诊断,实现智能运维和状态维修,从而降低故障发生率[2];另一方面,学者们也在积极探索故障发生后降低列车延误影响的方法和技术。列车延误与设备维护、人员操作、外部环境、发生时段、客观综合等因素有关[3]。文献[4]从单因素、时空维度等方面研究了事故类型、运营时间、区段等事件特征之间的关联性,但未对事件特征与延误时间的关联性做深入分析。文献[5]结合灰色模型和马尔科夫模型预测了列车晚点时间。文献[6-8]基于晚点列车运行数据进行了聚类分析,运用随机森林模型、支持向量机预测各类晚点列车的晚点时间。文献[9]构建了航班延误特征,基于GBDT(梯度提升决策树)对航班延误进行分类预测。大量研究表明,分类预测方法能够对列车晚点时间进行可靠预测。
地铁事故数据具有低延误数量多、高延误数量少的特点,这种类别不平衡特性会影响机器学习算法的性能。对于类别不平衡数据集,文献[10]基于欠采样法提出基于自适应加权Bagging-GBDT分类算法,解决了数据集正负样本数目不均衡导致的分类算法预测准确率低的问题。目前,对地铁列车延误的预测方法较少地考虑了事故数据集的类别不平衡性,因此,基于不平衡事故数据对列车延误时间进行精细化预测的研究仍有待开展。
本文对地铁事故互联网发布数据和现场故障记录数据进行融合,并挖掘日期、时段、线路类别、致因等事故特征,及其对列车延误影响的关联关系。基于事故数据的不均衡特征,采用随机欠采样方法建立了基于GBDT的级联分类模型,并对突发事件引起的列车延误时间进行分级预测。
1 城市轨道交通列车运营延误影响及事故特征分析
为缓解突发事件影响,地铁运营管理部门在站内、互联网等多个平台发布事故信息,内容大致如下:“上海轨道交通2号线因信号设备故障,世纪大道站至南京东路站区间列车限速运行,预计晚点10 min以上,请乘客们及时调整出行……”实际运营中,地铁突发事件的播报延误时间远长于10 min,且通常无法准时恢复运营。据上海轨道交通2号线2017—2019年的统计数据,地铁预报延误时间均为20 min以上;平均实际延误时间为29 min,最大实际延误时间高达275 min。由此可见,突发事件的预报延误时间和实际延误时间存在较大偏差,且两者偏差越大,对应急处置方案的制定和乘客引导的影响也越大。
如表1可见,轨道交通突发事件数据包含互联网发布数据和现场故障记录数据。互联网发布的非结构化文本信息含有丰富的信息:“2018-01-15T 16:29:00,上海轨道交通1号线因信号设备故障,×站—×站区间列车限速运行,发车班次间隔延长,预计晚点15 min以上,请乘客们及时调整出行路径,以免耽误行程”“2018-01-15T16:49:00,1号线信号设备故障已排除,全线运营正在逐步恢复中,给您出行带来不便,敬请谅解!”经文本抽取、挖掘等方法处理后获取如下特征元素:日期d、时间h、线路编号l、预报延误时间Dp、实际延误时间Dr等。现场故障记录数据包含如下特征元素:d、h、l、致因c、延误时间D1、影响列车数q等。融合互联网数据与现场数据两个数据集,得到事故特征数据集:{d,h,l,c,Dp,Dr}。
表1 上海轨道交通1号线事故特征元素取值示例
2 GBDT级联分类预测模型的建立
2.1 GBDT级联分类预测模型
本文设计了一个面向不平衡数据的GBDT级联分类预测模型。模型构建过程中,组合多个学习器f(x)构成层级分类器g(x),串联多个g(x)的正例输出结果构成级联分类器G(x)。
级联分类器是在每层分类器设置不同阈值划分样本并进行分类训练。若通过前一层分类器的测试样本满足下一层级阈值标准,则可进入下一层分类器测试,依次类推。
2.1.1 梯度划分
按照事件Dr划分“阶梯”级别,设置层级时间标准ti,i∈[1,m],m为层级数。判断输入的Dr与ti的关系,将事故数据按层级时间标准进行划分。
2.1.2 层级分类器g(x)
2.1.2.1 面向不平衡数据的随机欠采样
将事故数据按层级时间标准划分为负样本和正样本。事故数据表现出标签不平衡的问题。采用随机欠采样方法实现正、负样本平衡,具体方法为:对于每一层级i(i∈[1,m]),对数据进行随机欠采样,进而得到k个相互独立的正负样本平衡的数据集,每个数据集记为si,j(j为数据集编号),训练得到k个GBDT学习器fi,j(x)(i∈[1,m],j∈[1,k]),组合k个GBDT学习器的结果得到最终分类结果。
2.1.2.2 学习器f(x)
采用GBDT作为学习器f(x),GBDT是一种基于CART(分类与回归决策树)的集成学习模型。该模型串行训练1组弱学习器(CART决策树),将预测延误时间逐步拟合逼近真实值。对于二分类模型,对样本进行正、负分类,采用sigmoid函数计算得到类别[11]。
输入样本集为si,j=(x,yi),i∈[1,m],j∈[1,k]。 其中,x为输入特征,x={d,h,l,c};yi为对应样本x的实际延误标签。对第i层级含有n个样本的数据集训练学习器。GBDT模型f(x)的构建步骤如下:
步骤1 初始化学习器f(x),并采用对数损失函数,调整决策树参数使得损失函数L(yi,f(x))达到最小。
(1)
式中:
θ1——决策树参数。
步骤2 利用损失函数的负梯度ri拟合残差,调整决策树的参数目标使损失函数达到最小,并更新模型f(x)。
(2)
式中:
θ2——决策树参数。
步骤3 重复步骤2完成L-1次迭代,并通过sigmoid函数完成概率计算,实现类别判别。
(3)
式中:
θi——决策树参数。
2.1.2.3 集成学习分类模型
以均等投票机制组合同类别且彼此之间无强关联的学习器,如图1所示。采用学习器进行二分类预测,则投票机制定义为:超过半数学习器及层级分类器输出正例,即判定延误时间大于该层级时间标准ti。则层级分类器gi(x)可表示为:
(4)
2.1.3 级联分类器G(x)
级联通过正例输出串联所有层级分类器,以实现多分类的效果。GBDT多分类即对含有多个分类标签的样本进行分类。相较于GBDT多分类,GBDT级联分类预测模型在各层级分别进行类别数据的平衡处理,各层级之间彼此独立,可以同时训练。如图2所示,当预测延误时间大于该层级时间标准时,层级分类器预测输出正例,进入下一层级分类器进行预测;若层级分类器预测输出负例,则终止计算。通过正例串联各层级分类器预测结果,得到预测延误时间区间。
2.2 模型训练与评测
2.2.1 模型训练
确定合理的训练集和测试集样本量,在训练集中通过有标签的样本来寻找1组使得损失函数取值最小的模型参数。模型参数主要包括GBDT框架参数φ(宏观参数,包括基学习器的个数和权重缩减系数等)和CART决策树参数θ(微观参数,包括决策树的深度、节点数及使用特征数量等参数)。采用网格搜索寻优方法对参数空间进行求解,并以对数似然损失函数作为评判标准,求得最佳模型参数。
2.2.2 预测结果评测
乘客对延误时间具有一定容许度。定义nt为预测延误时间zt与Dr之差同容许偏差ξ的大小关系。zt与Dr之差在ξ内为预测准确。则准确率Racc的计算公式为:
(5)
式中:
t——样本编号,t∈[1,N],N为样本总数;
Dr,t——第t个样本的实际延误时间。
3 实例验证
3.1 数据分析与处理
经数据清洗与融合,获得某城市2017年1月1日至2019年12月31日地铁事故互联网数据与现场数据265条。为有效利用事故特征,本文将事故特征(事故日期、事故时段、事故线路、事故致因)进行细致划分:事故日期划分为工作日故障和非工作日故障;事故时间划分为高峰期故障和非高峰期故障;事故致因主要划分为车辆故障、通号故障、供电故障和客观故障(包含运营组织、安全管理)。
事故线路采用K-means算法进行聚类。将事故线路分为事故高发线路、事故中发线路、事故低发线路等3类,见图3。
如图4所示,通过分析各事故特征下不同延误时间的事故频数,得到延误时间与事故特征之间的相关性:取5 min作为延误时间粒度,工作日事故延误时间多为>5~20 min,非工作日事故延误时间多为>5~15 min;高峰期事故延误时间多为>5~20 min,非高峰期事故延误时间多为>5~15 min;故障高发线路事故延误时间多为>5~15 min,故障中发线路事故延误时间多为>5~20 min,故障低发线路事故延误时间多为>5~10 min;车辆故障延误时间多为>5~20 min,通号故障延误时间多为>5~15 min,供电故障和客观故障延误时间多为>5~20 min。
3.2 结果分析与模型评价
为平衡模型的复杂程度和有效性,本文选取层级数量m为3,层级基分类器个数k为3,地铁运营部门播报延误时间分别为10 min、15 min、20 min及以上(延误时间为5 min以内未公示),故设置每个层级时间标准分别为t1=10 min、t2=15 min、ta=20 min。将事故日期、事故时段、事故线路和事故致因等作为自变量,将实际延误时间作为模型的因变量,即根据实际延误时间是否大于t1、t2、t3,对其进行二分类转换为y1、y2、y3。将数据集按8∶2划分为训练集和测试集,对模型进行训练和测试。
模型训练完成后,得到层级分类器的特征重要度,如图5所示。由图5可见 ,对事故延误是否大于10 min的预测与事故日期和事故时段有较大关联,对事故延误是否大于15 min的预测与事故致因和事故时段的关联程度较高。
为确定模型性能,将本文提出的GBDT级联分类方法预测延误时间与互联网预报延误时间、GBDT多分类方法预测延误时间的准确率进行对比。GBDT多分类预测方法是将CART决策树作为弱分类器,采取一对多策略,对每个类别训练一定数量分类器,从而进行多分类预测。
乘客对延误时间预测的容许偏差ξ={0,5,10,15}。对比不同ξ时互联网预报、GBDT多分类方法、GBDT级联分类方法下延误时间的准确率,如图6所示。由图6可见,延误时间在0~5 min容许偏差范围内,GBDT级联分类方法预测延误时间的准确度较互联网预报高20%~25%,较GBDT多分类方法的准确度高5%。延误时间在10 min和15 min等较大容许偏差范围内,GBDT级联分类方法预测延误时间的准确率达95%,且较互联网预报准确率高5%~20%,较GBDT多分类方法准确度高5%~10%。但对于乘客在城市轨道交通实际运营中较高的服务品质需求,若延误时间存在较大偏差,则很难被乘客接受。GBDT级联分类模型进行了梯度划分,并分层级对不平衡数据进行了随机欠采样,保证了数据类别的平衡性,有效改善了不平衡数据在分类预测问题中准确率低的问题。因此,相比GBDT多分类方法,GBDT级联分类方法预测延误时间的准确率得以提升。
4 结语
本文关联融合了地铁事故的互联网数据和现场数据,并对数据特征进行了分析。基于事故数据聚类得出高发、中发、低发事故线路类型,以及事故延误时间与事故日期、事故致因和事故时段的关联程度较高。
本文所提出的GBDT级联分类模型通过梯度划分层级结合分层随机欠采样保证了事故数据类别的平衡性,改善了数据不平衡造成的分类预测不准确问题,并通过梯度级联层级分类器精细化地预测了突发事件下的轨道交通延误时间。该方法所预测的延误时间在0~5 min容许偏差范围内比互联网预报的准确率提升了20%~25%,比GBDT多分类预测方法的准确率提升了5%,由此可见延误时间预测准确率得到了显著提升。
采用GBDT级联分类方法预测延误时间不仅能为乘客提供更为可信的地铁实时信息,还能为地铁运营管理部门调整运维方案、部署清客和救援等工作提供基础数据支撑。后续可进一步引入成熟的实时数据处理软件,实现地铁线路延误时间的在线预测。