基于大数据与机车画像的货运铁路调度运行风险预警方法研究
2024-01-03常建和姚志远付上源
常建和,姚志远,付上源
(1.包神铁路集团机务分公司,陕西 神木 719300;2.安徽安为科技有限公司,安徽 合肥 230000)
铁路调度指挥系统是一个由多个部门和学科组成的综合管理体系,不仅包括安全监控、综合维修、旅客服务,还包括移动设备、运输组织等[1]。构成调度指挥系统的各因素间存在着强烈的耦合关系,各因素间的细微差异都会影响系统的可靠性,轻则造成运行不稳定,运输组织秩序混乱,严重时会引发严重的交通事故[2]。在高速铁路发展迅猛的今天,如果出现重大运行事故,不但会对设备造成损害,旅客和工作人员的人身安全、财产安全也会受到威胁,还会对社会的稳定和国家形象产生不利的影响[3]。因此,提高行车调度指挥系统的可靠性是非常必要的,必须结合调度指挥系统的可靠性理论,对货运铁路调度运行风险进行预警,达到及时控制货运铁路调度运行风险的目的。
张锦等[4]从人-机-管-环的视角出发,构建了铁路施工过程中的风险预警体系,根据风险预警的等级划分原则,以可拓理论为基础,构建了风险预警模型,采用层次分析和熵值法相结合的方法,确定了预警目标与预警级别之间的相关性。以川藏铁路工程为实例,对该模型进行了应用,结果显示,该模型能够对川藏铁路的风险进行预警,但该方法的虚报率较高。韩忻辰等[5]考虑到传统方法无法预测突发事件的发生时间,根据列车进站和出站的时间,计算列车的延误时间总和,以最小延误时间为目标函数,构建了列车调度模型,在交互环境下,利用Q-learning算法求解了调度模型,最后通过仿真试验,验证了该模型在铁路动态调度中的实用性。但该方法考虑的风险模式较单一,导致虚报率及误报率均较高。
基于以上研究背景,本文将大数据与机车画像相结合,设计一种货运铁路调度运行风险预警方法,从而有效控制货运铁路调度系统在运行过程中的风险。
1 预警方法设计
1.1 铁路调度运行风险数据聚类
考虑到货运铁路调度运行风险缺乏一定的规律性,需要对风险数据进行聚类处理,及时控制铁路调度的运行风险。机车画像是在大数据背景下产生的[6],利用货运机车的行为特征和属性,将其抽象为一个标签化的模型,通过建立标签体系为货运机车赋予标签,以标签的形式描述货运铁路调度运行的真实状态。
机车画像利用货运机车使用、检修、整备等各个方面的资料,根据其对应的构造,制成货运机车的画像标签,标准化地表示货运机车的调度和运行。
在铁路调度运行风险聚类处理之前,先建立货运机车标签与机车画像的关系,见图1。
图1 货运机车标签与机车画像的关系
根据建立货运机车标签与机车画像的关系,利用大数据技术采集铁路调度过程中产生、消除和替代的运行数据[7],获取调度运行风险数据标签,可表示为:
(1)
式中:Ri为第i个货运铁路调度系统的风险指标;N为调度运行风险的数量;Rop为风险数据标签,下标o表示自定义属性,p表示功能属性。
数据聚类的方法有很多,当无法获取货运机车标签的类别划分时,利用机车画像与机车标签的关系,可以得到货运机车调度运行风险的标签。利用大数据技术挖掘货运铁路调度运行风险数据[8],并对其进行聚类处理,步骤如下:
Step1:对于包含m个货运铁路调度运行风险样本的数据集Ω={u1,u2,…,um},在数据集中选取H个风险样本作为聚类处理的中心ei,那么货运铁路调度运行风险的聚类类别为:
Q={q1,q2,…,qh}
(2)
Step2:在数据集Ω中,计算风险样本数据ui与H个聚类处理中心ei之间的距离,并根据机车画像对应的标签类别,将该风险样本划分到最小距离的聚类中心所对应的类别中。
Step3:当所有风险样本都完成遍历之后,再一次计算每类风险样本的聚类中心ei,表示为:
(3)
将式(3)计算的聚类中心作为货运铁路调度运行风险在下一次聚类中的类别中心点。
Step4:返回Step2,重新执行Step2和Step3的操作,直到各个类别风险数据的聚类中心不再变化。
当风险数据处于欧式空间时,采用χ*作为风险数据聚类处理的目标函数,χ*的值越小,说明聚类类别Qi中风险数据的一致性越高。要想使风险数据的聚类效果达到最优[9],需要保证χ*的值足够小,χ*值可以通过式(4)计算得到:
(4)
利用货运机车标签与机车画像的关系,获取货运铁路调度运行的风险数据标签,结合大数据技术挖掘货运铁路调度运行风险数据,通过计算每类风险数据的聚类中心,完成铁路调度运行风险的聚类处理。
1.2 检测货运铁路调度运行风险
货运铁路调度运行风险经过聚类处理之后,先提取货运铁路调度运行风险的特征,提高货运铁路调度运行风险检测的效率。货运铁路调度系统在运行过程中,受到多种因素的影响[10],会出现调度运行风险,对于风险程度较低、信噪比较高的调度运行风险数据,通过量化处理,可以得到风险数据的量化形式:
La=φmin·σmax
(5)
式中:φmin为调度运行风险的最小特征;σmax为风险数据的最大信噪比。
要想提取出风险数据的有效特征,需要利用大数据技术去除风险数据的冗余特征[11],根据风险发生的概率,预测货运铁路调度运行风险的分布特征,即:
(6)
式中:ψ为风险分布的加权值;ζi为风险发生的概率。
根据货运铁路调度运行风险的分布特征,对风险特征进行挖掘,并分析风险数据的函数特征,表示为:
(7)
式中:U为风险数据的特征集合;Ki为支持度计算系数。
通过以上计算,挖掘货运铁路调度运行风险的特征,根据风险数据的特征,对货运铁路调度运行风险进行检测,步骤如下:
Step1:对货运铁路调度运行风险的特征进行归一化处理[12]:
(8)
式中:yi为风险特征;ymin为最小特征值;ymax为最大特征值。
Step2:确定货运铁路调度运行风险等级。
Step3:引入激活函数,计算风险数据在大数据分析中的输出矩阵。
Step4:利用输出矩阵,建立货运铁路调度运行风险检测模型。
Step5:利用Step4的货运铁路调度运行风险检测模型,检测货运铁路调度运行风险。
利用大数据技术去除风险数据的冗余特征,根据货运铁路调度运行风险的分布特征,挖掘货运铁路调度运行风险的特征,并结合归一化处理,检测货运铁路调度运行风险。
1.3 构建货运铁路调度运行风险预警模型
根据铁路调度运行风险的检测结果,对风险数据进行筛查和采集,结合标准化处理[13],构建风险预警模型,在货运铁路调度系统I上,发生Ni次运行风险的概率函数可以用泊松分布表示:
(9)
式中:χi为调度系统中设定运行风险发生的估计值,该值可以描述成规定调度时间内运行风险发生概率的函数值,可利用式(10)表示:
χi=exp(ε0+ε1xi1+…+εkxik)
(10)
式中:ε0,ε1,…,εk为铁路调度系统运行的常数项;xi1,…,xik为运行风险的变化参数。
在货运铁路调度系统I中,ξ为运行风险变量,那么运行风险频率的伸缩系数可以通过式(11)计算:
(11)
式中:ϑij为货运铁路调度系统I中运行风险变量ξ的取值。
根据运行风险频率的伸缩系数[14],在不同风险等级下,计算货运铁路调度运行的风险因子,表示为:
(12)
式中:J为风险等级;λ*为运行风险的高危系数;tc为货运铁路的调度时间。
利用货运铁路调度运行风险因子,给出风险的统计函数:
(13)
式中:φ和β分别为风险预警的形态参数和标准参数。
根据货运铁路调度运行风险的统计情况[15],构建货运铁路调度运行风险预警模型,表示为:
(14)
式中:Pa,b为货运铁路调度运行风险的波动情况;S*为风险等级。
货运铁路调度运行风险预警模型构建完成之后,利用大数据技术检验货运铁路调度运行风险预警模型的拟合优度,检验结果与风险检测结果的熵值越接近1,说明模型的拟合优度越高,即:
Q=-2[-log(Gh)]-log(Gs)
(15)
式中:log(Gh)为风险预警模型的对数似然函数值;log(Gs)为无效预警模型的对数似然函数值。
综上所述,本文利用泊松分布定义了铁路调度运行风险的概率函数,根据运行风险频率的伸缩系数,计算货运铁路调度运行的风险因子,基于运行风险的统计情况,构建货运铁路调度运行风险预警模型。
2 试验分析
2.1 试验数据来源
为了验证本文方法在货运铁路调度运行风险预警中的性能,以某货运铁路调度系统为研究对象,进行以下试验过程:
(1)数据收集
利用各种传感器和监测设备,对铁路运输过程中的车辆、铁路设施、天气等相关数据进行收集,生成运行风险数据库,作为试验样本。在数据库中,随机抽取3 586份运行风险数据,选择其中的1 000份作为测试样本,2 586份为训练样本。将1 000份测试样本划分为10组,原始试验数据见表1。
表1 原始试验数据
(2)数据清洗
对收集到的数据进行筛选、去重、异常值处理、缺失值填充等清洗工作[16],确保数据的准确性和完整性。
(3)特征提取
分析和处理清洗后的数据,提取其中的特征信息,如列车时刻表、运行速度、载重情况等。
(4)数据更新
不同方法根据历史数据和实时数据,各自更新参数。
(5)风险评估
对当前运输情况进行评估,如风险避免、转移、减轻、承担等方案,得出风险等级。
(6)风险预警
根据风险等级和对应的预警方案,对潜在风险进行预警,如风险根本原因、风险因素、风险控制策略等,确定优先解决的重点风险,提示相关人员及时采取措施避免或减轻风险。
2.2 试验平台
为了准确对货运铁路调度运行风险进行预警,及时控制风险的发生,借助www.onlinedown.net测试平台,搭建的试验平台见图2。
将表1的试验数据导入上述试验平台,利用本文方法对不同风险模式下的货运铁路调度运行风险进行预警。
2.3 风险预警
在对货运铁路调度运行风险预警之前,当风险值超过0.5时,风险数据的聚类效果达到最优,文中方法才能检测到风险数据。由此,基于表1的10组样本,利用本文方法检测不同风险模式下的货运铁路调度运行风险数据,风险预警结果见图3。
图2 试验平台
图3 风险预警结果
根据图3的结果可知,采用本文方法能够检测不同风险模式下的风险数据,与实际值相比,差距较小即二者拟合度较高,表明对风险数据预警的准确率更高。
2.4 性能对比
为了对几种方法的性能进行对比,引入文献[4]中基于可拓理论的预警方法和文献[5]中基于Q-learning的预警方法,测试货运铁路调度运行风险预警的虚报率,结果见图4。
图4 货运铁路调度运行风险预警的虚报率
从图4的结果可以看出,采用基于可拓理论的预警方法和基于Q-learning的预警方法,货运铁路调度运行风险预警的虚报率均在20%以上。采用本文方法时,可以将风险预警的虚报率控制在5%以内,在3种方法中最低,说明本文方法能够降低货运铁路调度运行风险的虚报率。
图5为货运铁路调度运行风险预警的误报率。从图5可知,在货运铁路调度运行风险预警的误报率方面,本文方法可以控制在8%以内,基于Q-learning的预警方法误报率为14%~20%,而基于可拓理论的预警方法,其误报率超过了20%,由此说明本文方法在货运铁路调度运行风险预警的误报率较低,在误报率方面具有更好的性能。
图5 货运铁路调度运行风险预警的误报率
3 结论
本文将大数据与机车画像应用到货运铁路调度运行风险预警方法设计中,经过试验测试发现,该方法在货运铁路调度运行风险预警中,可以降低风险预警的虚报率和误报率。但是本文的研究还存在很多不足,在今后的研究中,希望可以考虑到客运铁路调度运行存在的风险,从而保证客运铁路调度运行的安全与稳定。