基于CACC-RF的转辙机表示缺口卡阻故障风险预测
2022-07-12赵林海
李 超,赵林海
(北京交通大学 电子信息工程学院, 北京 100044)
道岔作为铁路线路的重要组成部分,通过转辙机对道岔尖轨的推拉,实现道岔定位和反位的转换、锁闭与表示,以达到对列车运行进路的控制[1-2]。因此,道岔的工作状态直接关系通过列车的运行安全。目前,转辙机表示缺口卡阻是道岔常见的故障模式之一,其会导致道岔失去位置表示,并使道岔转辙机电机发生空转,从而危及行车安全[3-4]。
根据现场调研,见图1,不同月份发生转辙机表示缺口卡阻故障的数量并不相同,存在较大波动。这说明,不同月份发生转辙机表示缺口卡阻故障的风险并不一致。然而,现场目前“计划修”模式下,各电务段实际分配到的维护资源,如维护人员、设备和维护天窗等却是有限的[5-7]。如果不能合理分配这些维护资源,很容易导致两种结果,即维护资源无法满足当月的维护需求,造成转辙机表示缺口的“维护不足”和“维护滞后”;或维护资源冗余,造成人员、设备和维护天窗等维护资源的浪费,甚至引发设备的“过度维护”。
图1 某电务段2016年各月发生转辙机表示缺口卡阻故障数
对此,若能预测未来各月转辙机表示缺口卡阻故障发生风险的高低,铁路现场就可根据各月故障风险的高低提前协调设备、人员、维护天窗等资源,并调整转辙机表示缺口相关维护活动的月度维护计划,从而避免转辙机表示缺口的“过度维护”和“维护不足”问题。因此,研究转辙机表示缺口卡阻故障风险的预测方法具有十分重要的意义。
目前,对于转辙机表示缺口卡阻故障风险的预测,国内外还没有相关的研究报导。对于道岔事故风险以及其他部件故障概率和风险的相关预测研究也尚处于起步阶段。其中,Wang等[8]针对由极端天气,如雷暴、冰雹等造成的道岔外部部件故障,提出一种基于贝叶斯网络的道岔设备故障频次预测方法。Dindar等[9]针对由人为因素引发的道岔脱轨事故,提出一种基于贝叶斯网络的道岔脱轨事故概率评估方法。Zhao等[10]则针对由钢轨断轨引发的脱轨事故,提出了一种基于LS故障风险评价法[11]和故障分布建模的道岔脱轨事故风险预测方法。
为此,本文首先基于铁路现场的道岔维护记录,对每月发生转辙机表示缺口卡阻故障的风险进行量化和分级。而后,分析了影响每月转辙机表示缺口卡阻故障风险等级的外部因素,构建每月故障风险预测特征向量。最后,基于CACC离散化方法[12]和随机森林(Random Forest,RF)[13]构建转辙机表示缺口卡阻的故障风险预测模型,实现对未来各月转辙机表示缺口卡阻故障风险等级的预测。实验表明,本文方法可较为准确地预测转辙机表示缺口卡阻的故障风险等级,可为现场维护人员提前协调设备、人员、维护天窗等维护资源,调整相关维护活动的强度提供可靠参考。
1 转辙机表示缺口卡阻故障及其风险分级
1.1 转辙机表示缺口卡阻故障
当道岔转辙机一侧尖轨与对应基本轨密贴并完成锁闭后,与该密贴尖轨对应表示机构中的表示块将落入表示杆上的表示槽中,而落下的表示块和表示槽间的空隙即为转辙机表示缺口,见图2。
图2 转辙机表示缺口的位置与转辙机结构
通常,转辙机表示缺口的尺寸应处于一个正常范围内[14],如(2±0.5) mm[3],以保证每次道岔动作结束后,相应转辙机表示机构中的表示块均能正常落入表示槽中,从而使相应的表示接点组接通,给出道岔的位置表示。但是,若转辙机表示缺口尺寸的变化超过上述正常范围,或相关部件缺少润滑发生卡阻,则道岔动作结束后,表示块将无法正常落入表示槽中,导致表示电路无法正常接通,从而无法给出道岔位置表示,并引发转辙机电机的空转,造成转辙机表示缺口卡阻故障。
1.2 月转辙机表示缺口卡阻故障的风险分级
要实现转辙机表示缺口卡阻故障的风险等级预测,就必需首先量化不同月份转辙机表示缺口发生卡阻故障的风险高低,并对各月的故障风险等级进行划分。为此,本文引入LS风险评价法和k均值聚类方法[15]。
其中,LS风险评价法是工业生产领域最常用的故障风险评价方法之一[10],其核心思想是将故障风险量化为故障情形出现的频率与故障情形造成后果的乘积。故障情形出现的频率越高且造成的后果越严重,故障情形对应的风险量化指标便越高。k均值聚类则是一种无监督的数据自动划分方法,其具有实现简单、速度快、解释性强的特点,是当前最流行、应用最广泛的聚类方法[16]。
因此,利用LS风险评价法提供的风险量化思路和k均值聚类可以简单明了地量化各月发生转辙机表示缺口卡阻故障的风险,并在风险量化结束后实现对各月转辙机表示缺口卡阻故障风险等级的自动无监督划分。具体的流程如下:
首先,基于选定目标电务段前4年的逐月道岔故障维护记录,统计该段各月发生转辙机表示缺口卡阻故障的数量,结果显示该段共存在如表1所示的5种月故障情形。
表1 转辙机表示缺口卡阻的月故障情形
而后,根据式(1)计算上述5种月故障情形在该段出现的频率,并根据式(2)计算上述5种月故障情形造成的平均月线路延误时长,结果见图3。
图3 目标电务段4年内月故障情形i的出现频率及其造成的平均月线路延误时长
Li=ni/48i∈[1,5]
( 1 )
Si=hi/nii∈[1,5]
( 2 )
式中:Li为4年内发生月故障情形i的频率;Si为月故障情形i导致的后果,也即月故障情形i造成的平均月线路延误时长;ni为该段4年内月故障情形i出现的次数;hi为该段4年内月故障情形为情形i的月份内,由转辙机表示缺口卡阻故障引发线路延误时长的总和。
其次,基于LS风险评价法提供的风险量化思路,将以上5种月故障情形的风险量化为其出现频率和其造成的平均月线路延误时长的乘积,即有
Ii=Li×Sii∈[1,5]
( 3 )
式中:Ii为故障情形i的风险量化指标。
最后,基于式(3)计算的风险量化指标Ii,采用k均值聚类算法,将表1所列的5种月故障情形,按工业领域相关标准[17-18]划分为4个风险等级:
( 4 )
式中:|·|为求欧式距离。
( 5 )
Step4重复Step2、Step3,直到各类的聚类中心不再发生变化。
最终,基于以上4步聚类过程,对于选定的目标电务段,本文将每月发生1到2起转辙机表示缺口卡阻故障的情形合并为1类,制定出如表2所示的月转辙机表示缺口卡阻故障风险等级划分规则。
表2 月转辙机表示缺口卡阻故障风险等级的划分规则
2 转辙机表示缺口卡阻故障风险预测特征向量的构建
2.1 故障风险影响因素分析
根据现场调研和以往的研究报告[6,14,19],影响每月转辙机表示缺口卡阻故障风险等级高低的外部因素可被总结为3类,即温度、湿度和前期维护力度。
其中,温度的影响主要体现在道岔金属部件的热胀冷缩上。月内白天温度越高,日间温差越大,转辙机表示缺口的相关部件,如表示杆,发生热胀冷缩的概率就越大,从而转辙机表示缺口尺寸就越容易超过标准导致转辙机表示缺口卡阻故障。
湿度的影响则体现在转辙机表示缺口相关部件的润滑上。空气湿度的高低会影响转辙机表示缺口相关部件上润滑剂的浓稠程度。过高或过低的湿度都会降低转辙机内润滑剂的润滑性能,从而使得转辙机表示缺口更容易发生卡阻。
前期维护力度是指上月现场维护人员维护转辙机表示缺口的次数。若维护人员在上月进行了充分且系统的维护,则本月发生转辙机表示缺口卡阻故障的风险会相对降低。
2.2 故障风险预测特征向量的构建
根据2.1节分析,构建第k月的故障风险预测特征向量Fk,即
( 6 )
( 7 )
将目标电务段前4年各月的转辙机表示缺口卡阻故障风险等级与当月的风险预测特征向量Fk串联即可构成本文的训练集DT,即
DT={[Fkgk]|k∈[1,nT]}
( 8 )
式中:nT为训练样本数;T为train的缩写;gk为第k月转辙机表示缺口卡阻故障的实际风险等级,同时也是训练和验证模型的类别标签;Fk为标签gk对应的用于输入模型的特征向量;向量[Fkgk]为一条完整的训练数据。
3 基于CACC-RF的转辙机表示缺口卡阻故障风险等级预测方法
3.1 算法流程
基于2.2节构建的故障风险预测特征向量,为实现对转辙机表示缺口卡阻故障风险等级的预测,本文进一步引入了RF模型和CACC离散化方法。
其中,RF模型是一种由多个CART决策树模型共同构成的集成机器学习模型[13]。RF不但继承了经典的样本自助采样法[20],还引入随机特征采样。这使其在计算开销小的同时,还拥有良好的泛化性能,可为如不平衡样本的分类、超大维度样本的分类和小样本分类问题构建较为准确的分类器[21]。然而,已有的研究证明,当样本中同时混合有连续特征和离散特征时,RF模型通常倾向于挖掘连续特征包含的信息而无法良好地学习离散特征的内在规律[22]。CACC离散化方法则是一种自适应的数据离散化方法,主要用于在分类问题中实现对连续数据的分箱操作[23],以实现对数据离散化信息的浓缩,从而增强分类器的分类精度和分类速度,提高分类器对异常值的鲁棒性。
因此,本文通过将CACC离散化方法引入RF模型来弥补RF模型在处理同时混合有连续特征和离散特征数据集时的不足,提高RF模型的鲁棒性和分类精度,并最终构建一套基于CACC-RF预测模型的转辙机表示缺口卡阻故障风险等级预测算法,其总体流程见图4。
图4 算法总体流程
由图4可知,算法可被分为算法训练和算法预测2个部分。在算法训练部分,首先基于训练集生成CACC离散化断点集,而后离散化训练集中的特征向量,最后基于离散化后的训练集,循环训练CART决策树以构建RF模型。在算法预测部分,首先基于算法训练部分生成的CACC离散化断点集离散化预测数据,而后利用训练好的RF模型,预测各月的转辙机表示缺口卡阻故障风险等级。
3.2 算法训练3.2.1 CACC离散化
( 9 )
Step2生成离散化断点候选集β,即
(10)
Step3设初始断点数ql=1,全局CACC统计量Cg=0。构建初始CACC离散化断点集γ0
(11)
Step4对集合β中的每个βp,如果βp∉γ0,则构建集合γp
γp=γ0∪βp
(12)
Step5计算各集合γp的CACC统计量取值Cp,即
(13)
(14)
(15)
(16)
式中:max(·)表示求括号内的最大取值;argmax(·)表示求使括号内值取最大值的条件。
(17)
3.2.2 RF模型的生成
训练RF模型的过程包括以下8步:
Step1初始化决策树数量r=0。初始化一个空集合T=Ø用于存储RF模型。设置随机森林要求的规模为R,随机特征采样数为W,叶结点最小样本数为E。
(18)
(19)
(20)
(21)
(22)
(23)
式中:argmin(·)表示求使括号内值取最小值的条件。
Step8令T=T∪Tr。判断当前决策树数量r是否小于R。若r 基于算法训练完成的随机森林模型T和CACC离散化断点集γl,即可实现对训练集外任意第t个月份转辙机表示缺口卡阻故障风险的预测。 (24) (25) 进一步,对T中每棵决策树的推断结果取平均作为随机森林T的推断结果,即有 (26) (27) 为验证本文算法训练部分功能的有效性,首先基于目标电务段2016年至2019年的道岔维护记录和历史气象数据,根据公式(6)~式(8)构建训练集DT。 而后,根据3.2.1小节中的步骤,基于训练集DT为各月风险特征向量Fk中的连续特征生成CACC离散化断点集,结果如表3所示。 表3 Fk中各连续特征的CACC离散化断点集 最后,随机森林模型3个初始化参数的取值由基于10折交叉验证的贝叶斯超参数搜索算法[24]确定。最终选定随机森林规模R=91,随机特征采样数W=3,叶结点最小样本数E=4。图5显示了训练完成的随机森林模型T对训练集内各月转辙机表示缺口卡阻故障风险等级的预测结果。 图5 训练集预测结果 由图5可知,训练完成的随机森林模型T仅错误预测了训练集中一个月的转辙机表示缺口卡阻故障风险等级。这说明随机森林模型T从训练集中较好地学习了转辙机表示缺口卡阻故障风险等级与各影响因素间的内在规律。 4.1.2 算法预测部分功能验证 为进一步验证本文算法预测功能的有效性,本部分利用训练完成的随机森林模型T,对2020年1月的转辙机表示缺口卡阻故障风险等级进行了预测。 (28) 表4 目标电务段2020年1月的风险预测特征向量及其离散化结果 表5 目标电务段2020年1月转辙机表示缺口卡阻故障风险等级为u的概率 最后,根据式(27),输出2020年1月转辙机表示缺口卡阻故障风险等级预测值。通过参考表5可知,本文算法预测2020年1月发生转辙机表示缺口卡阻故障的风险等级为2(如表5阴影标注),与真实情况一致。这说明当气象台提供的气象预报结果准确时,本文方法能够良好地实现转辙机表示缺口卡阻故障风险等级预测的功能。 图6 目标电务段2020年1月至12月转辙机表示缺口卡阻故障风险等级的预测结果 由图6可知,本文算法仅错误预测了目标电务段2020年11月发生转辙机表示缺口卡阻故障的风险等级。通过对比目标电务段所在地区2020年10月和11月的月度气象数据发现,这两个月的月度气象特征表现十分接近,因此RF模型认为目标电务段11月的故障风险等级与10月相同,高估了该月的故障风险等级。 为量化本文方法的预测效果,计算随机森林模型T的预测准确率Acc,最大预测误差EM和总预测误差ET,即 (29) (30) (31) 经计算,本文模型的预测准确率Acc为91.7%,最大预测误差EM为1,总预测误差ET等于1。这说明当气象台提供的气象预报结果准确时,本文提出的转辙机表示缺口卡阻故障风险等级预测算法具有良好的预测性能。 (32) (33) 图7 2020年和前8维气象特征取值 图8 目标电务段2020年1月至12月转辙机表示缺口卡阻故障风险等级的预测结果 最后,引入纠错输出码(Error Correcting Output Codes, ECOC)模型[25]和朴素贝叶斯(Naive Bayesian,NB)模型[26],并将本文算法的性能与这2种模型进行了对比。其中,ECOC模型是一种基于纠错输出编码的多分类模型,该模型通常会将一个多分类问题通过编码方式分解为多个二分类问题,从而利用多个基二分类模型共同解决多分类问题。已有的研究已经证明,相较于其他多分类模型,ECOC模型在多数问题中有更优的表现[27]。NB模型则是一种基于贝叶斯决策论的多分类器。该模型在各种类型的样本集上均能够获得十分稳定的分类效率和性能表现[28],且对缺失数据和异常数据不敏感,被广泛应用于文本分类、网络信息安全等领域。此处,本小节以在小样本上表现良好且泛化性能优秀的支持向量机模型[29]作为基学习器并使用3元码[30]编码方式构建ECOC模型。表6显示了原始的RF模型、ECOC模型和NB模型增加CACC离散化步骤前后,在本文数据集上的表现。 表6 不同模型的性能比较结果 针对铁路现场当前“计划修”模式下转辙机表示缺口存在的“维护不足”和“过度维护”问题,本文提出了一种基于CACC-RF模型的转辙机表示缺口卡阻故障风险等级预测方法。基于现场5年维护记录数据的实验表明,本文提出的方法可以较为准确预测各月发生转辙机表示缺口卡阻故障的风险等级,从而指导现场维护人员根据各月不同的故障风险等级提前协调设备、人员和维护天窗等维护资源,调整转辙机表示缺口相关维护活动的强度,最终实现在减少人力物力浪费的同时,提高道岔的维护水平。 下一步,更多的监测数据和特征将被考虑以进一步提升本文模型的精度。同时,将尝试把本文提出的方法移植到轨道电路等其他电务的关键设备上,从而为电务维护人员制定月度维修计划提供更加丰富的参考。3.3 转辙机表示缺口卡阻故障风险等级预测
4 实验验证
4.1 功能验证4.1.1 算法训练部分功能验证
4.2 性能验证
5 结论