一种智慧地铁轨道状态预测和维修决策优化系统

2023-03-04李茂圣王大彬

计算机测量与控制 2023年2期

李茂圣，王大彬

(1.云南南天电子信息产业股份有限公司，昆明 650000; 2.昆明地铁运营有限公司，昆明 650000)

0 引言

随着人民生活水平提高和科技不断发展，方便、环保的城市地铁逐渐向网络化运营阶段发展。地铁轨道是列车安全运行的基础，需要在日常工作中保证连续平滑的轨道几何形状，否则会导致列车振荡，不仅降低了乘客的舒适度，严重时甚至出现列车侧翻等危险[1-2]。所以，实时了解地铁轨道状态，掌握轨道状态变化规律，这对于提高乘客的舒适度、保障地铁列车的安全运行具有重要意义。

考虑到地铁的轨道状态具有不确定性和异质性，常规的检测技术和量化标准很难对其进行精准描述，这就引出了许多急需解决的难题：如何实时精准掌握地铁轨道的运行状态，并且形成科学合理的维修决策方案，进一步实现轨道状态的安全预警等[3]。目前，类似于机器学习、深度学习等人工智能技术飞速发展，强化学习、集成学习和神经网络预测等技术也得到了越来越多的关注，这就为地铁轨道状态智能感知、全方面深入分析和轨道状态发展规律提供了科学合理的方法和途径[4-6]。

目前国内外研究团队在构建维修决策优化模型时通常只针对轨道占用时间和质量监测，然而对于轨道异常状态的维修决策主要以维修成本为主，所以在考虑轨道异常状态时需将维修成本作为目标函数。越来越多的人工智能技术和大数据分析技术被应用到轨道的基础设施建设和日常运行维护中。然而，国内外研究团队在制定或优化地铁轨道的异常状态时存在较大的方法局限性，通常只是局限于固定的模型参数，比如，常规MDP方法的规划周期内采用固定不变的状态转移概率。该方法无法实现自适应学习，在轨道运维状态的智能感知和常规预测中很难捕捉轨道劣化机理，最终很难实现科学、规范和完善的维修决策和规划。所以，通过深度挖掘、分析轨道运行和维护的海量数据，利用机器学习形成个性化和具有较强针对性的模型来更准确地预测轨道状态，才能使得维修策略更具有针对性和科学性。

为提高地铁轨道智能化管理水平，设计了朴素贝叶斯分类器、Logistic回归分类器和支持向量机分类器，并构建了基于Stacking集成的轨道状态预测模型。进一步，基于Stacking-SVM集成模型，引入自适应学习的马尔可夫决策过程(AL-MDP)构建了轨道维修决策优化模型。

1 基于Stacking集成学习的轨道状态预测

分别构建基于朴素贝叶斯、Logistic回归以及支持向量机的单体学习器，并对其进行两两组合构建集成预测模型[7-8]。

1.1 单体学习器

1.1.1 朴素贝叶斯分类器(NBC)

定义A和B为随机概率事件，A=A1∪A2∪…∪An，且Ai∩Aj=φ(i≠j)，则Ai引发B的概率：

定义类标记y，其类先验概率为P(y)，某样本Xi的类条件概率为P(Xi∣y)，对轨道全线划分若干单元区间Ni，若已知其特征属性值Xi=(xi1,xi2,…,xi18)，则预测下一时刻的轨道状态等级y(y∈Y)的概率为：

1.1.2 Logistic回归分类器(LRC)

考虑到轨道状态预测为多分类问题，将其划分为多个二分类问题的求解，训练多个二分类器并通过测试输出最终预测结果，如图1所示。共划分4个轨道状态类别C1,C2,C3,C4，定义任意类别Ci的数据样本为正，其他三类为负且用来训练分类器，若测试中存在唯一预测为正的分类器，且其余3个分类器预测为负，则最终预测结果为正。

图1 “一对其余”拆分示意图(OvR)

若已知单元区间Ni的特征属性值Xi=(xi1,xi2,…,xi18)，由于Logistic回归函数只会输出0或1，因此将所有二分类器均构建为Logistic回归分类器，则输出Ni的正概率P(y=1∣Xi)和负概率P(y=0∣Xi)分别为：

P(y=0∣Xi)=1-P(y=1∣Xi)=

定义正概率和负概率比值为odds，则正负概率比odds表达式为：

1.1.3 支持向量机分类器(SVM)

考虑到支持向量机适用于二分类问题，因此同样根据OvR策略构建支持向量机分类器。在此定义任意样本i的特征向量为Xi=(xi1,xi2,…,xi18)，并用Yi=0或1分别定义正例和反例标签；C代表样本约束常数，若C有限，则部分样本可以不满足约束条件，若C无穷大，则任意样本均满足约束条件，任意样本i不满足约束条件的松弛变量为ξi，SVM表示为：

s.t.Yi(ωTxi+b)≥1-ξi,ξi≥0,i=1,2,…,n

1.2 轨道状态集成预测模型

Stacking集成学习算法能够对单体学习器进行训练并集成。基于“1.1单体学习器”的3种单体学习器，随机选择两个构建初级学习器，剩余一个为次级学习器，两两组合构建3种基于Stacking集成的状态预测模型[9-10]，如图2所示。在此定义，以朴素贝叶斯分类器(NBC)为次级学习器的Stacking集成预测模型为“Stacking-NBC”，以Logistic回归分类器(LRC)为次级学习器的Stacking集成预测模型为“Stacking-LRC”，以支持向量机分类器(SVM)为次级学习器的Stacking集成预测模型为“Stacking-SVM”。

图2 3种基于Stacking集成的状态预测模型

1.3 模型验证

1.3.1 样本数据

收集XX地铁1号线、2号线和6号线的设备数据、检测数据和维修数据验证模型的有效性。共截取XX三条地铁线路540个轨道单元区段，每个区段长度为200 m，同时收集2015-2021年总计174次检测数据(其中包括23 050条TQI数据)、8025条设备数据和7年间的维修数据。设备数据包括坡度、道床类型、钢轨型号、曲线半径、加减速区段和钢轨接头数量等11个特征信息xi1～xi11；维修数据决定了下次检测时的维修活动类型xi12～xi14；轨道质量指数(TQI,track quality index)检测数据、TQI管理值和TQI等级划分标准共同决定某一单元区段在当前时刻和下一时刻的地铁轨道状态等级xi15～xi18和标记值yi。上述18项特征共同构成任意单元区段Ni的特征向量Xi=(xi1,xi2,…,xi18)。数据预处理后共获得22 128个数据样本，训练集和测试集的划分比例为3:1。表1为轨道TQI状态等级划分标准和样本数量分布。

表1 等级划分标准及样本分布

1.3.2 模型的评价分析

对3个单体学习器和3个集成模型分别进行评价分析，内容包括精度(Accuracy)、F1值和AUC值，结果如图3所示。精度(Accuracy)方面，地铁轨道状态的预测结果为：Stacking-SVM>Stacking-LRC>Stacking-NBC>LRC>SVM>NBC，Stacking-SVM的预测精度比单体学习器平均提高了13.6%。F1值方面，预测结果为：Stacking-SVM>Stacking-LRC>Stacking-NBC>SVM>LRC>NBC，Stacking-SVM的F1值比单体学习器平均提高了18.5%。AUC值方面，预测结果为：Stacking-SVM>Stacking-LRC>Stacking-NBC>SVM>LRC>NBC，Stacking-SVM的AUC值比单体学习器平均提高了13.9%。综合来看，3个集成模型的状态预测效果均优于单体学习器，且以SVM为次级学习器的Stacking集成模型具有个性化和较高的准确性，为智慧城市轨道提供管理和维修参考。

图3 不同模型评价结果

2 基于AL-MDP的轨道维修决策优化

2.1 马尔可夫决策(MDP)

四元组定义马尔可夫决策过程[11]：

状态空间S：定义机器在空间中感知环境的所有状态s构成空间S，本文中为地铁轨道状态等级；

动作空间A：定义机器所有应对的动作a构成动作空间A，在本文中为地铁轨道维修活动类型；

转移概率P：定义当前状态s通过某个动作a转移到另一个状态的概率矩阵P，在本文中为地铁轨道状态从当前状态等级到另一状态的转移概率；

转移奖励R：定义系统在通过动作a发生状态转移时依据奖励函数R(s,a)所获得的奖励R，在本文中为采用维修活动a对状态s的地铁轨道进行维修时产生的费用R(s,a)。

MDP的基本原理为：若机器处于状态si∈S的系统中，对其采取维修活动a，机器以转移概率P由状态si转移至下一状态si+1，并获得奖励R(s,a)。机器通过学习若干个状态转移过程和转移奖励，能够自主判断系统状态并采取相应的维修活动类型以得出最优决策策略，以获得最多的总奖励[12]。

2.2 轨道维修决策优化模型

2.2.1 决策变量

2.2.2 目标函数

2.2.3 约束条件

定义轨道状态为约束条件，下一决策时刻T+1时不能处于吸收态S，并设置S的剩余价值[13]为-∞：

2.2.4 自适应学习机制

为了提高轨道状态的智能感知和准确预测，并且以此作为依据制定更加合理的维修优化决策，首先要对轨道运行和维护状态进行准确预测。同时，为了使模型能够针对海量检测数据和历史运行数据进行自适应学习，深入挖掘轨道劣化机理，应该基于合理准确的预测结果进行维修决策优化。因此，本文结合“1.3模型预测结果”，以朴素贝叶斯分类器(NBC)和Logistic回归分类器(LRC)作为双单体初级学习器，以SVM分类器作为次级学习器，对三者集成并构建Stacking-SVM模型，在模型引入了自适应学习机制。

图4 Stacking-SVM模型的自适应学习过程

步骤5：计算轨道单元k在决策时刻τ的最优维修决策：

步骤6：返回步骤3；

步骤7：判断t是否等于T。若t=T，则算法结束；若t≠T，令t=t+1，进入步骤1。

3 实验结果与分析

3.1 最优维修策略

随机选取第43号轨道单元，采用上述方法对规划周期内30个决策时刻的状态等级和最优维修策略进行分析，结果如图5所示[18-19]。其中，状态等级包括：C1、C2、C3和C4，维修策略包括：a0为不维修、a1为经常维修和a2为综合维修，初始决策时刻为t1，周期末决策时刻为t30。

状态等级C1：时刻t1～t24，43号轨道单元的维修决策为a1，需采取经常维修活动；时刻t25～t31，维修决策为a2，需采取综合维修活动。状态等级C2：时刻t1～t9、t14～t22，维修决策为a1，需采取经常维修活动；时刻t10～t13、t23～t30，维修决策为a2，需采取综合维修活动。状态等级C3：时刻t1～t3、t7～t8、t13～t14、t18～t19，维修决策为a1，需采取经常维修活动；时刻t4～t6、t9～t12、t15～t17、t20～t30，维修决策为a2，需采取综合维修活动。状态等级C4：所有时刻t1～t30，维修决策均为a2，需采取综合维修活动。

图5 规划周期内最优维修策略

3.2 AL-MDP与MDP优化结果对比分析

由XX地铁2015年至2021年的维修数据可知，XX地铁1、2和6号线任意轨道单元的平均维修成本为2.25万。基于MDP和AL-MDP对43号轨道单元完成500次MC模拟后的规划周期总成本如图6所示。分析图6可知，规划周期总成本方面，MDP模拟结果的最小值和最大值分别为1.450万和2.573万，AL-MDP模拟结果的最小值和最大值分别为1.291万和1.678万；MDP模拟结果的四分位数分别为2.144万和1.858万，AL-MDP模拟结果的四分位数分别为1.946万和1.678万；MDP模拟结果的平均数和中位数分别为2.001万和1.996万，AL-MDP模拟结果的平均数和中位数分别为1.803万和1.789万。MDP和AL-MDP的平均规划周期总成本(2.001万、1.803万)均小于实际成本2.25万，这表明加入马尔可夫决策过程的两个模型均可降低维修成本，但AL-MDP在各项参数上均优于MDP，获得最优维修策略和最优规划周期总成本。

图6 规划周期总成本箱型图

与MDP模型相比，AL-MDP模型在Stacking-SVM集成模型的基础上加入了自适应学习机制，能够根据当前预测结果不断更新下一时刻的预测过程，进一步降低地铁轨道的维修成本。同时，AL-MDP能够实时掌握地铁轨道的运作状态，给管理者和工作者提供精细化、个性化、更科学的维修优化决策，对维修成本和轨道安全实现双重精准控制。

4 智慧地铁轨道管理系统设计

4.1 系统总体设计

本文所设计的“智慧地铁轨道管理系统”共包括8个主要功能模块，其中：轨道数据管理、状态监测管理、检查分析管理、生产运维管理、系统安全管理、设备综合管理、决策辅助管理以及系统综合管理，如图7所示。不同模块的功能存在相互关联，比如状态监测管理和检查分析管理协同包含病毒检测、健康评估、寿命分析、任务编制和多设备一体化等不同的子功能[21]。

图7 系统总体设计图

4.2 系统功能结构设计

基于上述系统的总体设计框架，本文融合利用“基于自适应学习的Shaping-SVM模型”，实现了两大主体功能——“轨道状态预测”和“轨道状态维修决策优化”。在地铁轨道预测中需要实现对轨道状态等级、分布、变化趋势和短期内的工作状态预测等功能，在轨道状态维修决策优化中需要制定地铁轨道的维修优化决策、预测规划周期内的状态变化趋势，并对未来某时刻的轨道状态进行安全预警[22]。系统的功能设计如图8所示。

图8 系统功能结构图

4.3 系统功能实现

4.3.1 评定轨道状态等级

基于XX地铁的状态等级分布标准，本文以200 m为一个轨道单元，按照状态等级完成对轨道路线的所有单元的评定，通过实时数据掌握当前轨道运行状态，并对未来某时刻的轨道状态进行预测。该功能可对XX地铁任意线路的所有单元进行状态等级评定，使管理者实时掌握轨道单元状态等级，内容包括轨道单元序号、里程点、TQI值及状态，如图9所示。

图9 轨道状态等级评定

4.3.2 制定维修决策

为智能感知地铁轨道异常状态和精准捕捉劣化规律，进一步对轨道异常状态提供更合理、更科学的维修优化决策，结合所有单元的轨道状态数据和海量历史检测数据，本文采用第1章节和第2章节的模型，对规划周期内的任意单元状态进行预测并制定优化后的轨道维修决策策略。管理用户可得到指定规划周期的一条线路所有轨道单元的蒙特卡洛模拟下的规划周期总成本，如图10所示。可通过MC模拟出任意轨道单元在决策周期内的维修决策优化结果，经常维修C1和C2的轨道单元，综合维修C3和C4的轨道单元。分析图10可知，指定初始决策时刻为2020年5月，通过基于AL-MDP的轨道维修决策优化模型对所有轨道单元进行蒙特卡洛模拟。已知实际成本为2.25万元，蒙特卡洛模拟所得全线轨道的规划周期内总成本为280.75万元，经过AL-MDP的优化模型后，任意轨道单元的平均规划成本为1.81万元。

图10 制定维修决策

4.3.3 预警轨道安全状态

基于前文地铁轨道在规划周期内的状态变化趋势预测功能，通过指定某一决策时刻，对未来某一时刻的地铁轨道单元状态进行状态检测。通过历史数据的状态变化趋势，结合目前轨道单元的运行状态提出安全预警，保证地铁管理人员和维修人员能够及时掌握轨道运行状态，并且为未来可能存在或即将出现的危险状态提供运维保证和决策参考。管理用户可得到查询条件下的轨道单元状态安全预警表。在该系统中可获得任意轨道单元在2个月后的MC模拟结果，如图11所示。地铁轨道工作者或管理者能够根据预警信息对轨道单元的未来状态进行等级评定和状态预警，给管理者制定维修措施提供决策参考。