轨道交通信号智能运维系统研究
2023-10-25宁鑫
宁鑫
随着我国城市轨道交通的大规模建设与发展,以及交通强国战略的提出与智慧城市的部署,传统的实现信号系统运营的维护支持子系统已难以满足当前城市轨道交通的发展需求。2020年3月,由中国城市轨道交通协会发布的《中国城市轨道交通智慧城轨发展纲要》,明确提出要建立完善的全生命周期智能运维体系,建设车辆、能源、通信、信号等专业的智能运维系统,并在全行业推广[1]。
当前既有信号维护支持子系统主要存在以下问题:①数据采集效率低,传输速度慢,板卡级监测数据匮乏,缺少车载等设备的日志数据采集[2];②数据离线分析功能较少,对历史数据深度挖掘的能力不足[3],缺少故障诊断和故障预测手段[4];③设备台账没有实现全生命周期管理[5],缺少对在线、在库设备的健康评价[6]。基于以上问题,本文结合大数据、云计算、人工智能、5G和物联网等技术[7],提出一种轨道交通信号智能运维系统(简称“智能运维系统”),从结构组成、技术原理、关键特点等方面展开研究与分析[8]。
1 智能运维系统架构
智能运维系统采用“平台+应用”的设计思路,其核心为一个轨道交通大数据分析平台,支持轨道交通信号系统的各种业务应用。同时,采用“分层+模块化”的设计理念,在构建轨道交通大数据分析平台时,将系统实现分为数据采集层、数据存储层、逻辑计算层、基础服务层和应用业务层,每层均采用模块化编程,从而极大地降低软件内部逻辑的耦合性,实现故障隔离,提高软件的可维护性。智能运维系统架构见图1。
图1 智能运维系统架构
1)数据采集层。设计满足多源、异构和多站的数据采集需求架构,采用无扰、抗扰的数据采集技术,解决信号监测数据的高可信性、数据采集过程的高安全性等关键问题。采集对象包括信号系统设备和信号基础设备。其中,信号系统设备包括车载ATP/ATO,ZC、CI、ATS和DCS等;信号基础设备包括信号机、道岔/转辙机、计轴、站台门、应答器、LEU、电源、信号按钮、外电网、发车表示器、与联锁设备接口的继电器、机房环境及其他设备等。
2)数据存储层。采用HBase、HDFS、MySQL等多种数据库存储技术[9],满足海量数据存储、快速查询、容灾和冗余备份等要求。设计满足多种数据类型的存储服务,包括各种结构化和非结构化的数据存储,如通信报文数据、日志数据、图片、音频、视频、各种分析结果数据,以及适用于故障诊断和健康评价的各类规则文件等。
3)逻辑计算层。使用各种大数据组件技术,如Hadoop、Kafka、MapReduce和Spark等[10],结合专家知识库、智能算法、数据检索技术和可视化技术等,设计实现一个轨道交通大数据分析平台。
4)基础服务层。由功能相对独立的底层业务模块构成。系统的上层应用通过调用不同的底层服务,实现不同的业务功能。例如,设备运行状态实时监测功能需调用基础数据管理服务、实时数据监测服务和数据可视化服务等;故障诊断和健康评价功能需调用基础数据管理服务、离线数据分析服务、分析任务管理服务、智能分析算法库和数据可视化服务等。
5)应用业务层。分为四大业务方向,每个业务设计实现不同的业务应用。其中,运行监测业务包括线路、集中站、信号系统设备和信号基础设备等不同层级的运行状态、通信状态和故障报警的实时监测功能;分析决策业务包括多维度统计分析、历史回放、关键设备运行日志分析、工况分析、紧急制动分析和停站精度分析等功能;健康管理业务包括设备的故障诊断、健康度评价、寿命预测、专家知识库管理、算法模型管理等功能;应急管理业务包括设备台账、库存管理、检修规程、维修计划、维修工单和应急预案管理等功能。
2 系统组成及部署方案
智能运维系统具有强大的数据处理能力和功能易扩展性。根据不同的实际工程业务需求,系统既可以进行线路级运维部署,也可以进行线网级运维部署。
2.1 线路级智能运维系统
线路级信号智能运维系统由维修中心、正线设备集中站、控制中心(备用控制中心)、车辆段/停车场的维护监测设备组成,部署方案见图2。在线路级维修中心主要部署智能运维服务器集群和智能运维工作站,实现全线路信号系统设备运维数据的采集和存储、运行状态监测、分析决策、健康管理和应急管理等业务功能;在集中站、控制中心(备用控制中心)、车辆段/停车场等,主要部署智能运维工作站、各个信号设备的维护机和集中监测工作站,实现本区域各种信号设备维护数据的采集、存储、监测、分析和管理等功能。
图2 线路级智能运维系统部署方案
线路级信号智能运维系统可实现对本线路信号系统设备和信号基础设备等的维护监测,提供对全线信号系统设备的运行状态监测及报警、智能分析、健康评价、故障诊断和维护管理等功能。
2.2 线网级智能运维系统
在线路级信号智能运维系统部署方案的基础上,增加防火墙设备和网络通信设备。同时,在线网运营中心部署智能运维中心设备,包括大数据集群服务器、智能运维工作站和各种控显设备(如大屏等)。线网级信号智能运维系统部署方案见图3。
图3 线网级智能运维系统部署方案
线网运营中心实现对所有线路信号系统设备的运维管理,用户既可以查看整个线网信号系统设备的总体运行状态,还可以实现各种线网级统计分析和维护管理等业务功能。
3 关键技术
3.1 智能算法库
智能运维系统中包含多个智能分析、智能故障诊断、健康评价等功能业务,这些业务在设计实现时均需要算法模型的支持。为此,设计了适用于轨道交通信号设备维护数据分析的数据挖掘算法库,见图4。将数据进行合理的分阶段处理,每个阶段应用多种标准化接口的算法,使系统具有良好的可扩展性。根据信号设备维护数据的特点,可将数据处理分为以下4个阶段。
图4 算法库
1)数据智能清洗阶段。对所采集的数据进行预处理,包括数据校验、数据过滤、数据变换和数据归一等。
2)数据集成融合阶段。对数据进行整合分析,包括数据信息共享、语义分析、逻辑分析和特征分析等。
3)数据分析挖掘阶段。对数据进行数据价值分析、关联规则分析、因果分析和业务分析等。
4)高维数据可视化阶段。对数据进行降维处理和预测分析,包括根据数据的因果关系,降低既有维度,减少数据运算量;或使用预测分析得到热点数据,加快数据处理速度等。
在实际应用中,根据业务的需求,可在数据处理的不同阶段选择某种具体算法。如,在数据采集阶段,当报文(如ATS报文等)或日志(ATP或计轴日志)数据出现CRC校验错误、报文中字节定义与协议不符合、报文长度异常等现象时,系统可调用分类算法(如支持向量机),对异常数据进行过滤;当需要处理文本数据(如专家知识库中的知识描述,或者Log文件中的中文词语),或实现模糊查询等功能时,可采用自然语言处理相关算法,对数据进行词法分析、语义分析等,而前端业务可直接调用分析结果进行下一步处理;当需要实现故障原因分析,或推荐故障关联的维修建议等功能时,可采用关联规则算法(如Apriori算法)分析推断出结果数据;当需要实现多维数据控显或计算(如结合ATP、ZC、CI相关报文数据分析列车折返失败的原因,并同时在界面上显示出故障的原因、时间和列车位置信息)时,可采用决策树(如迭代算法)对折返过程相关数据进行热点分析,使得系统集中计算关键字节数据,然后再通过探索性可视化(如增量算法)对需要展示的多维数据进行处理,并最终在界面上完成结果展示。
3.2 故障诊断技术
智能运维系统结合设备的运行指标和维修数据,通过构建关键设备的故障诊断模型,可实现对关键设备的智能故障诊断,定位故障位置,分析故障类型和故障原因等,降低因未及时发现故障导致的安全风险,缩短设备修复时间,提高维护人员的维护效率。
系统周期性地对在线轨道交通信号系统设备和信号基础设备进行故障诊断,采用智能故障诊断技术可以极大地提高设备故障报警的准确性和及时性。同时,采用规则关联算法和推荐算法,为每个监测到的故障推荐最优的维修方案。故障诊断的具体流程见图5。
图5 故障诊断流程
Step 1利用各种专家知识、运维作业指导书等构建知识图谱,主要包括知识实体及相关属性参数,实现从普通文本知识到信号设备专业知识的转换。
Step 2设备发生故障后,系统对故障数据进行采集和解析,通过知识图谱的知识逻辑关联,实现故障原因的快速定位。
Step 3结合因果逻辑链,推理故障的潜在原因;结合业务规则,推荐概率最高的故障原因。
Step 4根据故障发生的时间,展示故障因果链和故障树,并给出对应的维修方案。
3.3 故障溯源技术
由于轨道交通信号系统由多个子系统组成,当列车在运行过程中发生故障时,故障定位难度大,需各子系统的相关维护人员协作处理,因此排查过程繁琐复杂,工作量大,效率低下,无法在短时间内快速处理。而智能运维系统是基于信号系统运行机制原理、运行日志和子系统间通信报文数据,结合专家知识、故障树分析、故障模式与影响分析方法等,采用故障推理机技术,构建包含故障原因、故障发生路径和故障模式的完整故障链模型,可实现信号系统故障发生时对故障的快速溯源。故障溯源技术架构见图6。
图6 故障溯源技术架构
1)信号设备的运行日志、子系统间通信报文数据,以及业务相关的规则文件,均可以利用信号系统运行机制原理(各种业务流程逻辑信息数据)生成;采用专家知识库构建故障模型,结合系统运行规则文件和故障特征,构建故障模式;采用支持向量机、根因分析和故障树分析等推理机技术,定位故障发生的位置,识别故障发生的原因。
以列车折返自动换端过程中故障溯源为例,列车在自动换端时,控制列车运行的设备主要包括首尾端ATP/ATO、ZC和ATS等,设备间通信,先以列车首尾端通信协议、ATP与ATO通信协议、ZC与ATP/ATO通信协议、ATS与ATP/ATO通信协议、ZC与ATS通信协议为基础,再结合专家知识,建立设备状态切换规则和故障监测规则,共5类。
2)以设备间实际生成的报文数据和日志数据为输入,采用设备状态切换规则和故障监测规则,对数据进行分析和处理。若本条日志或报文数据中存在故障树,则遍历整个故障树,记录相关报警信息。
3)当整个列车折返自动换端过程结束后,根据记录的诊断结果,进行故障识别和故障定位,推理故障发生的原因。
故障溯源技术可以快速分析多个信号子系统的关联故障,定位故障的位置,识别故障的原因,从而极大地提升维护效率。
4 结束语
目前,该智能运维系统已经完成了系统设计与研发,并在天津某地铁线路完成了现场功能测试,后续还将在更多的工程化现场进行部署和应用。随着信号智能运维系统的逐步应用,不但可以满足既有维护人员的现场作业需求,还可以极大地提升信号设备的运营效率和维护效率,为未来轨道交通运营发挥重要的作用。