基于GRU的智能运维健康状态评估方法研究
2022-02-03陈鑫龙
陈鑫龙
(1.轨道交通工程信息化国家重点实验室(中铁一院),陕西 西安 710043;2.中铁第一勘察设计院集团有限公司,陕西 西安 710043)
0 引言
随着城市轨道交通的蓬勃发展,全国开通并投入运营的线路也不断增加。由于各专业系统集成度和复杂度也不断提高,设备种类和指标繁杂,同时缺少预警机制,给运维工作带来了巨大的挑战。因此在城市轨道交通领域开发新型智能管理系统,发展智能监测以及研究新型运维技术是十分必要的。
目前国内的研究主要是对城市轨道交通设备智能运维系统的系统架构和逻辑框架进行研究,梳理了系统的层级关系和数据流向[1];针对城市轨道交通的运维现状,通过对子系统数据采集的业务功能来提高运维效率[2];通过研究列车PHM 系统(故障预测和健康管理)的方案和架构设计,分析了关键系统的功能和应用前景[3];基于感知层、平台层和服务层的建设方案满足智能运维系统的需求[4]。可见目前对城市智能轨道智能运维平台的架构设计和功能需求分析是较为成熟的,但结合智能算法实现各个功能的方法和思路则研究较少。
1 城市轨道智能运维现状
城市轨道智能运维系统是一种智能化运维系统,该系统集成了实时监测、智慧型分析、故障预警、调度指挥等功能。采用云平台、大数据分析、人工智能等先进技术提升运维调度的智能化,并将保障运营安全、降低设备故障、提升运维效率、改变设备的委维护模型作为目标。
智能运维的现状存在几个问题,即设备状态不可控,通过人工检查设备状态的效率和质量低,耗时耗力且运维成本不可控;维护质量不可控,未实现从计划修到状态修,整个过程没有实现有效监督;修复效率不可控,人工组织抢修、计划修故障延时长、设备维修周期难估算;作业结果不可控,设备维护需要凭借个人经验,维护质量效率存在差异。
而城市智能轨道运维的目标是在保障乘客安全、快捷出行的前提下,减少维护用时,增大运营时长,降低设备故障,保证最大运能,降低人工劳动强度和风险,降低维护工时、维护成本,提升设备可靠度、可用度,以及能进行快速有效的应急处置。
2 智能运维架构
2.1 智能运维设计架构
按技术实现的方式,城市轨道交通智能运维系统可以分为感知层、平台层和应用层[5],如图1 所示。
图1 城市轨道交通智能运维系统技术构成示意图
感知层作为智能运维各个子系统的基础数据采集,内部可分为数据采集与接口、解析层和内部转换层。感知层可以通过统一硬件采集设备获取各个子系统的信息,如通信系统中的传输、OA、无线、电话等系统以及电源、环境温湿度等信息。通过解析层和内部转换层获得统一的数据格式,方便各个子系统之间的信息交互。
平台层基于感知层获取的统一标准格式的数据,并基于大数据分析和云平台的资源,在实时数据库平台和大数据平台上对数据进行有效管理、存储和分析。实现信息交互的有效性和准确性。建立相关设备的故障诊断、故障预测以及健康状态的模型,利用机器算法学习故障特征和设备健康度,通过可视化组件进行展现,实现从计划修到状态修,提高运维效率。
应用层基于内在数据和算法,面向用户展现智能运维系统高效的信息共享与服务功能。应用层包括以监测为中心的设备运行状态监测、故障诊断、异常预警和智能维修指导,以应急为中心的应急资源调度运营联动功能以及以健康管理为中心的设备寿命分析、设备健康质量评价的应用功能。
2.2 智能运维应用平台
根据城市轨道交通智能运维系统技术架构,面向用户设计的城市轨道交通智能运维系统应用平台为“三级四层”管理架构。“三级”为现场级、线路级、线网级,“四层”分别为现场级智能运维平台、线路级智能运维平台、线网级智能运维平台和领导决策管理智能运维平台[6]。城市轨道交通智能运维系统应用平台架构如图2 所示。
图2 城市轨道交通智能运维系统应用平台结构示意图
现场级智能运维平台。现场级智能运维平台可通过手持终端、智能巡检或者人工日志等方式实时获取现场设备信息、设备状态、人员信息、管理信息等,并将采集到的信息汇总到线路级平台。
线路级智能运维平台。线路级智能运维平台是利用物联网、云平台、机器学习等先进技术,对终端设备运行过程中的状态信息进行分类、计算,进而可以实现设备工作状态监测、故障预警及分析、健康状态分析等功能。
线网级智能运维平台。可以实现实时监测全线网的终端设备工作信息、在线监测设备状态的功能,同时可以按专业或者线路进行综合运维。线网级智能运维平台可以将设备维护结果与资产信息联系起来,改变资产管理的模式和效能。线网级智能运维平台具有线路指标对比、关键设备状态、运营影响评估、资产联动等功能。
领导决策管理智能运维平台。主要将运营指标、故障影响等情况发送到相关管理部门,具有智能分析、应急管理、风险处理等功能。
3 基于GRU 的设备终端健康状态评估方法
该文针对设备从计划修到状态修的故障预测需求,提出设备的健康指数HI,用于监测终端设备的健康状态。将正常、故障的设备状态信息进行特征提取和选择,再通过门控循环单元(Gated Recurrent Unit,GRU)模型对设备的健康状态进行预测。具体过程如图3 所示。
图3 健康状态预测模型意图
3.1 特征提取
当设备处于故障的工作状态时,设备的电流、电压以及温度的幅值会发生变化,为了更好地获取设备的健康状态以及退化程度,需要提取设备的状态特征。通常从时域特征(峰值、标准差、均方根、波形因子等)进行分析。
3.2 归一化和平滑
鉴于所提取特征的量纲不同,且采集到的设备特征数据会受到环境等不可控因素的影响,进而产生部分噪声和波动,影响设备退化的趋势预测,通常可以采用曲线平滑技术消除噪声的干扰。
3.3 评价特征
鉴于采集到的设备状态信息的多样性,选择更能描述设备健康状态的特征在一定程度上可以减少数据信息维度和关联度小的数据,同时提高健康状态的预测准确度。因此需要采用不同的方法来评价特征,常见的评价指标的方法主要有单调性、相关性和鲁棒性等[7]。
理想状态下,预测设备退化的特征应该与状态退化过程单调相关,而单调性可以衡量特征单调变化的趋势。相关性表示预测特征与时间的关系,可以描述特征随时间变化的关系。鲁棒性反映了特征受到外部因素干扰时保持稳定的能力。
3.4 GRU 算法
门控循环单元神经网路是基于长短期记忆网络(Long Short-Term Memory,LSTM)基础上的一种优化模型,在保持原有预测能力的同时,通过内部结构的优化,降低了模型训练的时间[8]。GRU 模型结构优化了其中的门函数,保留了重置门函数和更新门函数。优化后的GRU 模型内部计算时间也随之减少。GRU 模型的内部架构如图4 所示。
图4 GRU 结构示意图
图4 中,zt是更新门,其作用是更新当前的状态信息。该数值决定了进入下一个状态的信息的程度,其值越高,表示上一个状态丢失的信息越少,当前状态信息保留得更多[9]。rt是重置门,负责重置上一状态中信息进入的候选集的程度。其值越大,表示前一状态的信息保留得更多。xt是t时刻的输入量。yt是t时刻的输出量。ht是t时刻隐含层的状态。ht-1是上一时刻隐含层的状态。σ和tanh是两个激活函数,数学描述如公式(1)和公式(2)所示。
利用GRU 训练的过程可以用公式(3)~公式(6)表示。
式中:W,U,b为模型的参数;Wr,Ur,br分别为重置门rt的参数;Wz,Uz,bz为更新门zt的参数。
该文将表示设备健康指数的标签和筛选后的功率特征子集作为GRU 预测模型的输入数据,将设备健康指数的预测值作为输出。健康指数HI为[0,1]。当HI值从0 到1 增大时,表明该设备由健康状态到发生故障的概率逐渐增大[10]。
HI可以用公式(7)表示。
式中:HI(t)为t时刻健康状态的预测值;(t)为t时刻设备健康指数真实值;F1(t),F2(t),...,Fn(t)为筛选后的n个特征在t时刻对应的特征值。
最后通过模型预测出来的数据得到样本个数与健康指数的曲线图,HI 曲线会随设备的工作时间而升高,这就意味着设备开始退化。根据HI 曲线,可以将设备的健康状态划分为3 个阶段,分别为正常阶段、早期退化阶段和多故障阶段。通过设备所处的健康状态阶段来制定设备的维护计划。
4 结语
智能运维的核心在于探索智能技术如何转化、服务、适配运维业务的发展,如何给运维带来解决问题的新思路。该文基于城市轨道交通智能运维的的架构和平台,提出了设备的健康指数HI,简化了预测模型。通过采集设备的状态特征信息,利用GRU 智能算法实现了设备的故障预测和健康状态评估,为进行有计划的设备维修,降低设备故障,保证运维效能提供了一种新的解决思路。