基于隐马尔科夫模型的道岔故障诊断方法

2018-08-28许庆阳刘中田赵会兵

铁道学报 2018年8期

许庆阳，刘中田，赵会兵

(北京交通大学电子信息工程学院，北京 100044)

随着铁路运输不断高密度、高强度化，铁路信号设备性能的好坏直接影响着铁路运输的安全与效率。道岔作为铁路信号系统中最重要的设备之一，其主要功能是完成道岔定反位方向的转换，从而实现列车行驶方向的改变。通过现场调研发现，道岔故障往往是造成铁路重大事故的主要原因之一[1]，如道岔不密贴会造成挤岔现象，有可能导致列车脱轨，严重危及行车安全。因此，对道岔状态进行监测，及时了解其工作状态，并制定合理的维修策略，是减少道岔故障并提高其可用性的重要手段。

基于设备状态的维护方式(Condition-based Maintenance)是目前机械故障诊断领域热门的研究方向，通过对设备工作状态和工作环境的实时监测，借助人工智能等计算方法，诊断和预测设备未来的有效工作周期，合理安排设备未来的维修调度时间[2-6]。

因此将CBM技术应用到道岔系统，通过对道岔设备进行实时监测，判断设备状态，若设备处于健康状态，则持续监测，分析设备可能的故障类型和退化类型，并对设备未来可能发生的故障进行预测，估算其剩余使用寿命；若设备处于故障状态，则发出告警，并诊断设备的失效模式，对故障进行定位，通过将CBM技术应用到道岔设备中，及时预测故障发生并定位故障类型，以提高其可用性，保证铁路运输的高效安全。

然而，国内外许多关于道岔故障诊断的方法都是基于传统的二值逻辑，将道岔设备的状态简单地分为正常和故障状态，并且他们诊断的都是故障机理明确或者具有大量历史故障信息的显性故障[7-12]，而对于正常-故障状态之间，肯定会出现若干种中间状态，对于这些状态而言，其失效信息少或者无失效信息，如果只是简单地进行正常-故障二类判断，很难满足铁路现场对道岔设备可靠性的要求。

所以，本文提出一种基于HMM模型的故障诊断方法，将道岔设备的状态进行多状态细分，分出多个潜在故障状态，运用HMM模型对多状态系统的状态转移进行精确描述，并进行仿真实验，验证诊断的准确性，同时通过将道岔状态进行多状态细分，描述每种退化状态之间的状态转移，可用于道岔的故障预测，从而完成道岔的健康状态监测。

1 道岔动作过程分析

如图1所示，高速铁路道岔系统主要有3个部分，转辙器、连接部分、辙叉及护轨，其中转辙器由转辙机、尖轨、心轨等组成，主要完成道岔的定反位操作功能；连接部分则负责通过导曲线将机车车辆过渡到辙叉和护轨单元；辙叉和护轨单元的作用是保护车轮安全通过两股轨线的交叉之处[7]。

图1 高速铁路道岔系统组成

作为道岔转换过程中的动作装置，转辙机的状态与道岔动作过程息息相关，因此时刻监测转辙机动作过程尤为重要。在铁路现场，常用来反应转辙机性能好坏的监测数据主要有动作电流数据和动作功率数据，前者只能反映电气电路，后者不仅与转换电压有关，而且能与转换力进行换算，因此采用道岔功率数据进行故障诊断更能反映转辙机的工作状态。

本文以高速铁路常用的S700K型转辙机道岔系统作为研究对象。图2展示了S700K转辙机动作一次的功率曲线，按照其动作时间的先后顺序，可将其分为5个阶段：启动阶段、解锁阶段、转换阶段、锁闭阶段以及表示阶段[8]。根据现场调研和查看相关文献，本文总结了6种常见的故障类型及其故障现象，见表1，对于同一道岔来说，不同时间不同环境下其功率曲线不同，但是大体上是一致的，图3列出了6种故障功率曲线。

图2 道岔正常转换功率曲线

故障类型现象描述可能故障原因发生频率f1启动功率过高,且在1 s左右功率开始上升启动功率过高可能由于解锁不良造成较高f2在转换过程中,波动较大,道岔动作时间较长道岔活动部位缺油,导致其转换阻力较大较高f3缓放区功率是正常情况下的两倍室外二极管短路一般f4缓放区功率为零,无法沟通表示电路室内表示电路断路,室外二极管可能烧坏一般f5功率在3 s左右开始上升后保持不变,直到30 s后励磁继电器自动断电道岔转换过程有异物,造成转换卡阻高f6锁闭过程中,功率开始上升直至励磁继电器自动断电锁闭过程中出现卡缺口或者卡异物故障,导致锁闭困难高

图3 常见道岔故障功率曲线

2 基于HMM的道岔故障诊断

基于HMM的道岔故障诊断系统的总体架构如图4所示，主要分为特征提取、矢量量化和故障诊断三部分[13]，其中特征提取是根据现场微机监测采集到的功率信号，提取出能表征道岔状态的特征参数，然后根据一定的准则进行特征提取，建立相应的特征向量。矢量量化是根据提取出来的特征向量，建立相应的离散化序列，以便用作HMM训练模型的输入。故障诊断部分是根据矢量量化输出的观察序列进行HMM模型的训练，通过Baum-Welch算法训练得到不同状态下的HMM模型参数，最后比较测试序列与每种模型的匹配度来判断测试序列所属故障类别，从而实现故障诊断[14]。

图4 基于HMM的道岔故障诊断系统的总体架构

2.1 功率数据特征提取

特征选择与提取是进行故障诊断以及故障预测的基础[15]，通过对传感器采集到的电流、功率信号进行时域、频域的变化与处理，提取出能表征设备状态的特征信号。对原始数据进行特征选择后往往会得到一个高维的特征向量，如何将高维特征进行降维处理以减少故障诊断与预测的输入，同时不影响诊断准确性是特征提取的最主要目的。

转辙机动作的功率信号能较好地反映道岔动作状态，所以针对功率数据，本文提出一种基于Fisher准则函数与主成分分析相结合的特征提取方法。以时间特性对道岔动作功率数据进行分析是常用的方法[8]，但是这种方法往往很难准确表征信号特征，比如道岔转换过程的功率值往往与转辙机动作时的推拉力相关，仅仅分析时域特性会忽略这种值域的敏感性，同时对于某些故障而言，如室外二极管短路和整流堆断路，其故障的集中点主要在表示区段，而对整个道岔动作过程区段进行时域分析，势必会忽略掉这些小区间内存在的差异。所以针对时域分析的缺陷，本文结合文献[9]将道岔动作功率信号按照时域特性和值域投影进行智能化分区，按其动作时间的先后顺序，可分为启动阶段(0～1 s)、解锁阶段(1～2 s)、转换阶段(2～4 s)、锁闭阶段(4～5 s)、表示阶段(5～6.6 s)；按值域进行投影，可分为缓放区段(0～0.4 kW)、动作区段(0.4～0.9 kW)、解锁区段(0.9 kW以上)。将功率信号按照表2提供的公式分别进行时域、值域特征提取，并以此作为特征候选集。其中：uk,i,m(k=1,2,…，n；i=1,2,…，5；m=1,2,…，10)表示动作功率信号第k个样本第i个区段按第m个公式求得的时域特征；vk,j,s(k=1,2,…，n；j=1,2,3；s=1,2,…，8)表示动作功率第k个样本第j个区段按第s个公式求得的值域特征。

表2 常用特征参数

表2(续)

选取不同型号的S700K转辙机功率数据作为样本数据，其中包括正常模式f0及上述6种故障模式数据共计7种模式数据，每种模式数据选取n=10个样本，共计70个样本数据，通过表2中的公式建立初始候选集特征矩阵，对于第l个样本，其候选特征集为

U(l)=[ul,1,1…ul,1,10…ul,i,1…
ul,i,mvl,1,1…vl,1,8…vl,j,1…vl,j,s]

( 1 )

( 2 )

其中归一化定义为

( 3 )

对式( 2 )中的特征候选集进行特征选择，选用基于Fisher准则的特征选择方式，通过计算类间方差与类内方差之比，找到最有效的特征，按照独立特征选择方法，计算任意两种模式之间的准则函数[16]，即第i、j类模式道岔动作功率曲线的第d维特征Fd的Fisher准则函数为

(4)

其中，类间方差与类内方差分别为

SB,d=(mi,d-mj,d)2i>j=1,2,…,7

( 5 )

( 6 )

式中：mi,d、mj,d和σi,d、σj,d分别为特征Fd在第i、j类中的均值与标准差。

通过计算JF(d)的值，其越大表示该特征在样本所占比重越大，从而选取每个区间最能表征设备状态的特征量组成特征空间向量，用于故障诊断与预测。分别对7种模式进行Fisher准则函数计算，74维特征数据的Fisher准则函数值如图5所示柱状图表示。

图5 特征数据的Fisher函数值

在进行特征选择过程中，若对某一模式选择的特征数量过少，则会造成该类故障特征信息的丢失，进而降低分类精度；若对某一模式选择的特征数量过多，则会降低分类效果，失去了特征选择的意义。本文采取“过半选择”的方案，即以各故障模式Fisher准则函数值最大值的一半为标准，各维特征数据的Fisher准则函数值超过此标准的被选择，否则被丢弃。最后通过Fisher准则函数进行特征选择，共选出13、14、32、41、42、43、45、46、47、48、49、50、52、56、57、61、64共计17维特征量，然而将这些特征量作为诊断输入，维数还是过大，需进一步进行特征提取，采用主成分分析法[17]进行特征提取。

PCA方法的具体实现过程如下：

步骤1特征中心化。即将原数据A每一维特征数据都减去该维的均值，得到中心化变化后的矩阵B，此时矩阵B的每一维特征数据均值为0。

步骤2计算矩阵B的协方差矩阵C。

步骤3计算矩阵C的特征值和与之对应的特征向量。

步骤4将计算得到的特征值按照从大到小的顺序排序，选取最大的k个特征值对应的特征向量分别作为列向量，组成特征向量矩阵D。

步骤5将样本点投影到选取的特征向量矩阵D上，得到新的k维数据集即为PCA变换后的数据集。

利用PCA方法的实现过程，对基于Fisher准则函数提取出的17维特征进行主成分分析。各主成分解释方差的帕累托图如图6所示，发现经过PCA变换后得到的特征信息，1维仅仅代表40%左右的原始信息，2维可以代表50%左右的原始信息，4维可以代表80%左右的原始信息，8维数据可以代表95%左右的原始数据信息，然而最优的特征维数并不仅仅是表征的原始信息量最大，维数的增大意味着训练输入的增加，还可能带来“过学习”的后果，所以最优的特征维数还需要进行后期验证来确定。

图6 PCA各主成分解释方差的帕累托图

图7为经过PCA变换后8维特征信息的盒须图，分维可视化展示如图8所示。通过图8可以看出，经过PCA变换后，第一主成分代表的第一维特征具有最大的分布离散性，并且之后的7维主成分分布离散型依次减小。符合并验证了PCA变换通过包含原数据的最大方差来使原数据信息损失最小的思想。

图7 8维特征信息盒须图

图8 8维特征信息分维可视化图

2.2 矢量量化

在对离散HMM(DHMM)进行建模时，要求观测值为有限的离散数值，因此需要对提取出的特征信息进行量化处理[14]，经过处理后的数据序列即可作为DHMM的训练码本进行训练和模式分类。本文主要采用K-means聚类算法进行特征的量化处理。

K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一[18]。其基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。通过K-means算法进行量化的主要思想是：通过训练数据矢量并按照最近邻原则分配到最近的码本中，然后计算迭代误差是否满足阈值要求，从而生成量化码本。图9所示为通过K-means进行矢量量化的流程。

图9 K-means进行矢量量化流程

2.3 Baum-Welch 算法

经过特征提取和矢量量化后得到的观测序列主要用于故障诊断中模型的训练以及结果测试，在利用HMM求解问题时，主要围绕3个问题展开： HMM概率计算；HMM最优状态序列问题；HMM训练问题。本文主要利用HMM进行故障诊断，所以涉及的问题主要包括HMM的训练以及HMM的概率计算。通过训练，得到7种状态下的最优HMM模型，通过概率计算得到测试观测序列在每种模型下的概率，对应模型概率大者，即为相应的故障类型，从而达到故障诊断的目的。

本文重点介绍Baum-Welch算法，该算法主要用于解决HMM的训练问题，一个HMM模型的参数主要包括：A为状态转移概率矩阵，B为生成观察序列对比概率矩阵，π为初始状态概率，N为隐状态数目，M为每个隐状态所对应的观察值数，记作：λ={A,B,π,N,M}，其中N和M需根据实际需求定义，也可通过其他算法进行优化处理。

HMM的训练问题，即参数估计问题[19]，Baum-Welch算法可描述为，给定一个观测值序列O={o1,o2,…,oT}，该算法能够确定一个模型参数λ={π,A,B}，使P{O|λ}最大。这是一个泛涵极值问题，因而不存在一个最佳方案来估计λ。Baum-Welch 算法主要是利用递归的思想，使P{O|λ}局部最大，从而得到模型的参数。

定义已知观测序列O以及模型λ，在t时刻处于状态θi，而在t+1时刻处于状态θj时的概率为ξt(i,j)，即

ξt(i,j)=P{O,qt=θi,qt+1=θj|λ}

( 7 )

根据前向变量和后向变量的定义可以导出

( 8 )

t时刻Markov链处于θi状态的概率为

( 9 )

(10)

(11)

(12)

图10 Baum-Welch算法

3 实验仿真

3.1 HMM模型建立

国内外基于HMM的故障诊断方法主要有两种：故障类型的故障诊断和退化状态的故障诊断。故障类型的诊断是描述一种状态转移过程，训练不同的故障类型数据，进行不同类别故障状态识别，达到故障诊断的目的。退化状态的故障诊断，对每一种故障描述其状态转移过程，将其状态分为不同的退化状态，通过识别每种退化状态，从而达到故障诊断的目的。本文主要进行道岔故障识别，目的是识别不同类别的故障，故而选取第一种故障诊断方法。

在对道岔系统状态进行马尔科夫状态转移分析时，选用左右型DHMM[20]，通过对道岔转换过程进行分析，在正常-故障状态之间添加了两种中间状态，其状态转移过程如图11所示，其中0为正常状态，1为轻度劣化状态，2为重度劣化状态，3为故障状态，各状态转移概率如图11所示。

图11 Markov状态转移过程

为进一步进行故障模式识别，将状态3再细分为具体的故障模式状态，根据之前的介绍，可将状态3再细分为6种不同的故障模式，于是就确定了HMM模型参数中隐状态N=4，而对于观察状态，通过与矢量量化过程及实际经验相结合，选取M=7，确定了四状态DHMM模型，模型参数N=4，M=7，开始模型的训练。

3.2 诊断结果

实验以京广线长沙南站不同型号S700K道岔转辙机动作过程为依据，采集了近两个月不同型号道岔的功率信号数据。通过整理分析得到7种状态数据样本共计70种，每种状态样本10个，采用其中7个样本用来训练HMM模型，3个用来进行测试，验证诊断准确性，图12、图13分别为选取4维特征信息进行故障诊断的训练及诊断结果，图14、图15分别为选取8维特征信息进行故障诊断的训练及诊断结果。

图12 4维特征信息训练迭代图

图13 4维特征信息诊断结果

图14 8维特征信息训练迭代图

图15 8维特征信息诊断结果

由诊断结果可以发现，当选取特征信息为4维时，诊断正确率达到90%以上，迭代速度也较快，随着输入维数的增加，正确率会有所下降，到8维数据时，正确率下降非常明显。这说明，过高的输入维度，会导致“维数爆炸”。当过高的维数带来过多的无用信息时不利于分类。

表3、表4分别为与其他诊断方法正确率和训练时间的结果对比。通过对比可以发现，基于PCA-GA-SVM的故障诊断正确率最高，但是当输入4维特征信息时，几种诊断方法诊断正确率相差不大，同时在训练时间上，HMM算法具有明显的优势，其所需的训练时间相对其他两种方法大为缩短，说明HMM方法可以更快地搜寻到最优解，更符合实际需求。

表3 3种诊断方法正确率 %

表4 3种诊断方法训练时间 s

表5为选取4维特征信息时，各种诊断指标的对比，几种诊断方法主要出现的问题就是错报率较高，其中HMM方法无虚警率，主要错报体现在故障5错报成故障2，由于道岔活动位置缺油慢慢演变为卡阻现象，造成两种故障的错报。在铁路现场往往虚警率较高，而基于HMM的故障诊断有效避免了虚警率高的问题，同时其训练时间和正确率也比较合理。因此基于HMM的高速铁路道岔故障诊断，当选择4维输入信息(80%的信息量)时，可满足现场需求。

表5 四维信息输入各方法诊断指标 %

4 结束语

本文针对高速铁路道岔常见的故障，通过对现场采集到的功率数据按时域、值域进行智能化区段划分，提取出表征道岔状态的特征参数，并基于Fisher准则函数及主成分分析的方法进行特征降维，得到最优特征集。通过K-means聚类进行特征集矢量量化，得到道岔功率数据的观测序列，将道岔状态细分，建立四状态隐马尔科夫模型，通过训练得到每种故障状态下的HMM模型参数，最后计算出测试序列与每种模型的匹配概率，从而进行故障诊断。通过实验以及与其他诊断方法进行对比可以发现，基于HMM的道岔故障诊断的训练时间大为缩短，正确率达到90%以上，能够满足铁路现场的需求，而且可应用于道岔故障预测中，从而进行道岔设备健康状态监测。