基于机器学习的轨道电路状态判断
2022-08-04初广前李璐张嘉驰钱佳瑶
初广前,李璐,张嘉驰,钱佳瑶
山东交通学院轨道交通学院,山东济南 250357
0 引言
截至2020年底,我国高速铁路运营里程达3.79万km,稳居世界第一,在初步建成“四纵四横”的高铁网络基础上,进一步规划了“八纵八横”高铁网络[1]。轨道电路是铁路运输中的重要组成部分,为保证铁路运行的安全性,需准确判断轨道电路的状态并进行预测。
诊断轨道电路故障一般分为人工诊断、数学模型诊断及人工智能诊断3种方法。人工诊断是指技术人员根据仪器检测的参数波动,依靠专业知识和经验判断故障,工作量大,效率和准确率均较低,并且存在安全隐患。汪培平[2]基于3V化经验准则判断轨道电路分路不良的情况,方法简单、易操作,但判断准确率不高。也可采用计轴方式,或增加钢轨轨面电压及短路电流、钢轨两侧端阻抗等方法解决轨道电路分路不良的问题[3-5]。数学模型诊断是指采用轨道电路网络、电气绝缘节、补偿电容等设备,通过构建电路数学模型研究轨道电路的调整状态、分路状态和断轨状态[6-7]。轨道电路故障诊断属于动态系统,具有复杂性兼非线性,很难建立数学模型,无法高效准确地诊断故障[8]。人工智能诊断是通过人工智能技术进行故障诊断[9]。可以采用群体智能算法诊断轨道电路故障:在轨道电路的故障诊断室,综合运用模拟退火算法和粒子群算法,具有较高的判断准确率,可克服传统粒子群算法易陷入局部最优解的缺点[10]。但群体智能算法需要海量的迭代步骤,难以达到全局最优解。
近年来,机器学习在轨道交通行业得到了广泛应用。Gibert等[11]在多任务学习框架中,结合多个检测器对铁路轨道监控,提高了铁路枕木和扣件缺陷检测的准确率。Stallkamp等[12]将局部神经网络和决策树分类器应用到轨道电路故障检测中,正确检测率和定位率分别为99%、92%。郑云水等[13]运用模糊神经网络理论诊断轨道电路的故障,并优化仿真模型,结果表明该模型具有较高的诊断准确率。吴志鹏[14]采用决策树C4.5算法诊断ZPW-2000A轨道电路故障。孙浩洋[15]对比分析ZPW-2000A无绝缘轨道电路设备故障的多个影响因素,均衡化处理历史运行数据,并结合故障树理论和隐半马尔可夫模型预测轨道电路故障。贺帅超[16]针对25 Hz相敏轨道电路故障,分析不同区段的轨道电路状态,基于神经网络和模糊逻辑系统搭建故障诊断系统。王瑞峰等[17]分析故障类型与故障征兆的联系并建立集合,用集对分析结合熵权法及隶属函数描述运行状态对应关系,建立模型反映轨道电路的运行状态及故障类型。牛行通[18]分析25 Hz相敏轨道电路的工作原理、常见故障及故障原因,用改进的蝙蝠算法优化模糊反向传播神经网络(back propagation neural network ,BPNN)模型,提高轨道电路故障的诊断准确率。朱文博[19]采用基于改进决策树算法诊断轨道电路故障,并开发1套采用VC++6.0平台与MFC类库进行可视化界面编程的轨道电路故障诊断系统。田粉霞等[20]采用卷积神经网络(convolutional neural networks,CNN)诊断调谐区故障,筛选卷积层的局部最优参数,采用dropout方法避免过拟合现象,实现故障分类。谢旭旭等[21]根据四端网络建立无绝缘轨道电路等效模型,绘制故障诊断总体框图,确立合理的诊断结果层数结构,根据动态增添算法和粒子群算法优化框架、精简网络结构,用My SQL数据库、C#语言及混合编程技术建立故障诊断系统。董煜[22]构建轨道电路四端网络模型,计算得到轨道电路的临界电压,构造初步故障诊断模型,用BPNN、灰色关联分析和模糊综合评判诊断故障,通过输出结果构造基本概率赋值(basic probability assignment,BPA),建立故障诊断模型。
上述研究大多采用有监督学习模型,需要提前对样本进行人工分类及训练,增大了人力和物力成本。本文研究3种典型机器学习算法在轨道电路状态判断中的应用,以期为准确判断轨道电路状态提供参考,保障轨道通车安全。
1 轨道电路工作原理
轨道电路由钢轨线路和钢轨绝缘组成,主要包括钢轨、钢轨绝缘、轨端接续线、送电端(轨道电源和限流器)、受电端(轨道继电器)等[23],如图1所示。
图1 轨道电路结构示意图
根据轨道上是否有列车存在,轨道电路可分为线路空闲和线路占用2种情况:线路空闲时,继电器吸起,信号灯亮绿灯;线路占用时,信号灯亮红灯,后续列车停车,禁止进入轨道电路区间。轨道电路的工作原理为:当线路空闲时,轨道电路为通路,继电器中有电,继电器保持吸起状态;有列车进入轨道电路时,机车车辆轮对可导电,轮对也是轨道电路的组成部分,且轮对电阻较小,改变了轨道电路的电流,继电器落下,信号灯亮红灯。
2 典型机器学习分类模型
2.1 高斯混合模型
高斯混合模型(Gaussian mixture model,GMM)属于无监督机器学习模型,该模型采用多个服从高斯分布的线性组合刻画数据分布。当高斯分布的数目足够多时,可逼近任意分布的概率分布密度函数[24]。GMM的概率分布
GMM的核心问题是求解参数{αk,μk,Σk},可采用最大期望(expectation maximization,EM)算法[25]。为了加快EM算法的收敛,对输入数据进行预处理,将输入数据映射至[-1,1]内,映射关系式为:
式中:ymin、ymax分别为样本数据中的最小值、最大值。
采用EM算法,对GMM参数进行估计的步骤为:
1)对参数{αk,μk,Σk}随机赋值,此处将其赋值为[0,1]内的随机数;
2)计算第k个分量模型对观测数据的响应程度,计算公式为:
3)更新参数模型的求解参数{αk,μk,Σk},公式分别为
4)判断是否满足迭代终止条件,若不满足,则返回步骤2)。
当GMM参数收敛后,模型构建完成,可将每个样本最大αk对应的分模型作为判断结果。GMM是无监督学习算法,未知聚类后样本的标签,可采用1种计算GMM分类准确率的算法:
1)从原始样本{yn}中找出包含某一标签l的所有样本集合{yn};
2)将该集合{yn}作为GMM的输入,取最大αk对应的分模型作为判断结果;
3)取步骤2)中数目最多的分模型作为GMM对标签为l的样本的判断结果,记数目为Sl;
2.2 BPNN
BPNN为多层前馈神经网络,非线性映射能力和泛化能力良好,应用广泛。BPNN运行过程中的2个重要步骤是正向传播和反向传播:正向传播是由输入层,经多层隐含层,最后至输出层,输入数据在每层都要经神经元激活函数处理;反向传播过程则先对比预期结果与计算模型的输出结果,再将二者之差反向传入神经网络,不断调节链接强度和阈值,降低误差,直至满足收敛条件。BPNN采用的神经网络结构如图2所示。BPNN包含1层输入层,3层隐含层,1层输出层。输入层有2个神经元,每层隐含层网络均有10个神经元,输出层有1个神经元。
图2 神经网络结构示意图
在整个神经网络的组成构架中,采用sigmod函数作为神经元激活函数,表达式为:
f(x)=1/(1+e-(WTx+b)),
(1)
训练样本前先对输入数据进行归一化预处理,再在模型中开始训练,保证输入数据不同维度间的差异不会过大。对数据进行归一化处理时,将输入数据映射到[-1,1]内,映射关系式为
式中:xmin、xmax分别为输入数据中的最小值、最大值。
采用梯度下降法更新BPNN的权值[26],公式为
式中:t为训练次数;E(t)为总误差函数;η为步长因子,η∈(0,1)。
采用冲量项的方法避免损失函数收敛到局部极小值[27],冲量项的计算公式为:
Δwji(n)=ηδjxji+αΔwji(n-1),
Δbj(n)=ηδj+αΔbj(n-1),
式中:α为冲量系数,α∈(0,1)。
若BPNN隐含层节点过多,网络结构过于复杂,复杂网络的训练成本将成倍增加,产生过拟合现象,即在训练样本上准确率较高,但试验样本中准确率略低;若BPNN隐含层节点过少,网络结构过于简单,输入与输出的关系未准确表达,产生欠拟合现象。确定隐含层节点数[28]
式中:n为输入层节点数,l为输出层节点数,γ为常数,γ∈[1,10]。
因此,BPNN的训练步骤为:1)网络权值初始化,对输入层权值和输出层权值随机赋值,将网络权值与阈值随机赋值为[0,1]的随机数;2)计算隐含层输出值,将隐含层输出值作为输出层输入值带入式(1),得到输出层的输出结果;3)根据预期结果与输出层的输出结果计算均方根误差(root mean square error,RMSE),根据RMSE采用梯度下降法更新各层网络权值与阈值;4)判断是否满足迭代终止条件,若不满足,则返回步骤3)。
2.3 逻辑回归分类模型
逻辑回归(logistic regression,LR)分类模型是针对多类别分类的典型模型,本文采用多项LR分类模型。假设离散变量取值集合为{1,2,…,K},则多项LR分类模型[29]
(2)
LR分类模型的损失函数
式中:u{·}为指示函数,若输入参数内容为真,返回数值为1,反之则返回0。
训练模型参数使损失函数取得最小值。该损失函数不能采用解析解求得参数。采用梯度下降法求解模型参数的最优解,损失函数的梯度表达式为
θk:=θk-ε▽θkJ(θ),
式中ε为步长因子。
采用梯度下降法求解LR分类模型参数的步骤为:1)初始化模型参数,将模型参数θk随机赋值为[0,1]的随机数;2)计算损失函数的梯度▽θkJ(θ);3)更新模型参数θk;4)判断所有的模型参数θk是否收敛,若不收敛,则返回步骤2)。
3 结果分析
对实际不同状态下的轨道电路进行数据读取和采集。在轨道末端选取数据采集点,分别测量空闲和占用状态下轨道电路的电压和电流,测得的数据散点如图3所示。
图3 轨道电路测量数据散点示意图
由图3可知:空闲状态样本分布较密集,电压主要集中在0.20~0.25 V,电流主要集中在60~80 mA;占用状态的样本分布较离散,电流、电压跨度较大,电压为0.3~0.7 V,电流为110~200 mA。
3.1 GMM分类结果
按2.1节要求,对样本数据进行归一化预处理,并将其作为GMM的输入。轨道电路有空闲和占用2个工作状态,设定GMM中K=2,每个高斯分布有电压和电流2个维度,设定收敛条件为相邻2次估计的参数变动范围小于10-10,可得EM算法估计次数与参数变化量的关系,如图4所示。
图4 EM算法估计次数与参数变化量示意图
经过EM算法处理后,待估计参数经过7次估计后收敛,其数值稳定,不再发生变化,计算所得参数为
3.2 BPNN分类结果
按2.2节要求,对样本数据进行归一化预处理并将其作为BPNN的输入,构建如图2所示的BPNN模型。输入层2个神经元分别对应每个样本的电压和电流。轨道电路态为空闲状态,神经网络模型输出参数为0;轨道电路状态为占用状态,神经网络模型输出参数为1。
对样本数据预处理后开始训练模型。设训练样本数占总样本数的25%。η=0.01,α=0.2,RMSE与训练次数的关系如图5所示。
由图5可知:随训练次数的增加,RMSE逐渐减小。训练次数小于150时,包含2层隐含层的神经网络的RMSE比包含3层隐含层的神经网络小;训练次数超过150时,结果相反;训练次数大于200时,两者的RMSE变化均不大,且趋近于0.15,故设定训练次数为1000次。
图5 RMSE与训练次数的关系曲线
最终识别结果为:在训练次数为1000的前提下,包含2层隐含层、3层隐含层的BPNN判断准确率均为100%。
3.3 不同模型判断结果对比
不同隐含层的BPNN模型、GMM和LR分类模型的判断准确率如表1所示。
表1 不同模型判断结果
由表1可知:有监督学习模型的BPNN(2层隐含层、3层隐含层)模型的识别率非常准确,LR分类模型的识别准确率相对较低。无监督学习模型的GMM与BPNN模型的准确率相同。有监督学习模型需提前对模型进行分类和训练,GMM可在节约成本的前提下,准确判断轨道电路的不同状态。
4 结语
研究无监督学习算法GMM、有监督学习算法BPNN模型与LR分类模型3种典型机器学习算法在轨道电路状态判断中的应用,并在实测数据集上对模型进行训练与测试。结果表明:GMM无需得到先验知识即可准确判断轨道电路的不同状态。试验数据来源于教学演示设备,可进一步采用现场实测数据提高GMM的普适性和鲁棒性。