APP下载

基于粗糙集-C4.5的轨道电路故障诊断方法研究

2018-07-06付淳川朱文博

铁路通信信号工程技术 2018年3期
关键词:决策表轨道电路约简

付淳川 朱文博

(1.北京城建设计发展集团股份有限公司,北京 100032;2.中交机电工程局有限公司武汉技术中心,武汉 430060)

轨道电路是保障列车安全运行的关键信号设备,ZPW-2000A型无绝缘轨道电路是目前铁路区间应用最多的设备,及时准确地诊断轨道电路故障,直接关系到铁路运输效率和行车安全[1,2]。目前主要依靠电务工作人员凭借经验对其定期检修的方式进行维护,这种方法存在一定的盲目性且维护效率较低[3,4]。因此有必要合理引进智能诊断算法对轨道电路故障进行快速有效地诊断。一些学者将模糊神经网络[5],支持向量机[6]和遗传算法[7]等多种智能诊断方法应用到轨道电路故障诊断中,在一定程度上取得良好的效果。

决策树C4.5算法具有对样本实例进行分类并记忆的能力,所产生的规则清晰、可理解性强。同时粗糙集具有处理不完备决策表、去除冗余信息的能力,与决策树方法有较好的相容性。由于ZPW-2000A型轨道电路系统设备结构复杂,故障现象和故障特征属性之间没有明确的对应关系,存在较大的随机性和复杂性,单凭某种单一的智能方法进行轨道电路故障诊断往往存在很大的局限性。本文结合粗糙集对故障决策表进行属性约简,采用C4.5对约简决策表训练学习提取诊断规则,将得到的规则应用于轨道电路故障诊断,达到快速准确诊断的目的。

1 算法描述

1.1 C4.5规则提取

1986年自J. R. Quinlan提出ID3算法[8]以来,不断有学者开始研究各种改进的决策树(Decision Tree)算法,其中包括1993年提出的C4.5算法[9]。C4.5能够自动从数据中挖掘分类规则,处理具有不确定性、离散数值特征的模式识别问题。决策树是从根节点开始划分节点属性值依次向下产生分支节点,直到产生叶节点,从根节点到叶节点的每条路径对应一条分类规则。C4.5引入信息增益率作为节点选择度量,克服ID3算法偏向选择多值属性的缺点,可提取数据本身隐含的真实规则。采用后剪枝[10]的方法去除噪声数据、控制树的深度以便简化决策树。

设训练样本集T中,样本个数为|T|,每个样本由n个条件属性A分别标记某一类别Di(i=1,2,…,k)。同一类别的样本个数记为|Di|,定义某类样本的概率分布为Pi=|Di|/|T|,C4.5利用样本实例提取规则的步骤如下。

步骤1:计算样本分布初始熵。

步骤2:计算任一测试属性A信息熵。

步骤3:计算测试属性A的信息增益。

步骤4:计算属性A的分割信息量和信息增益率。

步骤5:选择具有最大信息增益率的属性作为当前节点,重复步骤2~4依次选择各级节点,直到叶节点同属一种类别。

1.2 粗糙集属性约简

粗糙集理论[11]是由Z. Pawlak在1982年提出的一种用于处理不完整不精确知识的数学工具。其中属性约简方法用来简化信息系统的复杂程度,粗糙集中核被认为是信息系统基本属性集,是进行属性约简的理论依据。基于粗糙集中核的定义,简要介绍利用可辨识矩阵[12]计算区分函数的方法,求取决策信息系统所有可能的约简组合。

根据决策表求得可辨识矩阵为M,A={a1,a2,…,an}是所有条件属性的集合,S是M中所有属性组合的集合,且S中不包含重复项,令S中包含有s个属性组合,每个属性组合表示为Bi,其公式化描述为BiS,Bi≠Bj(i,j=1,2,…,s),令 |Bi|=m,则Bi中任意条件属性表示为Bi,k(k=1,2,…,m)。若矩阵中元素的属性组合数为1,表明除该属性以外的属性无法将决策不同的两条记录区分开,该属性不可去掉,它属于核属性,所有这样的属性组成核属性集,设C0为核属性集,C为属性约简后得到的属性集合,基于可辨识矩阵的属性约简算法描述如下。

步骤1:将决策表转换为可辨识矩阵的形式,计算核属性集,令C=C0。

步骤2:在可辨识矩阵中找出所有不包含核属性的属性组合

步骤3:将属性组合S表示为合取范式,即区分函数为

步骤4:将区分函数∆转化为析取范式的形式,此时所有合取子式即为约简结果。

2 基于粗糙集-C4.5的无绝缘轨道电路故障诊断模型

轨道电路微机监测子系统[13]用于监控轨道电路设备工作状态,监测并存储大量设备状态信息。本文利用轨道电路监测信息系统获得原始决策表,此时决策表中有许多连续量无法直接用粗糙集进行处理,需要对原始决策表进行模糊离散化处理,形成离散形式的决策表,利用粗糙集对离散决策树进行属性约简,用C4.5规则提取算法对约简决策表进行训练提取诊断规则。基于粗糙集-C4.5算法的轨道电路故障诊断过程如图1所示。

2.1 建立决策表

ZPW-2000A型无绝缘移频轨道电路是由室内、外设备组成的复杂信号系统,系统设备结构如图2所示。轨道电路设备故障导致的异常红光带或分路不良故障现象,若得不到及时准确地诊断处理,会严重影响行车效率甚至危及行车安全。

分析某区段轨道电路的监测信息,归纳系统常见故障模式作为轨道电路故障决策表的决策属性,如表1所示。

表1 轨道电路故障模式表

根据表1归纳的常见故障模式,选择轨道电路部分监测信息作为决策表的条件属性如表2所示。

表2 轨道电路状态监测量

由此确定轨道电路故障决策表的条件属性和决策属性,结合模拟故障样本数据得到如表3所示的原始决策表。

表3 轨道电路故障原始决策表

轨道电路故障数据决策表中,大部分条件属性是连续量,无法直接用粗糙集进行处理,所以需要对其进行模糊化处理成离散量的形式。根据专家经验来选择条件属性聚类中心和属性各模糊子集的隶属函数,选择高斯正态隶属函数来描述属性值隶属于各模糊子集的程度。

故障数据属性值经过模糊化后得到3个模糊子集,分别用模糊符号0(合适)、1(偏低)、2(偏高)来表示,第i个连续属性Ai的取值属于第j(j=1,2,3)个模糊子集的隶属度采用高斯正态隶属度函数表达如公式(6)。

其中σ>0,dij∈R是各属性模糊取值的聚类中心。按上述方法离散化的不完备决策表如表4所示。

表4 轨道电路故障离散决策表

2.2 属性约简

考虑到轨道电路信息系统存在冗余属性、重复样本和数据缺失的情况,需要利用粗糙集进行属性约简。本文用可辨识矩阵方法和区分函数对离散决策表进行约简处理。对决策表约简的过程即对原始故障特征信息进行提炼的过程,使决策表简化的同时去掉干扰信息,减少下一步决策树训练样本、提取诊断规则的计算量。

由粗糙集中可辨识矩阵方法计算表4对应的区分函数∆。

∆=(M∧A4)∨(M∧A8)∨(M∧A12)

=(core∧A9∧A12)∨(core∧A8∧A9)

∨(core∧A4∧A9)∨(core∧A4∧A11)

∨(core∧A8∧A11)∨(core∧A11∧A12)

其中core=(A2∧A3∧A5∧A7)为决策表4条件属性核,M=(core∧A9)∨(core∧A11)。

对上述离散决策表的约简处理得到6个约简,分别为:

1)(core∧A9∧A12)

2)(core∧A8∧A9)

3)(core∧A4∧A9)

4)(core∧A4∧A11)

5)(core∧A8∧A111)

6)(core∧A11∧A12)

通常采用不同约简集形成的决策表,对其训练得到的树形规则有所不同,选择不同约简集进行训练,直到求得符合要求的决策树为止,其中约简1)对应的决策表如表5所示。

表5 约简1)对应的决策表

经过对不完备决策表属性约简,去除信息系统的冗余属性,得到简化的决策表5,属性组合{A2,A3,A5,A7,A9,A12}可完全代替原始决策表条件属性,达到约简目的。

2.3 C4.5规则提取

在众多的规则提取算法中,决策树C4.5算法可以对故障样本决策表进行快速规则提取,产生清晰易理解的树状形式规则,适用于小规模故障样本集的诊断分类,提取到的规则集作为对新故障样本实例进行分类的故障诊断器。C4.5采用后剪枝技术,得到初始决策树规则集后进行剪枝,可去除噪声数据和克服孤立点的分支规则异常。

表6 属性的信息熵、信息增益、信息增益率

计算样本分布的初始熵和各个属性的信息增益及信息增益率,如表6所示,其中样本初始熵为3.59。

根据规则提取的具体步骤,选取信息增益率最大且信息增益最大的属性A2为决策树的根节点。属性A2有2个取值(即有2个分支,A2=1和A2=2),分别以A2的两个分支计算下一级节点的信息熵、信息增益、信息增益率,如此类推,直到所有样本类别被标记为叶节点为止。最终得到的诊断决策树如图3所示。

2.4 仿真测试

利用轨道电路故障模拟数据(训练和测试故障样本各100组)对本文方法进行仿真验证,与决策树ID3算法和BP神经网络法进行对比,对比结果如表7所示。BP神经网络存在收敛速度慢、易陷入局部极值的问题,网络分类性能受网络结构的影响较大,不适于小规模样本的学习[14]。基于粗糙集和C4.5的故障诊断方法对轨道电路故障样本数据进行训练提取诊断规则,可将得到的规则直接运用于新的故障数据进行故障判断,该方法的训练速度明显快于BP神经网络诊断法,经过粗糙集属性约简后,进一步加快了决策树训练速度,并且对测试样本的误判率低至3%。

表7 诊断效果对比表

3 结论

本文提出一种基于粗糙集-C4.5决策树算法的ZPW-2000A型轨道电路故障诊断方法,该方法实现不完备信息系统模式下的轨道电路故障诊断,揭示轨道电路信号集中监测信息集合的内在冗余性,体现了良好的容错性能。利用模糊集理论对包含连续属性的故障样本进行模糊离散化处理,建立离散决策表,粗糙集属性约简在保留关键信息的前提下对决策表进行约简求得最小约简集,利用决策树具有快速学习及分类的优势对约简后的决策表进行诊断规则提取,避免对冗余属性的判断,缩短训练学习的时间。最后利用模拟故障样本数据仿真测试该方法的可行性和准确率,并与ID3算法和BP神经网络法做对比,仿真测试结果表明,该方法训练速度快并且误判率较低。

[1]郭进.铁路信号基础[M].北京:中国铁道出版社,2010.

[2]董松.论轨道交通列车位置检测设备[J].都市快轨交通,2005,18(3):72-75.

[3]米根锁,张凤霞,魏蕾.基于剩余寿命的铁路轨道电路调整型维修方法研究[J].铁道学报,2015,37(4):69-74.

[4]唐涛,燕飞,郜春海.轨道交通信号系统安全评估与认证体系研究[J].都市快轨交通,2004,17(1):28-32.

[5]黄赞武,魏学业,刘泽.基于模糊神经网络的轨道电路故障诊断方法研究[J].铁道学报,2012,34(11):54-59.

[6]张梦琪,赵会兵,孙上鹏,基于粒子群支持向量机的轨道电路分路不良预测方法[J].铁道学报,2015,37(10):68-74.

[7]赵林海,冉义奎,穆建成.基于遗传算法的无绝缘轨道电路故障综合诊断方法[J].中国铁道科学,2010,31(3):107-114.

[8] QUINLAN J R.Induction of Decision Trees[J].Machine Learning, 1986, 1(1):81 106.

[9] QUINLAN J R.C4.5: programs for machine learning[M].San Francisco:Morgan Kaufmann Publishers Inc.1993.

[10]魏红宁.决策树剪枝方法的比较[J].西南交通大学学报,2005,40(1):44-48.

[11] Pawlak Z.Rough set[J].International Journal of Computer& Information Sciences, 1982, 11(5): 341-356.

[12]张文修.粗糙集理论与方法[M].北京:科学出版社,2001.

[13]孙志忠,于树永.ZPW-2000A监测子系统[J].铁道通信信号,2008,44(11):24-25.

[14]鲁娟娟,陈红.BP神经网络的研究进展[J].控制工程,2006,13(5):449-451.

[15]杨帆,王坚强,陈世然.贝叶斯网络在ZPW-2000K无绝缘轨道电路故障诊断中的应用[J].铁路通信信号工程技术,2016,13(6):73-75.

猜你喜欢

决策表轨道电路约简
基于决策表相容度和属性重要度的连续属性离散化算法*
基于混合增量式属性约简的中医甲状腺结节诊疗规律分析
基于通信编码的区间ZPW-2000轨道电路最小道砟电阻取值探讨
基于HHT及LCS的轨道电路传输变化识别探讨
带权决策表的变精度约简算法
区间轨道电路智能诊断系统的探讨
基于DSP的25Hz相敏轨道电路接收设备的研究和实现
近似边界精度信息熵的属性约简
广义分布保持属性约简研究
电力稳控系统在石化企业的应用