APP下载

基于文本数据挖掘的复式交分道岔设备故障事件分析

2020-02-26田世润

科技与创新 2020年2期
关键词:值班员复式道岔

田世润

基于文本数据挖掘的复式交分道岔设备故障事件分析

田世润

(兰州交通大学,甘肃 兰州 730070)

分析复式交分道岔设备记录的大量文本数据,需要消耗大量的人力资源,可采用NLPIR软件进行特征词提取并结合现场专家意见对特征词进行筛选和分类,生成复式交分道岔的故障特征词。通过对特征词的出现频率和性质分析,梳理得到可能导致复式交分道岔发生故障的部位。

文本数据挖掘;复式交分道岔;TF-IDF模型;文本特征词库

复式交分道岔是道岔系统中记录文本故障数据最多、结构最为复杂的道岔类型。

目前中国铁路故障数据分为实时监控数据和施工现场记录的文本数据,实时监控数据多数可以直接被计算机识别和运算,文本数据由于较多为人工记录的故障数据,因此被计算机识别起来较为困难。对文本数据中记录的故障类型和故障致因进行梳理,在系统故障诊断和可靠性分析过程中能够起到不可忽视的作用。人工对文本数据处理常常会消耗大量的时间和精力,并且存在较大的误差。

文献[1]对高铁车载设备故障追踪表用主题模型进行了特征提取和分析,同时结合专家知识和动车组设备特点对车载设备进行故障诊断。文献[2]分别采用卡方检验和朴素贝叶斯作为提取文本降维和分类方法,对铁路安全管理信息报告进行文本挖掘。文献[3]对铁路信号设备不平衡故障文本数据基于TF-IDF模型进行了文本故障特征提取,并转换为向量,通过Voting方式进行多分类器集成学习。文献[4]对文本挖掘技术方法和发展历史进行了详细介绍。现阶段对道岔文本数据的挖掘研究尚不成熟,尤其是对道岔文本数据中文本特征词库的建立极其匮乏,难以对文本数据快速处理分析。

本文提出一种通过NLPIR软件对复式交分道岔的文本数据进行提取的方法。

1 道岔维护记录分析

目前中国道岔记录方法方式主要是依据《行车设备(施工、检查)登记簿》进行故障登销,人工对故障进行登记过程中存在以下几个问题。

1.1 一词多义和多词多义现象

由于现场有大量的值班人员,每次故障记录时的值班人员可能都不一样,不同的工作人员在记录过程中对术语的表达存在不同程度的差异。因此,在文本数据中存在大量的简写和缩写,例如道岔“卡缺口”常记为“卡口”,“道岔”常缩写为“岔”。

1.2 现场所记录的道岔故障篇幅存在很大的差异

不同的值班人员对道岔故障的严重程度和道岔故障诊断程度存在着很大的差异,有些工作人员对道岔记录得非常详细,如“室内值班员xxx16:44接车务通知,调看微机发现6034/6038#道岔(ZD6复式交分道岔)反位向定位转换6036#道岔定位无表示,16:45通知现场工区值班员xxx,及车间值班调度xx,现场工区值班员xx、防护员xx16:55到达现场,对设备进行检查发现6036#道岔因定位尖端杆销子旷动尖轨翘头(04-05已通知单通知工务)造成定位卡口,调整后17:06分处理完毕扳动试验良好。室内值班员xx17:45分接车务通知,调看微机发现6034/6038#道岔(ZD6复式交分道岔)反位向定位转换6036#道岔定位无表示, 17:46分通知现场工区值班员xxx及车间值班调度xx,现场工区值班员xx、防护员xx17:55分到达现场,对设备进行检查发现6036#道岔因定位尖端杆销子旷动尖轨翘头(04-05已通知单通知工务)造成定位卡口,调整后18:20分处理完毕扳动试验良好。”

有些值班员对道岔故障记录非常简单,如“4022/4026#定位向反位转换,4026#反位空转,车务扳动后,反位表示正常。下一天窗点检查处理。”文本篇幅的差异导致人工提取道岔的故障致因变得十分复杂。

1.3 文本数据中存在很多与道岔无关信息

文本数据中存在很多与道岔无关信息,如“车务板一个来回后恢复,下一个天窗整治。值班员xxx9:24接车务通知,调看微机发现218/224#(ZD6复式交分)道岔反位向定位转换222#定位无表示,9:26通知现场xxx及车间调度xx,现场值班员xx、防护员xx9:32到达现场对设备进行检查发现,尖轨爬行造成222#定位卡口,调整后9:55处理完毕,扳动试验良好。02-04已下发通知书。9:35车间干部xxx到现场落实处理情况。”有用信息只有“尖轨爬行导致卡缺口表示”这部分有用。

2 主要技术路线

文本挖掘技术是一门涉及统计学、自然语言学、机器学习等多个领域的知识。

利用NLPIR软件对文本数据进行处理的主要步骤为:①对所有需要研究的文本进行预处理,除去文本中一些没有意义的词例如“道岔型号”“记录员信息”“数据”和一些没有意义的虚词,这样就可以将文本数据转化成由简单词语组成的文本数据。②提取文本中的特征词可能会出现维数过大的现象,应对特征词进行降维处理。提取出只显示复式交分道岔故障致因相关的特征词。③计算每个文本中的特征词的含量并对其进行分析和处理。④计算出各个特征词出现的频率和次数,结合专家意见对特征词所对应的故障类别进行分析。

3 文本故障数据处理

3.1 软件介绍

NLPIR-ICTCLAS是一款大数据语义智能分析平台,针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘等技术。开发平台由多个中间组件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统中,可以实现信息精准采集、文档转换、新词发现、批量分词等功能。

3.2 文本数据处理

对预处理的文本故障数据进行预处理,将“道岔型号”“值班员信息”等干扰信息消除,只留下可以描述道岔故障的关键性词语,如表1所示。

表1 复式交分道岔空转故障部分文本数据预处理结果

空转表示杆连接销子错位 空转表示杆连接销子错位 空转表示杆连接部受到冲击 空转表示杆受杂物干扰 空转表示杆错位 空转表示杆蹭枕木 空转表示杆碰水泥枕尖轨爬行 空转表示杆销子碰轨底 空转表示杆移动受阻夹杂物 空转表示杆移动受阻碰枕木 空转岔根根部螺丝太紧 空转齿条块削尖齿缺油 空转道岔根部夹杂物

然后用NLPIR软件进行分词处理,以复式交分道岔空转部分处理结果为例,分词结果如表2所示。

表2 部分文本数据分词结果

复式交分道岔空转故障部分文本数据分词结果 滑床板 缺油 尖轨 翘头 滑床板 磨损严重 尖轨和基本轨 夹杂物 尖轨和基本轨 夹杂物 尖轨和基本轨 夹杂物 尖轨和基本轨 夹杂物 尖轨和基本轨 夹杂物 尖轨和基本轨 夹杂物 基本轨 夹杂物 尖轨与滑床板 夹杂物 基本轨 肥变大 基本轨

3.2.1 特征词提取

在NLPIR软件中进行特征词的提取,对其中“数字”进行删减,同时对特征词中表达相同意思的特征词进行合并,最后得到56个特征值,其结果如表3所示。

表3 特征词提取结果

1234567 1工务操作螺丝原因螺栓故障电流改道 2基本轨移动生锈运动移位水平爬行 3滑床板作业搬动压力打磨摩擦电流尖轨 4缺油动作枕木天气折断尖端杆杂物 5轨距固定垫板启动结冰磨耗改轨距 6连接杆受阻接点螺丝松动木头根部卡阻 7窜动摩擦空转肥边绝缘螺栓脱落磨损 8表示杆断裂销子轨撑道岔错位角钢

3.2.2 特征词在文本数据中的分析结果

以筛选得到的特征词,作为一个特征矩阵,生成的文件在NLPIR中被引用,对处理过的复式交分道岔的文本故障数据进行分析,得到特征词,通过NLPIR软件进行分析处理,在文本数据中所出现的频率和权重结果如图1所示。

3.2.3 对特征词出现频率进行分析

可以看出,可能引起复式交分道岔空转的故障类型有滑床板故障、基本轨故障、连接杆故障、表示杆故障、尖端杆故障等。

空转的故障原因有工务原因、结冰、天气、缺油、移动受阻等。在所有导致空转故障中,尖轨和基本轨所占比例较大,故障致因中杂物所导致故障发生的概率最高。

4 结论

本文以复式交分道岔空转故障为例,通过对文本数据进行预处理,采用NLPIR软件对处理后的文本进行分词处理并提取特征词,运用NLPIR软件对文本数据进行特征词分析,得出特征词在文本数据中出现的频率和权重。虽然不能对所有导致故障发生的原因和导致故障发生的部位进行预测,但是可以为后续故障诊断和可靠性分析等后续研究方案提供现实依据。

[1]张磊,王喆.基于铁路安全管理信息报告的文本挖掘技术研究[J].铁路计算机应用,2018,27(8):9-12.

[2]杨连报,李平,薛蕊,等.基于不平衡文本数据挖掘的铁路信号设备故障智能分类[J].铁道学报,2018,40(2):59-66.

[3]赵阳,徐田华.基于文本挖掘的高铁信号系统车载设备故障诊断[J].铁道学报,2015,37(8):53-59.

[4]梅馨,邢桂芬.文本挖掘技术综述[J].江苏大学学报(自然科学版),2003(5):72-76.

D923.41

A

10.15913/j.cnki.kjycx.2020.02.024

2095-6835(2020)02-0074-02

〔编辑:张思楠〕

猜你喜欢

值班员复式道岔
跨座式单轨交通折线型道岔平面线形设计与研究
有砟线路道岔运输及铺换一体化施工技术与方法
复式模版生物质颗粒成型机设计
基于地铁道岔故障的行车组织浅述
各式各样的复式条形统计图
珠海仁恒滨海中心复式样板房
试析如何提高变电站值班员的倒闸操作规范性
聚焦“复式教学”特点 精准支持教师发展
值班员的猴儿子
完善变电站值班员的倒闸操作规范性探讨