文本大数据分析技术在铁路行车安全领域的应用研究
2019-09-10桑炜
桑炜
摘要:现如今,我国的铁路建设越来越多,同时铁路的安全被十分重视,保障铁路行车安全是铁路工作的重点,通过铁路事故调查报告等文本数据对事故原因进行分析,是提高铁路行车安全的重要手段之一。但由于铁路系统存在海量的非结构化事故故障文本数据,难以进行有效检索和分析,因此提出铁路行车安全领域文本大数据分析总体框架,包括文本数据从集成、存储到处理、计算,再到检索、分析及应用的全部流程,并对基于铁路领域文本数据的全文检索、特征提取等文本大数据分析关键技术进行研究。最后以某铁路局集团公司的事故故障追踪报告为样本,进行事故故障报告的全文检索、故障词云展示及关联性分析,取得了良好效果。
关键词:大数据;非结构化;行车安全;事故故障;全文检索;文本挖掘
引言
随着铁路信息化的不断发展,已相继建成车、机、工、电、辆等各专业安全监测/监控系统近60余个,产生和存储了PB级的文本、图纸、视频、圖像、声音等多种类型的监控/监测数据。铁路安全领域迎来了大数据时代,由于传统数据库无法对这些海量的数据资源进行有效的利用,从而使这些数据占据了大量的存储空间而不能被挖掘使用,造成了数据资源的浪费。伴随着大数据技术的快速发展,针对海量数据的存储、分析和可视化展示等问题,出现了新的技术来支撑,例如:分布式文件存储、并行处理等。铁路运输安全是一个复杂的安全系统工程,其故障(事故)之间存在着相关关联、相互影响的耦合关系。通过运用大数据分析技术不仅可以对海量的历史数据进行学习和挖掘,从而预测安全风险发现事故规律和事故间的相关关系,对高实时性要求的监控数据进行实时在线分析,提高预警水平。
1文本大数据分析总体框架
1.1铁路事故故障知识图谱技术
铁路事故故障知识图谱主要是构建有关事故故障实体、概念和关系的铁路行业知识库,以便于进行事故故障的查询、分析和推理等。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。KG是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。为了提高搜索引擎的能力和搜索体验,Google于2012年5月正式提出。随着人工智能的长足发展和普及,作为人工智能关键技术的知识图谱的应用越来越广泛,例如在基于知识图谱的智能搜索、基于知识图谱的智能语音问答、基于知识图谱的语义分析和基于知识谱图的个性化推荐等。
1.2文本数据处理
文本数据处理包括本体库构建、命名实体识别、文本向量表示和中文分词等技术,是文本分析挖掘的重要步骤。本体库构建是指对所研究的领域建立统一的对象模型框架,之后所有的分析都基于这个框架进行;命名实体识别是指对文本中具有特定意义的实体进行识别,包括人名、地名、机构名等;文本向量表示是指通过某些方法把文本数据向量化,转化为向量形式的标识,从而便于之后各类分析方法的计算;中文分词是指根据相应领域的字典并利用分词工具将连续的文本内容切分为单独的中文词汇的过程。
2文本大数据分析关键技术
2.1基于ElasticSearch的事故故障文本全文检索技术
为实现铁路非结构化文本大数据的分析挖掘,首先要实现非结构化文本的分布式存储和全文检索。分布式存储是应用分布式文件系统,实现非结构化文本动态可扩展的存储。EelasticSearch(ES)通过集群提供分布式全文检索,1个ES集群可以由多个节点组成,可动态增加。ES各节点之间通过唯一的集群名字进行识别,默认的集群名字为“EelasticSearch”,集群名字可通过elasticsearch.yml文件进行配置。ES采用去中心化节点架构,即各节点平等,可任意选1个节点为主节点。ES各节点之间通过TCP协议进行集群交互,并通过RestfulAPI接口为其他应用提供服务。ES需建立索引(Indices),实现文档(Document)集合的统一存储和查询。1个索引内可以定义1种或多种类型(Type),1种类型下可以设置多个字段(Field)以便于检索。同时ES为了提高性能和吞吐量,对索引进行分片(Shard),默认1个索引分为5个分片(R0—R4),分布在不同的节点上,同时通过复制(Replica)分片实现高可用性,以防止节点/分片出现故障。基于ES的中文文本全文检索主要包括文本提取、中文分词、索引建立与检索等过程。其中中文分词技术是实现中文文本全文检索的基础;索引建立是实现中文分词后数据转化为索引文件的过程,主要利用的技术为倒排索引;检索过程是对要检索内容进行中文分词后,根据索引文件找到所检索文档的过程。
2.2融合铁路领域词典的中文分词
铁路事故故障文本分布式全文检索的首要和基础工作是实现事故故障文本的分词。中文分词不同于英文分词,中文词语之间没有空格标记进行分割。不同的上下文环境、不同的词语组合和不完备的语料库造成了中文分词的歧义。尤其针对铁路领域的中文分词,由于缺乏行业领域的语料库,铁路专业术语无法实现有效的识别。同时铁路行业的事故故障描述不一,为铁路事故故障文本分词带来更大的挑战。例如“轨道电路红光带”、“轨道区段红光带”、“红光带”等描述的是一种故障,但是在文本文档中不同人员的描述不一致,造成了同一种故障但是由多种词语进行描述,如果严格按照中文分词就出现了3种不同的故障,为文本检索和分析造成了困难。同时铁路行业缺乏语料库,对于事故故障命名实体没有统一的规范,造成事故故障文本中事故故障名称无法识别。
2.3融合文本结构及正则表达式的特征提取
铁路事故故障报告全文检索实现了对文本信息的有效存储和搜索。结合文本挖掘的分类、预测和相关性分析等,可以挖掘铁路事故故障发生规律,指导现场人员对重点事故故障进行防范,保障铁路安全运行。铁路事故故障报告的基本格式有标题、概述、调查过程、原因分析、定性定责和措施及要求等六大部分。本文采用基于段落格式及正则表达式的文本特征提取。即通过正则表达式找到相应的段落,然后对重点段落的内容进行中文分词和特征提取,提取时需要和事故故障词库、事故地点词库等专业词库进行匹配,若专业词库中存在则直接提取,若专业词库中不存在,需要根据正则表达式依据语法结构进行截取。
2.4铁路设备安全风险评估
基于大数据技术进行铁路设备安全风险评估应构建2个层面:(1)基于设备故障特征和故障模式的设备安全风险评估方法,根据设备故障诊断结果,对故障特征和故障模式进行数字化表达,建立设备的特征、模式与故障特征、故障模式的距离函数来度量设备状态与标准故障状态的相似程度,距离函数的值越小,则设备安全风险越高。(2)基于设备健康状态的设备安全风险评估,根据设备当前的状态数据,划分不同的安全风险等级,设备状态越差,其安全风险等级则越高。
结语
基于铁路大数据技术,研究提出铁路行车安全领域文本大数据分析总体框架,介绍全文检索技术、中文分词技术、文本检索模型、文本特征提取与挖掘技术等文本大数据分析关键技术。通过在某铁路局集团公司进行试点应用,实现了分布式存储、近实时全文检索、多发事故故障词云展示和事故故障关联关系分析,取得良好效果,研究成果可为铁路相关业务领域的文本大数据分析提供参考。
参考文献:
[1] 王同军.中国铁路大数据应用顶层设计研究与实践[J].中国铁路,2017(1):8-16.
[2] 中华人民共和国铁道部.铁路交通事故调查处理规则:铁道部令第30号[S],2007.
[3] 黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19.
(作者单位:湖南高速铁路职业技术学院)