铁路运输安全监督管理大数据应用研究
2021-04-07佘振国关则彬
佘振国,宁 静,周 豆,关则彬
(中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)
随着铁路安全监督管理信息化的逐步深入,铁路信息系统建设覆盖了事故调查处理、安全风险管理、应急救援、干部安全履职等各项安全管理业务,为铁路安全监督管理业务的开展提供强有力的支撑[1]。但由于各应用系统分散建设,信息孤岛众多,信息共享困难,资源综合利用水平不高。特别是经过多年系统运用,积累了海量的历史数据,由于缺乏有效的技术手段及方法,大量有价值的信息难以挖掘和应用。
在大数据时代来临之际,铁路运输安全运行和管理决策越来越依赖于数据分析,而数据来源的维度和深度直接影响了数据分析的结果[2],本文通过对大数据技术研究和安全管理应用实践,提出铁路运输安全监督管理大数据应用(简称:安监大数据应用)的建设方案,以实现铁路安全监督管理工作手段的创新,提高安全管理人员的监管效能。
1 技术方案
1.1 建设目标
(1)基于铁路安全监督管理的业务需要,采用大数据和可视化技术,通过开展铁路安全监督管理相关数据的规范汇集,提出安监大数据应用的总体技术方案,并开发原型应用系统;
(2)构建“大数据、大支撑、大安全”的安监大数据应用示范,逐步实现分级掌握整体安全状态、便捷分析事故发展趋势、安全风险预警、科学安全状态评价和充分挖掘利用文本数据价值;
(3)创新铁路安全监督管理工作手段,辅助安全管理决策,提升安全监管效能[3]。
1.2 总体架构
基于大数据技术,利用铁路内部服务网,依托中国国家铁路集团有限公司(简称:国铁集团)主数据中心的铁路数据服务平台,部署安监大数据应用。集成铁路安全监督管理信息系统、铁路局安全管理信息系统、铁路局安全风险管理信息系统等相关系统的数据,支撑国铁集团、铁路局集团公司,实现安全规律分析、安全状态评价和安全风险预警等应用。安监大数据应用总体架构如图1 所示[4-5]。
安监大数据应用采用“一级部署,两级应用”的策略,支撑国铁集团和铁路局集团公司两级用户终端的业务访问及应用需要。建立完整的企业级安监大数据处理与应用环境,实现安监大数据应用的数据集成、数据存储与分析、数据共享。
图1 安监大数据应用总体架构
1.3 数据集成
安监大数据应用需要集成的数据主要包括铁路安全监督管理信息系统、铁路局安全管理信息系统、铁路局安全风险管理信息系统、专业检测监测系统、专业设备检修管理系统、铁路主数据服务平台、运输集成平台及其他相关信息系统的信息,数据接口如图2 所示,接口数据总体构成如表1 所示。
2 主要功能
安监大数据应用的功能架构如图3 所示。
2.1 安全规律分析
(1)事故辅助分析
图2 安监大数据应用接口示意
表1 安监大数据应用接口列表
图3 安监大数据应用功能架构
运用大数据文本分析技术,通过对非结构化的事故概况信息进行智能匹配,精准挖掘历史同类事故案例,为事故调查处理提供辅助参考。同时,对历史事故的调查报告进行格式化处理,对同类事故的原因进行挖掘分析,进一步精准地指导事故原因分析。
(2)事故故障专题分析
对高铁或重点线路等重点关注对象的铁路交通事故信息进行分布、趋势、同比、环比等多维度、多层级的专题分析,包括各铁路局集团公司事故分布、高铁行车类事故分布、高铁行车类事故发展趋势、全路事故同期对比、全路事故各集团公司对比、事故按性质排序等功能模块。
(3)事故趋势分析
利用时间序列事故预测模型,从多角度对事故进行预测分析,结合历史统计结果展示事故发生、发展趋势。
(4)事故关联分析
基于关联分析模型,挖掘典型事故特征与事故之间的关联关系;通过可视化手段,展现一定范围内事故主要属性特征之间的关联规则,提示用户哪些是多发事故的关键属性,在事故发生时哪些属性同时出现的概率较大,需要重点关注;提供按自然月、季度、年度、事故类型、专业、线路类型的关联分析。
(5)外部环境隐患分析
对导致事故的铁路范围外安全隐患进行统计分析,实现突出性、规律性因素预警和趋势分析。
2.2 安全状态评价
(1)运输企业安全状态评价
参照国铁集团、铁路局集团公司安全考核管理办法,建立针对铁路局集团公司、站段的安全评价标准,基于综合评判的安全状态评价模型,综合事故、故障、隐患等安全信息,同时考虑各运输企业运量、管辖范围等差异,定期给出各铁路局集团公司和各站段安全状态画像[6]。
(2)专业安全状态评价
建立针对专业的安全评价标准,基于综合评判的安全状态评价模型,综合事故、故障、隐患等安全信息,定期给出各专业的安全状态评价。
2.3 安全风险预警
(1)设备风险评价
基于设备设施故障类风险评价模型,通过数据接入和人工录入的方式采集评价模型相关数据,得到设备设施风险项点的风险值,展示评价结果[7]。
(2)作业风险评价
根据不同作业过程制定生产作业类风险评价模型,将某项作业作为评价对象,对其风险实施定性和定量评价。
(3)风险预警
按照风险库层次,实现风险库一级(人员、设备、环境)、二级、三级突出风险点预警;按照风险预警标准,对超限、频发、持续发生的、呈上升趋势的风险项点进行预警提示;由局部安全风险分析得到设备设施和生产作业的整体风险值,从而进行预警提示[8]。
(4)风险规律分析
依据铁路运输安全隐患排查登记信息和风险检查写实对安全风险的检查情况,统计风险检查在各单位、线路区段等区域的覆盖率。提供重点区域、重点时间、专项检查等主题的风险规律和趋势分析[9]。
3 关键技术
3.1 自然语言处理与文本分析
(1)铁路事故故障全文检索技术。面向事故调查报告文本,进行全文内容的搜索,利用倒排索引的方式存储文本信息,并通过自然语言处理技术对原始文本和检索文本进行分词、词频统计、语义计算、相似度计算等,按照相关度排序将检索结果呈现出来。
(2)基于深度学习的铁路事故故障命名实体识别技术。通过命名实体识别技术提取事故故障文本中有关事故故障名称、地点、原因、维修措施等铁路事故故障特征[10]。
(3)不平衡事故故障文本分类技术。铁路设备类型众多且各设备故障机理不同,存在故障类别数据不平衡的问题,即绝大多数的文本属于同一类故障,而其他故障只有少量的文本。本文从数据和算法两方面来解决数据不平衡问题。数据层面主要通过更改数据集的样本分布来实现数据的平衡,算法层面主要通过训练多个分类器,利用分类器的差异性,通过Voting 方式实现不同分类器的集成学习。
(4)事故故障关联分析与智能推荐技术。主要是分析铁路事故故障之间、事故故障与原因之间的关联关系,并实现事故故障和原因的智能推荐。
3.2 事故特征关联分析
从事故调查处理样本数据中选取安全管理中比较关注、录入较规范的34 个属性字段,对样本数据进行完整性、合法性、规范性等方面的校验和处理。结合事故数据的特点,对Apriori 关联规则挖掘算法进行适应性修改,分析得到一段时期内发生的事故关键属性的关联性,为事故故障调查分析和有效防控提供技术支持。
3.3 铁路安全风险量化评价模型
基于保护层分析理论,提出铁路行车设备故障风险量化评价模型,使用初始事件频率、后果严重程度和独立保护层失效频率的数量级大小来计算表征场景的风险,为风险预警分析和精细化分级管控提供支持。某类设备故障造成危害的风险值计算公式如下:
受诸多因素影响,从历史统计数据得到,由影响因素修正为:。
其中,参数E1为系统或操作不连续时的实际运行时间,针对设备故障类则指已使用年限;参数E2为是否正常按规定维修养护,如维修养护计划兑现率等;参数E3为设备使用程度,如重载、客货混跑、客运等需给予相应的权重;参数E4为设备使用环境恶劣程度,如在冰冻、雨雪、风沙等环境中运用的应给予相应的权重。
4 结束语
大数据技术的应用显著提升了数据资源的统一管理、综合分析和共享共用,针对铁路安全管理系统建设和数据应用现状,以及铁路安全监督管理数据综合分析的应用需求,本文研究设计了铁路运输安全监督管理大数据应用技术方案,集成事故、故障、隐患、风险等安全管理数据,运用自然语言处理与文本分析技术对历史事故调查报告进行格式化处理,提取同类事故原因特征信息,辅助新发事故调查,采用事故特征关联分析模型,发现事故关键属性的关联规律,基于保护层分析提出风险量化评价模型对设备故障类风险进行度量,推动了安全监督管理工作的科学化、精细化、智能化创新发展。今后,要结合安全监督管理业务应用场景需要,进一步挖掘数据的潜在价值,扩展风险量化模型的适用性,提升铁路安全监督管理大数据综合应用能力。