基于大数据技术的高铁运营安全规律分析系统设计与应用
2020-11-04刘彦军杨涛存武威刘庆猛王卫东
刘彦军, 杨涛存, 武威, 刘庆猛, 王卫东
(1. 中国铁道科学研究院集团有限公司铁路大数据研究与应用创新中心,北京 100081;2. 中国铁道科学研究院集团有限公司,北京 100081)
1 研究背景及数据概况
1.1 研究背景
近年来,物联网技术的不断成熟[1],促进传感器类数据的充分采集,信息技术的不断革新支撑海量数据不断积累,社会逐步进入数字化时代,数据驱动和赋能将会进一步促进创新发展,大数据的作用将进一步凸显。在铁路行业,针对海量数据的处理及应用,中国国家铁路集团有限公司构建了铁路大数据应用顶层设计[2],建设铁路一站式大数据平台——铁路数据服务平台[3],充分支撑数据汇集和大数据应用。
自2008年我国第1 条高速铁路开通以来,高铁建设和运营规模持续扩大,已经积累了大量高铁运营安全相关数据,这些数据体量大、分布广,数据类型多元化,如何充分运用大数据技术[4],有效管理、分析、挖掘已有的高铁运营数据,科学、有效地对运营状况和安全趋势做出阶段性评估总结,成为一个非常重要的课题。
因此,结合创新安全管理理念、夯实安全管理基础、健全安全生产责任制等安全管理思路和措施[5],围绕高铁运营安全分析相关需求,研究设计了高铁运营安全规律分析系统(简称安全规律分析系统),通过采集、整理高铁工务、电务、供电、移动装备等专业的安全相关数据,对其进行有效地分析挖掘,提炼涉及高铁运营安全的主要因素,利用交互式图表、多维度关联等可视化展现方法,直观展现安全运用现状和安全规律,充分支撑安全管理工作,提高安全管理水平。
1.2 数据概况
安全规律分析系统面向移动装备、工务、电务、供电、技术规章等专业的事故、故障和病害数据进行统一管理,数据主要来源于安监报、事故及故障统计、安全分析报告、检测监测系统等。数据内容涵盖安全生产信息、安全问题隐患、安全履职信息等涉及安全管理的多方面数据。数据类型以Excel报表和Word文档格式为主。安全规律分析系统相关数据见表1。
表1 安全规律分析系统相关数据列表
2 功能需求
2.1 结构化数据管理
与高铁运营安全相关的移动装备、工务、电务、供电等专业的事故、故障的结构化数据分别来源于不同的业务系统,这些业务系统数据根据所属主管单位的要求,需按照专业分类、系统分类进行管理,应满足如下需求:
(1)各专业对各自数据具有管理权限,不同专业的数据自动隔离;
(2)跨专业数据如需共享则通过授权的方式进行数据共享;
(3)针对故障、病害等数据提供手动录入或者接口自动对接的功能,能够实现数据的批量导入;
(4)支持按不同字段、不同检索条件快速查询、检索,实现授权后数据的在线浏览、查看、编辑等。
2.2 非结构化数据管理
与高铁运营安全相关的非结构化数据涉及到文本、图像、视频等多种类型文件格式,其中事故调查报告、认定书、技术规章等多以文本形式(doc、docx、txt)存储,车辆、基础设施、动车组行车等故障数据多以xls、xlsx 格式存储,现场的视频多以视频文件格式(mp4 等)存储,存储类型多样,结构复杂。因此,在非结构化数据管理的过程中,应该满足如下需求:
(1)实现针对文本、图像、视频、音频等文件的存储管理和在线处理,支持各类文件的在线打开和预览;
(2)利用标签化方式管理非结构化数据,在非结构化数据上传存储时,要求用户同时提供数据描述标签,设置专业、铁路局集团公司、线路、位置、事故类型、责任单位等多维度标签,便于多条件按需查询检索;
(3)实现按照专业的非结构化文件管理,各专业对其非结构化文件具有管理权限,跨专业的数据共享需通过授权实现。
2.3 数据分析
安全规律分析系统的构建需支撑针对海量结构化数据的分析计算功能,提供可用、易用、安全、稳定的数据分析环境和算法支撑,并满足以下需求:
(1)提供在线自主编程环境,以供具有科学计算基础的研究人员深入挖掘使用;
(2)提供拖拽式模型构建与算法分析工具,扩大人工智能用户范围,降低人工智能应用门槛;
(3)内嵌丰富的统计学方法,从繁杂、高维数据中进行数据特征的选择与准备,更好地选取待分析目标的强关联影响因素;
(4)封装业界常用经典算法,研发多种适用度高的专有算法,涵盖数据分析、机器学习、深度学习等不同难度的AI算法。
2.4 文本分析
文本类数据是高铁运营安全相关数据中的一类重要数据,系统中存在大量文本类数据,涵盖了工务、电务、供电、移动装备、技术规章、安全监督等业务,数据主要来源于安监报、铁路局集团公司的人工表统计、事故分析报告等。既有方法处理文本数据时,采用人工阅读提取信息的方式,耗费大量时间精力。由于文本数据高度序列化,且文档具有结构一致性,所以适用于使用基于深度神经网络框架下的人工智能自然语言处理模型进行文本数据自动化智能分析。因此,在安全规律分析系统设计和开发的过程中,应满足文本分析的以下需求:
(1)文本获取。从非结构化文件管理处获取文本文件功能。
(2)文本标注。提供在线的文本标注功能,支持自定义标注任务、标注标签和命名实体标注。
(3)文本分析。支持文本分析的算法编写和文本分析。
(4)结果推送。支持将分析结果推送报告或推送至数据可视化进行展现。
2.5 数据可视化
数据可视化功能对各专业关注的重点事故、故障,重点病害类型,重点区段进行可视化展示,实现高铁运营安全规律分析报告的动态数据图表,并提供交互分析功能。应满足如下需求:
(1)支持自助化构建可视化案例,通过拖拽和编写SQL设计可视化图表。
(2)支持多种数据来源,如数据库、文件、铁路数据服务平台、数据接口等;同时支持多源数据在同一分析模型或场景中分析与展示。
(3)支持图表更新,在数据更新后支持图表展现的更新。
(4)支持可视化案例的共享。
2.6 用户中心
提供用户管理、角色管理的功能。角色管理可以配置相关的基础角色,并赋予相应的菜单权限;用户管理可以新增、删除、修改用户,并为用户赋予相应角色。组织机构管理系统支持组织机构的增、删、改、查。
3 系统架构
3.1 总体架构
安全规律分析系统的总体架构见图1,系统将各类业务数据源的事故数据和故障数据通过数据集成层接入铁路数据服务平台进行数据存储,在平台开展结构化、非结构化数据管理。针对非结构化数据开展标注和文本分析工作,针对结构化数据开展数据分析和挖掘,并将分析结果通过可视化模块进行数据展示,分析的相关结果可以充分支撑各专业的安全规律分析工作。
图1 安全规律分析系统总体架构
(1)数据源层。主要提供铁路移动装备、工务、电务、供电等专业对安全规律分析系统的事故数据和故障数据。
(2)数据集成层。主要针对数据源层提供的数据同步、数据清洗、数据格式转换,可采用数据集成ETL工具通过托拉拽的方式进行采集任务配置,也可通过推送数据到消息队列、数据上传及采用调用REST 接口的方式进行数据集成。
(3)数据存储层。主要对高铁运营过程中产生的数据进行有效地采集、转换、整合、存储,同时完成包括数据质量管理、生命周期管理、标准和规范管理等一系列数据管理工作,其目的在于保障高质量的数据结果、协调不同数据应用之间的可共享性、统一性、规范性和有效性。
(4)功能服务层。以安全规律分析系统的操作界面为依托,对用户提供结构化数据、非结构化数据管理、数据分析、文本分析、可视化、用户中心等一系列功能及服务。
3.2 功能架构
安全规律分析系统面向高铁运营安全相关数据的管理和分析,提供结构化数据管理、非结构化数据管理、文本分析、可视化、数据分析、用户中心等功能,推动开展高铁运营安全数据治理规范化研究,支撑高铁事故、故障各类致因的分析挖掘,探索发现安全规律,为健全完善我国高铁安全风险管控提供决策依据。高铁运营安全规律分析系统功能架构见图2。
图2 高铁运营安全规律分析系统功能架构
其中,结构化数据管理功能提供对移动装备、工务、电务、供电、事故和故障的结构化数据进行管理的功能,提供数据的增、删、改、查。非结构化数据管理针对移动装备、工务、电务、供电、规章等专业的非结构化数据进行管理,提供数据分类、标记、查询、预览等功能,支持文本、图像、视频、音频等类型的数据,满足在线文件预览、播放要求,相关的文本文件能够为文本分析提供数据支撑。
文本分析模块提供在线文本标注功能,能够自定义标注标签,同时针对标注的数据,能够实现文本分析,将文本内容知识化[6],针对事故、故障文本进行特征提取[7],挖掘文本相关数据的隐含规律,并通过可视化模块进行数据展现。
数据可视化提供用户自行设计可视化图表的功能,用户可自行配置数据源,按照需要显示的数据配置字段或SQL语句,实现可视化效果。
数据分析提供自助分析和挖掘建模等功能,通过拖拽式或代码行的方式实现数据分析。
用户中心提供用户管理和角色管理的功能。角色管理可以配置相关的基础角色,并赋予相应的菜单权限;用户管理可以新增、删除、修改用户,并为用户赋予相应角色。
3.3 技术架构
高铁运营安全规律分析系统的技术架构设计面向业务应用需求,依托铁路数据服务平台的大数据处理分析能力和安全策略[8],有效支撑数据管理、分析和可视化,为业务应用提供各类服务支撑。
铁路数据服务平台通过多类型(结构化、半结构化、非结构化)数据采集方式,实现业务数据采集到铁路数据服务平台,并且基于铁路数据服务平台提供的数据存储服务接口(操作型数据存储、非结构化数据存储、数据仓库)、数据分析服务接口(图计算框架、分布式计算框架、机器学习框架等)、数据共享接口、数据可视化接口等,为安全规律分析系统提供数据共享、数据分析、数据可视化服务等服务能力支撑和数据接口支持,满足各业务应用的数据使用和数据处理需求,支持海量数据的处理和计算,为安全数据的挖掘分析奠定技术基础。高铁运营安全规律分析系统技术架构见图3。
图3 安全规律分析系统技术架构
4 系统功能
安全规律分析系统面向高铁运营安全相关数据的管理和分析,目前已陆续接入移动装备、工务、电务、供电等专业的各类数据,并结合业务场景进行数据分析和可视化应用,对于支撑数据分析、发现安全规律具有重要作用。
(1)结构化数据管理功能。具有对移动装备、工务、电务、供电、事故等数据进行管理的功能,提供模板下载、数据导入、数据维护、检索等功能操作,实现结构化数据管理。
(2)非结构化数据管理功能。支持多种类型的非结构化数据上传,提供标签化方式管理非结构化数据,能够为上传的数据添加标签,支持对文件名和标签的检索。并且支持非结构化数据在线预览功能,主要数据格式包括Word、Excel、PDF 及TXT 文件,另外图像、视频也支持在线预览和播放。
(3)数据分析功能。提供数据挖掘建模的功能,提供机器学习开发、统计建模和在线编程开发的功能,能够实现数据的在线分析和训练。数据分析界面见图4。
图4 数据分析界面
(4)文本分析功能。提供文本文件加载、标注等功能,支持从非结构化文件管理模块读取文本文件并标注分析。
(5)数据可视化功能。支持用户可自行配置数据源,通过拖拽方式构建可视化样式和维度,自行编写SQL语句设计可视化效果[9]。
(6)用户中心功能。提供组织机构管理、用户管理和角色管理的功能。角色管理可以配置相关的基础角色,并赋予相应的菜单权限;用户管理可以新增、删除、修改用户,并为用户赋予相应角色。
5 应用实例
应用安全规律分析系统,可以便捷地开展数据分析和可视化工作,如应用安监报信息进行高速铁路电务设备故障数据分析时,可利用结构化数据管理中的结构化数据表快速加载电务设备故障数据;结合交互式可视化工具,通过拖拽式数据报表,快速实现年度故障数量变化趋势、故障类别占比等分析;结合电务专业业务理论,可得出高铁电务设备故障率基本趋势和分布规律。
又如,在供电故障数据分析过程中,计算断电区间长度是一项重要工作,计算断电区间长度需要从文本类故障数据中用人工整理的方式完成,耗费大量时间。利用安全规律分析系统文本分析功能,对故障数据进行分词提取,提取特征向量,再利用数据分析模块进行特征工程建模,结合正则表达式及模式匹配等技术,建立一个有限状态机匹配模型(见图5),快速定位关键词位置,挖掘关联关系,自动、快速、准确地提取出故障区间起始点与结束点等关键特征信息,实现非结构化文本转化为结构化数据,大幅提升工作效率。
6 结束语
大数据时代的到来,改变了传统高铁安全事故数据和故障数据分析的工作模式。基于先进的大数据处理技术和工具,构建高铁运营安全规律分析系统是一种新的解决思路。研究基于大数据技术设计与实现高速铁路运营安全规律分析系统,通过对高铁事故、故障以及相关数据进行安全统一管理,为数据的长期积累提供安全、稳定的系统支撑;同时系统支持数据分析人员进行各类数据在线处理、数据挖掘和自助交互式分析,为持续开展研究工作和成果积累提供便捷高效的工作平台;系统通过对数据统计分析、指数和模型计算的集成,实现各专业数据分析结果的动态数据图表,为安全规律分析的数据报告发布提供丰富的可视化呈现方式。根据高铁运营安全管理的需要,随着数据的持续积累、指数模型等的不断修正完善,系统支持定期或随机进行数据查询、计算、导出以及数据发布,对基于大数据的安全运营决策具有重要意义,也是高铁运营安全数字化、智能化的发展方向。
图5 供电故障断电区间提取数据分析实例流程图