高铁运营安全规律分析数据治理及应用
2020-12-17武威刘庆猛杨涛存刘彦军张晓栋徐贵红
武威, 刘庆猛, 杨涛存, 刘彦军, 张晓栋, 徐贵红
(中国铁道科学研究院集团有限公司铁路大数据研究与应用创新中心,北京 100081)
0 引言
随着我国高铁覆盖范围不断扩大、运营距离和跨度不断增加,对于轨道、动车组、接触网等设备安全性和可靠性的要求也不断提高,而自然灾害等影响也加大了风险管控的难度。高铁运营安全是一个庞大且复杂的系统工程,各业务工种间需要有条不紊地配合工作,以保证高铁安全有序运行。目前,在高铁运营中已积累了与运营安全相关的设备状态、检测监测等海量数据,数据来源为铁路车辆、轨道、接触网、信号机等各类传感器和信息系统,其结构复杂、类型多样,能全面反映铁路运行的时空信息和安全状态。如何有效治理高铁运营安全相关数据,支撑安全规律分析和应用,充分保障运输安全,是大数据时代充分发挥数据作用的重要因素。
近年来,中国国家铁路集团有限公司(简称国铁集团)陆续发布《铁路信息化总体规划》和《铁路大数据应用实施方案》,构建了铁路大数据应用顶层设计[1],规划了铁路大数据的基础设施体系、汇集体系、治理体系、分析体系、应用体系,对铁路大数据的治理和应用提供了指导。高铁运营安全相关数据治理以统一数据标准、提升数据质量、促进数据共享、保障数据安全等为目标,通过形成规范的数据治理框架,充分有效地治理海量数据,全面支撑安全规律分析应用,对于科学发现、认识和把握高铁运营安全规律,全面提升高铁运营安全管理水平具有重要意义。
1 数据治理现状
根据国际数据管理协会(DAMA)的定义,数据治理是指对数据资产管理行使权力和控制的活动集合(规划、监控和执行)[2]。国际标准研究报告《数据治理白皮书》指出,数据治理是在数据产生价值的过程中,治理团队对其评价、指导、控制的过程,并提出“互联网+”时代大数据的治理需求、治理模型和治理框架[3];国家标准《数据治理规范》提出了面向中国的数据治理规范,完善了国际数据治理标准的框架,提升了标准的适用性,在数据治理实施的方法论和应用落地等方面进行了创新[4]。在大数据环境下,大量半结构化和非结构化数据增加了数据治理难度,数据质量管控和数据安全的迫切需求也日益凸显,从而逐渐形成面向大数据的数据治理架构[5];安小米等[6]提出更具通用性的大数据治理体系构建方法论框架,在综合集成大数据治理体系构建方法论要素的基础上,利用戴明环(PDCA)理论对当前大数据治理体系构建方法论进行修正和补充。
在铁路数据治理方面,邹丹等[7]提出构建铁路大数据治理体系,并描述了体系的组成部分及各部分作用,对于各研究方向开展铁路大数据治理具有指导意义。铁路数据服务平台的建设,为海量数据的汇集、存储、治理提供了通用的基础环境,构建了一站式大数据处理分析能力,为数据治理提供了技术平台条件。
高铁运营安全相关数据涉及移动装备、工务、电务、供电、技术规章等研究方向近10年的事故、故障数据。其中,事故数据多为文本数据,作为非结构化数据进行存储和管理。故障数据覆盖移动装备、工务、电务、供电等研究方向,数据结构复杂、类型多样,且不同研究方向之间存在数据规范和格式不统一、内容不完整、有效信息挖掘不便、数据质量参差不齐、基础台账信息不一致等问题,需要通过数据治理解决。因此,结合高铁运营数据现状,梳理数据治理目标、内容、措施,并对其进行治理分析,以支撑高铁运营安全规律分析应用。
2 数据治理内容
高铁运营安全相关数据治理主要包括以下内容:
(1)制定有针对性的数据治理目标,解决实际存在的问题,促进数据价值的发掘;
(2)确定数据治理的对象,针对元数据、主数据、数据质量、数据安全等开展治理;
(3)确定数据治理需要落实的各项措施,确定组织、制度和方法,保障数据治理工作顺利开展。
统筹以上治理内容,形成面向高铁运营安全规律分析的数据治理框架(见图1)。
图1 数据治理框架示意图
2.1 目标
高铁运营安全相关数据治理目标是形成管理有序、安全可控、统一规范的数据资源,支撑数据共享和各研究方向安全规律分析应用,解决跨部门、跨系统的高铁运营安全相关数据的共享和治理难题。
“管理有序”指在大数据环境下开展数据治理工作,针对治理过程中各方参与人职责划分的需要,形成管理有序的数据治理团队和相应的大数据管理制度及规范,推动数据治理工作持续进行;“安全可控”指全面考虑在数据治理过程中的数据风险和数据安全;“统一规范”指针对存在的数据质量问题,开发或利用相关数据治理工具,构建统一、规范的数据资源,为不同研究方向之间的数据共享和融合分析奠定基础,支撑高铁运营安全规律分析工作。
2.2 对象
2.2.1 元数据
元数据是用于描述数据的数据,对数据及信息资源进行描述。元数据管理贯穿于数据治理工作的始终,表征了数据的定义、结构、更新时间、备注等各类信息。在元数据管理过程中,需梳理元数据模型,形成概念模型、逻辑模型和物理模型,记录数据在变化和流转过程中的元数据信息,并通过血缘关系、影响度关系进行管理和呈现,同时管理元数据的变更情况,实现数据可追溯,清晰掌握数据间的关系。
在高铁运营数据的元数据管理方面,针对元数据进行统一管理,如不同铁路局集团公司的铁路供电远程监控数据来自不同研发单位的系统,元数据信息不尽相同,将表征相同数据内容的元数据进行关联整合,形成统一的元数据结构和关联关系。
2.2.2 主数据
主数据是用于定义企业业务实体的基础数据,具有变化频率低、共享程度高等特点。主数据分散于各业务系统中,被各业务系统频繁使用,对于系统运行和数据挖掘具有非常重要的作用。目前,国铁集团铁路主数据管理平台已对固定设备类、移动装备类、运输产品类、物资设备类、人员机构类5大类共42项主数据进行管理,其中包括车站主数据、线路主数据等公用基础数据,并提供面向全路的统一主数据服务。
在高铁运营安全相关数据治理的过程中,要加强对与安全业务相关的各项主数据的梳理,围绕安全管理相关业务流程涉及的数据进行梳理和管理,针对主数据进行筛选、确权,不断形成内容权威、管理规范、更新及时的铁路主数据,不断规范铁路各业务系统的主数据使用,提升主数据管理和利用水平。
2.2.3 数据质量
数据质量是表征数据对于数据应用需求的满足程度。数据质量管理是指对数据从计划、获取、存储、共享、维护、应用、消亡的全生命周期各阶段可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平,进一步提高数据质量[8]。数据质量提升是数据治理工作的重要目标之一,在大数据时代,要充分发挥数据价值,就必须不断提升数据质量,提高数据利用率。
在高铁运营安全相关的事故、故障数据方面,存在数据缺失、异常、不一致、不完整等问题,通过识别数据问题并进行有效的数据清洗和治理,可保证数据的完整性、有效性、准确性、一致性和时效性。
2.2.4 数据标准
数据标准涉及数据标准化和形成数据标准规范的过程。在数据治理过程中,通过理解数据标准化的需求,利用既有数据标准进行数据规范;同时,利用既有业务数据形成新的数据标准,去约束其他数据,提升数据规范性和质量。
2.2.5 数据安全
数据安全指数据的完整性、可用性和保密性不受到信息泄漏、非法篡改等安全威胁的影响。在高铁运营中,动车组、轨道、接触网等设备的检测监测数据具有极强的安全性和保密性需求,因此在数据治理过程中,需确定数据的分类分级,针对相应数据进行加密、脱敏[9],根据数据典型特征,给予安全的数据存储方式、计算环境和数据安全策略[10],评估数据的安全风险,确保数据治理过程中数据的安全性。
2.3 措施
2.3.1 组织保障
统筹系统开发方、维护方、拥有方、使用方等参与协作,各方都将数据治理工作作为一项长久且重要的工作看待,并制定有效的组织机构,明确分工,推动数据治理工作顺利进行。
2.3.2 制度保障
按照数据治理要求制定相应的数据标准和管理规范,规范治理标准和安全管理制度,制定各研究方向安全数据接入规范,明确相关系统的数据接入内容、接入方式、更新方式等,支撑跨系统间数据的融合。
2.3.3 方法保障
利用数据建模方法论,构建数据概念模型、逻辑模型和物理模型,形成主题域和专题库,重点关注元数据管理、主数据管理、数据质量管理、数据安全管理、数据标准管理等治理内容,逐步分研究方向进行数据梳理,建设相应数据目录,实施数据分类分级,同时利用数据清洗技术清除重复数据、填充缺失数据、消除噪声数据,同时针对数据治理后的效果进行评估,对数据质量合格率、数据共享率、数据使用情况等量化指标进行深入分析,不断改进数据治理方法,提升数据治理效果。
2.3.4 技术保障
利用技术措施支撑数据治理组织机构的落实和治理方法的实施,形成支撑数据治理工作的技术平台,实现高铁运营安全相关数据的集中管理和有效整合,完成数据治理工作全流程的落地和管理,支撑数据共享和安全规律分析应用。
3 数据治理实施
3.1 组织构建
面向高铁运营安全规律分析的数据治理组织架构由决策层、管理层、执行层构成(见图2)。
图2 数据治理组织架构示意图
(1)决策层。由安全规律分析工作组组成,负责制定不同阶段安全规律分析业务的方向和任务,指导建立数据治理的目标。
(2)管理层。由数据专家、业务专家和各研究方向负责人组成的数据治理工作组构成,针对数据治理的内容进行标准化指导和管理,包括元数据管理、主数据管理、数据标准管理、数据质量管理和数据安全管理。
(3)执行层。由具体研究方向相关的系统开发、数据分析、数据管理等人员组成,负责具体研究方向数据治理工作的落实和数据治理目标的达成。
3.2 制度确立
依据形成的组织架构,确定各方组织和参与人员的工作职责和工作目标,形成数据治理工作办法。同时,针对数据治理的核心内容,如元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等,制定专业化的数据实施方案,指导数据治理工作的推进。
3.3 技术支撑
面向高铁运营安全相关数据的治理和分析,利用铁路数据服务平台和高铁运营安全规律分析系统,作为“平台+应用”服务模式的创新落地,铁路数据服务平台提供基础的数据存储、共享、计算能力,支撑了以文件和接口方式的数据汇集,高铁运营安全规律分析系统提供结构化数据管理、非结构化数据管理、文本分析、数据分析、可视化、用户管理等功能,实现了高铁运营安全相关数据治理的集中统一管理,有效支撑高铁运营安全规律分析工作中对各研究方向数据的挖掘分析。
4 数据治理应用
以高铁运营安全规律分析为例,构建高铁运营安全相关数据治理流程(见图3)。
图3 数据治理流程示意图
4.1 数据接入
通过接入安全监督管理系统、动车组管理信息系统、AMIS系统等各类业务系统的数据,利用铁路数据服务平台的存储资源存储各类结构化数据和非结构化数据,同时开展数据治理工作。
4.2 数据质量稽核与数据模型管理
在数据贴源区对于结构化数据梳理其元数据特征和关联关系,构建数据概念模型、逻辑模型和物理模型,同时对业务数据按照业务规则或数据标准进行质量稽核,不合格的数据向原业务系统进行反馈,提升源头数据质量。
4.3 数据预处理
按照业务规则进行数据预处理工作,针对数据集合中的重复记录,将重复记录筛选并删除;针对数值型属性,计算不同数值型属性的平均值和方差,设置不同属性的置信区间来识别异常属性对应的记录并删除;对于数据缺失,可结合数据具体情况进行删除或填充,如缺失值插补法,用最接近缺失值的值来替代,保证数据的可用性和质量;针对数据集中出现噪声(离群点)的情况,采用噪声平滑处理消除噪声数据,利用分箱法将数据分布到不同的“箱”中,通过参考数据点周围的平滑噪声数据,按箱平均值或箱中位数进行平滑(即求取箱中所有值的平均值、中位数,替代箱中所有数据)[11]。完成数据预处理后,合格的数据直接进入整合数据区。
4.4 数据目录构建与数据分析
在整合数据区结合业务特征构建数据目录,将合格的数据按目录进行组织,并开展相关数据整理和分析,根据业务专题和特点进行整合,在数据集市区形成相应数据和分析结果的数据专题,同时记录数据在分析整合过程中的血缘关系和影响度关系,便于数据的追根溯源。对于非结构化数据(主要是文本类型的数据),通过文本标注、特征提取、知识发现等数据处理流程,提取出安全规律分析相关的重点内容,结合结构化数据分析的结果,形成移动装备运用安全分析、工务设施运用安全分析、电务设施运用安全分析、供电设施运用安全分析等典型数据分析应用案例。
通过分析移动装备、工务、电务、供电等研究方向近10年的故障数据,各研究方向对故障率、故障地点、故障原因、风险源(风、雨、雪、异物)等影响因素有了较客观和全面的评估,为提高业务管理水平、优化资源组织配置、节约维护成本提供了数据分析依据。
5 结束语
结合高铁运营安全相关数据的现状和特点,构建面向高铁运营安全规律分析的数据治理框架,确定治理目标、对象和措施,建立数据治理实施的组织架构和机制,基于铁路数据服务平台和高铁运营安全规律分析系统,对移动装备、工务、电务、供电等研究方向的相关数据实施数据治理,充分支撑各研究方向安全规律分析工作,对于探索高铁运营安全规律、提升安全管理水平具有重要意义。