基于铁路数据服务平台的高速铁路工务设备大数据应用研究
2018-08-07杨怀志吴艳华程智博
杨怀志,吴艳华,程智博
(1.京沪高速铁路股份有限公司,北京 100038;2.中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)
工务设备是铁路运输的基础,其状态直接关系铁路运输的安全与效率。随着我国高速铁路(简称:高铁)运营里程不断增长,运输部门对工务设备的检测、维修、养护、安全管理提出更高的要求。高铁工务专业已积累海量设备相关状态数据,利用大数据技术搭建高铁数据资产汇集平台,从高速铁路公司战略决策和管理角度出发,统筹工务专业需求开展大数据应用,挖掘铁路业务数据隐藏关系及规律,为支持高速铁路设备精细化管理和企业高效化运营提供强有力的技术手段[1];从各级站段及工区维修及管理角度出发,提出汇集工务设备属性、检查数据、维修动态、历史情况、实时状态等相关信息并进行综合分析,科学合理地制定维修及实施计划,指导工务设备维修管理工作,辅助落实科学修、准确修、精确修理念。
近10年来,大数据技术在欧美国家铁路得到了较为广泛的应用,主要应用领域为设施设备的状态监测与维护,运营管理、乘务运用等方面也得到了一定的应用。德国铁路通过规划建设统一的数据中心平台,实现了对经营状况、设备故障分析等精益分析功能在内的数据综合应用平台[2];美国货运铁路启动了“资产健康战略计划”(AHSI,Asset Health Strategic Initiative),AHSI拟编辑和分析由各个铁路公司分别收集和存储的大量数据,并由此解决行业内最关键的铁路设备管理与维护问题[3];瑞典铁路大量获取轨道状态检测数据,以评估基础设施的整体状态[4]。通过借鉴国外大数据应用经验,结合我国铁路工务设备需求,建立基于铁路数据服务平台的资产汇集平台[5],将工务相关结构化及非结构化数据全面汇集,提出工务大数据应用总体框架,并研究关键技术,根据实际需求开展典型应用,对于实现设备健康状态评估、故障预测及维修决策等功能具有重要意义。
1 高速铁路工务设备数据管理现状
随着大数据时代的到来,数据已逐渐成为企业和公司的核心资产。高速铁路公司虽然工务专业数据资源丰富,但大多数据存在来源不同、形式不同且杂乱无章等问题,并且包括结构化数据和非结构化数据。该部分数据尚未被有序地整合,也未按照统一的标准化规范和流程进行数据关联、清洗、处理等,某些数据甚至从未被应用过,反而增加存储、服务器等成本。
以京沪高速铁路工务设备数据为例,可归纳为如下几类:
(1)动态检测数据:包括动检数据、车载式线路检查仪数据、便携式线路检查仪数据;
(2)静态检查及维修数据:人工检查记录、检修计划落实、轨检小车、钢轨浅表层病害分析等数据;
(3)监测数据:精测网与变形监测数据、钢轨探伤数据、桥梁PHM数据、轨道精调、单点监测数据、二型板和轨道结构监测数据等;
(3)问题库:设备病害库(动态、静态)数据、周边问题巡查库数据;
(4)台账及履历:更改大修数据、基础设施台账、装备和备品备件进出库记录等;
(5)规章标准:国家标准、行业标准、标准性技术文件、作业方案及作业指导书等。
将以上类别数据,结合现有信息系统及相关数据管理现状,具体描述如表1所示。
表1 京沪高铁工务设备数据现状
2 基于数据服务平台的高速铁路工务大数据应用总体方案
2.1 需求分析
通过大数据手段掌握高速铁路全线构筑物和设备的状态,及时分析发现可能出现的问题,保证线路设备条件处于最佳状态,持续保持运营期管理技术的领先水平,已成为高速铁路运营管理中亟待解决的关键问题。根据各专业业务需要,整合各系统资源及数据,同时开展大数据综合应用分析,推进高速铁路运维决策支持系统研究,实现设备健康状态评估、故障预测及维修决策等功能具有重要意义。在高速铁路工务数据管理现状下,分析高速铁路工务大数据应用需求如下:
(1)高铁示范站段及下属车间调研数据的需求。了解工务设备维修管理相关数据应用与管理现状,调研现有主要数据存储位置(站段/车间)、管理单位、管理方式、更新周期、使用情况等,分析数据接入方式等,为工务数据汇集奠定基础。
(2)建立标准规范的高铁工务数据模型的需求。高铁工务设备管理需要掌握工务专业基础数据,根据这些数据形成标准规范的数据模型,为日常检修维护等提供全面、精准的数据支持。
(3)搭建高铁数据资产汇集平台的需求。根据逻辑模型,分层次、分类别将汇集数据进行组织,需要实现数据的全景展示,并需要从专业角度对结构化数据和非结构化数据分别管理,并支持相应检索功能。
(4)探索工务典型设备寿命周期规律应用的需求。需要基于汇集平台开展探索工务典型设备寿命周期管理应用,如更改、大修及专项整治应用、沉降观测分析、二型板温度分析等。
2.2 总体框架
高速铁路数据资产管理平台,是铁路数据服务平台的核心组成部分,重点集中于数据采集、管理、治理、展现等部分功能。平台以工务管理和应用分析为突破口,以维修管理决策分析为核心,建立工务设备相关大数据应用,集成工务专业部门的动态检测数据、静态检查及维修数据、监测数据、问题库数据等,运用数据集成、数据治理、数据脱敏、数据同步、可视化等关键技术,逐步实现数据采集、数据目录管理、数据治理、数据共享等功能,形成更改大修、沉降观测、二型板温度分析等应用,为高铁公司、路局等系统用户提供相关决策支持和服务,其总体框架如图1所示。
图1 工务大数据应用总体框架
2.3 功能设计
按照既定数据分类,展现平台中所存储和管理的所有结构化和非结构化数据;根据数据表、字段名称和类型搜索系统所有结构化数据的元数据;根据关键字搜索非结构化的文档型数据,并需要提供元数据血缘分析、影响分析等。主要包括数据采集系统、数据目录系统、数据治理系统等,具体功能如图2所示。
图2 高铁数据资产汇集平台功能架构
2.4 关键技术
2.4.1 数据的清洗治理
从数据质量、元数据、数据标准等方面实现数据采集到数据使用全过程治理[6]。支持自动检验采集数据的值域分布,根据分布情况自动发现异常数据,并向数据提供者发送邮件说明数据异常情况。平台支持数据自动加密、脱敏,在不改变数据分布情况、复合编码规则的情况下,生成不影响业务分析的虚假数据。该种方式既能保护数据安全,又能支持业务分析。在数据存储方面,支持行、列混合存储,支持40倍以上高倍率压缩存储数据。
开展各类数据的清洗治理,包括结构化数据的梳理、清洗、归一、关联等,非结构化数据(人工记录、规章制度、标准库、作业指导书等)的格式转换、录入、检索等,如图3所示。
图3 数据接入的清洗与治理
2.4.2 非结构化文件全文检索
平台使用Elasticsearch、ORC、自然语言处理等技术处理非结构化关键字检索。其中,采用ORC识别图像文件转换为文字、使用自然语言处理对查询关键词进行分词、语义分析;采用Elasticsearch进行分布式文件检索[7],以支持.doc、.pdf、.txt、JSON、XML以及其他多种格式文件的全文检索,检索结果使用OpenOffice插件可在网页端直接预览、下载。
2.4.3 权限管理
Kerberos是Hadoop生态系中应用最广的集中式统一用户认证管理框架,Kerberos提供一个集中式的身份验证服务器,各种后台服务并不直接认证用户的身份,而是通过kerberos第三方服务来认证[8,9]。用户的身份和密码信息在Kerberos服务框架中统一管理。平台使用该后台服务,无需管理用户身份和密码信息,使用企业代码加代码命名用户名,实现从路局到站段、不同路局间的权限分隔。
2.4.4 数据标签
平台使用模式识别技术,基于数据表、元数据、采样数据进行建模[10],自动生成标签,通过标签挖掘数据表之间的关联关系,分析数据表间的相似度;同时能够根据标签,快速了解数据类型、数据来源、数据内容等。
3 京沪高铁工务大数据应用实践
在分析基于数据服务平台的高速铁路工务大数据应用总体方案相关功能及技术后,结合京沪高速铁路公司的管理现状,开展京沪高铁工务设备大数据应用。
3.1 京沪高铁数据资产汇集平台
基于大数据应用的发展过程规律,前期重点关注于数据的采集、治理、展现等功能,因此基于铁路数据服务平台,结合工务大数据应用的具体需求,研发京沪高铁数据资产汇集平台。基于业务现状,建立高铁工务数据目录,实现数据资源统一分类管理;实现元数据管理、血缘分析、关联分析等功能,展现数据量、数据记录数等;实现数据地图,全景展示平台中所存储和管理的所有结构化和非结构化工务数据;基于平台开展数据清洗、治理,规范数据结构。平台示例如图4~图6所示。
图4 京沪高铁数据资产汇集平台首页
图5 结构化数据表的检索
图6 非结构化文档的全文检索
3.2 基于平台的典型应用
3.2.1 轨检小车分析应用
根据汇集平台中的轨检小车数据为例,从超限等级类别进行统计,包括作业验收、经常保养、临时补修、严重临时补修数目,采用饼状图直观展示各项超限等级类别占比,且支持数据详情查看;同时对各项检查项目类别占比以树形图进行展示,可看出轨道变化率及轨距检查项目占比较大,并对不同车间及工区检查项目总数进行统计,如图7所示。
3.2.2 动态检测综合分析应用
将便携式线路检查仪、车载式线路检查仪、TQI数据进行综合分析,不同日期的各项检测值的密集程度,能够间接反映该里程处的轨道平顺性,用以指导计划检修及更改大修等作业。该分析应用中,支持选择线名、行别、添乘时间、自定义里程、自定义合并区间等功能,如图8所示。
图7 轨检小车分析应用
图8 动态检测综合分析应用
4 结束语
基于铁路数据服务平台,在综合分析高铁工务数据及系统现状后,提出面向全生命周期管理的工务设备数据汇集和治理方案,并搭建高速铁路数据资产汇集平台,根据汇集数据开展大数据分析应用,探索工务设备规律,为高铁的科学化管理和决策提供支撑。下一步应根据汇集数据开展综合性应用分析,同时结合不同算法为高铁提供更加精准的决策支持。