高速铁路联调联试数据管理技术研究与应用
2020-11-04杨东盛东春昭韩春明徐贵红
杨东盛, 东春昭, 韩春明, 徐贵红
(1. 中国铁道科学研究院集团有限公司铁路大数据研究与应用创新中心,北京 100081;2. 中国铁道科学研究院集团有限公司铁路基础设施检测中心,北京 100081;3. 中国铁道科学研究院集团有限公司基础设施检测研究所,北京 100081)
0 引言
联调联试[1]是高速铁路建设的重要环节,是对全线各系统功能、性能、状态和匹配关系的综合测试、验证、调整和优化的过程,为线路的开通运营提供技术保障。联调联试项目在各专业的试验中积累了宝贵的测试数据,为铁路设计、建设、运营、维护提供支持,为相应标准制订、修订提供依据,也为设备健康管理、高效运营提供长期保障。随着智能高铁建设的推进,利用大数据分析、数据挖掘等技术实现联调联试数据智能化综合分析的要求不断增加,对联调联试数据管理提出了更高要求[2-3]。
高铁联调联试数据管理系统提供了一个数据汇集、分析应用和共享服务的平台,实现了联调联试现场数据汇集管理、基础信息维护、数据专项分析等功能,对结构化、非结构化的结果和原始数据实现关联管理,并通过数据服务接口等途径实现数据的安全共享及应用能力。
根据联调联试数据采集及共享的特性,系统建设中提出了一些针对性的创新设计。在数据采集方面,系统通过将前置系统与大数据服务端分离部署的方式解决了联调联试现场的网络不通、无法直接回传数据的问题。同时,根据联调联试中结果数据与原始数据的特性,将非结构化原始数据与结构化的分析结果分别采用增量更新同步、依元数据标签抽取的方式,实现数据的自动汇集。在数据共享方面,系统基于服务端的铁路数据服务平台提供分析及共享服务[4-5]。系统方案提供了多层级、分用户的数据定制化获取方案,从而实现安全可控的数据共享及使用服务。同时,根据采集时建立的结果数据与原始数据间的标签绑定关系,系统可实现灵活可控的数据表及文件访问,为联调联试跨专业数据分析挖掘和设备全生命周期数据分析提供有效支撑。
1 数据管理分析系统设计
1.1 系统总体设计框架
高速铁路联调联试数据管理系统的总体架构主要分为前置系统、大数据服务端2 个部分,总体架构见图1。
图1 高速铁路联调联试数据管理总体架构
其中,前置系统部署在联调联试现场用于数据采集,专业内数据分析以及跨专业关联分析。系统对各类联调联试数据进行管理,包括测试基础信息数据、过程数据、分析结果数据等;大数据服务端是基于铁路数据服务平台提供的资源及服务能力构建的联调联试数据管理服务系统,包含数据汇集、数据存储、数据分析、数据共享等功能。
1.2 前置系统
1.2.1 功能
前置系统在联调联试数据管理系统整体框架中主要承担现场数据集中采集任务,其系统功能主要涵盖现场数据采集、数据的归集及元数据标签管理等方面。
(1)现场数据采集。对数据源端上传的数据根据文件名、上传路径、时间戳等标志信息进行初步分类及完整性校验,并存储元数据文件、非结构化、半结构化数据。
(2)数据归集及管理。采集数据包括非结构化的原始数据、分析处理后的结果数据等。对于结构化数据,系统解析后按规则存储至前置系统数据库;对于非结构化数据,上传后系统定期向大数据服务端的非结构化数据存储模块导入。其中,元数据信息部分可以根据文件名自动提取,并提供测试人员增补的功能。
(3)向服务端上传数据。前置系统部署在测试现场,系统采集到的数据会根据项目进展定期进行数据上传导入。前置系统带回接入内网后,结构化数据通过数据库同步的方式整体导入至大数据服务端的数据仓库;非结构化数据根据读取路径拷贝的方式导入至相应存储模块。
(4)数据检索、分析及展示。前置系统提供初步的Web 页面检索、分析及图表展示等管理分析功能,为实现联调联试现场的数据管理提供简单便捷的操作处理条件。
1.2.2 设计实现
前置系统功能的设计实现,主要需考虑联调联试现场的硬件部署、现场结构化和非结构化数据的采集存储方式等。
(1)硬件部署。前置系统在联调联试现场采用与互联网物理隔离的方式,保障数据安全,即在联调联试现场采用与内网环境相同的安全策略。联调联试结束后,数据通过物理存储介质携带回内网环境,并传入大数据服务端存储管理。
(2)数据管理。对于结构化(半结构化)数据,系统采用FTP/SFTP 上传半结构化文件并按规则解析入库等方式存入前置数据库中;对于非结构化数据,系统采用Web页面上传,FTP周期性自动上传等方式存储在前置机中。结构化数据解析入库前,需经过简单的数据清洗和完整性校验;非结构化数据可根据自动提取的元数据补充相关标签后,与结构化数据关联存储。
(3)采集接口。前置系统在联调联试现场只对外提供数据采集接口,形式可以包括Web页面录入、FTP上传半结构化文件并按规则解析入库、Kafka[6]、Socket或RESTful[7]等接口获取数据流等方式。
1.3 大数据服务端
1.3.1 功能
大数据服务端功能主要由铁路数据服务平台的资源和能力提供,包括数据汇集、数据管理、数据共享等基础功能。并在此基础上,提供综合分析、可视化展示等应用功能。
(1)数据汇集。项目结束后,现场采集数据由前置机带回内网环境。对结构化数据,大数据服务端的关系型数据库通过增量更新同步,将新增数据汇集存储;对非结构化数据,大数据服务端的对象存储功能模块根据文件的时间戳,将新增数据同步存储,用于分析、在线浏览和共享使用。
(2)数据管理。大数据服务端根据联调联试各类数据的数据量大小、使用情况等因素,调配资源,将逐步积累的大量清洗、治理后的结构化数据迁移到数据仓库存储,将积累的非结构化历史文件迁移到分布式文件系统(HDFS),供数据分析使用。
(3)数据目录及检索。数据目录将大数据服务端的数据按照分类进行展现,用户通过分类找到包含若干属性的数据表,使用户能够通过数据目录获知数据的种类以及相关信息。用户还可以在数据列表中根据相关字段对数据进行筛选、排序、并根据关键字对内容进行检索。
(4)数据分析。数据分析功能面向技术开发人员、联调联试业务人员提供脚本开发及自助分析2 部分功能,实现对联试联试数据的专业内部分析、跨专业关联分析功能。
1.3.2 设计实现
对于数据服务平台联调联试相关的技术实现主要需考虑数据汇集、数据治理和数据共享3个方面。
(1)数据汇集。对于结构化数据汇集,在内网环境中,通过部署在前置系统的后台程序与数据服务平台关系型数据库建立连接,将结构化数据由前置机关系型数据库(MySQL)上传导入至平台的PostgreSQL数据库,其中大数据服务端的库表结构需与前置数据库统一;对于非结构化数据汇集,前置系统与大数据服务端的对象存储模块建立连接,通过检索判断各文件在数据库中存储的元数据、路径及时间戳,将新增文件自动导入。
(2) 数据治理。在数据汇集的流处理阶段(Flink)[8]对数据格式、完整性等进行校验,对采集数据出现异常的情况进行日志记录和反馈,对清洗后的正常数据及元数据入库存储。
(3)数据共享。对于结构化数据,提供RESTful 风格封装的标准化接口进行数据共享。数据服务平台的用户权限控制采用Kerberos 进行认证[9],对外RESTful接口的权限控制由JWT Token 认证的方式[10]实现。对于非结构化数据,集成API 提供文档文件的Web 网页端在线编辑浏览,对于专业数据软件,支持检索下载使用或以远程访问的方式使用。
2 数据管理方案
2.1 闭环管理分析应用流程
数据通过前置机采集,上传抽取到内网大数据服务端的数据服务平台中,并由平台提供数据的治理、分析和共享服务。数据采集和共享操作的具体流程见图2。
在联调联试现场,外部专业数据源数据通过前置系统的数据采集模块经上传导入等操作进入数据管理系统。随后经过数据完整性校验、增加时间戳标记暂存于前置系统中。前置系统还提供对联调联试专业基础数据的维护,主要包括对地面专业的测点数据录入、试验基础元数据维护以及结构化结果数据、日报文件与原始数据文件的绑定,以及对全部采集数据的管理(查询、检索及元数据维护)操作。
图2 数据采集共享流程
联调联试结束后,存储于前置机的数据由物理介质带回内网环境。数据分别通过“结构化数据同步”“非结构化数据抽取”方式进行数据汇集。结构化数据存储于关系型数据库、非结构化的原始文件存于大数据服务端提供的对象存储服务中。针对联调联试现场与大数据服务端在数据采集过程中网络不通无法交互的问题,“结构化数据同步”模块在开始同步前及同步中会记录导入标志位信息。在前置系统与大数据服务端网络连通后,该设计方式可实现增量数据导入,从而避免了数据缺失、导入重复、数据结构混乱、数据不连续等问题的发生;“非结构化数据抽取”模块在结构化的结果数据导入后进行数据抽取,对于现场采集的“轨道几何状态”“动车组动力学响应”“接触网几何状态”等既存在测量结果值,也存在原始波形文件的试验数据,系统会在结构化数据中标记其抽取原始文件的路径信息,取出到平台后可根据结果数据寻找到原始数据,实现数据间的相互绑定。
汇集至大数据服务端的数据可以直接共享,也可通过数据治理或数据分析,提供更精细化的数据或直接提供分析结果共享使用。共享数据的获取方式包括:Web 端在线浏览、专业软件数据远程终端操作、应用程序通过订制化接口获取等。
2.2 数据采集接入设计
2.2.1 数据接入方案
联调联试各试验项目数据采集、汇集及数据迁移同步至大数据服务端铁路数据服务平台的流程见图3。各专业数据经采集接入至数据管理系统,暂存至关系型数据库和磁盘中,通过抽取操作由前置系统汇入铁路数据服务平台各对应存储模块存储。
图3 联调联试数据接入流程
2.2.2 结构化数据接入
对于结构化数据,系统采用定制化数据迁移同步工具的方式,通过自主研发的数据迁移同步工具创建数据迁移同步任务,配置元数据仓库连接、目标数据仓库连接,录入筛选条件对数据库数据进行筛选,最后将筛选的数据加载至目标数据仓库。
2.2.3 非结构化数据接入
非结构化数据的接入与结构化数据的对接是相互关联的,采用订制化数据迁移同步工具,分为以下3步:
(1)获取非结构化数据及元数据:在使用订制化数据迁移同步工具对接结构化数据时,获取非结构化数据的存储位置及相应的标签元数据。
(2)非结构化数据存储:根据结构化数据中记录的文件存储位置以及时间戳,调用大数据服务端对象存储的非结构化文件数据存储接口,将新增数据及元数据同步到对象存储中,并返回非结构化数据的唯一标识。
(3)关联结构化数据与非结构化数据:非结构化数据的存储过程中,会返回非结构化数据的唯一标识,将此唯一标识与对应的结构化数据相关联,存入目标数据库完成数据接入。
2.3 数据共享使用设计
2.3.1 用户管理
大数据服务端通过用户、角色、权限设计提供相应的管理功能,不同的角色具备不同的操作权限(见图4),各用户可以有不同的角色以实现不同的交互功能和操作,通过租户、角色及用户的设计实现对多层级用户的管理。这里租户通常对应1个部门,它是一个多人协作的工作空间,组内可以有多个角色及用户。角色是权限的承载机制,用于灵活配置各租户或用户的权限。用户为系统普通成员,可由租户分配角色,对平台及相关数据进行授权的操作。
图4 大数据服务端用户管理架构
2.3.2 数据访问控制
数据管理系统通过数据访问权限的设计,实现不同用户对各类数据的访问控制。通过权限和角色控制机制,可以实现灵活可控的数据表及文件访问控制,以支撑跨专业的数据分析和共享能力,主要流程见图5。
图5 数据管理系统数据存储及访问流程
在前置系统中,各类数据的访问权属于各专业的数据源角色。各类非结构化数据采用独立账户及根目录存储,从系统层面保障数据访问的独立性,保障数据安全。
在大数据服务端,数据主要用于跨专业的综合分析、共享等应用,平台通过租户、用户、角色等概念将用户分组归类,保障数据使用的规范及安全可控,并提供灵活便捷的控制机制。对于结构化数据,平台提供了细化到数据表的权限控制,可实现特定用户对特定表或表空间的访问;对非结构化数据文件,平台使用对象存储的设计,为非结构化数据分配独立的数据存储地址,数据使用者可根据授权访问特定的文件。
2.3.3 数据共享方式
除了页面直接浏览、查询和检索(对于结构化数据),或集成解析工具进行在线的查看、编辑(对于非机构化数据文件),数据管理系统对于多种试验数据还提供其他共享服务方式。
(1)对于结构化数据。大数据服务端对外提供RESTful 风格封装的标准化接口进行数据共享。并提供用户权限及接口的相关认证机制。由此,大数据服务端可以对联调联试数据提供方便高效且安全的数据访问接口。
(2)对于非结构化数据。大数据服务端提供基础文档文件的Web 网页端在线编辑浏览功能;对于专业原始数据的访问,支持检索下载或以远程方式通过终端连接到集成专业软件的虚拟服务器调取数据。
3 实施应用效果
联调联试数据分为车载测试项目数据及地面测试项目数据。车载测试项目包括轨道几何状态检测、动车组动力学检测、通信系统检测等。地面测试项目包括轨道结构动力性能检测、道岔动力性能检测、路基及过渡段动力性能检测等。数据管理系统需要根据不同系统的实际数据使用情况,提供适用于专业系统或软件的定制化数据汇集方式。
根据联调联试各专业数据结构,前置系统可进行适配,并实现结构化的结果数据与多种类型的原始数据文件相互关联。数据管理员选定专业菜单后,在结果数据管理中上传结构化数据,系统自动识别入库(见图6)。上传原始数据文件时则需先选定对应的结果数据,从而实现关联上传。系统在记录时解析文件名获取行别、速度级等基础标签信息,方便录入。
图6 前置系统数据上传
在将数据导入至大数据服务端的数据服务平台时,可预先在前置系统中配置好相应的结构化与非结构化数据源地址。导入时选择需要导入的数据专业及日期范围即可实现将数据自动接入平台(见图7)。
图7 前置系统数据导入模块
结果数据及原始文件分别可以在大数据服务端的数据资产管理和对象存储菜单中进行查询检索、在线浏览及下载使用,系统会根据用户权限对其有权查看的内容进行呈现(见图8)。其中,对于通用类型文件,系统集成API提供直接在线编辑使用。大数据服务端提供数据自主分析功能,用户根据需要可对存储在平台中的数据进行挖掘、建模、可视化等大数据分析操作(见图9)。
图8 大数据服务端非结构化数据检索
图9 大数据服务端数据自主分析
4 结束语
高速铁路联调联试数据管理技术通过前置系统与大数据服务端分离部署、数据接入模块中根据元数据标签导入非结构化数据、完整的数据访问控制机制及丰富的共享接口方式等创新设计,实现了对高速铁路联调联试数据的集中统一管理和共享使用。同时,增加了联调联试周期的全流程管理,进一步实现联调联试过程和数据管理的全覆盖,保障联调联试数据的实时性和完整性。系统的部署及使用不仅实现了对现有联调联试数据的安全和有效管理维护,也为长期积累各类联调联试过程数据、对数据综合对比分析等提供支撑,为充分挖掘联调联试数据的大数据价值提供了可能。