APP下载

基于大数据技术的高速铁路综合试验数据管理

2020-04-10东春昭杨东盛许聪徐贵红

中国铁路 2020年2期
关键词:数据管理高速铁路试验

东春昭, 杨东盛, 许聪, 徐贵红

(1. 中国铁道科学研究院集团有限公司铁路基础设施检测中心,北京 100081;2. 中国铁道科学研究院集团有限公司铁路大数据研究与应用创新中心,北京 100081;3. 中国铁道科学研究院集团有限公司科技和信息化部,北京 100081)

0 引言

近年来,中国国家铁路集团有限公司(简称国铁集团)针对铁路建设和运营的重大技术问题,先后组织一系列重大综合试验任务,如大西客专时速350 km高铁成套技术综合试验、京沈客专自主化智能高铁技术综合试验、京津城际铁路时速350 km达速检测试验、兰新客专货车适应性动态性能试验、西成客专长大下坡动车组制动专项试验等,为铁路新技术研发、新产品应用、运输组织创新等提供了试验验证。

综合试验分为前期准备、试验实施及试验总结等阶段[1],综合试验全流程示意见图1。综合试验在各阶段不断产生并积累大量数据,经调研,综合试验参试科目涉及车、机、工、电、辆等多个专业,涵盖原始数据、过程数据和结果数据,涉及文本、图纸、视频、图像、声音等多种结构化、非结构化的数据类型,数据量级已达PB级[2]。现阶段,试验数据分散于各参试单位,由参试人员整理保存,数据管理形式存在两方面不足:一是数据分散[3],无法进行跨专业数据共享及综合分析;二是无法保障数据安全。

图1 综合试验全流程示意图

由于试验数据历史存量大、增量大,传统数据库无法对海量数据资源有效利用。目前,各参试单位虽然暂时保存了综合试验数据,但无法充分挖掘其内在价值并进行历史数据关联分析。不断增长的试验数据反映了装备、系统、平台、产品等的技术参数,是铁路大数据的重要组成部分。因此,研究基于大数据的高速铁路综合试验数据管理技术,是保障高速铁路综合试验数据安全和高效管理的需要,是充分挖掘高速铁路综合试验大数据价值的需要,是综合试验数据管理体系建设和数据共享的需要。

1 综合试验数据管理方法论

针对综合试验数据管理存在的各项问题,在调研试验现场数据类型、数据分析需求、数据共享需求的基础上,结合铁路数据服务平台基于Hadoop、HDFS、Spark、Hive、Kafka等技术的存储分析能力[4],规划并设计一种支持各类试验数据的收集、分析和共享的方法论,形成流程管理、质量管理、安全管理、共享管理的程序和规则,涉及工作职责、数据流程、数据命名、数据安全等管理内容。

1.1 工作职责

基于大数据技术的综合试验数据管理的数据流转示意见图2。数据管理流程涉及试验人员、各参试单位数据管理小组、项目数据管理小组、项目指挥部等不同人员。其中,试验人员及各参试单位数据管理小组负责整理本单位试验数据,提炼需要使用铁路数据服务平台进行存储的关键指标试验数据,并对每日试验数据进行采集、整理、转换、检查、提交;项目数据管理小组负责将各参试单位试验数据接入铁路数据服务平台,按不同试验项目划分不同租户,设定相应权限进行分类管理,维护铁路数据服务平台,对大数据使用共享提供技术支持;项目指挥部负责试验期间对数据进行统一管理,协调并督促各参试单位进行数据管理。

综合试验现场数据管理工作需要在项目部统一领导下进行,原则上要求各参试单位每日上报数据,由项目部统一存储管理。

图2 综合试验数据管理的数据流转示意图

1.2 数据流程

综合试验数据收集管理流程如下:

(1)数据采集。每日试验完毕后,车上测试人员及时采集车载系统试验数据,地面测试人员及时采集地面测点试验数据。

(2)数据整理。各数据管理小组每日将试验数据按规范格式命名整理,同时导出关键数据指标。

(3)数据检查。对数据的完整性、规范性、准确性和有效性进行检查,检查通过后方可提交。

(4)数据提交。原则上当日提交试验数据至现场数据管理系统(铁路数据服务平台前置机服务器)进行临时存储。

(5)数据传输与汇交。综合试验期间,试验数据在现场数据管理系统进行临时存储,综合试验结束后,将铁路数据服务平台前置机服务器(现场)与平台集群服务器通过网络以工作流定时执行的方式自动同步保存至铁路数据服务平台的集群服务器。

1.3 数据命名

为规范化管理综合试验数据并便于后期数据开放共享,在汇集试验数据的同时,采集试验数据的元数据信息。试验数据命名应包含以下要素:试验单位、试验项目(简称)、数据类型、试验列车、试验车次、试验工点、速度级、试验时间、数据格式等。

(1)车载系统试验数据命名规则为:试验时间-试验单位-负责人-试验项目-数据类型-试验列车-试验车次-行别-试验工点(可选)-速度级(可选)(数据格式)。

示例:20190310-XX 所-负责人-轨道状态车辆响应关联关系试验-轨检数据-CRH380AM-55706-下行-350(CIT)。

(2)地面测点试验数据命名规则为:试验时间-试验单位-负责人-试验项目-数据类型-试验列车-试验车次-行别-试验工点-速度级(数据格式)。

示例:20190310-XX 所-负责人-道岔直向试验-轮轨力及位移数据-CRH380AM-55706-下行-K198+750-350(STS)。

1.4 数据安全

对于综合试验数据的存储管理,安全保障是重中之重,需应用各种数据安全防护系统或软件,以保障服务器、数据库和文档的数据安全。

1.4.1 服务器

应用北京网御星云信息技术有限公司的运维安全网关V3.0(堡垒机)系统,针对业务环境下的用户运维操作,进行控制和审计的合规性管控[5]。通过对自然人身份、资源、资源账号的集中管理建立“自然人—资源—资源账号”对应关系,实现自然人对资源的统一授权。同时,对授权人员的运维操作进行记录、分析、展现,实现事前规划预防、事中实时监控、违规行为响应、事后合规报告、事故追踪回放,加强内部业务操作行为监管,避免核心资产(服务器、网络设备、安全设备等)损失,保障业务系统正常运营。系统可实现客户端工具的自动调出、密码代填和操作审计等功能。

1.4.2 数据库

应用数据库审计系统,对数据库操作行为和内容进行审计,以及对业务运维操作行为进行细粒度的合规性审计和管理[6]。通过对内部人员的数据库操作及运维操作等网络行为进行解析、分析、记录、汇报,实现事前规划预防、事中实时监视、事后合规报告、事故追踪溯源,加强内外部网络行为监管。

1.4.3 文档

应用文档安全加密软件,提供文档(文件)安全的全方位解决方案,确保受控文件安全。软件可实现以下功能:(1)实时透明加密;(2)客户端自我防护;(3)用户权限管理;(4)文档等级控制;(5)容灾保护机制;(6)系统日志审计;(7)身份认证集成;(8)自定义审批流程;(9)差异化的反截屏控制;(10)窗口浮水印;(11)穿透压缩包操作;(12)监控指定目录设置;(13)账号安全保护。

2 高速铁路综合试验数据系统开发

根据《铁路信息化总体规划》总体要求,依托铁路数据服务平台,采用“平台+应用”的服务模式,利用铁路数据服务平台具备的数据存储共享和分析计算能力,设计并开发了高速铁路综合试验数据系统。

2.1 总体架构

高速铁路综合试验数据系统包含综合试验前置服务系统和试验数据大数据服务系统2部分,其总体架构见图3。系统通过多租户管理的方式为各参试单位提供相对独立的管理应用单元,通过权限确定数据的访问、共享使用范围[7]。

(1)综合试验前置服务系统。即部署在试验现场进行试验数据采集、专业内数据分析、跨专业关联分析的大数据平台前置系统。系统对试验基础信息数据、试验过程数据、试验分析结果数据等各类数据进行管理。

(2)试验数据大数据服务系统。即部署在国铁集团铁路数据服务平台上的试验数据系统。系统由以下部分组成:

图3 高速铁路综合试验数据系统总体架构

①数据采集:对试验产生的数据进行多维度采集,同时对采集过程进行监控。

②数据存储:对海量多元异构试验数据分类存储,并对数据进行元数据描述及管理。

③数据网关:对平台数据进行统一数据访问管控。④数据处理:对平台数据进行清洗、加工等处理。⑤数据分析:对平台数据进行分析、脱敏等处理。⑥数据服务:提供数据目录、数据开放和数据监控功能。

⑦平台运行监控管理:对高速铁路综合试验数据系统的数据资源进行全生命周期管理,为业务人员提供数据资源使用与服务全过程可视化的检索与浏览。

⑧平台安全保障体系:保障数据安全及访问安全。

⑨数据应用:通过大数据技术提供辅助科研、指导生产、数据服务能力开放、算法模型能力开放及数据增值等能力。

2.2 功能组成

对应上述总体架构,高速铁路综合试验数据系统主要功能分为用户应用前端功能和后端功能。用户应用前端功能主要面向试验现场的即时管理分析;用户应用后端功能主要面向数据的综合应用。系统总体功能划分见图4。

图4 高速铁路综合试验数据系统总体功能划分

(1)前端功能主要用户是现场试验人员和试验管理人员。其功能包括:试验数据接入、试验线路管理、综合试验管理、测点信息管理、试验数据分析、系统管理、数据报表与报告、线路及项目信息检索查询等。此外,还包括相应的用户管理、配置管理、数据安全管理等一系列配套的支撑性功能。

①试验数据接入:对各类试验数据进行导入操作,支持一键上传及导入。试验数据包括非结构化的试验原始数据、分析处理后的关键指标数据。

②试验线路管理:在系统中对线路基本信息(如线路名、速度级、线路类型等)进行管理,可进行线路增删改等管理操作。

③综合试验管理:维护管理试验项目的各类基础信息,包括试验大纲中的各项内容:试验必要性、前期基础、试验目的、试验内容、试验方法、试验测点布置、试验设备、参考标准、试验要求、试验计划、试验条件、试验负责人、试验参与人员等。

④测点信息管理:基于GIS平台对测点信息进行管理,测点信息包括:所属试验项目、试验专业、测点位置(里程信息)、测点负责人、该测点产生的数据类型及数据量汇总等。

⑤试验数据分析:分析各参试项目关键指标数据,各专业根据需求在试验现场进行相关趋势分析、历史数据对比分析等。此外,还包括综合试验数据的关联分析、查询等功能。

⑥系统管理:系统用户管理、菜单管理、日志管理、备份恢复管理等支撑性功能。

(2)后端功能主要用户是国铁集团所有对试验数据有管理、分析、应用需求的人员。其功能包括:数据对比分析、数据融合分析、数据综合分析、数据报表与报告、全量历史试验数据检索查询、全量试验数据访问及获取服务、数据目录、租户管理、权限管理、数据可视化等。此外,还包括大数据服务系统的支撑性功能。

2.3 数据共享

高速铁路综合试验数据系统为用户提供综合试验数据的共享功能。数据共享机制包括:

(1)数据脱敏[8]:避免敏感数据被用户不合法查看;

(2)数据分级分类:对数据集按照业务类别进行分类,并设置安全级别,提供不同级别用户的数据共享规则;

(3)数据共享:针对不同用户使用不同数据,能灵活方便地设置各种共享策略。

系统通过数据目录展示的方式,为用户提供数据资源浏览功能,用户如需获取数据,可通过系统提交数据使用申请,经批准后通过系统获得申请的数据。

系统通过Restful API、JDBC/ODBC 连接的方式对外提供全量试验数据访问及获取服务。对于数据共享的接口,主要涉及非实时数据接口和实时数据接口:

(1)非实时数据接口:铁路数据服务平台统一采用RESTful;

(2)实时数据接口:采用Kafka 消息队列、Web-Socket stomp、RESTful。

其他系统如需接入数据需协商数据接口方式、接入周期及网络通道,作为数据共享的技术准备。

3 结束语

基于大数据技术的试验数据管理方法论以及基于大数据技术的高速铁路综合试验数据系统均已在京沈客专自主化智能高铁技术综合试验中试用。该研究优化了现场数据管理流程,实现了基于大数据技术以高速铁路综合试验数据管理为核心的统一数据系统。基于大数据技术充分挖掘高速铁路综合试验数据深层次价值,实现对各类试验数据的收集、管理、分析和共享服务等目标,具备现场试验数据实时汇集管理、试验基础信息管理、数据专项分析等功能,不仅解决了高速铁路综合试验数据分散存储的不足,也保障了数据的安全和完整[9-10]。研究涵盖试验准备、实施及总结等阶段,协助现场试验人员进行数据的导入、查询与分析,为后期进行历史数据对比分析、专项分析、数据共享等提供了有力支撑。

猜你喜欢

数据管理高速铁路试验
《高速铁路技术》征稿启事
企业级BOM数据管理概要
《高速铁路技术》征稿启事
定制化汽车制造的数据管理分析
《高速铁路技术》征稿启事
海洋环境数据管理优化与实践
预制胶拼架桥法在高速铁路工程中的实践
CTCS-2级报文数据管理需求分析和实现
CS95
驭胜S330