基于铁路数据服务平台的多源数据融合架构研究

2021-05-10马小宁孙思齐王沛然

铁路计算机应用 2021年4期

邹丹，王喆，马小宁，孙思齐，王沛然

（中国铁道科学研究院集团有限公司铁路大数据研究与应用创新中心，北京 100081）

数据融合是大数据领域一个重要的研究方向，指集成多个数据源以产生比单一数据源更有价值的信息的过程。数据融合最早产生于军事领域，后来广泛应用于多影像复合、无人驾驶、图像分析与理解、目标检测与识别等领域[1]。目前，铁路行业在跨系统多源数据融合方面的研究相对较少，在多源数据融合的过程中，面临着数据不准确、不一致、不完整、数据要素分散等问题[2]，为解决这些问题和提高数据融合效率[3]，需要构建统一的多源数据融合架构。

本文基于铁路数据服务平台（简称：平台），提出铁路多源数据融合架构，以数据流为主线，将铁路数据融合的主要工作环节与平台功能建立对应关系，构建铁路数据融合模型，为实施跨专业、跨系统的数据融合提供参考。

1 铁路数据服务平台简介

铁路数据服务平台是铁路行业自主研发的一站式铁路大数据解决方案。该平台是铁路数据集中管理、大数据分析的公共基础设施，面向铁路数据的采集、存储、处理、分析和共享，采用分布式架构构建。平台可实现海量结构化与非结构化数据接入、PB 级数据离线分析、TB 级数据实时分析、数据多维分析、自助分析、数据可视化等功能。此外，建立了数据资产管理制度和标准化管理流程，规范常态化数据资产管理活动，保证数据获取和使用的一致性、准确性和安全性。

铁路数据服务平台主要功能包括：

（1）多源异构数据汇集：汇集数据的类型分为结构化、半结构化、非结构化数据，采集方式包括实时采集与离线采集；

（2）大数据管理：运用主数据、地理信息、元数据管理方法，构建企业级数据资产目录；采用大数据存储与清洗技术，合理安排数据存储，保证高质量数据；

（3）大数据分析：采用批处理、流计算、内存计算等分布式计算方法，构建大数据平台在线数据分析计算环境；

（4）大数据共享：实现大数据交换共享、数据申请审批和接口调用权限管理和接口自动配置，支持细粒度的数据共享管理。

2 多源数据融合架构

铁路多源数据融合涉及3 项主要任务：（1）对铁路数据进行集中汇集；（2）根据数据融合的目的与要求进行数据梳理和预处理，选择合适的层次完成数据融合；（3）将数据融合的结果进行共享。

为了使这些任务能够在铁路数据服务平台上落地实施，将铁路数据融合架构划分为上下2 层，如图1 所示。

图1 铁路数据融合架构

上层为概念模型层，以数据在平台中的流转为主线，包括数据汇集、融合处理和数据共享。下层为平台功能层，数据汇集对应铁路数据服务平台的功能模块为数据登记、数据汇集；融合处理对应平台功能模块为数据清洗、数据管理、数据分析等；数据共享对应平台的数据开放共享、数据可视化等功能模块。

2.1 数据汇集

数据汇集是数据融合的基础，为实现跨行业、跨系统的数据融合，首先需要将不同业务线、不同系统、不同类型的数据采集并集中到铁路数据服务平台中。

由于多源数据存在数据库类型多样、网络环境复杂、数据归属权分散等问题[4]，需要对现有系统进行详细的数据源调查，调查内容主要包括：系统名称，部署层级，业务主管部门，系统研发及运维单位，部署网络，数据类型，数据产生周期及数据量，详细的数据表结构说明等。

根据数据源调查结果，与各业务系统的开发单位进行深入对接，制定详细接口方案。接口方案需要考虑接口类型、数据量、数据实时性、数据传输效率、数据传输安全性、硬件及网络环境等，制定数据汇集策略和实施计划；接口应具有较好的通用性及可扩展性。

2.2 融合处理

融合处理是整个数据融合架构中最重要的部分，主要解决多源数据不准确、不完全、不一致等问题，按照融合数据的具体需求，采用不同的融合层次及方法，并存储数据的过程。

2.2.1 数据预处理

汇集后的数据一般不能直接融合，需要先进行数据预处理，数据预处理主要分为以下几类：

（1）数据管理：数据管理是对数据进行描述和组织的过程，主要通过铁路数据服务平台的元数据管理和数据分类功能模块实现。元数据管理记录数据结构和对数据变换处理的过程，实现数据的血缘分析及影响度分析；数据分类通过构建铁路数据分类和标签体系，实现铁路数据的多维度组织和管理；

（2）数据标准化：通过构建数据元标准，开展数据质量管理，达到统一量纲、消除数据差异、建立数据关联等目的；数据标准化包括数据元标准化、数据质量标准化、数据管理流程标准化等；

（3）数据清洗：主要包括数据去噪、数据填充等，清除垃圾数据，解决数据冲突，提高数据质量，以保证数据分析的准确性，取得预期的大数据综合应用的成果。

2.2.2 铁路数据融合层次

结合铁路业务特点以及基于铁路数据服务平台已开展的数据处理工作，将数据融合分为3 个层次，如图2 所示。

图2 数据融合层次

（1）数据级融合

数据级融合的输入项是来自多个业务系统的原始数据，通过分析数据表间的关联关系，将关联度较高的数据进行关联，形成新的数据集，并不断迭代这个过程。数据级融合结果可作为“特征级融合”的输入项。

数据级融合属于低层级融合，其特点是数据处理量大，处理时间长，实时性较差，但融合过程比较简单，处理难度较小[5]。

（2）特征级融合

特征级融合是对信息进行特征提取，并对提取后的特征进行融合。特征级融合的输入可以是数据级融合的结果，也可以是原始数据集。在特征提取方面，铁路数据服务平台的人工智能模块可对文本、图像等非结构化数据进特征提取。这些特征项可作为结构化数据与其他结构化数据进行特征项融合，融合结果可作为“决策级融合”的输入项。

特征层融合数据处理量适中，利于实时处理，处理难度适中。特征级融合可用来对数据降维，降低分析及数据处理难度，提取的特征可作为“决策级融合”的输入项。

（3）决策级融合

决策级融合是对特征数据、结论数据进行融合判定，获得联合推断结果。决策级融合需要借助特征级融合的结果，一般不用来直接处理原始数据。决策层融合的优点是具有较好的容错性，所需的信息量小，数据通信量低，但融合难度大，对融合算法要求较高[6]。

决策层融合一般用于决策支持，需要按照明确的决策目标进行算法的构建和迭代优化，部分决策结果还需要结合专家经验进行综合评定后，才能得到所需的决策和评估结果。

2.2.3 融合算法对比分析

表1 列出了几种常用的数据融合算法，对其特点和适用性进行对比。这些数据融合算法存在互补性，在实际处理过程中，会使用其中一种或多种算法，或基于这些算法构建新的算法模型[7]。

表1 常用数据融合算法比较

2.2.4 数据存储

铁路数据服务平台根据数据的不同特点提供多种数据存储组件。对于有实时共享需求或应用查询需求的热数据、温数据，主要存放在数据仓库或HBase 中；对于历史全量冷数据，主要存放在Hive中用于离线分析。对于非结构化数据的存储，提供HDFS 文件系统和对象存储组件，满足不同数据量的数据文件存储需求；对于零碎的中小文件，将这些数据存放在对象存储组件中，而数据量较多的大文件，则会将数据存放在HDFS 文件系统中。

2.3 数据共享

数据共享是将数据融合处理后生成的数据或结论以服务的形式进行提供。目前，铁路数据服务平台提供2 种方式的数据共享：（1）利用铁路数据服务平台的开放共享模块，发布融合结果，数据使用者申请通过审批后可获取数据；（2）利用铁路数据服务平台的可视化模块，将数据融合的结果直接生成可视化图表进行展示。

不同层次的数据融合产生的数据量不同：数据级融合，产生的数据量较大、数据属性丰富，可以用于通过数据开放共享模块进行数据共享；特征级融合的特征结果数据量相对适中，既可以利用数据开放共享模块共享数据结果，又可按不同特征维度生成可视化图表进行展示；决策级融合，产生的数据量较小，但其计算结果可为运输生产提供决策参考，适于以可视化方式制作领导驾驶舱，为分析、决策、指挥提供支持。融合结果的共享形式由使用者的需求决定，铁路数据服务平台本身具备兼容性和可扩展性，能够在未来支撑更多的数据共享方式，提供更合理更有价值的数据融合成果。

3 结束语

为了解决数据融合面临的问题，提升数据融合效率，提出基于铁路数据服务平台的数据融合架构，对数据融合过程中所涉及的数据汇集、融合处理和数据共享展开研究。重点研究数据融合处理过程，基于铁路数据服务平台功能，对数据预处理，融合层次及相关数据融合算法进行研究，对实现铁路数据跨系统、跨专业的大数据融合，具有一定的参考价值。

随着铁路数据汇集范围的逐步扩大，集中存储的数据资源将越来越丰富，在数据融合方面，将结合铁路业务场景开展具体的深入研究。