APP下载

南京地铁线网指挥中心大数据平台架构

2021-02-27娄永梅章澜岚

都市快轨交通 2021年1期
关键词:数据仓库数据安全轨道交通

王 健,徐 炜,张 宁,娄永梅,朱 国,章澜岚

(1. 南京地铁建设有限责任公司,南京 210024;2. 东南大学自动化学院,南京 210018;3. 东南大学智能运输系统研究中心轨道交通研究所,南京 210018;4. 北京全路通信信号研究设计院集团有限公司,北京 100073;5. 南京熊猫信息产业有限公司,南京 210008)

“十三五”以来,我国综合交通运输体系不断完善,城市轨道交通运营里程已经位居世界第一,很多城市的轨道交通已经进入规模化和网络化运营管理时期。轨道交通网络化运营管理的特征是多样化、层次化、精细化,互联互通、资源共享,灵活供需调节、统筹协调管理[1-4],要求能够根据线网的实时状态,实现各线路统一管理、协调运作,其基础是对获得的各专业运营生产数据以及外部支撑信息进行充分有效的整合、挖掘,形成基于大数据驱动的车站-线路-线网多层次决策体系。然而,由于对实际需求和管理服务手段认识不足,存在多系统缺乏协调联动、供需协调难度大、信息交换效率低下等问题[4-6],严重制约了轨道交通系统的整体效能发挥。在规模化和网络化运营管理阶段,如何通过大数据平台建设,打破各系统之间的“信息孤岛”,突破“烟囱式”应用建设,增强信息交互,提升数据安全性和可靠性,以提升城市轨道交通系统的运营管理效率和服务水平,切实发挥其在城市公共交通系统中的骨干作用,成为当前迫切需要解决的核心问题。

笔者以南京线网指挥中心(network control center,NCC)为例,对城市轨道交通大数据平台进行详细的研究和分析。

1 整体架构

轨道交通大数据平台架构目前有以下几种实现方式:一是基于传统数据库,面向联机事务处理(online transaction processing,OLTP),侧重日常事务处理的具体业务系统;二是基于数据仓库,面向联机分析处理(online analytical processing,OLAP),支持复杂分析操作,侧重决策支持[7];三是基于数据湖,面向信息处理和高并发任务,侧重挖掘和提炼大规模的原始数据。依据是否采用虚拟化的云存储和云计算平台,可以进一步细化为对应的物理架构和云架构[8-9]。这些实现方式在职能、数据存储、数据处理模式、数据访问等方面存在显著区别,具体如表1 所示。

表1 数据库、数据仓库和数据湖的区别Tab. 1 Difference between data warehouse, database and data lake

图1 线网指挥中心大数据平台的总体架构Fig. 1 System architecture

南京地铁线网指挥中心(NCC)采用的是基于数据仓库物理架构的大数据平台,包含数据采集、数据治理、数据仓库、数据集市以及上层决策系统服务等模块,其架构如图1 所示。其中,数据源层基于海量多源异构原始数据采集和治理功能,形成线网数据资源目录;混合式大数据平台基于平台逻辑架构设计和物理架构设计,对存储数据进行重新组织,提高系统执行效率和稳定性;上层决策系统服务通过提供信息交互平台和高性能运算资源,为上层应用提供支持。同时,数据安全管理贯穿于数据传输、处理、分析和应用的全过程。此外,通过网络链接,对大量计算资源和存储资源进行统一管理与调度的云平台和云计算技术,主要应用在南京地铁线网指挥中心NCC 项目后续二期工程中(笔者将另文展开论述)。

2 数据源层

2.1 数据采集

轨道交通数据来源有多种分类方法[10-11],根据其与轨道交通运营管理的关联性,可以分为内部数据、协同数据和外部数据三类。内部数据,包含地理信息数据等静态数据,以及客流数据、环境数据、票务数据、事件数据、能耗数据、各部门设备设施数据等动态数据;协同数据,包含法律法规、公共交通、气象、地质灾害、医疗卫生、安防等数据;外部数据,包含基站、互联网地图、大型活动、社交媒体等数据。其中,包含了结构化和非结构化数据,也包含实时数据和历史数据,具有多源、异构、动态、多维度的特点。

为保证数据的完整性与准确性,轨道交通更加突出自动化数据采集,常见的数据接口方式包括Socket、Modbus TCP/IP 协议、HTTP 协议、消息队列、FTP文件传输等专用接口协议或通信机制。此外,还包括人为主动或被动产生的数据、应用爬虫技术采集的全网信息等。为保证数据的时效性,应对轨道交通未来高速无人驾驶和精准人脸识别等应用在数据快速处理和分析方面提供支持,在数据采集和接入阶段即需要运用集群或分布式等架构,充分提高系统并行处理能力,同时降低各接口服务之间的耦合度,提高开发效率。

南京地铁NCC 系统通过数据接入平台,与线路综合监控系统(integrated supervisory control system,ISCS)、数据采集与监视控制系统(supervisory control and data acquisition,SCADA)建立基于 TCP/IP 协议的冗余网络连接,与移动支付系统建立基于HTTP 协议的实时行程传输,与ACC 建立基于FTP 协议的历史客流数据传输,与区域线路中心(zone line center,ZLC)建立基于Modbus TCP/IP 协议的冗余网络连接。此外,还预留与地铁公司其他相关系统(集团办公自动化OA,资产管理系统等)、企业外部单位的信息接口。

2.2 数据治理

由于轨道交通的数据分散在各个业务系统中,形成竖井式架构,造成多个信息孤岛,导致数据冗余、数据不一致、有效性差、共享性差、扩展性差等问题。因此,轨道交通数据的有效融合需要数据治理(data governance)过程,即通过抽取、转换、加载等方法,将轨道交通多源异构数据抽取到临时中间层进行清洗、整合、探查、分析等处理,然后再存储到统一的数据中心,实现高质量的数据资产,最终形成城市轨道交通线网数据资源目录。

南京地铁线网指挥中心大数据平台数据治理主要包含以下内容:

1) 数据标准管理:数据标准是数据治理的依据,通过对基础数据、指标数据和二次数据制定统一的标准,形成数据源和标准数据之间的映射。

2) 元数据管理:基于数据标准,建立轨道交通数据仓库元数据模型(包含业务元数据、技术元数据、管理元数据3 个方面),促进数据抽取、加载、转换(extract-transform-load,ETL)过程的规范化,为数据质量管理和主数据管理提供基础。

3) 主数据管理:通过构建统一完整的主数据视图,解决部门之间的业务和数据交叉问题,避免因业务和数据交叉导致的主数据不一致问题。

4) 数据质量管理:一方面,按照预定义的检查规则,对数据的准确性、有效性、一致性、关联性和时效性进行检查,及时发现并掌握数据质量问题;另一方面,对存在质量问题数据的影响、成因和解决措施进行分析和总结,形成有效的闭环反馈。

5) 数据安全和隐私管理:根据数据安全级别,设置数据安全规则,制定安全管理策略,包含用户隐私保护、数据可信传输和数据访问控制等。

6) 数据生命周期管理:对轨道交通数据创建、使用、更新、归档和销毁的整个生命周期进行有效管理。

3 逻辑架构

大数据平台综合了多种数据存储方式,其基础是数据仓库。数据仓库的逻辑架构设计直接关系到数据库的性能和管理,在明确轨道交通各部门业务规则和业务对象的基础上,通过抽象的方式描述业务中概念实体与实体之间的关系,由实体、属性、关系三部分组成。数据仓库的逻辑架构设计是面向所有系统的通用性模型,不针对任何单一应用,保存的是不可拆分的原子粒度数据和轻度汇总数据。为了实现特定功能需求,还需要进一步对各部门或主题的数据集市(data marts,DM)进行相应的逻辑架构设计。

3.1 数据集市

数据集市作为数据仓库的子集,是一种面向特定主题或部门需求而建立的分析环境,通过预先计算好相应的数据,满足用户对性能的需求,可以在一定程度上缓解数据仓库访问的瓶颈。因此,在其逻辑架构的构建过程中,更关注复杂的业务规则。

在数据集市建模中,提倡采用面向主题、稳定、时变、非易失的维度建模,包含星型模式、雪花模式和星座模式等。运用维度建模,需要根据业务分析模型,确定数据的粒度和每个事实所需要关联的维度、属性和层次,通过预先计算、保留冗余等方式,提高执行效率,极大地提高数据仓库的性能。由于维度建模在业务发生变化时需要重新进行维度定义,且无法保证数据来源的一致性和准确性,所以不适用于数据仓库的底层。

因此,在大数据平台的底层采用第三范式建模,构建企业级数据仓库(enterprise data warehouse,EDW)逻辑架构。第三范式建模是在数据库建模中常见的建模方法,具有体系化、扩展性好、避免冗余和更新异常的特点,能够保证数据来源的一致性、完整性和准确性。

南京地铁线网指挥中心采用自上而下的方法,基于企业级数据仓库,为数据存取频繁的信息系统构建从属型数据集市,提高查询速度。在这种方法中,数据在进入数据仓库之后都进行清洗和整理,之后才分发到数据集市中,这对于维护全局数据的一致性十分有利。

3.2 主题模型

随着数据量的不断增加,数据仓库的查询性能急剧下降,产生严重延时,对关键、实时、动态数据进行及时的分析和处理就显得力不从心。同时,跨专业、跨部门、跨领域的业务数据存在标准不一致等问题,需要在深入了解业务需求的基础上,通过主题模型设计,对数据进行重新组织。主题是指业务分析所需的某一方面信息,用于定义数据模型的范围,为数据逻辑模型的设计提供总体框架。主题模型采用名称和定义的形式来标示所有的主题域,以一对一、一对多、多对多等形式标示主题域之间的逻辑关系,满足数据共享要求。

南京地铁线网指挥中心大数据平台设计了当事人、路网、设备设施、行车、票务、渠道、OD、客流、清分、事件、能耗等11 个主题,各个主题之间存在着密切的关联。其中,票务主题包含产品、交易、库存、关系、票价等信息,客流主题包含多维基础客流信息、修正信息、路径集信息等,设备设施主题包含履历表、分类、配置点、状态检测、关系、故障等信息,事件主题包含周边环境、突发事件、天气、节假日、应急预案等信息。

4 物理架构

轨道交通数据具有体量大、类型多样、产生速度快、处理复杂、多元交互的特点,使得传统单机处理方式难以满足其应用的需求,需要对大数据平台的物理架构进行优化设计。适用于分布式环境下的混合数据物理架构,可以作为轨道交通数据处理的有效途径,以满足高扩展、高吞吐、高可用的应用需求,实现分类分级的数据共享。

大数据IO 密集和计算密集的特点,决定了在云平台上建立大数据应用是必然趋势。然而,传统的基于虚拟机的云平台技术和大数据技术存在技术冲突,目前包含南京地铁在内的多家轨道交通数据中心将大数据应用进行裸机(物理机)部署。随着容器化技术的成熟,可以通过运用资源隔离和限制技术,降低系统硬件要求和耦合度,实现性能与物理机几乎无差别的多租户应用;根据资源的动态需求变换,实时调整集群计算节点的类型和规模,达到错峰的目的,从而提高资源利用率,降低运维成本。

轨道交通大数据平台物理架构设计的核心是运用分布式技术,为支撑系统提供可扩展、可弹性配置的存储资源和运算资源。轨道交通数据混合式的大数据平台可以分为以下三类:

1) 实时数据库:用于采集各业务系统实时数据,通过快速提取和转换,将源系统数据标准化,然后传入数据仓库和可视化平台进行存储和展示。

2) 分区数据仓库:基于元数据和主题域,构建具有高可扩展性的数据仓库,将多个具有独立资源的分区运行在不同的物理节点上,由数据库系统进行统一协调和管理,对用户和上层应用来说依然是单一的系统镜像。通过设置合理的分区键和连接方式,保证数据跨所有分区均匀分布,提高并行查询效率。

3) 分布式系统:通过将运算资源和存储资源虚拟化,为非结构化数据提供独立管理和智能检索功能;为数据仓库提供定期的数据备份功能,避免因为主表生长而降低数据查询的性能;为海量数据分析处理提供运算资源。

南京地铁线网指挥中心大数据平台采用Kafka 分布式消息发布订阅系统、MPP 大规模并行处理架构数据库和Hadoop 分布式系统,作为轨道交通大数据平台的物理架构。其中,Kafka 用来进行实时数据采集和处理,MPP 数据库用来进行结构化数据存储,Hadoop 用来提供非结构化数据存储和结构化数据备份,以实现轨道交通海量多源异构数据存储和高效分析。

5 系统支持

城市轨道交通大数据平台面向上层决策系统,除了提供统一、共享的数据资源以外,还面对多系统数据交互需要提供稳定、可靠的信息交互支撑,面对高负荷的数据分析和挖掘应用需要提供高性能的计算资源。

5.1 信息交换支撑

由于上层决策应用系统间数据需求的异构性,所以系统之间数据交互共享就会出现问题,特别是在需要多个信息系统数据支撑的综合决策中问题尤为突出。这会导致上层决策系统依然处于孤立状态,因此需要一种独立于各信息系统、完全解耦、能够容纳系统变化的中间信息交换平台[12]。

南京地铁线网指挥中心大数据平台采用基于企业服务总线(enterprise service bus,ESB)技术,构建城市轨道交通信息交换平台,并制定信息交换规范。平台基于多线程体系支撑,规范异构系统的数据格式、交换和路由,消除不同应用之间的技术差异,实现包括线网监控、应急处置、视频分析、客流预测和仿真等不同系统和服务之间的信息交互。

对于需要批量存取共享数据的信息系统,如客流预测系统和客流仿真系统,可以直接与数据仓库进行数据交互,其他信息系统可通过访问数据仓库的方式获取交互数据。

5.2 高性能计算

高性能计算(high performance computing,HPC)基于高性能计算平台,充分利用数据中心的集群、分布式网络以及专业硬件设备等高性能处理单元的聚合能力[13],运用机器学习、人工智能、深度学习等方法进行分析和建模,解决轨道交通网络化运营中的复杂问题。

目前,南京地铁线网指挥中心大数据平台在列车运行图编制、视频目标检测和识别、线网客流仿真、客流分析和预测等具体应用场景中,能够提供高性能计算资源。例如:视频分析系统运用高性能GPU 集群,实现多路视频实时智能分析(包括人员计数、人群密度分析、异常事件检测等模块);客流分析和预测系统利用分布式存储和运算资源,将复杂问题分解为许多小部分,分配给不同的计算机处理,从而节约了整体计算时间,极大地提高了计算效率。

6 数据安全

贯穿于整个城市轨道交通大数据平台架构的功能,除了以数据标准为核心的数据组织和数据治理外,还包含了数据安全管理功能,以满足城市轨道交通在列车运行等多种应用场景下对于数据安全性和可靠性的需求。建立与城市轨道交通具体业务深度结合的数据安全管理模块,是线网指挥大数据平台的可靠性和合理性的必要保障。数据安全管理功能,除了最基本的物理环境数据安全保障外,还应包含网络通信安全管理和应用分析安全管理,具体功能如下:

1) 物理环境安全:是数据安全最基础的保障,通过对线网指挥数据中心机房设备进行合理布置和安装,为基础支撑和业务应用系统提供一个稳定、安全、可靠的数据生成、处理、存储和传输的物理环境,有效防护静电、温湿度变化、电磁干扰等情况。

2) 网络通信安全:面对具有高可靠和高优先级需求的信息传输,充分利用各种软硬件安全设备和产品,在边界防护、入侵防范、集中管控等方面实现数据安全防护,如为列车控制系统提供独立、高可靠的冗余数据通信信道。

3) 业务应用安全:分析和应用安全进一步与城市轨道交通业务相结合,一方面包含了对系统自身的脆弱性风险和漏洞的防范,运用身份鉴别、访问控制、数据完整性和保密性验证、主备部署、数据备份和恢复等综合性全生命周期管理手段,实现对应用和(敏感)数据安全的可靠防护;另一方面包含了城市轨道交通运营调度行为的可靠性评判,从辅助支撑线网指挥决策的角度,保证城市轨道交通运营的数据安全高效。

7 结语

线网指挥中心大数据平台是城市轨道交通最上层指挥调度系统的关键支撑,其架构的合理设计和成功实施,对地铁系统科学合理管理数据资产、安全高效协调管控系统和健全智能决策支持的实现起到至关重要的作用。笔者结合南京地铁大数据平台建设实例,自下而上地从数据采集治理、逻辑架构和物理架构设计、应用支持、数据安全等多个角度,梳理轨道交通大数据平台架构的实现方案,对相应的关键技术进行详细分析和探讨。

线网指挥中心大数据平台的建设是一个复杂、长期的系统工程,会随着业务需求的变化不断完善,发挥自身数据富集的优势,促进城市轨道交通信息化、智能化发展。

猜你喜欢

数据仓库数据安全轨道交通
轨道交通产品CE认证论述
高速轨道交通发展趋势
云计算中基于用户隐私的数据安全保护方法
基于数据仓库的住房城乡建设信息系统整合研究
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
基于CAN的冗余控制及其在轨道交通门禁环网中的应用
基于数据仓库的数据分析探索与实践