元数据在轨道交通行业的应用
2022-06-16叶鹂君丨重庆市铁路集团有限公司系统设备部项目主管
文:叶鹂君丨重庆市铁路(集团)有限公司系统设备部项目主管
元数据作为数据治理中的基石以及信息化发展中的必要条件,已经广泛的应用在各个领域的信息化建设与数据治理发展中。中国城市轨道交通发展中的信息化建设与海量轨道交通的数据治理也已经被提上了日程,将元数据概念引入轨道交通行业是智慧城轨发展的必经之路。本文对于城轨现状与问题进行了简要概述,并将元数据的概念以及元数据对于城轨行业的综合应用进行了简要阐述。
2020年3月12日,中国城市轨道交通协会发布了《中国城市轨道交通智慧城轨发展纲要》,纲要中的总体布局中明确提出以面向中国城市轨道交通行业,以强国建设为战略导向,以推进城轨信息化、发展智能系统、建设智慧城轨为主题,以城轨交通的关键核心业务为主线,以数字化、智能化、网络化为手段,构建高度集成的城轨云与大数据平台,建立系统完备的技术标准体系,坚持智能化和自主化“两手抓”的实施策略,准确把握智慧城轨的发展方向,统筹铺画智慧城轨的发展蓝图。而利用最新科技成果,推进城轨信息化,发展智能系统,建设智慧城轨,大力开创自主创新发展新局面,正可成为实现弯道超车的重要平台。
一、元数据在轨道交通行业信息化的建设作用
目前,我国城轨交通企业运营管理信息化建设主要存在以下的问题:建设数据标准不统一;运营管理信息化建设不完整,可扩展性较低;运营管理信息化建设安全机制缺失。对于以上问题,建议采取引入元数据的概念予以解决。
(一)元数据
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。
(二)元模型
随着轨道交通行业的发展,企业每年收集和使用的数据与日俱增,而对于不同企业的大数据环境不同,数据的形态、分类、标准等并不统一,所以在这些类型不同的轨道交通数据之间进行采集、传递、共享就成了较大问题,首先需要对企业所有元数据进行整体规划、抽象描述,进而设计出所需元模型(图1);再对企业这些数据有一个标准的管控,即元数据管理。
图1 元模型关系图
元模型由元数据组成,元数据是描述数据的数据,而元数据的集合被称作为模型。元模型与元数据的关系参考图书馆中找书的例子,通过对书的元数据信息检索定位,从而找到了想要的那本书,而图书馆中的这些元数据信息的组合即元模型。图书馆中的管理员通过对于书的元数据信息的格式化采集(图2), 收集书的相关元数据信息(书名,作者,书的分类等),为后续的检索做准备。而有了元模型,就能根据元模型采集元数据信息。
图2 元数据信息格式化采集示例
(三)元数据管理
在元数据管理中,元数据又按照功能及用处对元数据有一个进一步的划分。具体分为以下几种分类:
1.业务元数据。主要包括业务术语、信息分类、指标定义、业务规则等;
2.技术元数据。数据结构、数据处理细节方面的技术化描述,主要包括源系统接口规范、数据仓库结构的描述(接口信息、表信息、程序信息等)以及经营分析数据处理过程的描述等。
3.管理元数据。主要包括人员角色、岗位职责、管理流程等信息。
4.安全元数据。主要包括访问安全、权限控制、分级管理、隐私控制、流程约束等信息。
5.稽核元数据。主要包括数据完整性和一致性检查、数据采集日志追踪、稽核规则、稽核流程、预警通知规则(数据质量)等信息。
(四)元数据的建设作用
支撑业务发展。方便业务人员能够更快速地理解公司内部或外部业务系统的业务数据,包括业务流程、业务系统、数据分类、从属关系等方面,从而快速精准查找到对应的业务需求,大幅提高业务人员熟悉业务的速度,更快的提高业务人员的业务开发效率。
降低数据系统建设成本。元数据管理是企业数据治理的基础,有了元数据管理平台作为基础,使得系统的数据质量与数据安全有了保障,从而在建设数据治理系统时提高效率与减少返工,使得开发成本大幅降低。
二、元数据在轨道交通行业的使用方法
在元数据实施的不同阶段,需要涉及以下工作:
1.定义范围。分析当前元数据管理现状制定元数据管理蓝图,总体目标包括标准化元数据及数据处理过程;集中式元数据管理;消除冗余、重复元数据信息,提高数据完整性、精确性;灵活健壮元数据管理架构;降低BI系统在开发、升级、维护等方面的投入。制定配套元数据管理体系,包括管理办法、流程和技术标准;建立元数据管理团队:包括管理员、协调者、信息分析员以及DBAs等。
2.明确需求。定义元数据管理范围,如数据模型,ETL过程,数据字典,业务术语字典,现有元数据环境和系统文档;明确元数据需求,如所需遵循业界标准、元模型需求、元数据接口需求、元数据系统需求、元数据报表需求、安全需求、变更管理需求、培训需求等方面。
3.设计方案。设计并归档元数据管理解决方案的所有重要特征和功能,如元数据标准化设计、内部接口机制设计、外部接口机制设计、协同工作机制设计、元数据同步机制设计等。
4.开发工具。依据元数据需求及设计要求开发元数据管理平台。整体功能涵盖包括:
(1)采集管理:采集适配器列表,元模型管理,基础元模型列表,数据源管理,采集任务配置,元数据入库审核,采集日志;
(2)变更管理:元数据变更订阅,查询,申请,审批;
(3)元数据浏览分析:数据地图,血缘分析,影响分析,全链分析,关联度分析,属性差异分析,元数据列表浏览,元数据检索;
(4)核检机制:环境一致性核检,元数据导出,元数据版本维护,元数据标准覆盖核检。
三、元数据在轨道交通行业的应用
目前,我国城轨交通行业已有企业对元数据在轨道交通的应用作了示范,如呼和浩特城轨云示范工程,建立自主可控的城轨云平台;在城轨云平台构建数据共享平台,突破数据共享的壁垒,为大数据应用奠定基础;扩大智能创新应用建设,推进大数据在业务领域的深化应用;建成网络安全纵深防护体系;建成适应云平台体系架构的运行维护体系和运行管理机制。此外,武汉也建立了城市轨道交通网络信息化建设示范工程,该示范工程采用基于云平台、大数据的新IT架构,构建异地双活的数据中心,实施新建线路和既有线的信息系统全部纳入和迁移到云平台的技术方案,实现云平台对城轨业务的综合承载和数据共享,为智慧城轨建设提供信息技术支撑。其元数据的综合应用如下:
(一)数据地图
通过元数据可以对企业数据进行完整的梳理、采集和整合,从而形成企业完整的数据资产地图。数据资产地图支持以拓扑图的形式进行可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的数据查询和辅助分析需要。
企业级的业务主题元数据地图和数据系统的数据地图用于宏观层面,组织信息,力求以用户视角对企业信息进行归并、整理,展现企业的宏观信息,还可以下钻展示详细的元数据详情,便于数据分析人员有效挖掘企业信息的潜在价值。
元数据地图作为引导入口,通过元数据检索、元数据目录和元数据收藏多种方式去辅助数据分析人员检索,最终检索的结果都是通过关系图谱的方式进行展示,可在图谱上灵活扩展关系节点。通过业务元数据构建的数据目录,方便用户准确定位具体系统,并查看具体元数据业务关联关系和血缘关系,使得数据治理出来的结果初步得到资产化使用,降低“找数据”的沟通成本,来加速数据的资产化,提高数据治理结果易用性,为数据的使用和大数据挖掘提供支撑。
图3 全链分析的数据链路展示
(二)血缘分析
针对于寻找数据从哪里来,其价值在于当发现数据问题时可以通过数据的血缘关系,追根溯源,快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。这个功能常用于数据分析发现数据问题时,快速定位和找到数据问题的原因。
(三)影响分析
针对于数据去向哪里,其价值在于当发现数据问题时可以通过数据的关联关系,向下追踪,快速找到都哪些应用或数据库使用了这个数据,从而避免或降低数据问题带来的更大的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用应用的影响分析。我们通过对于脚本的解析以及各平台对于数据链路流转关系的记载分析获取到对于血缘元数据的关系,从而依据于血缘元数据的当前结点,子节点的关系来构建血缘分析图谱。
(四)全链分析
针对于数据的全链路关系查看,从数据的产生,到最终流转的地方,数据的全链路分析。可以宏观的查看数据的整体流转情况,帮助业务分析人员快速查看数据链路整体架构。具体的业务流程数据链路如图3所示:
(五)关联度分析
分析数据和其他数据的关系以及它们的关系是怎样建立的关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度。
如果我们对一个超大城市轨道交通的客流与行车业务分析为例,元数据管理平台通过对于客流表元数据数据与行车表原始数据的元数据信息的采集,获取到了客流与行车业务的相关表信息与业务逻辑。基于这些元数据,我们按照数据仓库的设计理念分成了4层:
ODS(原始数据层):主要采集的是客流表原始数据与列车表原始数据,包括带时间和OD信息的乘客信息,列车实际运行图等信息。这些数据结构和数据,不对外开放;存放在接口数据的临时存储区域,为后一步的数据处理做准备。
DW(数据明细层):主要用于生成客流明细表数据与行车明细表数据,是业务层与数据仓库的隔离层,此层的数据是对源系统数据进行了清洗、转换等操作后的数据。同时,为了提高数据明细层的易用性,该层数据还会采用一些处理方式,减少事实表和维表的关联,做部分数据聚合,提高数据的可用性。
OTM(数据对象层):主要用于生成对象的数据,例如车站对象、线路对象、站台对象、换乘通道对象、断面对象、列车对象、站外对象等,用于提供后续的业务查询,OLAP分析,数据分发等。一般来讲,该层的数据表会相对比较少,一张表会涵盖比较多的业务内容。
ADS(数据应用层):主要用于生成各个指标数据,如车站进站量、车站出站量、进出站不平衡、符合最高的车站top、单站晚高峰客流、各线路晚高峰客流分布、断面客流量等,这些指标主要用于后续的上层决策支撑与优化开发分析等。是同业务强相关的定制化报表层。
具体业务分层情况如图4所示:
图4 客流与行车业务数仓分层图
目前,城市轨道交通已成为大中型城市的动脉、城市发展的引领、城市公共交通的主导。随着行业的迅猛发展,以及运营线路数量的快速增加,其运营的经济压力也在不断增大,智能化及可持续发展已成为城市轨道交通发展的必然趋势。本文从城市轨道交通智能化及信息化出发,对其未来发展进行了展望。城市轨道交通企业应对行业所处的宏观环境分析和谋划,进而建立起具有自身特点的智慧城轨的优势,通过元数据引入与数据治理,为实现我国城市轨道交通的智能化及信息化贡献力量。