南水北调东线一期工程江苏段数据中台的设计研究
2023-12-25傅汉霖陆克一游旭晨吴志峰杨钒
傅汉霖 陆克一 游旭晨 吴志峰 杨钒
摘要:南水北调工程是缓解我国北方水资源严重短缺局面的重大战略性基础设施,但随着相关业务系统的建设与应用,产生了大量数据资源,如何整合并利用这些数据并为工程运行服务,是智慧水利中的热点问题。基于东线一期工程江苏段的业务数据特点,开展数据资源梳理,形成了统一的数据标准体系,构建数据管理体系;建设贴源库、标准库、主题库,推动各业务系统数据进行统一聚合;搭建数据资源管理系统,实现数据共享,形成数据可持续使用的机制。通过构建数据中台,将在工程管理、调度运行等南水北调工程运行业务中发挥数据价值。
关键词:南水北调工程;智慧水利;数据管理体系;数据共享;数据中台
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2023)31-0085-03
开放科学(资源服务)标识码(OSID)
0 引言
南水北调工程是缓解我国北方水资源严重短缺局面的重大战略性基础设施,事关战略全局、事关长远发展、事关人民福祉,其中南水北调江苏境内输水干线404公里,共设9个梯级,14座大型泵站,汇聚了亚洲乃至世界大型泵站数量最集中的现代化泵站群[1]。
南水北调东线一期工程江苏段调度运行管理系统主要包括信息采集系统、通信系统、计算机网络、工程监控与视频监视系统、数据中心、应用系统、实体运行环境和网络信息安全8个部分建设[2]。2022年3月,调度运行管理系统顺利通过项目完工验收,实现江苏段工程全线智能调度管理。
近年,随着调度运行管理系统的建成,共新增了14个业务系统,但也带来了两个问题:一方面由于不同业务系统的开发和维护相对独立,烟囱式业务系统之间的数据无法联通,形成了“数据孤岛”[3]。另一方面,各业务系统独立存放自身业务数据,数据不集中,无法利用和挖掘业务系统中沉积的数据价值。
结合以上问题,通过数据治理来解决南水北调东线工程中的数据孤岛是非常紧要的。通过参考水务企业[4-5],建立整体规划和数据标准体系[6],建设数据中台体系,打通调度运行管理系统各业务系统数据,实现南水北调工程的智慧化和数字化转型。
1 南水北调东线一期工程江苏段数据中台建设思路
1.1 总体目标
从整体视角打造南水北调东线工程江苏段数据中台整体数据运营能力,改变目前数据自治的建设模式,构建安全可靠的数据管理机制,对南水北调东线第一期工程江苏段的预测预报、调度运行、工程管理、统一运维、内部管控等提供决策支撑,为水利部“数字孪生南水北调”建设提供数据底板,实现统一、融合、驱动三大目标。
1) 统一:改变目前数据自治的建设模式,打造统一的数据标准体系,构建自顶向下的数据管理服务体系,达成对各系统间公用数据、业务价值数据进行统一、集中管理的目的,加强数据库完整性、一致性、安全性保障,为后續开展规范化的数据服务、标准化的应用研发打下坚实的基础。
2) 融合:已建的各业务系统数据未进行统一的聚合管理,系统间各自互相对接获取数据,无法对数据进行统一更新与维护,导致不同系统同一数据更新状态、数据标识等不统一。因此,需要推进多专业、跨系统的资源整合,增强协调联动、数据共享。
3) 驱动:形成数据可持续使用的机制,建立信息化建设的战略选择和组织形式,利用数字化技术手段把业务数据转变为数据生产力,同时数据生产力产生的数据反哺业务,形成迭代循环的数据决策、调度运行的闭环过程,驱动业务的优化开拓和服务创新。
1.2 南水北调东线工程江苏段数据源
南水北调东线工程江苏段数据来源主要分两大类,内部数据及外部数据。其中内部数据主要来源于业务系统业务库,包括物联网平台、水文水质系统、调度运行管理应用软件系统、OA办公系统、工程管理系统等,外部数据包括外部采购数据与外部共享数据,如雨情数据、台风数据以及水情数据。
1.3 总体框架
南水北调东线工程江苏段数据中台遵循核心分层框架,总体框架如图1所示。贴源库、标准库、主题库三个存储区域的数据都可以形成数据服务,统筹已建、待建业务系统数据,对外提供服务支撑,达到反哺业务系统的目的。同时,数据在采集、加工、分析、治理等过程中需调用数据采集、数据治理、数据质量审计、数据资源目录、数据共享等平台功能模块,各功能模块集成至数据资源服务门户中,为数据资源提供方、需求方、管理方提供统一服务。
2 南水北调东线一期工程江苏段数据中台主要建设内容
2.1 数据资源规划
数据资源规划包括现状分析和需求调研、资源分析和数据标准体系建设等。
现状分析和需求调研通过了解对业务部门的职能、业务、流程、资源、标准规范等情况通过多种调研方式明确各部门数据使用需求,明确部门数据公开内容,数据共享内容。
数据标准体系建设包括元数据标准建设[7]、数据采集标准建设、数据资源目录标准建设、数据服务标准建设、数据质量标准建设,奠定数据管理基础。
2.2 贴源库
贴源库用于存放从外部共享或业务系统中直接抽取出来的数据。后台数据库可直接从源系统全量复制到贴源库层,通过数据清洗服务,建立标准数据库的映射关系,实现业务系统数据库与标准库的数据同步。贴源库主要存放从业务系统直接抽取来的各类数据。数据类型包括:
1) 基础数据:湖泊信息数据、河流信息数据、泵站数据、水闸数据等;
2) 专业数据:工程监控数据、水量调度数据、工程管理数据、工程安全管理数据、工程维护管理业务、综合办公相关数据等;
3) 外部共享数据:水利主管部门共享数据、彩云气象数据等。
2.3 标准库
标准数据库主要存放经过清洗过的基础数据和专业数据。贴源库中的数据来自南水北调东线一期江苏段工程调度运行管理系统中已建的业务系统,可能存在缺失、冒大数等影响上层应用的无效数据,需要通过对数据进行相应的清洗处理后再存入标准数据库中,能够为业务应用系统提供数据服务。标准数据库主要包括基础数据库、元数据库、动态监测数据库等标准数据库。
2.3.1 基础数据库
基础数据库包括公用基础信息数据库和主数据库。
公用基础信息数据库是在已建的基础库上参照国家标准规范进行优化,公用基础信息数据库划分为管理域、工程与设施域、字典域和监测域。
主数据库是集中存储管理历史归档数据的场所,永久保管具有长期保留价值、有共享需求的、经过数据质量检查验证的、规范化的数据。
2.3.2 元数據库
主要存储水利元数据,包括标识信息、内容信息、数据质量信息等[8]。
元数据是数据的内容、质量、所处语境等特征的基础定义或结构化描述,元数据按层状结构进行组织,其内容包括对数据集内容的描述、对数据集中各数据项的数据精度、数据的逻辑、数据源头、数据量以及数据生产过程等的说明等。
2.3.3 动态监测数据库
确定雨水情、工情、水质数据入库规则,针对不同的数据来源、不同的数据生成规则、不同的数据处理逻辑,自动判断,对报文进行解析,按照数据存储、处理、传输、同步等方面的特定要求,实现各类测站监测数据的“一站一数”[9]。
工程监测数据库存储实时或半实时监测的数据,包括泵站水闸实时运行数据、工程安全监测数据、水量水质监测数据等。
2.4 主题库
主题库建设的主要内容是通过主题数据库利用大数据平台技术形成数据集市,为调度运行管理系统提供数据服务。主题数据存放基于数据仓库之上的用于支撑专题分析、专业应用、辅助决策以及提供访问、共享的数据。主题数据是按特定的应用目的和业务模型进行了重新构建、面向业务系统和各级用户服务的数据[10]。
标准库通过ETL服务对ODS数据进行抽取、清洗、转换、加载等得到,主题数据则通过ETL服务对标准库数据进行抽取转换和加载得到。主题数据直接引用标准库中生成的派生指标数据和汇总数据,从而保证整体统计口径的一致性。主题数据共同组成数据集市,直接支撑管理层和分析人员的个性化、深层次的分析需求,作为面向报表服务、多维分析服务和应用服务的数据输入。
数据集市的建设内容主要根据对业务应用管理及综合服务、决策会商、可视化展示等综合性应用的数据需求进行分析,结合综合数据库中已经收集的各类数据进行规划,针对不同业务部门分析数据需求设计相应的数据集市,包括监测预警数据集市、水量调度数据集市、工程管理数据集市、安全管理数据集市、综合内控数据集市等。
2.5 数据资源管理系统
2.5.1 数据采集
数据采集模块通过工作流组件和规则引擎定义采集任务,实现定时采集,人工触发采集,多任务并行采集等,利用多种数据采集方式,充分提高数据汇聚效率[11]。可通过可视化方式自主配置采集流程,并对采集流程、状态进行实时监控,及时发现异常,有效保障数据采集的质效。数据采集模块将有效汇聚水利行业数据,为数据采集提供强有力的渠道保证。
2.5.2 数据治理
数据治理是为过滤或修改那些不完整的、错误的、重复的数据。主要根据行业数据规律对数据进行清洗,将不符合规则的数据打上标记,自动进行预警,并通过自动或者人工干预的方式将其处理为符合规则的数据,不符合要求的数据包括冒大数、数据异常、数据缺测等。
2.5.3 数据审计
数据质量审计模块对整合的数据进行数据校验、规则审计、审计任务以及审计发布进行管理。出具数据质量检测报告等工作,支持数据质量问题集中监控和管理,提供全方位的数据质量分析评估能力,为南水北调东线一期工程江苏段数据质量管理提供支撑。
2.5.4 数据资源目录管理
数据资源目录维护管理系统的主要作用是保证目录服务系统的可用性,它的功能包括数据和服务资源目录库的建立、更新、备份与恢复等,并支持批量模板导入。管理者能够通过系统保存、备份、注销与恢复信息资源目录内容,目录内容的更新维护由提供者负责,目录系统的更新维护工作由管理者承担[12]。
3 南水北调东线工程江苏段数据中台发展的思考
3.1 数据中台协助规范水利数据管理能力
随着南水北调东线一期工程江苏段的建设,调度运行管理系统目前已建成财务系统、档案信息化系统、工程管理系统、水量调度系统、工程监控系统、纪检信息系统、安全生产管理系统、办公系统、水文水质系统、视频监控与分析系统等多个应用系统。各应用系统每天产生的数据量大,但缺乏统一的数据管控,缺少对数据资源全局视角的管理,造成数据家底不清、数据标准不统一等问题。数据中台的建设将解决不同业务部门之间、业务部门与技术部门之间、技术团队之间,存在沟通和理解的歧义,降低需求从提出到实现存在前后不一致的风险。
3.2 数据中台支持水利大数据的创新应用
调度运行管理系统对监控、调度、管理等业务进行了部分的集中,也上线了统一物联网平台,搭建了水利模型、调度模型,实现了部分业务的联动。但是跨业务领域的数据还是在各业务系统中,并没有实现数据的融合,无法进行数据挖掘及关联分析。通过对数据资源管理平台的建设,解决现有数据未能用于辅助工程管理和调度运行决策等问题,从业务驱动走向数据驱动,体现数据的价值。
3.3 数据中台加强数据安全管理
数据安全方面,数据分散存储在各个系统中,各业务系统通过与其他业务系统直接对接获取数据,存在数据安全隐患问题。通过本项目建设,使数据权限分配使用实现统一管理,使数据获取权限透明。
3.4 促进新应用的快速迭代开发
结合数字孪生南水北调等“十四五”智慧水利建设规划要求,平台建成后将为加快构建具有预报、预警、预演、预案功能的新型智慧水利工程信息化体系,提供有力支撑和强力驱动,通过提前做好数据底板的规划和布局,减少后期开发成本,提高后期数字孪生等新建信息化系统上线速度,实现快速迭代,集约发展。
4 结束语
为了解决南水北调东线一期工程江苏段的数据资源在管理与应用方面的问题,本文在盘点南水北调东线一期工程江苏段调度运行管理系统与数据资源的基础上,提出建立一个数据仓库,建设贴源库、标准库、主题库,明确真实价值数据现状;在统一的基础设施、标准规范和保障体系支撑下,搭建一套数据资源管理系统,形成数据接入整合能力、数据资源管理能力、数据清洗治理能力、数据分析服务能力四大核心能力,建设南水北调东线一期工程江苏段数据中台,在工程管理、调度运行等业务应用中发挥數据价值,可为其他水利工程项目数据资源整合和应用提供参考。
参考文献:
[1] 精细管理 强化协调 确保我省南水北调配套工程安全运行[N].河南日报,2016-11-24(003).
[2] 杨铁树,贾改卿,张同生.大型引调水工程自动化系统设计综述[J].水科学与工程技术,2013(4):73-76.
[3] 刘继民,时书燕.新时代智慧水利建设的思考[C]//莆田:2022(第十届)中国水利信息化技术论坛论文集,2022:412-418.
[4] 韦樑.一种水务企业大数据业务中台系统研究[J].电子技术与软件工程,2021(9):159-161.
[5] 张文体,金利康.基于中台思想的智慧水务建设探讨[J].给水排水,2021,57(S2):538-544.
[6] 包志炎,姜小俊,黄康,等.浙江水利数字化转型总体框架和关键技术研究[J].水利信息化,2020(2):1-8.
[7] 姚阁.基于元数据指标体系的北京市南水北调数据资源管理模式研究与应用[C]//中国水利学会2018学术年会论文集第一分册.南昌,2018:260-264.
[8] 中华人民共和国水利部.水利信息核心元数据:SL 473—2010[S].北京:中国水利水电出版社,2010.
[9] 朱迅,黄世秀,沈天贺,等.时空大数据与云平台的关键技术[J].安徽建筑,2020,27(11):137-138,153.
[10] 孙益,方梦阳,何建宁,等.基于物联网和数据中台技术的自然资源要素综合观测平台构建[J].资源科学,2020,42(10):1965-1974.
[11] 庄春意,王子民.河南省南水北调配套工程运行管理数据可视化平台设计与实现[J].河南水利与南水北调,2021,50(7):46-48.
[12] 谢云驰.交通云数据安全与隐私保护研究[D].南昌:华东交通大学,2019.
【通联编辑:王 力】