长江大保护数据资源整合与数据中台建设研究
2022-04-02陈晶管林杰张钟海宫留留张力
陈晶 管林杰 张钟海 宫留留 张力
摘要:中国高度重视长江大保护工作,但随着各行各业相关信息系统的建设与应用,产生了大量形式各异的长江大保护相关数据资源,如何整合这些海量数据并为业务管理服务,是长江大保护研究的热点问题。以湖北省作为研究试点,收集整理湖北省长江大保护工作中各个部门的数据资源。基于时空数据的特点,结合长江大保护的业务用途,重点研究了长江大保护数据的资源规划与整合方式。在此基础上构建了长江大保护的数据中台,将数据资源整合技术应用到规划管控、资源保护、水污染防治、生态修复中,对其他城市或流域的数据整合与应用具有一定的借鉴意义。
关键词:长江大保护; 时空大数据; 数据资源整合; 数据中台
中图法分类号: TP311
文献标志码: A
DOI:10.16232/j.cnki.1001-4179.2022.02.033
0引 言
长江是中华民族的母亲河,是中国重要的战略水源地、生态宝库和黄金水道。长江是一个完整且巨复杂的自然和社会生态系统,在行政地域上横贯九省二市,涉水范围广、部门多[1-2]。长江流域水资源短缺、水生态损害、水环境污染等问题突出,水旱灾害频发,习近平总书记多次作出重要指示要求,要求共抓大保护、不搞大开发[3-4]。
随着各行各业相关信息系统的建设与应用,各部门积累了大量的长江大保护相关数据资源,且各类感知设备获取的动态监测数据正在迅速增长[5],但这些多源异构数据资源仍缺乏有效整合,形成了众多的“数据孤岛”,造成了资源浪费[6]。如何科学管理和应用这些海量数据已经成为长江大保护的关键问题。
时空大数据提供了对各类专题数据的时空基准,具备时间维度、空间维度以及属性维度等多维特征[7-8],成为长江大保护数字化治理应用的新载体。数据中台是指通过智能数据技术对海量数据进行采集、存储、计算、加工、应用的数据生态系统[9-10]。数据中台建设能够实现政务数据的高度共享与应用,有效避免条块分割、数据孤岛等,对提升长江大保护管理具有十分重要的意义。
本文基于湖北省长江大保护时空大数据中心建设研究,对长江大保护的数据资源体系进行梳理与整合。在此基础上,应用中台技术构建长江大保护数据中台,形成长江大保护数据资产与数据服务,提升数据治理能力,以期为长江大保护的各项业务应用提供强有力的数据与平台服务支撑。
1长江大保护数据资源规划
长江大保护覆盖空间范围大,涉及专业多,长江保护大数据资源组成具有典型的多源、多维、海量、多态等时空大数据特征。《长江保护法》从规划与管控、资源保护、水污染防治、生态环境修复、防洪减灾、绿色发展、保障与监督等方面对长江大保护提出了具体要求[11]。
为支撑湖北省对长江大保护各项任务的监督管理工作,需整合各层级相关成员单位在水资源、水域岸线、水污染、水环境、水生态等方面的数据资源,形成长江大保护数据中心。本文结合长江大保护工作对时空数据的需要,对湖北省涵盖发展和改革、自然资源、水利、生态环境、农业农村、林业、住建、城管、交通运输等主管部门的数据资源进行调查、梳理与整合,具体整合数据项如表1所列。
2长江大保护数据资源整合
多源异构的数据形态导致现行的长江大保护时空数据建设难度较大。针对这一问题,本研究从长江大保護的业务应用对数据资源的需求出发,采用面向对象的统一水利数据模型,基于地理实体对现有的数据资源进行实体化处理与整合,解决专题数据与实体数据的关联,实现专题数据的实时空间化,为湖北省长江大保护业务应用提供高质量的数据支撑。
2.1多源异构数据汇聚
汇聚海量多源异构数据的手段可分为物理集中整合与逻辑集中整合2种方式。在湖北省大数据梳理与整合过程中,依据数据库、电子文件、纸质报告等不同数据载体,采用不同的数据整合思路实现多源异构数据的归一化和汇聚。
物理集中通过数据交换平台由主体数据库承载数据共享负载,数据需求方利用数据共享系统完成数据资源的发现和共享使用申请,数据源责任单位利用数据管理系统完成数据资源共享使用的申请审批。逻辑集中中心数据库仅承载数据资源目录的共享负载,不承载具体数据的共享负载,具体供给方式由供需双方自行协商。一般情况下,物理集中整合方式适合部门内部的数据汇聚与整合,而逻辑集中整合方式更适合跨部门的有条件的数据共享与整合需求。
对于基础地理数据,定期从自然资源相关部门将分级分类后可共享的数据内容离线拷贝;对于水雨情、工情、水文、水资源、水质、水生态、气象等公共专题数据,通常源于部门之间的信息共享;对于行业专题可共享的实时数据,通过有线或无线网络接入;对于互联网在线抓取的数据,面向任务需求实时动态抓取,并入库到时空大数据中心。
2.2基于实体的数据融合
地理实体是以点、线、面几何图元为空间数据表达与分类分层组织的基本单元,具有唯一的地理实体标识[12]。基于地理实体整合多源数据,重构地理实体库是其中的一个关键环节。地理实体库以地理实体对象为管理单元,通过地理实体对象唯一标识编码,实现与部门专题信息的关联、融合,从而形成包括不同部门、不同时段、不同类型、不同尺度、不同精度的时空大数据。
针对湖北省地理实体数据建设,本文将地理实体分为水系、行政区划、居民地、交通、土地、建筑、兴趣点、水利工程、水利专题等,依据一定的编码规则为每一个地理实体创建唯一的实体编码。地理实体通过实体编码与业务专题数据关联,将各个部门掌握的专题数据挂接到唯一地理实体上,形成具有多重属性的地理实体数据库,实现长江大保护各部门专题数据的融合。
基于某个地理实体对象,比如河段,除了可以查询河段的基本地理空间位置信息外,还可以查询该河段的干支流、岸线空间、河段河长信息,以及河段上的水库、水电站、堤防、水闸、泵站等水利工程的分布情况,河段上的水文、水质、水资源、水环境、水生态等实时监测数据,河段上的项目建设情况等,如图2所示。
2.3数据规范化处理与入库
长江大保护时空数据汇聚整合后,应进行规范化处理,包括统一数据格式与数学基础、统一数据分层与编码、空间化、时空数据三域标识等。在此基础上对数据进行质量检查,质检合格的数据资源方可入库,数据的质检、处理与入库流程如图3所示。
3长江大保护数据中台建设
近年来,各行业为解决数字化转型中前台迭代快速而后台迭代相较稳定的矛盾,提出了“中台”概念,包括技术中台、业务中台、数据中台等[10]。其中,数据中台是通过整合孤岛数据、沉淀数据资产,提供数据采集、数据存储、数据萃取、数据治理、数据服务、数据可视化等数据全生命周期管理,形成通用数据服务能力。本文即利用数据中台技术,对湖北省长江大保护的各类数据资源进行整合与管理。
3.1总体架构
数据中台的建设思路是通过数据中台提供的工具、方法等,将各类数据汇聚并形成持续的服务能力。基于此思路,长江大保护数据中台的总体架构设计如图4所示,包括基础设施层、数据层、支撑层、应用层4个层次。同时,通过数据安全管理、数据标准规范体系来保障数据中台的长期有效的运转。
基础设施层是提供可靠的通信链路、服务器、存储设备、安全设备等的硬件设施,为数据中台提供必要的网络资源、存储资源、计算资源等。
数据层主要包括汇聚后简单加工的基础地理数据、公共专题数据、动态监测数据和互联网数据,以及使用过程中形成的标签数据和资产数据等。
支撑层主要提供必要的公共服务组件,如认证服务、流程服务以及微服务架构中的服务网关、服务注册中心和服务监控等。
应用层主要提供数据中台的数据汇聚、数据萃取、数据体系、数据资产管理、数据服务体系等功能,通过数据汇聚、数据萃取功能建立长江大保护的数据体系,形成数据资产,再结合数据资产管理、数据服务管理等功能,将数据资产转换为数据服务能力,服务于长江大保护的各类业务应用。
3.2建设内容
3.2.1数据汇聚
数据汇聚是通过数据汇聚手段,将长江大保护的基础地理数据、公共专题数据、动态监测数据、互联网数据等分散在异构网络中的异构数据源汇聚到数据中台集中存储,为后续的模型加工与建立做准备。
3.2.2数据萃取
汇聚到中台的数据仍处于未处理的原始堆砌状态,在长江大保护的业务系统中很难被使用。数据萃取模块旨在为数据处理、建模人员提供基础、实时、算法等处理工具,实现如实体化处理、统一数据格式、统一时空基准、数据空间化、探测异常监测数据等功能,将数据加工成对业务有价值的数据形态。
3.2.3数据体系建设
在数据汇聚和数据萃取后,可将数据资源按照处理程度,细分为贴源数据层、统一数仓层、标签数据层、应用数据层,形成如图5所示的数据体系。
3.2.4数据资产管理
数据资产管理主要是对数据资产目录、元数据、数据质量、数据生命周期等进行管理,构建如图1所示的分类数据资产类目,形成完整的数据资产地图。同时,数据中台将记录数据应用的所有操作,实现数据的全链路追踪。
3.2.5数据服务体系建设
数据服务体系建设采用微服务架构,实现服务创建、API网关、服务授权、调用管理等功能,将数据转换成服务能力,让数据价值体现在业务应用中,同时也可满足数据资源的共享要求。数据服务包括自定义检索条件实现全域物理表数据、标签数据的查询与统计,以及空间分析算法、趋势分析算法等服务。
3.3关键技术
3.3.1基于地理实体的数据同步与融合
数据同步是不同系统间的数据流转,主要是通过ETL工具建模汇聚分散在各部门间的业务系统数据。但同步过来的数据在不同系统间未建立关联关系,难以统一管理。基于地理实体的数据融合方法可有效解决该问题,即在ETL建模过程中以地理实体为建模对象,以地理实体串联各类数据资源,建立数据间的关联关系。
3.3.2数据全生命周期管理
数据全生命周期囊括了数据从产生或获取到销毁的过程,包括采集、存储、整合、呈现与使用、分析与应用、归档和销毁等阶段。为实现数据应用的全跟踪,平台采用spring aop技术实现埋点,记录用户对数据的所有操作。
3.3.3基于微服务架构的数据服务发布与管理
数据服务体系建设中,为保障服务的可扩展性、高容错性、高并发等能力,采用SpringCloud微服务架构,将数据服务按业务需求拆分为众多独立的服务组件,通过Eureka框架实现数据服务的发布与管理,并以微服务方式进行独立部署,实现数据服务与应用的彻底解耦。
3.4数据中台应用
长江设计集团通过整合以往项目积累的数据资源,采用时空大数据整合手段和数据中台技术,建设了长江大保护数据中心,如图6所示。该平台汇集了地质地形、规划、枢纽、施工、机电、移民、生态、环境、建筑等10余个专业的业务数据,以及水文气象、农业、林业、畜牧业等互联网数据,形成了长江大保护的数据资产,实现了数据资源的全生命周期管理,可为政府部门、业主单位提供数据治理服务,为智慧长江、绿色长江提供数据支撑。
4结 语
为了解决长江大保护丰富的数据资源在管理与应用方面的问题,本文在对湖北省涉及长江大保护各个部门数据分析整理的基础上,结合长江大保护的任务与时空数据特点,提出了长江大保护的数据资源规划体系,将长江大保护数据资源分为基础时空数据、公共专题数据、动态监测数据、互联网数据四大类。基于地理实体,对湖北省长江大保护的数据资源进行梳理与整合,构建了长江大保护的数据中台,将数据应用到长江大保护的规划与管控、资源保护、水污染防治、生态环境修复、绿色发展等业务应用中,可为其他城市或流域的长江大保护数据资源整合与应用提供参考。
参考文献:
[1]陈进.长江流域综合管理模式探讨[J].人民长江,2013,44(10):116-120.
[2]黄德生,陈煌,张莉,等.长江大保护环境与经济可持续发展问题及对策研究[J].环境科学研究,2020,33(5):1284-1292.
[3]孙志禹.以习近平生态文明思想为根本指引努力在共抓长江大保护中书写新篇章[J].环境与可持续发展,2020,45(6):167-169.
[4]蔡慶华.长江大保护与流域生态学[J].人民长江,2020,51(1):70-74.
[5]朱迅,黄世秀,沈天贺,等.时空大数据与云平台的关键技术[J].安徽建筑,2020,27(11):137-138,153.
[6]刘军,居小秋,丁晔,等.南京市在长江大保护工作中推进生态环境大数据融合的思考[J].环境监测管理与技术,2020,32(2):1-4.
[7]王意.山东省地理信息时空大数据中心基础设施设计与实现[J].山东国土资源,2021,37(5):67-74.
[8]赵跃.智慧城市时空大数据云平台建设探讨[J].测绘与空间地理信息,2021,44(1):93-95.
[9]苏萌,贾喜顺,杜晓梦,等.数据中台技术相关进展及发展趋势[J].数据与计算发展前沿,2019,1(1):116-126.
[10]孙益,方梦阳,何建宁,等.基于物联网和数据中台技术的自然资源要素综合观测平台构建[J].资源科学,2020,42(10):1965-1974.
[11]廖志丹,付琳,吴齐.贯彻习近平生态文明思想与法治思想的立法实践:《长江保护法》解读[J].人民长江,2021,52(4):41-46.
[12]张亮,周志诚,厉芳婷,等.基于地理实体的数据库建设探讨[J].地理空间信息,2021,19(1):122-124.
(编辑:郑 毅)