APP下载

面向水库调度的空间数据仓库设计与实现
——以三峡水库为例

2022-11-23汤正阳张玉松张玉柱樊启萌任玉峰

水利水电快报 2022年10期
关键词:三峡水库空间数据数据仓库

杨 旭,汤正阳,张玉松,张玉柱,樊启萌,任玉峰

(1.三峡水利枢纽梯级调度通信中心,湖北 宜昌 443002; 2.智慧长江与水电科学湖北省重点实验室,湖北 宜昌 443002)

0 引 言

面向水库调度的水资源空间数据包括降水、地形、地表覆被、土壤分布、水库分布等,具有更新率高、数据量大、类型多样、来源广泛等特点。随着地理信息技术及数字流域在水电站建设运行管理中的应用[1-2],空间数据仓库被广泛应用于各行各业。这项技术在分析、管理空间数据的基础上,通过对数据蕴藏规律的挖掘,为业务运行及决策管理提供依据和建议[3]。根据水库调度业务中使用的空间数据特征,结合空间数据仓库的特性,设计并实现了面向三峡水库调度的水资源空间数据仓库,开展标准数据、标准流程、标准方法的探索,提升了空间数据在水资源管理领域的生产效率,为三峡水库调度提供支撑。

地球科学领域科研数据共享机制的建立,有助于获取大量有价值的空间数据,包括:长江流域数字高程模型(DEM,空间分辨率为30 m和90 m)、1∶250 000的长江流域矢量数据、1∶1 000 000的长江流域土壤分类数据、长江流域地表分类数据(空间分辨率30 m)、长江流域每小时降水数据、长江上游流域控制性水库高分系列遥感影像、长江上游Landsat系列遥感影像等。这些数据为开展水库群联合调度提供了重要的基础支撑。但是,这些数据无法直接兼容格式、更新时间和空间分辨率等参数,数据的时空分布特征没有充分挖掘和分析,难以完全展示数据价值。水库调度需要基于结构化或非结构化数据,建立异构数据之间的关联。

因此,需要结合相关理论和方法,对水资源空间数据进行规划,使之在统一平台上存储并融合;需要研究水库调度相关的空间数据管理方法,建立水库调度数据集,构建服务于梯级水库联合调度的空间数据仓库,以提高水资源利用水平,充分发挥长江水资源利用潜能。

1 研究区域概况

三峡水库控制流域面积约100万km2,占长江流域面积的56%(图1),是长江流域主要水能资源聚集区。三峡水电站总装机容量2 250万kW,历史最大年发电量1 118亿kW·h(2020年),是世界上年度发电量最大的水电站。2020年汛期,长江流域上中游水库群配合三峡水库开展联合防洪调度,合计拦蓄洪水约300亿m3,其中三峡水库拦蓄洪量约146亿m3,大大缓解了长江中下游防洪压力[4]。因此,构建覆盖长江上游流域的空间数据仓库对三峡水库调度有重要作用,也是构建数字孪生流域的基础。

图1 长江上游流域范围示意Fig.1 Sketch map of the upper reaches of Yangtze River

2 空间数据仓库设计

2.1 空间数据仓库特征

(1) 空间数据仓库是面向主题的。水库调度关注的核心主题包括预报、调度等,而空间数据的核心主题服务包括长江上游要素基础空间数据主题,多源降水数据主题,调度风险数据主题,流域地表覆被主题、调度风险主题、土壤及影像主题,三峡水库水下地形主题等;在业务工作中以预报、调度作为主题内容,在应用及决策层面将数据进行转化、分类、处理,使业务人员和决策者能直接利用展现的数据主题内容进行决策。

(2) 空间数据仓库是集成的。空间数据仓库为预报调度业务提供决策服务,其数据在逻辑上必须进行统一管理,针对不同的空间数据,在元数据、坐标系、高程系上统一,消除原始数据异构带来的互操作差异。

(3) 空间数据仓库是综合的。空间数据仓库以空间数据为存储主体,同时关联大量结构化数据,以空间数据为数据基础,从而构建全息的数据表达方式,对数据主题进行综合展现。

(4) 空间数据仓库是时变、时空的。空间数据仓库中的数据按照一定的时间周期进行更新,主要空间数据必须具备坐标系等关键空间标志[5]。

2.2 空间数据仓库架构

空间数据仓库的本质是计算机存储的一种高级应用组织方式,其在数据粒度及数据量上与传统数据仓库有一定区别,主要表现为海量数据、大文件数据,因此空间数据仓库分析及可视化工具与传统数据仓库有一定差异。水资源空间数据仓库架构按照功能分为以下4个部分(图2)。

图2 水资源空间数据仓库架构Fig.2 Water resources spatial database warehouse architecture

(1) 源数据。分布在不同的系统(GIS系统或业务系统)的应用数据,它们分布在异构的数据库中。

(2) 互操作工具。将异构数据库中的源数据通过数据格式转化、关键数据抽取,以主题的方式存入数据仓库的一系列脚本或程序。利用GIS分析工具如ArcGISToolbox中的分析工具等,进行二次开发,提高数据处理效率。

(3) 空间数据仓库。包括元数据、时序数据、空间数据以及多维数据。元数据是描述空间数据来源、范围、空间参考、用途、内容、存储方式等的记录,让数据分析人员和业务人员能够快速、准确使用空间数据[6]。多维数据是源数据通过互操作,关联时序数据后,成为数据仓库中的数据集合。空间数据仓库通过空间数据引擎组织栅格数据、矢量数据及其关联的时序数据,形成空间维、时间维、主题属性维的数据管理方式。

(4) 分析工具。为了支持空间数据仓库的可视化表达,将包含大量规律的数据集进行高效展示;其必须依托GIS工具及GIS服务平台开展数据挖掘及可视化,以地图结合主题属性数据的方式,将钻取、切片后的多维数据进行降维,形成标准化的空间数据输出模板,为业务专家及决策者提供可直观理解的高级工具。

3 空间数据仓库实现

3.1 关键技术

3.1.1 空间及属性数据源集成

空间数据形式多样,包括栅格数据、矢量数据、时序数据、统计数据4种数据类型。这些数据来自多个平台,需要构建高效的数据处理及汇集通道,以实现空间数据仓库稳定运行。为此,空间数据的集成,采取同类数据集成、关联数据集成2种方式。

(1) 同类数据集成是指将对不同来源、不同文件格式的相关数据,按照原有格式类型集成。这种集成方式借助于数据互操作工具,可以对元数据、编码、主题等进行统一描述、统一组织、统一管理。

(2) 关联数据集成是指对不同种类的数据进行集成。以空间对象代码作为时序(属性)数据、空间数据的外键,从描述物理对象过程或特点的角度,构建属性数据与不同类型空间数据间的关联。

3.1.2 数据管理平台构建

由于空间对象的引入和时序数据的关联,空间数据仓库的单一文件数据库和单一关系数据库无法高效支持带有时空数据对象的增、删、改、查。为实现与主题相关的属性数据和矢量、栅格数据的统一管理,采用关系数据库(包括Oracle,MySQL,PostgreSQL,达梦)管理时序数据(含属性);对于空间对象数据的存储管理,采用各关系数据库提供的空间数据引擎(Oracle Spatial[7],MySQL spatial[8],PostGIS[9],DMGEO[10])对空间数据进行存储、管理。上述空间数据引擎提供符合SFA(Simple Feature Access)标准[11]或SQL/MM(SQL Multimedia Part 3:Spatial)标准[12]的方法,可操作数据库中的空间对象集合。以上成熟的管理工具解决了在关系数据库中存储连续、大型的空间数据的问题,将传统文件格式存储的空间数据转移存储于空间数据库中,将属性数据和空间数据由同一数据库系统管理,提升了查询和管理效率。

3.1.3 空间数据仓库构建

空间数据仓库需要按照数据主题进行数据结构设计。根据不同数据主题,构建实例表和多维表。主题数据通过实例表进行管理,多维表存储主题数据的表名及描述。通过这种方式,逐步完成空间数据仓库的构建。

3.1.4 空间数据仓库查询系统开发

在ArcGISServer基础上利用Python、ArcGIS API for JavaScript和ECharts,构建满足多用户应用要求的B/S系统。Python可以快速构建高级数据分析脚本,将数据库中通过聚集查询后的数据用ArcGIS API for JavaScript和ECharts将结果予以展示,使可视化分析结果可在多平台上查询应用。

3.2 面向水库调度的空间数据仓库主题划分

根据三峡水库调度应用要求,结合所采集的数据情况及基础软件,将空间数据仓库划分为以下主题。

3.2.1 长江上游要素基础空间数据主题

长江上游要素基础空间数据主题包括长江上游子流域边界、长江上游河流要素(细化至三级支流)(图3)、长江上游大型水电站要素,以及长江上游以大型水电站为节点的流域边界(图4)等。通过SRTM DEM数据进行水文分析,提取符合应用要求的空间数据,为其他数据主题提供基础空间数据。

图3 长江上游地理流域分区Fig.3 Geographical basin area map of the upper Yangtze River

3.2.2 多源降水数据主题

降水数据是洪水预报最直接、最重要的动态输入变量,是水资源模拟中重要的输入参数,也是影响三峡水库调度的重要因素,为实现多维降水主题空间数据的管理构建特有存储模式(图5)。

图5 多维降水主题空间数据仓库存储模式Fig.5 Multi-dimensional precipitation theme spatial data warehouse storage model

金沙江下游-三峡梯级水库调度自动化系统自建遥测站 617 个(图 6),分布在云南、四川、贵州、重庆、湖北5个省市,覆盖流域面积约54.5万km2,包括重庆-宜昌流域、嘉陵江、乌江、岷沱江(不含大渡河上游)、宜宾-重庆流域、金沙江下游流域(26°~45°N,102°~112°E);同时,接入中国气象局重点站和区域站降水数据,对自建遥测数据进行补充。

图6 三峡集团水情遥测系统分布示意Fig.6 Distribution of telemetry system of China Three Gorges Corporation(CTG)

同期,国家气象信息中心(NMIC)与美国大气海洋局(NOAA)气候预测中心合作,研制中国实时格点化降水量产品。通过气象数据共享平台,下载该数据集。该数据集实时提取全国降水观测站(包括国家气象观测一、二站)的每日降水量(前日08∶00至当日08∶00),使用 “气候背景场”空间插值方法,产品空间分辨率均为0.25°×0.25°;并采用CPC变形技术(CMORPH)降水数据融合的、空间分辨率为0.1°×0.1°的历史降水数据[13]。

另外,分析历史降水也可采用再分析数据集的降水数据。美国航空航天局(NASA)提供全球陆地数据同化系统(GLDAS)数据(时间分辨率3 h,空间分辨率0.25°×0.25°;数据起止时间为1979年至今);欧洲中期天气预报中心(ECMWF)提供全球气候第五代大气再分析产品ERA5(时间分辨率1 h,空间分辨率31 km,数据起止时间为1979年至今);中国国家气象信息中心提供中国全球陆面再分析40 a产品CRA/Land(时间分辨率6 h,空间分辨率34 km;数据起止时间为1979年至今)[14]。这些格点降水数据为水资源研究提供了丰富的参考资料,提高了研究效率,且降低了研究成本。

利用覆盖长江上游流域的多尺度标准化格点,构建不同分辨率下的格点降水产品和数据质量控制方法。同时,对多源降水数据开展对比性分析(图7~9),中国气象局气象站点与三峡集团遥测站点在不同区域分布有较大差异,利用空间数据库可进一步开展融合降水产品的研究。将降水和流量进行关联(图10),以提高降水数据的应用效果。

图7 多源降水站点密度对比Fig.7 Multi-source rainfall site density comparison

图8 不同来源的降水站分布密度对比Fig.8 Comparison of the distribution density of rainfall stations from different sources

图9 不同分辨率的同时段降水产品差异Fig.9 Differences in precipitation products in the same period at different resolutions in the same period

图10 降水格点与关键节点流量关联Fig.10 Correlation diagram of precipitation grid points and river section points

3.2.3 调度风险主题

水库调度风险与一个水文年内各个时期的水库调度目标具有一对一的关系。对于干流大型水库,需要在不同时期,针对不同风险发生河段,解决防洪、航运、发电、泥沙、生态、抗旱等多种矛盾。为此,结合河段需要关注的空间位置,将调度风险进行空间关联(图11)。

图11 三峡水库调度风险分类及相应关注点Fig.11 Dispatching risks and focuses of Three Gorges Reservoir

3.2.4 流域地表覆被、土壤及影像主题

流域地表覆被数据是开展流域陆地生态评价、构建分布式水资源模型等工作的重要数据。随着遥感技术的发展,其应用于获取土壤、地下水分布等地表覆被数据时,在费用、时间、空间分辨率方面具有相对于完全实地采集的明显优势。随着经济社会的发展,人类活动加剧,全球及区域气候变化都在不断影响本区域地表覆被变化[15]。因此,该数据集对水库调度的现在和未来都有重要影响。在水资源空间仓库的设计过程中,应用了30 m分辨率的地表覆被数据产品GlobeLand30。该产品包括林地、耕地、草地、灌丛、水体、湿地、人造地表、裸地、苔原、冰雪等10个类型[16]。将长江上游流域分割成0.25°×0.25°的网格,在网格内运用GlobeLand30数据分析了2010年与2000年相比,各类地表增减程度(以森林为例,见图12)。土壤数据来源于世界土壤数据库(HWSD 1.2,采用FAO-90分类数据)。

图12 地表覆被变化(以2000~2010年森林数据为例)Fig.12 Land cover changes(a case of forest data from 2000 to 2010)

针对遥感影像数据,按照时间分辨率、空间分辨率、光谱分辨率进行分类存储。近坝区、水库库尾等重点区域可通过高分系列遥感影像(全色2 m)进行相关特征的提取和展示;流域范围内,可利用Landsat系列卫星开展水体提取、地表特征提取等工作;此外,利用Modis高光谱数据开展流域蒸发、水环境分析等工作。

3.2.5 三峡水库水下地形主题

水下地形数据主要分为河道断面数据和水下地形数据。利用三峡水库淹没库区的水下地形数据,对其进行数据互操作,转换为DEM数据(图13),并使之符合在线数据发布方案的相关要求。利用空间数据分析工具,可开展任意断面的分析、水库动态库容计算及水面线实时分析等工作,为水库枢纽的泥沙运动变化规律和坝址下游河道变化规律分类提供依据,为流域梯级水库进行水沙联合调度、延长水库使用寿命、充分发挥水库综合效益提供科学依据和技术支持[17]。

图13 三峡水利枢纽上游水下地形与影像叠加效果Fig.13 Visualization of underwater topography and images in the upstream of Three Gorges Project

4 结 语

面向水库调度的水资源空间数据仓库的设计与开发是一个不断迭代的过程。本文中构建的数据仓库涵盖长江上游要素、多维降水、调度风险、地表覆被、土壤分类、水下地形等数据,并基于以上数据,开展了异构数据、空间数据和属性数据之间的相互转换,实现了动态时态数据的高效存储展示和多维分析结果的快速发布。在未来的研究中,随着应用主题的更新,将进一步拓展数据结构,构建满足业务决策的多维数据模型,利用数据挖掘工具及机器学习算法,开展空间数据仓库的深化应用。

猜你喜欢

三峡水库空间数据数据仓库
基于数据仓库的数据倾斜解决方案研究
10项空间数据与信息传输领域国家标准正式发布
GIS空间数据与地图制图融合技术
数据仓库系统设计与实现
数据复用在存储数据仓库中的运用
数据仓库技术在档案管理领域的应用