APP下载

黄河水沙变化数据仓库构建关键技术研究

2022-10-19夏润亮刘启兴

人民黄河 2022年10期
关键词:黄河水数据仓库数据源

吴 丹,夏润亮,李 涛,刘启兴

(1.黄河水利委员会 黄河水利科学研究院,河南 郑州 450003;2.河南省智慧水利工程技术研究中心,河南 郑州 450003)

1 研究背景

近几十年来,受气候变化和人类活动的影响[1],黄河流域特别是中游水资源情势发生重大变化,入黄水沙量减小[2]。 随着水土保持、改变土地利用类型等治理措施的实施,黄河中游产汇流机制发生了改变[3]。 径流预报是黄河水量调度的重要依据,随着流域水资源管理的不断深入,现阶段对径流预报的要求更高,如预报项目增加、预见期延长、预报精度提高等[4]。 历史降雨、土地利用等数据是研究流域水沙变化及预测预报的基础,但传统的数据处理方法难以满足海量、多源、异构的河流系统数据的存储应用和河流的高效管理要求[5],因此构建一个具备研究性、功能性、便捷性的综合服务数据仓库,将其作为基础数据的高效载体日趋迫切。 本文利用多源、异构数据汇集及ETL 处理等技术将黄河流域降雨、水文泥沙、土地利用等数据整理入库,通过设计构建黄河水沙变化数据仓库及公共服务平台,为流域未来水沙变化预测提供规范统一的数据源,并对多源、异构数据进行分析建模,以期为探索流域侵蚀性降雨及水沙时空变化特征提供数据支撑。

2 研究区概况

选取黄河流域主要产沙区为研究区,包括黄河中游的河口镇至龙门区间(简称河龙区间)、渭河北道水文站以上(简称渭河上游)、泾河景村水文站以上(简称泾河上中游)、北洛河刘家河水文站以上(简称北洛河上游)、汾河兰村水文站以上(简称汾河上游),以及黄河上游的祖厉河流域、清水河同心县以上(简称清水河上中游)、十大孔兑流域、湟水民和县以上、洮河红旗村以上,研究区分布示意见图1。 研究区面积约占潼关以上总土地面积的35%,研究区天然时期入黄泥沙量约占潼关以上支流入黄总泥沙量的95%。 研究区内黄土丘陵沟壑区主要分布在泾河中游、河龙区间南部、北洛河中游、祖厉河和清水河,是分析产沙降雨阈值的重点区域,主要表现为土壤多孔疏松、地势起伏大、沟壑纵横、支离破碎[6],在水力、风力和重力侵蚀下水土流失现象非常明显。 此外,研究区内还有风沙区(主要分布在无定河上游、窟野河上游和秃尾河上游)和土石山区(主要分布在河龙区间东部吕梁山、渭河上游秦岭和泾河上游六盘山)。

图1 研究区分布示意

3 黄河水沙变化数据仓库设计

流域内各种属性相互影响共同刻画了流域水文行为[7],所有属性综合起来形成了对流域水文模型建立、模型测试、气候变化影响等相关研究至关重要的基础数据集。 黄河水沙变化数据仓库将各类型水沙数据与流域实体逐步融合,实现对数据的获取、传输、存储、更新以及分析等。

研究区数据涵盖降雨、植被、土壤、土地利用和社会经济等数据,这些数据形式多样,包括音频视频、图形图像、三维模型等,其存在分散、多源、异构、语义不一等问题,无法为决策支持提供有效的数据源信息服务。 基于此,采用数据仓库、面向对象思想、商业智能、数据挖掘等关键技术将流域相关数据有机集成起来,构建多源数据融合的数据仓库,对海量数据进行抽取、转换、加载、主题域分析以及主题设计,借助数据仓库的传输功能对流域实体状态及其变化信息进行汇集存储。 同时利用GIS、水文分析、大数据分析、人工智能等技术构建数据挖掘分析与可视化工具,实现对海量数据中隐性数据、模糊数据的挖掘与分析,构建各类数据服务体系,从而提供综合的智能信息服务。

3.1 总体框架设计

黄河水沙变化数据仓库由数据采集层、数据存储与分析层、数据共享层和数据应用层组成,见图2。

图2 黄河水沙变化数据仓库总体框架

(1)数据采集层。 从各种数据源中采集和存储相关数据到数据库中,通过ETL 实现对数据的抽取、转换、加载等。 数据源包括日志、业务数据库、Http 资源等,其中:日志存储在备份服务器上且所占份额最大;业务数据库包括Mysql、Oracle、SQL Server 等传统数据库;Http/Ftp 数据是网络上抓取的各类接口数据;其他数据源包括Excel 等需要手工录入的数据。

(2)数据存储与分析层。 数据存储采用分布式文件系统HDFS,开展离线数据分析与实时计算,采用Hive 对实时性要求不高的数据进行ETL 操作,Spark作为快速通用计算引擎,对大规模数据进行处理,同时使用Spark SQL 对Hive 进行操作。

(3)数据共享层。 由于Hive、MR、Spark、Spark SQL 分析计算结果依然保存在HDFS 上,大多数业务和应用不能直接从HDFS 上获取数据,因此在数据共享层中通过Redis、HBase 等数据库提供对外数据共享的数据接口。

(4)数据应用层。 用户通过数据应用层中的报表展示、数据挖掘、数据分析、即席查询、数据可视化获取数据仓库中的数据文件,该层能够为用户提供数据挖掘服务以及平台服务。

3.2 数据分析模型设计

数据仓库作为基础数据的高效载体,是面向主题的、集成的、非易失性的、随时间变化的、支持决策的数据集合,在数据仓库中建立数据分析模型,可为智能分析、数据挖掘等提供海量数据存储的容器以及优化数据集成的关键技术[8]。

在数据分析模型建立阶段,依照数据结构化程度的差异将其分为结构化数据、半结构化数据和非结构化数据。 其中:结构化数据包括结构化报表等;半结构化数据包括日志文件等;非结构化数据包括Web 页面、文本数据等。 结构化、半结构化和非结构化数据的数据仓库构建方案见图3。

图3 结构化、半结构化和非结构化数据的数据仓库构建方案

针对决策信息的快速获取与综合集成,通过构建面向主题的多维数据分析模型来实现。 该模型在统一水利视图模型的基础上,采用商务智能技术并根据应用需求确定时间维度、空间维度等,使基础、空间、业务等数据间的多维度复杂关系整合成直观有序的有机整体。 在流域业务决策主题和主题域分析的基础上,开展与决策主体相对应的决策信息模型或概念模型的研究与设计,采用多维分析架构(见图4),逐步推导出主题的数据层次、数据关联关系、事实表等。

图4 多维分析架构

3.3 逻辑模型设计

黄河水沙变化数据仓库逻辑设计阶段主要把概念多维模型转换为逻辑模型,并对数据仓库ETL 过程中涉及的映射和转换过程进行定义设计。 逻辑模型主要对水量、沙量主题域进行数据分析,确定每个主题的数据仓库多维概念模型框架,在局部概念模型的基础上,通过分析水沙调度方案和数据信息的关联关系,确定水沙调度方案的数据仓库局部逻辑模型。 通过星型模型进行逻辑模型设计,即在星型模型中设计逻辑模型维表、多维事实表。

以降雨量为例,建立其星型模型逻辑结构(见图5),降雨量信息包括:①降雨量要素={降雨量要素值,降雨量要素值值域,降雨量要素维度描述};②度量维={汇总,累计,极值,均值};③时间维={年,月,旬,日,时,分};④空间维={纬度,经度,流域,子流域,高程,区域};⑤水文测站维={站名,测流方法,站址,基准基面,高程};⑥行政区划维={省,市,县};⑦流域维={流域,水系,干流,一级支流,二级支流,三级支流,四级支流}。

图5 降雨量星型模型逻辑结构

3.4 ETL 设计

采用ETL 可将多源、异构的水沙数据有效地抽取、转换、集成到数据仓库中,使系统进行数据挖掘时能够从数据仓库访问到所需信息并快速支持决策[9],从而解决分散在不同部门、不同类别的数据资源的集成增值问题[10]。 ETL 设计主要包括数据抽取、转换、清洗、加载、计算等[11-12],流程见图6。 其中:数据抽取就是从不同的操作系统、数据库、数据格式、应用中抽取数据;数据清洗就是对数据源进行精简处理,除去重复记录,使数据呈现准确性、完整性、一致性、适时性、有效性,满足决策主题分析的需求;数据转换就是对数据进行合并、汇总、过滤、转换等。 从整体角度来看,ETL 为各种基于数据仓库的数据挖掘分析和应用提供统一的数据接口。

图6 ETL 设计流程

以黄河水沙基础数据中的气象数据为例,其需要大量的空间数据进行辅助决策。 由于传统数据仓库技术在处理空间数据时具有较大的局限性,没有强大的空间分析能力,不能支持图形等复杂数据的处理,因此在数据仓库的基础上,引入空间数据仓库管理技术对空间数据进行扩展,截取区域(河段)直至全流域的不同规模时空尺度的信息,有效地管理、分析空间数据并从中挖掘出有用的知识与规律,从而为决策提供重要依据。 空间数据仓库及ETL 过程见图7。

图7 空间数据仓库及ETL 过程

3.5 公共服务平台设计

为有效利用黄河水沙变化数据仓库所涵盖的数据资源,设计开发黄河水沙变化数据公共服务平台(见图8),对黄河水沙决策分析成果进行展现。 该服务平台集合多维度数据查询、实时计算、挖掘分析、可视化展示等功能,开放自定义的二次开发接口,切实服务于黄河水沙变化基础研究工作。 对其中的数据资源进行分类,根据各类数据特点,以API 封装和服务方式开发数据关系服务、地图服务和影像服务等。 利用成熟稳定的GIS 网络平台以及Web 服务技术实现数据资源分布式访问,提供不同权限的数据浏览、查询、可视化、空间分析等功能。 该平台采用.NET 框架开发,结合MS SQL Server 数据管理与Citrix Xen 云资源管理平台,组建成包括用户体验端、数据供给端、资源服务端的完备基础数据应用系统,形成PC 端与移动端的同步界面适配、多重网络环境下的多资源适配、结构化数据与非结构化数据的存储与管理适配的技术框架,实现B/S 架构体系下黄河水沙变化数据分析与应用的公共服务。

图8 黄河水沙变化数据公共服务平台

4 结 语

黄河流域水环境复杂,水沙数据多样,构建黄河水沙变化数据仓库能够收集整理各类水沙基础数据,对影响黄河水沙变化的降雨、水文泥沙、土地覆被、林草结构、工程等数据进行深度挖掘,通过分析黄河水沙研究业务需求,实现各类型主题数据的高效利用,为预测黄河流域未来水沙变化提供规范统一的数据源,进一步满足黄河治理开发的科技需求。

猜你喜欢

黄河水数据仓库数据源
基于数据仓库的数据倾斜解决方案研究
黄河水是胶体吗
两滴黄河水
一种面向传感云的数据源质量评估框架
图表中的交互 数据钻取还能这么用
数据仓库系统设计与实现
包头市城市规划区承压水分质供水探讨
基于Excel的照片查询系统开发与应用
数据有增加 图表自适应
数据复用在存储数据仓库中的运用