APP下载

数据仓库技术在水文数据综合分析中的应用研究

2010-07-16陈德清王问宇杨海坤

水利信息化 2010年3期
关键词:数据仓库降雨量水文

陈德清 ,王问宇 ,杨海坤

(1.水利部水利信息中心,北京 100053;2.北京金水信息技术发展有限公司,北京 100053)

0 前言

目前全国水利行业信息网络基本建成并初步建成一批综合数据库,多种业务应用已逐步展开。为达到为水利综合决策支持服务[1]的目标,需要提供面向主题的快速数据分析和面向宏观决策目标的灵活的统计报表功能,借助于先进的数据仓库和数据挖掘技术,并配合强大的前端数据展示软件可以实现该目标。 本文针对水文业务分析需要,利用数据仓库技术设计了水文数据仓库总体结构,构建了面向水文主题的多维数据组织模式,开发面向水文主题的企业级数据仓库。

1 数据仓库技术在水利数据综合分析中的应用需求

在水利信息化建设项目中,通过各类业务应用系统建设积累了大量的基础数据。来自不同业务系统的大量数据中往往隐藏着重要的规律,这些规律是决策者需要从系统中寻找的“金矿”。对数据进行整理得到信息,深入地分析信息得到关于这些事实的相关情况,这就是知识。如果将这些知识用在辅助决策上,会使决策更具科学性和可行性,知识又转化成了智慧。通过水利数据仓库的建设可以将尽可能多的相关数据整合到数据仓库中,对整合后的数据进行集中处理,变异构为同构,变分割为融合,形成中心数据仓库,为数据仓库前端应用和其他企业级数据应用提供全景数据视图。数据仓库技术可以帮助用户一目了然的洞察海量数据中的黄金数据,并以图表等直观方式获得数据规律和知识,使用户能够快速获得自己所需的数据片段,解决手工制作报表效率低等问题,并改变报表的发布方式。

2 水文数据仓库设计与实现

2.1 总体结构

水文数据仓库是在各个原有分散的业务型信息系统的多个数据源的基础上,建立起来的信息集成平台,数据仓库总体结构如图1 所示。

图1 数据仓库总体结构

2.2 设计与创建水文数据仓库

2.2.1 数据源

数据源包括现有业务系统中的各类数据资源和根据决策分析需求可能涉及的其它外部数据资源。业务数据包括:雨量、水位、流量、蒸发等观测数据,测站基本信息数据、水文特征值等;外部数据(External Data)包括:行政区划、流域水系等。

关于水文数据仓库的业务数据存储在降雨量、日蒸发量、河道水情、水库水情、含沙量和气温水温表表结构如表1~6 所示。测站字典表和时间、行政区和流域等维表表结构如表7~10 所示。

表1 降雨量表

表2 日蒸发量表

表3 河道水情表

表4 水库水情表

表5 含沙量表

表6 水温气温表

表7 时间维表

表8 测站字典

表9 行政区划维表

表10 流域水系维表

2.2.2 水文数据仓库逻辑模型设计

以水文主题数据为例,按照星型模式组织[4]的多维数据,由 1 个事实表和 4 个维表构成,水文数据仓库逻辑模型如图2 所示。事实表中包含了 4 个维度(时间、流域、河流和行政区划)和7个度量(蒸发量、降水量、水位、流量、含沙量、输沙率和水温)。其中每个维表包含 1 组由底层映射到一般高层的属性概念,如时间维表由属性年、月、日和时形成一种层次,即:年—月—日—时。

图2 水文数据仓库逻辑模型

2.2.3 创建数据仓库数据库

当数据仓库的逻辑结构设计完后,就可以创建物理数据仓库。数据仓库数据库的创建可以在关系数据库(SQL, Oracle,Sybase 等)中按照一般的建立数据库的方法进行,然后把数据仓库数据库中设计的表创建好,数据类型依据原始数据库中的各个表和字段的数据类型设置。由于数据仓库数据库的表结构与原始数据库中的表结构基本一致,因此,创建数据仓库数据库的物理结构过程也可以在数据抽取、转换和装载阶段完成。

2.3 数据抽取、转换和装载(ETL)

ETL 负责将从业务系统或外部系统中获得的数据,转换和清洗成数据仓库需要的格式和形态,并在规定的时间装入到数据仓库中去。

2.4 创建 OLAP 数据立方体

联机分析处理主要指的是多维分析,它提供将数据组织成多维立方体(OLAP 数据立方体),数据立方体的数据按照分析主题来组织,同时可根据分析的需求加入不同数据集市的数据,添加分析需要但数据仓库中并没有现成提供的计算等内容。用户可以对这些数据立方体进行切片、旋转、汇总等多角度的查询和统计。查询和统计方式完全出自用户对业务的考虑,而不必关心数据的物理结构和技术上的组织形式。

2.5 前端应用

1)查询和报表是数据仓库应用的最基本功能。由于数据仓库拥有最完整的信息资源,基于商业智能系统的查询和报表能够提供比业务系统更丰富的信息,而且不会对日常的事务处理产生任何影响。

2)多维分析。根据上述表中的数据,按照不同的数据粒度[5],导出以日为时间粒度,以测站为空间粒度的汇总和统计数据(最大降雨量、最小降雨量、平均降雨量、最高水位、最低水位、平均水位、最大流量、最小流量、平均流量、最大来水量、最小来水量、平均来水量、最大蓄水量、最小蓄水量、平均蓄水量)。并进一步按旬、月、年进行汇总统计。在空间粒度上按照行政区(省区、地市和县)、流域水系(1 级和 2 级流域及河流)进行汇总统计,对于降雨量统计平均雨量、暴雨站数、30 天无雨站数、超警戒水位站数、超保证水位站数、低于历史最低水位站数。

通过 OLAP 可以直接在图表上进行上卷、下钻、切片、切块、旋转和查询等分析数据的功能,并在该基础上根据业务需求对数据进行深度挖掘,从而实现了传统计算机系统中依赖图形和表格分析观察数据做不到的功能。

3 结语

运用数据仓库技术对各类水利业务系统中产生的海量信息进行综合分析处理,实现宏观统计数据与详细业务数据之间的联系。通过数据仓库逻辑模型的设计与实现,从综合数据库或外部系统中抽取数据进行数据清洗、转换,并装载到数据仓库中等过程,方便快速地为水利系统各行业提供统计分析信息,并可对信息进行多维统计分析,通过 OLAP 和数据挖掘工具筛选发现有价值的业务信息,为水利综合决策支持服务。

[1]李建芬,刘波. 决策支持系统中数据仓库的应用[J]. 山西电子技术,1998,(6):18-20.

[2]William H. Inmon. 数据仓库[M]. 北京:北京机械工业出版社,2004.

[3]贾虹. 数据仓库建立与应用[J]. 中国计算机用户,1996,20:6-8.

[4]愈瑛,王军. 浅谈数据仓库在供水企业中的应用[J]. 合肥工业大学学报(自然科学版),2006,29(10):1292-1295.

[5]余达征,索丽生. 数据仓库技术在防洪调度智能决策支持系统中的应用[J]. 水利水电技术,1999,30 (2):43-45.

猜你喜欢

数据仓库降雨量水文
继往开来 守正创新——河北省水文工程地质勘查院
降雨量与面积的关系
水文
水文水资源管理
基于数据仓库的住房城乡建设信息系统整合研究
水文
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
洞庭湖区降雨特性分析
基于数据仓库的数据分析探索与实践