APP下载

水利数据资源目录服务关键技术研究

2014-02-10成建国唐志贤

水利信息化 2014年6期
关键词:数据模型水利对象

成建国,冯 钧,杨 鹏,唐志贤

(1.水利部水利信息中心,北京 100053;

2.河海大学,江苏 南京 210098;

3.水利部长江水利委员会网络与信息中心,湖北 武汉 430015)

水利数据资源目录服务关键技术研究

成建国1,冯 钧2,杨 鹏3,唐志贤2

(1.水利部水利信息中心,北京 100053;

2.河海大学,江苏 南京 210098;

3.水利部长江水利委员会网络与信息中心,湖北 武汉 430015)

水利数据资源整合与共享是当前水利信息化工作的重点,而提供数据资源发现和定位服务的统一信息资源目录体系是数据资源共享的基础。在对信息资源目录服务涉及到的水利对象数据模型、数据整合与共享模式进行剖析的基础上,围绕目录服务、对象元数据和资源目录多维分类等模型的关键技术问题展开研究并提出可行方案。该研究是推进水利信息化资源整合共享进程的有益探索。

目录服务;水利数据;数据整合与共享;元数据模型;资源目录分类

0 引言

长期的水利业务实践积累了大量分布异构独立的业务数据,单是全国省级以上水利部门采用关系数据库存储的水利数据,截至 2012 年已近 300 TB[1],国家水利数据中心国家节点的遥感影像数据更是以每天上百 GB 的数据量激增。国家基础地理资源中心水利资源数据分中心信息资源建设的水文、水质、水资源、水利设施(空间)、土壤侵蚀、灌溉、水能资源调查、农村水电 8 个专题信息库,以及第一次水利普查对河流湖泊、水利工程、重点经济社会取用水户及水利单位等对象进行普查和清查,以汇总形成的普查成果数据进一步丰富了水利行业的大数据集[1]。国家防汛抗旱指挥系统二期、水资源监控能力建设项目等的开展也为水利大数据提供了持续更新的能力[2]。随着以物联网、云计算、移动互联网和 RS 技术为基础的智慧水利规划的实施,逐步形成天地一体的水利监测体系[1],将带来数据采集空间密度和时间频率的飞跃,数据获取的触角将伸向水利领域的方方面面,进而实现水利数据从点到面的转变,关系、遥感遥测和高分辨率地形等多源异质的观测数据形成互补与互相校正。水利领域也将迎来数据的爆炸增长之势,水利大数据的时代已经到来。

数据是宝贵的资源,如何对日益增长的水利数据资源进行高效的管理和利用已经成为水利信息化必须要解决的问题。由于水利数据资源具有多点采集、分散处理的特点,异构的水利数据资源分散存储于中央、流域和地方各级水利单位,相互分散和独立的数据资源,服务目标单一,利用效率低下;信息共享问题显得越来越突出,制约了水利信息化的进一步发展和整体效益的发挥。

为了实现水利数据资源的共享,水利部水利信息中心编制了《水利信息化资源整合共享顶层设计》,提出通过数据资源整合与共享,对水利业务和基础数据库信息资源进行梳理,形成信息资源目录体系,并基于统一的数据模型,形成由业务数据库、基础数据库、专题产品库和元数据库构成的中心共享数据库,实现各级水利部门之间、各应用系统之间的数据交换与共享。在数据的整合与共享过程中,提供数据资源发现和定位服务的统一信息资源目录体系是数据资源共享的基础,如何构建高效的资源目录服务以满足各级水利部门和业务应用间的数据共享交换,成为数据资源整合与共享的关键问题。为此在总结多年水利数据资源共享服务经验的基础上,对数据资源整合与共享过程的资源目录服务关键技术问题展开研究,通过建设元数据模型形成一套完善的水利信息资源目录服务体系,为水利信息化整合共享的顺利实施打下坚实的基础。

1 水利对象数据模型

数据模型是数据资源管理的基础,定义数据资源的整体结构、分类及数据间的层次关联关系。水利数据整合与共享拟采用统一的数据模型,面向对象的理论方法,以对象的方式组织水利数据,对涉水数据资源进行梳理和分析,系统地整理水利业务系统中的各类水利对象,并采取统一口径对水利对象进行定义和命名,对象及属性的关系模型如图1所示。为减少数据冗余,提高结构灵活性和数据间的易关联能力,从标识和属性 2 个方面描述对象,其中对象标识仅表达本体的存在性和唯一性,属性则是该本体有可能存在的相关特征信息,如基本、业务、空间属性和属性的时相特征等。对象的基本属性是描述对象的静态数据,以测站为例,主要是测站的名称、管理单位等信息;业务属性是指依附于对象的业务数据,例如测站观测的水位、流量及降水等信息;空间属性是指对象的空间位置和形状,例如测站的经纬度等。

图1 对象及属性的关系模型

2 数据资源整合与共享的模式

水利数据资源整合与共享的目标是从水行政管理对数据资源的需求出发,依据应用范围和关联关系,将现有面向业务视图建模、语义空间不一致的数据资源,整合形成面向对象建模、统一语义空间的数据资源,便于数据资源的共享利用和深层次挖掘,最终实现“统一模型、一数一源、共建共享、授权使用”。基于上述目标,水利数据资源的整合和共享可根据数据资源的应用目标和共享需求程度的不同分别采用物理和逻辑集中 2 种方式进行实施。

2.1 物理集中

物理集中是指将现有数据资源与业务应用进行解耦,按照对象模型进行数据建模和加工处理入库,进行基本和业务属性指标的扩展,以及对象空间要素的挂接和对象间关系的关联,整合形成面向对象、统一语义、易于共享、易于关联、易于挖掘的有机数据体系。数据资源按照面向对象模型转换成为水利对象后,将按照统一语义空间集中存储在中心数据库中形成支撑共享服务的中心数据库,并抽取元数据,生成数据资源目录以支持数据的共享与发现。

物理集中的整合与共享模式适用于共享需求高的水利数据资源,例如:水文水资源、水利工程、防汛抗旱、水土保持、农村水利、移民管理和安全生产等各种水利业务数据,以及规划计划、水利财务、水行政执法、人事教育和科技管理等各种水利事务数据。

在这种整合模式下,实体数据的共享使用需求由共享服务库承载,能够将直接向业务单位获取数据的“多对多”共享服务模式转换为统一向中心数据库获取数据的“一对多”共享服务模式,极大地降低共享模型的复杂度和业务单位的共享负载,提高共享效率。

2.2 逻辑集中

逻辑集中主要针对专业性强、共享需求弱的数据资源,数据资源本身仍分散存储在原有数据库中或以非数据库的形式存在,并由原数据所有者更新维护,仅将数据资源对应的元数据及数据资源目录统一存储在中心数据库形成共享服务库,通过目录服务支持数据的共享与发现。

3 面向整合共享的数据资源目录服务模型

数据资源整合与共享的目标是实现数据资源的共享使用,无论是物理集中的整合模式还是逻辑集中的整合模式,都需要抽取元数据并建立数据资源目录实现数据的共享。为此提出元数据与资源目录相分离的元数据建设方案,通过元数据实现对数据资源的描述,以资源目录的形式定义不同数据资源视图,通过元数据与资源目录分类挂接的方式生成多维数据目录,以满足不同层次用户的数据资源发现需求,数据资源目录概念模型如图2 所示。

3.1 数据资源目录概念模型

由于采用统一数据模型的水利对象数据具有统一的语义,集中存储在中心数据库中,为建立对象级粒度的目录服务和数据概况分析提供了基础,为此对于物理集中的水利对象数据,建设元数据管理系统,对物理集中存储的水利对象和属性数据逐一抽取元数据,对象元数据的描述粒度到数据表的记录级(即对象标识表中的具体对象),属性数据的元数据粒度到数据表子集粒度。对于逻辑集中的数据资源,将建设数据资源目录服务系统,通过提供数据资源目录注册服务的方式共享数据资源。对于通过元数据管理系统采集的物理集中数据资源的元数据,提供元数据收割功能主动获取对象及其属性的元数据,生成物理集中数据资源的资源目录;并提供统一资源发现服务,支持通过关键字、分面探索式搜索及目录浏览等多种方式实现物理和逻辑集中数据资源的统一搜索。

为了提高数据资源目录的服务能力,数据资源目录服务不仅仅支持数据资源的发现,还应支持借助对象的关系模型分析数据资源的概况。对对象和属性数据建立关联关系,并支持按照对象分析关联属性的概况信息(记为正向分析),以及通过属性数据元数据获取相应对象元数据信息(反向分析),以测站为例,即支持通过查询测站获取所观测的要素的数据量、最早和最晚记录时间,也可通过水位数据集获取对应测站的元数据信息。

在图2 所示的数据资源目录服务模型中,元数据是建立数据资源目录的核心,设计合适的元数据模型成为保障数据资源共享服务质量的关键。对于物理集中的水利对象,将采用面向对象概念定义水利对象元数据模型,以支持对象及属性数据进行正向和反向的数据概况分析;由于逻辑集中的数据资源不具备统一的数据模型,将采用可配置的元数据映射机制[3],将不同的元数据模式映射到规范统一核心目录服务模式以支持统一的资源发现。

图2 数据资源目录概念模型

3.2 对象元数据模型

为实现对物理集中水利对象的特征进行描述(包括对象及其属性的数据概况信息),将采用面向对象形式定义元数据模型,以水利对象为主线进行元数据建模,对象属性作为关联元数据进行建模。对象元数据粒度到具体对象,关联的属性到数据子集,元数据模型如图3 所示。

图3 水利对象的元数据模型

基于元数据模型,根据流域(省级)水利数据整合与共享的需求,在 SL473-2010《水利信息核心元数据》的基础上增加属性和结构信息等元数据子集,定义水利对象元数据,如图4 所示。元数据由1 个元数据实体集和 12 个元数据子集构成,其中核心元数据实体集和标识信息为必选信息,其余元数据子集根据数据资源类型的不同进行选填。

图4 水利对象元数据结构

水利对象元数据定义的属性信息主要用以描述水利对象关联属性的概况信息,测站对象属性元数据用以实现从对象到属性数据的关联分析,示例如表1 所示。数据资源目录作为发现数据资源的窗口,还需要为数据获取系统提供数据资源的定位信息,为此水利对象元数据定义了结构信息元数据子集,包括数据库连接信息(数据库名、地址、端口、用户名和密码)、数据表结构信息(字段名、字段标识、存储类型、是否主键、是否外键、是否唯一键等),其中数据密码字段在应用过程中将加密处理。对于逻辑集中的数据资源,元数据将通过分发信息中的联系信息支持数据获取。

表1 属性元数据示例

3.3 数据资源目录的多维分类模型

元数据是建立数据资源目录的基础,数据资源目录则是元数据在不同视角下的逻辑视图。在数据资源整合与共享过程中,将在共享数据库中构建元数据子库对元数据进行集中存储,通过与资源目录分类进行挂接而形成数据目录。水利数据资源目录服务的用户众多,既包括水利行业内的业务人员(按照业务视图进行资源目录查询),又有数据资源管理人员(按照数据来源视角查询资源目录),还会有社会公众用户[4]。为满足不同层次用户对水利数据资源目录查询的需求,提出采用面分类法构建资源目录多维分类模型,选取水利业务、政务和机构等3 个分类维度,每个维度中可以分成若干类目,每个类目可以再划分为若干二级类目,使用时,可根据需要将这些维度中的类目组合在一起,形成相应的复合类目。在上述维度中,水利业务可以划分为水文、水资源、水环境水生态、水利工程、农村水利、防汛抗旱、水土保持、移民等类目,水利政务可以划分为综合办公、政策与法规、财务与审计、人事与教育、国际合作、科技管理、安全监督、纪检与监察及机关管理等类目,水利机构则可以按照中央、流域和地方进行类目划分。资源目录分类时对元数据的预设分类,在数据资源目录服务的构建构成中还可采用基于分面的探索式查询技术[5-7],根据查询需求动态聚类形成新的资源目录分类维度,进一步满足不同层次用户的数据资源发现需求。

4 水利数据资源整合与共享试点

目前,水利部选取长江水利委员会(以下简称长江委)进行数据资源整合与共享试点。在数据资源整合方面,长江委将支撑委机关日常工作应用的数据资源采用物理集中的方式进行整合,从现有的10 余类数据资源中解耦、抽取 55 类 100 余万个对象标识,并进行面向对象的数据建模和加工处理入库,完成千余种基本属性指标、10 余类业务属性指标扩展,对 40 类对象进行空间要素挂接,对 55 类对象间的关系进行关联,并抽取元数据,生成数据资源目录。最终形成支撑共享服务的中心数据库,具体包括对象标识库、基本属性库、业务属性库、空间属性库、对象关系库、元数据库、数据资源目录库、多媒体库和应用服务库共 9 类。而对于委属企事业单位业务性和专业性较强或自筹资金建设的数据资源则采用逻辑集中的方式进行整合。

在数据资源目录的建设方面,长江委将通过建设元数据管理子系统,提供元数据获取、版本管理、全文检索和访问控制等功能,实现共享数据库中对象元数据的管理;建设数据目录管理子系统,提供元数据挂接、目录注册、目录发布和目录查询等功能,以支持长江委数据资源目录体系的构建与使用。同时为了形成全国统一的数据资源目录视图,避免出现数据目录孤岛,还将研发数据资源目录同步技术,实现长江委数据资源目录与中央节点数据资源目录的无缝集成。

5 结语

水利数据的整合与共享是一项系统工程,包括统一数据模型、基础,并在统一元数据标准、资源目录的基础上,通过交换平台实现统一的数据交换,进而为实现水利信息化的“五个统一”提供强有力的数据支撑。目前已针对数据资源目录服务这一数据整合共享过程中的基础服务展开研究,设计了数据资源目录服务的一般模型,下一步的工作还需要结合各级流域和地方水利部门自身数据资源和业务应用的需求,对数据整合模式、元数据模型和资源分类进行适应性研究和设计。

[1] 水利部水利信息化工作领导小组办公室.2012 年度中国水利信息化发展报告[M].北京:中国水利水电出版社,2013.

[2] 冯钧,许潇,唐志贤,等.水利大数据及其资源化研究[J].水利信息化,2013 (4): 6-9.

[3] 朱跃龙,蔡阳,冯钧,等.一种面向多数据类型信息资源元数据的共享方法:中国,201110211643.7[P].2011-11-23.

[4] 朱跃龙,许峰,冯钧,等.水利信息资源目录体系构建研究[J].水利信息化,2010 (2): 4-8.

[5] 孙瑞涛.分面检索中的交互式导航的设计与实现[D].西北大学,2013.

[6] 李新叶,郭力洁,李丹丹,等.分面搜索的分面推荐方法研究[J].计算机应用与软件,2013 (6): 75-78.

[7] 郭世星,刘磊.分面元数据及其技术探讨[J].大学图书馆学报,2008 (3): 23-27.

Research on Key Technology of Directory Service for Water Resources Data

CHENG Jianguo1, FENG Jun2, YANG Peng3, TANG Zhixian2
(1.Water Resources Information Center, the Ministry of Water Resources, Beijing 100053, China;
2.Hohai University, Nanjing 210098, China;
3.Network and Information Center, Changjiang Water Resources Commission, the Ministry of Water Resources, Wuhan 430015, China)

The focus work of the current water informatization is integration and sharing of water data resource, and the unified information resource directory system, which can provide data resource discovery and location services, is the basis of data resource sharing.Based on the analysis of the water objects’ data model, data integration and sharing model related to the information resource directory service, this paper studies the key technologies like the directory service model, the object metadata model and the resource directory’s multi-dimension classification model, and proposes a practical solution.This study is a beneficial exploration for promoting the integration and sharing of water information.

directory service; water resources data; data integration and sharing; metadata model; resource directory classification

TP391;TV39

A

1674-9405(2014)06-0018-04

2014-12-01

成建国(1978-),男,贵州毕节人,高级工程师,主要从事水利信息化技术研究。

猜你喜欢

数据模型水利对象
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
为夺取双胜利提供坚实水利保障(Ⅱ)
为夺取双胜利提供坚实水利保障(Ⅰ)
水利工会
水利监督
面板数据模型截面相关检验方法综述
攻略对象的心思好难猜
基于熵的快速扫描法的FNEA初始对象的生成方法
区间对象族的可镇定性分析
基于分位数回归的电力负荷特性预测面板数据模型