APP下载

海量水文管理数据信息整合与更新机制研究

2017-11-01余长慧于海威

水利信息化 2017年5期
关键词:异构入库水文

余长慧,于海威,张 文

(武汉大学遥感信息工程学院,湖北 武汉 430079)

海量水文管理数据信息整合与更新机制研究

余长慧,于海威,张 文

(武汉大学遥感信息工程学院,湖北 武汉 430079)

针对海量水文管理数据使用价值开发不足的问题,结合水文管理数据的特点与索引建设需求,提出可扩展索引类型的水文管理数据信息整合与自动化更新机制。通过异构系统访问与编码映射机制,屏蔽各独立管理系统的异构性与复杂性,提供统一的数据互操作接口;构建索引类型可扩展与定制模型,提供数据源与索引类型扩展功能接口,实现索引类型可更新与建立规则可定制;封装流程化自动更新模块,实现索引数据库自动化与定时更新。在此基础上,研发实现水文管理数据资源整合与索引服务系统。经测试表明,该服务系统可实现快速挖掘与整合海量水文管理数据碎片化信息,建立水文管理索引数据仓库,在数据整合质量与更新效率上均表现出良好的性能,能够为水利信息化建设与管理提供可靠、灵活的技术支撑。

水文管理数据;海量;信息整合;索引服务;系统可扩展;定时更新

0 引言

水文数据蕴含着重要的基础国情信息,水文数据的服务与共享能力在水资源高效利用与管理及国民经济建设中发挥着重要作用[1-2]。当前水文数据管理模式存在资源分散,信息共享困难和难以获取有价值信息等问题,并且根据水利业务实际需求,单一的水文数据存储、管理方式,已难以满足用户的读取、理解与统计分析等需求,不利于水文数据的分析、服务与共享。因此,对水利信息资源进行梳理、整合,形成信息资源目录体系;基于统一的数据模型,形成由索引数据库和元数据库等构成的中心共享数据库,以更加友好、直观、可量化的方式表达水文数据,并实现各级水利部门、各应用系统之间数据交换与共享的工作势在必行。在长江水文业务数据资源整合平台部署完成后,水文业务数据资源整合与共享工作已取得重要成果[3]。

但仅对水文业务数据进行整合与共享已无法满足实际需要,水文管理数据作为水利资源的重要组成部分,包括公文、合同、水利设施等支持水利信息化管理的各类数据资源,同样需要进行信息整合与共享。水文管理与业务 2 种数据在数据属性、库表结构、系统异构程度及索引建立规则等方面均有所不同,因此业务数据的整合方法并不适用于水文管理数据。水文管理数据通常存放在不同的管理系统之下,平台异构问题及互通接口的缺乏导致大量的管理数据被隔离在各自独立的系统中,无法实现数据联动检索与分析。水文业务服务系统新增索引类型时,只需使用固定的索引抽取规则[4-8],但水文管理索引由于数据的复杂性、不同索引需求不同及用户需求条件发生变化等原因,各类索引的建立规则均有所不同,导致难以实现动态注册新索引类型。同时由于水文管理数据更新频繁,数据量庞大,人工处理方式已越来越无法适应海量水文管理数据整合与更新的需求。

目前相关领域对于水文管理数据的整合与更新研究较少[9]。为解决海量水文管理数据的信息整合与更新问题,有必要研发出一种新的可扩展索引类型的水文管理数据整合与自动化更新服务机制,实现异构系统数据的自由交互与共享、索引类型动态扩展与可定制化,将自动化与定时更新并行入库过程简化,实现数据整合与更新的完全自动化,为海量水文管理数据信息化服务与共享提供灵活、高效、稳定的技术保障。

1 水文管理数据特点与问题分析

由于水文管理数据库表结构的复杂性,数据录入、转换过程中的数据错误和缺失问题,以及系统建设时间和完成人员不同所造成的系统异构,库表结构不同等问题,都会给水文管理数据的整合与共享带来很大困难,影响整合效率和最终成果质量。

1.1 异构系统数据共享问题

水文管理数据突出的特点是不同系统之间存在很强的异构现象,这不仅表现在各系统本身所依赖的数据库引擎上,也表现在表结构、字段项设置和字段类型,以及唯一标识(人员和机构)的编码规则上。管理类数据属于各正常运行的独立系统,获取、整合数据时不能影响原有系统的正常运行和编码规则,所以不能重新建立统一所有独立系统的编码规则,否则既影响原有独立系统的运行,又会导致原始积累的大量数据不可用。因此有必要设计包括异构数据库访问、表与字段项选择和编码映射等功能的数据互操作机制,以便实现各管理系统之间的无缝交互与共享。

1.2 信息冗余与数据完整性问题

水文管理数据表结构中包含大量字段,字段项多在 50~200 之间,大多数是对用户无用的冗余信息,且许多字段项之间存在表意重复现象。大量字段项由于相关资料的缺失,无法得知具体表示含义,并且这些字段长期处于空置状态,造成大量管理数据长期以来只能作为无意义的记录存在于数据库表中,致使用户和决策者难以发挥其使用价值,这是对信息资源和数据的极大浪费。水文管理数据的完整性问题,主要表现为一些关键字段项记录缺失,部分字段可以通过人工辅助手段借助相近含义或关联等字段推导出,但也有部分缺失记录是无法恢复的。管理数据信息整合工作从海量冗余数据中挖掘有价值信息的同时,也对系统录入数据的标准化和规范化提出更高的要求。

2 水文管理数据整合与更新机制研究

2.1 水文管理数据索引构建

水文管理数据整合与更新的最终目的是形成可持续、灵活更新的水文管理索引数据仓库。由于水文管理类数据库的数据量巨大,管理数据自身结构复杂和信息冗余,如果直接获取数据库中原始信息,既增加管理类数据库的访问压力,也无法得到用户可理解的有效信息。通过研究水文管理数据的特点和用户实际需求,提出水文管理数据索引的概念。与普通的水文业务数据索引只是简单地抽取原数据库表的特定字段项不同,管理数据索引需要根据用户的具体需求对抽取字段项进行分组、求和、类型转换、取位数和条件判断等运算,并且允许用户与索引运算语句进行直接交互,以获取用户可定制的管理索引形式。通过构建水文管理数据索引,一方面,可以规范管理数据的表结构形式,解决数据质量问题,提高数据服务的精准度;另一方面,可以帮助用户避开异构系统无法联动检索和管理数据类型复杂、难以理解的问题,既缓解了管理数据库的检索压力,又提高了用户的可读性。

2.2 自动化流程设计

为实现水文管理数据的自动化整合与更新,避免传统人工模式造成的数据质量问题,设计了索引自动化更新、入库工作流程,如图 1 所示。该技术流程可实现跨异构数据库、复杂库表结构、多种编码规则,以及满足不同索引类型、定制化条件进行水文管理数据的整合入库。具体流程内容如下:

1)编码映射。主要解决各独立系统标识码编码规则不同的问题,通过建立编码映射表,可实现在功能上表现为所有系统的编码规则统一,提高各独立系统数据库的访问与互操作效率。

2)索引扩展。主要针对水文管理系统建设进度不一致,未来新建系统及新增索引类型和更改需求的问题,提供一个可扩展数据源和索引类型的标准接口,满足管理索引不断变化的现实需求。

3)索引建立入库。是信息整合的最终目的,借助编码映射、索引扩展、异构数据库访问等环节,实现从各独立系统中获取所需数据,经由索引建立模块的数据预处理环节,将接收数据转换为符合索引表结构的标准格式数据,再通过并行入库算法实现索引准确、高效入库。

4)定时更新。目的是减少人工操作,实现无人值守时自动执行索引更新、入库操作,并可根据实际生产需要对不同索引类型设置不同的更新频率。

图 1 水文管理数据信息整合与自动化更新流程

3 水文管理数据整合与更新机制关键分析

3.1 异构系统数据互操作机制

存在于水文管理系统之间的异构问题导致各系统间难以联动检索和获取数据。为解决数据互操作问题,提出异构系统数据互操作机制,包括异构数据库访问和编码映射等环节,以保障任一管理系统下都能稳定、快速地获取数据,方法模型如图 2 所示。

考虑到水文行业多采用企业级数据库 Oracle 和SQL Server 进行数据的存储与管理,为此构建了通用数据库访问模块,用以屏蔽 2 种数据库引擎的异构特性,实现同一套接口访问 2 种数据库引擎,用户只需输入必要的连接信息,无需考虑属于何种数据库类型。编码映射模块用于屏蔽不同管理系统标识码编码规则不统一的特性,通过建立编码映射表实现数据获取操作上的统一,无需考虑不同管理系统编码差异的特性。编码映射模块为每个“人-系统”或“机构-系统”组合设置了唯一的编码映射,避免重名问题,通过设置过滤条件剔除不符合编码要求的组合项,并提供编辑、注册功能对问题组合项进行人工修改和接收新的管理系统。通过异构系统数据互操作机制,保证水文管理数据整合与更新系统能够快速地获取和处理不同系统、数据库类型的水文管理数据,避免人工在不同管理系统和数据库之间来回切换所造成的资源浪费,便于实现后续的索引建立与入库操作。

图 2 异构系统数据互操作机制

3.2 索引类型可扩展模型

水文管理数据一个很大的特点是索引需求不固定,不统一。水文业务数据索引的建立可以编写一套固定的索引建立规则与数据入库标准流程,后期各种数据都按照这套标准流程进行整合、入库。水文管理数据由于原有系统数据录入不规范,各类型索引建立需求不同,以及用户需求条件发生变化等原因,无法编写固定的、统一的索引建立规则。为增强服务机制的可用性与灵活性,设计了索引类型可扩展模型,如图 3 所示。通过提供索引类型扩展与运算语句的用户接口,可对索引类型进行注册、删除和编辑等操作,辅助用户定制自己的索引建立规则,满足多样化需求。索引建立规则初次定制成功后,后期可依据已有规则进行自动化数据整合、入库、定时更新等环节,确保索引建立的灵活性。

3.3 流程化自动更新模型

水文管理数据索引建立规则多样化、需求不固定造成信息整合与入库的困难,尤其在效率与可操作性上。针对当前问题,结合工作流模型设计了流程化自动更新模型[10],编写了标准化的数据接收、索引建立与入库流程,并分别针对手动与定时更新的需要,封装了手动与定时更新的流程化模块,避免了数据更新入库时的频繁操作,结构如图 4 所示。基于流程化自动更新模型可实现客户端一键执行流程化自动和服务器端定时的更新,仅需在注册新索引类型、更改需求或更新编码信息时进行相关配置的修改。

图 3 索引类型可扩展模型结构图

图 4 流程化自动更新模型结构图

由于水文管理数据类型多,数据量大,采用串行入库策略分别对每种索引类型进行队列更新必然影响数据入库的效率。为提高数据入库效率,缩减等待时间,采用并行更新入库的算法,对索引类型进行分组形成多个队列,每组队列进行类别间的串行入库。为避免不同索引类型间数据量差异过大(如考勤与合同索引相差几个数量级)造成某一组索引入库时间远大于其他组,可根据实际情况引入同一索引类型内部也采用并行入库的方式,或只在索引类型内部采用并行入库而不再进行索引类型分组。通过流程化自动更新和并行入库模型算法既增强了人工的可操作性,也提高了数据的更新入库效率。

4 水文管理数据资源整合与索引服务系统实现与分析

4.1 服务系统组成

结合提出的水文管理数据信息整合与更新机制和长江水利委员会水文局资源整合的实际需求,设计开发了水文管理数据资源整合与索引服务系统(以下简称服务系统)。服务系统以 Python 为开发语言,采用 B/S 模式三层架构搭建,基于浏览器提供异构系统数据获取、索引建立、自动化入库、定时更新、编码映射更新、索引类型扩展、动态可视化查询和用户权限管理等功能。

服务系统初次启动时,人员与机构信息入库、编码映射生成、管理系统和注册、索引建立规则定制、定时更新设置等操作环节的初始化参数设置需人工执行。后期只需服务器端自动执行定时更新索引库操作,无需人工干预,并可随时更改初始化参数或注册新索引类型。根据各类索引实际数据量可设置合理的更新频率,避免数据更新不及时或过于频繁的问题。系统默认每日零点开始执行定时更新功能,并根据各索引类型的频率设置进行有选择的更新,避开工作日时间,保证系统在工作日时间的畅通性。

4.2 服务系统性能测试与分析

服务系统部署在局域网服务器上,采用 Chrome浏览器作为客户端进行系统测试,以办公、合同、财务 3 种管理系统为测试数据源,建立 12 种类型的管理数据索引,索引规则定制要求如表 1 所示。每种水文管理系统编码入库平均耗时在 1 min 以内,索引映射表 1 次入库可数次使用,并且可不断扩展、接收任意数量的水文管理系统编码规则。传统人工模式直接查询指定人员或机构在某管理系统中的记录信息耗时在 1 min 以上,通过编码映射方法可在2 s 内完成。服务系统借助编码映射确定人员、机构标识在各管理系统中的表示方式,解决了传统人工查询难以快速获取、融合异构系统数据的问题。

表 1 服务系统测试数据索引规则定制要求

注册管理系统和新索引类型时,如完全由人工分析表结构和编写索引运算语句至少需要耗时 5~10 min,在服务系统提供的索引类型可扩展接口下 1~2 min 即可完成,并且一次编写可长期使用。定制索引规则时,在抽取字段数不超过系统最大字段数限制和字段别名按照服务系统要求设定的前提下,系统索引建立模块会自动处理抽取出的水文管理数据,按照管理索引表结构的标准格式进行预处理并入库。

水文管理数据索引更新完成后,可通过服务系统的动态可视化查询模块查询、浏览水文管理索引的详细信息。服务系统提供人员和机构 2 种索引查询方式,以机构索引查询为例,默认显示机构的全部类型索引信息,可视化查询、显示每个机构的全部索引类型信息时间延迟平均在 2 s 以内,在可忽略的范围内,用户体验较好。由查询结果可以看出,索引建立成果质量较好,直观、清晰、易于理解,符合用户读取、分析、统计和空间可视化等需求。同时服务系统提供动态的可扩展索引类型查询方式,索引类型选择列表将根据索引库的实际存储情况进行动态更新,避免同一页面显示索引类型过多,影响体验效果。

服务系统在实际生产环境下测试,运行良好,达到了本研究提出的水文管理数据信息整合与更新机制的预期效果。服务系统对长江水利委员会水文局各年份管理数据进行遍历统计运算,2 h 内可进行一次索引库更新,而传统人工模式实现跨管理系统查询、统计数据则需要数天。相对于传统模式,该服务系统实现效率可提高 5 倍以上,并且建立了可长期维护、自动更新、不断扩展的水文管理索引数据仓库,是传统模式无法实现的,这极大提高了水文管理数据的使用价值和服务的工作效率。

5 结语

水文管理数据作为水利资源的重要组成部分,提升其服务与共享能力是水利信息化建设的一项重要工作。针对当前海量水文管理数据存在资源分散、利用不足的问题,研究并实现了海量水文管理数据信息整合与自动化更新机制,建立水文管理索引数据仓库。基于信息整合与自动化更新机制,能够自动从不断增长的海量水文管理数据中快速提取出有价值的信息,更新水文管理索引数据仓库;并通过数据质量自动检查和入库格式标准化功能,保障索引数据的入库质量。同时考虑到管理数据服务系统的延展性和后期使用价值,该服务机制提供了索引类型和规则扩展功能接口,便于后期待建管理系统的注册与整合。在下一步工作中,将结合水文管理数据的逻辑关联性和数据属性继续深入研究水文管理索引的入库效率与扩展性及水文管理数据与空间信息结合等问题[11-12],为提高水文数据的管理、服务与共享提供进一步的技术支撑。

[1] 朱星明,章树安,陈蓓玉,等. 可持续发展水文水资源信息共享探索及实践[J]. 水利学报,2006 (1): 109-114.

[2] 张建云,章树安. 全面理解,稳步推进水文现代化[J]. 水文,2006,26 (3): 10-12.

[3] 曾楷,陈雅莉,张文,等. 基于工作流的水文数据自动化服务机制研究与实现[J]. 水文,2015,35 (5): 46-53.

[4] 张文,陈雅莉,孟令奎,等. 兼顾数据质量的水文数据库自动化更新机制研究[J]. 华中师范大学学报(自然科学版),2016 (1): 128-136.

[5] 史铮铮,陈雅莉,张文,等. 面向水文数据的自动化信息整合与分析[J]. 水文,2015,35 (6): 42-49.

[6] 孟令奎,李三霞,张文,等. 面向水文数据共享的水文核心元数据模型研究及应用[J]. 水文,2012,32 (1): 1-5.

[7] 成建国,冯钧,杨鹏,等. 水利数据资源目录服务关键技术研究[J]. 水利信息化,2014 (6): 18-21.

[8] 中国水利水电科学研究院. 水利信息核心元数据:SL 473—2010[S]. 北京: 中国水利水电出版社,2010: 2-5.

[9] 杨晓斌. 海量水文数据处理和管理技术的探讨[J]. 中国农村水利水电,2010 (8): 102-105.

[10] FREIRE J, SILVA C T, CALLAHAN S P, et al. Managing rapidly-evolving scientific workf l ows[M]//Provenance and Annotation of Data: International Provenance and Annotation Workshop. Heidelberg: Springer Berlin Heidelberg, 2006:10-18.

[11] 吴凌颖,郭旭宁,赵红莉,等. 地理信息系统在水资源监控与管理实践中的应用[J]. 水利信息化,2014 (4): 1-4.

[12] 王露,王志坚,高祥涛,等. 水利地理信息云平台的探讨[J]. 水利信息化,2015 (5): 6-10.

Study on mechanisms of massive hydrological management data information integration and updating

YU Changhui, YU Haiwei, ZHANG Wen

(College of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China)

For the problem of inadequate utilization of massive heterogeneous hydrological management data,the article analyzes the characteristics of hydrological management data and current practical requirements, and investigates mechanism of hydrological management data information integration and automatic updating which could extend index types. Using the heterogeneous system data access and code mapping mechanism, it can shield the heterogeneousness and complexity of individual management systems. To make the index types updateable and establishing rules customizable, the extensible model and customizing index types are built and an extension functional interface of data source and index types is provided. To enable database update automatically and regularly, the automatic updating workf l ow model is encapsulated. On the basis of this, the hydrological management data resource integration and index service system is studied and developed. The test shows that the service system can excavate and integrate fragmentation information of massive hydrological management data quickly and establish the hydrological management index data warehouse. It has favorable performance in data integration quality and updating efficiency,and could offer a reliable and flexible technical support for the construction and management of water resources informatization.

hydrological management data; massive; information integration; index service; extensible system;regular automatic updating

P331;TV213

A

1674-9405(2017)05-0006-06

10.19364/j.1674-9405.2017.05.002

2017-05-15

余长慧(1976-),女,河南商丘人,博士,副教授,主要研究方向:遥感影像处理与分析、数据挖掘。

猜你喜欢

异构入库水文
试论同课异构之“同”与“异”
重磅!广东省“三旧”改造标图入库标准正式发布!
继往开来 守正创新——河北省水文工程地质勘查院
中国食品品牌库入库企业信息公示②
中国食品品牌库入库企业信息公示①
水文
水文水资源管理
水文
异构醇醚在超浓缩洗衣液中的应用探索
overlay SDN实现异构兼容的关键技术