APP下载

水利大数据目录服务与资源共享关键技术研究

2017-09-15陆佳民唐志贤张鹏程

水利信息化 2017年4期
关键词:水利部水利信息化

陆佳民,冯 钧,唐志贤,张鹏程

(河海大学,江苏 南京 210098)

水利大数据目录服务与资源共享关键技术研究

陆佳民,冯 钧,唐志贤,张鹏程

(河海大学,江苏 南京 210098)

长期以来,各水利单位与业务部门从自身发展实际出发,建设了一大批水利信息化业务应用项目,并积累下丰富的水利数据资源,总量已超 2.5 PB。由于这些数据的采集与使用一直依赖于不同的业务系统,数据不仅分散在水利部、七大流域、31 个省区(直辖市)和新疆建设兵团的数据中心或不同业务部门,同时形式异构,业务间交叉冗余、语义冲突,严重制约了水利领域大数据高效共享与使用。面对跨行业跨部门的结构化、半结构、非结构化水利数据共享需求,提出发展基于分布式目录的海量异构水利数据共享技术,构建面向水利部/流域/省区的水利大数据共享平台,从而使全国范围内水利数据非重构高效共享成为可能。研究能够充分利用既有水利信息化建设成果,是“十三五”期间推进“数字水利”向“智慧水利”积极发展的重要基础性工作之一。

智慧水利;大数据;共享服务;分布式目录

0 引言

“十二五”期间,随着国家多项水利信息化重点工程的落实和实施,全国水利信息化进程不断加快,流域和地方信息化水平全面提升,信息技术与水利业务融合程度逐步加深,信息化发挥效益更加显著,基本形成了由基础设施、业务应用体系及与之相配套的技术标准和保障体系构成的水利信息化综合体系[1]。截至 2015 年底[2],省级以上水利部门成立网络安全与信息化领导小组(或信息化工作领导小组)的单位有 38 家,年度省级以上水利部门主持新建信息化项目 200 多项,投资总额超过 36 亿元。在信息采集与数据管理层面,全国各类水利信息采集点超过 14 万处,自动采集率达 80%;省级以上水利部门立项建设的数据中心从“十一五”时期的 3 家增加到 24 家,当前存储数据资源近 2.5 PB。

伴随着各类水利数据监测手段与通信技术的不断完善,形成了巨大的数据富矿,成为推动各类水利信息新技术应用,由“数字水利”向“智慧水利”积极转变的重要基础[3]。然而,由于长期以来,水利信息化建设多与专业工程应用、局部业务单位需求绑定,水利数据的采集与使用一直依赖于具体的业务系统和工程项目,导致软硬件、数据资源分散建设在各个单位或不同业务部门,形成以地域、专业、部门、系统等为边界的孤岛[4],数据形式异构,同时业务间数据交叉冗余、语义冲突、管理主体各异,严重制约了水利领域大数据高效共享与使用。对于结构化数据,可通过重构整合构建面向一定应用预期的共享库,解决特定范围内的共享问题。然而,面对全国范围内的水利数据共享,特别是 90% 以上的数据以非结构化、半结构化形式存在,迫切需要研究新型共享机制和实现技术。

针对上述问题,围绕分布式海量异构水利数据共享技术,总结多年来水利大数据共享实践经验[5],基于分布式目录服务,对数据共享技术架构进行综述,提出水利大数据多主体共享、异构数据语义协同、数据资源智能发现方法、可信服务监控优化等多项核心关键技术,使得全国范围内水利数据非重构高效共享成为可能。

1 领域大数据共享现状

自 2008 年 9 月由《科学》杂志提出大数据概念[6]以来,大数据理念深入人心,相关技术发展如火如荼,各类应用已广泛并深刻地影响着当下社会的方方面面。在商业零售、物流、医药、文化产业、交通、银行、保险、证券等多个行业,各类大数据应用层出不穷,形成了比较全面的大数据应用生态环境。在这一背景下,大数据的重要性及其中蕴含巨大价值开始成为广大群众的普遍共识。大数据管理技术逐渐从如何采集与存储数据,转而向如何共享与利用数据价值的方向转变。

美国奥巴马于 2009 年 5 月 21 日宣布实施“开放政府计划”(Open Government Initiative),开通“一站式”政府数据下载网站 Data.gov,提供近 20 万项数据文件,涵盖了社会、民生、经济等领域的近50 个门类,用于整合开放原先分布在 2.4 万个美国联邦政府机构网站上的零散数据,以提供统一服务。欧盟委员会 2010 年 4 月发起欧洲数字化议程,并推出开放数据平台(ODP EU Open Data Portal),提供欧盟统计局的包括地理、大气、国际贸易、农业等各类数据集。

2017 年 5 月,国务院印发《政务信息系统整合共享实施方案》(国办发〔2017〕39 号),提出建立全国政务信息资源目录体系,推进建设统一规范、互联互通、安全可控的数据开放网站和全国政务信息共享网站,从根本上解决长期以来困扰我国政务信息化建设的“各自为政、条块分割、烟囱林立、信息孤岛”的问题。

早在 2015 年 4 月,水利部印发《水利信息化资源整合共享顶层设计》[7],明确了水利信息化资源整合共享的技术路线和实施途径,提出采用云计算大数据技术,整合省级以上基础设施、数据资源、业务应用、网络安全体系。水利部信息化资源整合共享重点项目的国家水信息基础平台建设已全面启动,相关制度与行业标准编制工作已经部署,水利部资源整合共享工作正在深入推进。

2 水利大数据共享交换与服务技术架构

水利大数据的共享交换与数据服务是实现水利大数据资源化的重要途径[8-9]。通过构建水利大数据共享服务平台,可以在全国范围内实现水利部/流域/省区三级异构数据资源的互联互通和高效共享访问。平台技术体系架构如图 1 所示,由数据资源层、平台支撑层、数据汇聚层、核心服务层和应用层 5 个层次组成。

图 1 水利大数据共享服务平台技术架构

首先,在水利部、流域和省级分别构建自治数据资源目录,实现对本级数据资源的元数据抽取与目录汇编,利用水利信息网外网进行互访,形成大数据共享服务平台的数据资源层。其次,平台支撑层利用对等网络结构和多层次多粒度数据缓存等,满足万级用户高并发访问需求,实现云平台对海量数据的高效管理。

数据汇聚层包括 3 个模块。数据事权汇聚模块基于水利数据目录分类标准,形成全域数据事权关系图。索引汇聚模块,形成水利行业全域的核心目录索引。业务视图汇聚模块结合业务应用需求,构建了水文、水资源、水环境水生态、水利工程、农村水利、水灾害(防汛抗旱)、水土保持和移民八大水利应用业务视图。核心服务层包括智能发现、柔性多引擎等,智能发现服务集包括对搜索关键字进行分词的查询分词,进行关键字扩展的语义扩展和查询结果排名等服务;柔性多引擎服务集,包括数据总线,面向应用的 Web 服务接口及实现主流数据与数据总线之间对接的接口适配器。应用层提供关键字检索、时空查询、导航查询和发布订阅等资源发现和获取服务。基于平台的数据发现和获取服务,开发了水情、工情、水质、遥感等基础查询和分析服务。

3 水利大数据共享关键技术

与传统互联网或金融行业的大数据问题不同,水利信息资源不仅数量庞大、结构异质,同时数据资源分散存储在水利部/流域/省级节点,业务交叉冗余且管理事权复杂,互访互用需求显著迫切,从而给全国范围内的水利大数据共享带来巨大挑战。为此,结合我国近年来水利大数据共享实践经验,从构建基于分布式目录的新型水利大数据共享模型,基于多重映射机制的异构数据组织方法,基于语义的水利大数据智能发现技术,以及水利大数据可信共享服务方法 4 个角度出发,实现对业务应用的良好支持,形成稳固的水利大数据共享技术体系。

3.1 基于分布式目录的水利大数据共享服务模型

针对水利大数据事权管理复杂,统一发现难的问题,需要立足于水利部、流域和省级部门分别建立的具有自治共享能力的数据资源目录,结合部门组织架构和水利信息分类,构建支持数据溯源定位的全域数据事权关系图、核心目录索引和业务视图集。

因此,提出索引片区多层级合并技术,将数据资源目录的核心目录索引汇聚形成全域语义一致的分布式资源目录索引[10],以实现全域共享数据的统一发现。同时,针对数据溯源定位过程中存在的交叉冗余问题,提出基于模糊优先级的二阶段实例层数据集成方法[11],形成面向动态业务的可信数据集,解决数据不一致问题。

3.2 基于多重映射机制的异构数据组织方法

不同水利事权单位所管理的水利信息资源在数据内容和存储结构上都存在极大的差异,既包括实时水雨情、水文、水质、气象和水利普查等数据库,又有遥感影像、矢量空间等半结构或非结构化数据。在水利大数据共享服务平台上,需要将这些异构数据内容映射在相同的语义环境下,达到统一查询和互联互通的目标。

针对这一问题,采用聚类分析法提取不同类型元数据的核心目录模式,并对水利大数据资源特征的元数据模式集定义描述,利用可配置方法,以实现不同类型的结构化、非结构化和半结构数据资源的元数据自动抽取。同时,配置映射不同类型的元数据模式到统一的核心目录模式,以实现对异构数据资源的归一化处理和统一发现,又提出面向可扩展多维分类的多值映射技术,将核心目录模式映射到业务视图集,实现了从多维视角发现和访问数据资源[12]。

3.3 基于语义的数据资源智能发现方法

水利大数据共享服务平台需要向全社会开放,实现水利信息资源的公开和共享共用。因此,在资源发现方法上,既需要满足普通公众对于水利知识探索需求,也需要满足从事水利行业的专业人员从业务实际需求出发,对水利数据资源进行精准定位和关联分析。

因此,提出基于《水利公文词表》《水利信息化常用术语》,以及实时水雨情等水利数据库,提取水利数据常见关键字及其关系[13]。以此作为初始训练样本集,可以融合水利领域知识的深度置信网络文本挖掘方法,利用 BP 网络进行监督学习,构建水利知识分类,通过反向传播优化参数,提高从专业文献、水利行业网站、大百科等非结构化文本中提取知识单元及关系的准确率,形成水利知识图谱。同时,针对水利信息查询过程中仅限关键词字面匹配的问题,提出基于水利语义的信息检索方法,结合知识图谱,利用语义推理机进行搜索扩展,以获取业务应用更全面的信息。

3.4 面向水利大数据的可信服务方法

作为一个提供水利大数据共享应用的公共开放平台,维护平台服务的长效性和稳定性至关重要。由于平台数据资源汇聚自分散在全国不同的地域和网络环境下的水利数据资源目录系统,在查询时间和服务可靠性等方面呈现非线性、动态多变、难以把握的特性。

针对该问题,提出基于径向基神经网络的在线服务质量组合预测方法[14],在对候选服务进行服务质量预测的基础上,为用户推荐优质服务。采用自激励门限自回归移动平均模型对非线性数据进行预测,通过灰色等维新息模型模拟出整个服务属性值的发展趋势,最后用径向基神经网络模型进行组合预测,以提高预测精度,均方根误差降低了30%~50%。

在局部地区突发水情的情况下,极易出现短时内访问激增等服务突发情况,从而造成资源瞬间耗竭等异常问题。因此,提出了基于加权朴素贝叶斯的数据服务质量监控方法[15],通过组合地理位置、访问网络和时间等多种影响因素,对服务质量进行在线监控获取样本序列,结合滑动窗口及时淘汰过时样本,利用信息增益理论兼顾最新样本,避免了监控延迟判断、噪声抖动等现象,提高了监控的灵敏度,能够平均提前 30 个样本检测到服务质量问题,为资源的动态调整提供了更多时间。

4 结语

伴随着水利部水信息基础平台、国家水资源监控能力建设(二期)等项目的展开,水利“十三五”信息化建设工作正在实践过程中不断深化。如何能够充分利用“十一五”与“十二五”水利信息化建设成果,构建实施水利大数据共享服务平台,全面整合共享并应用水利大数据成果,向公众提供切实有效的水利信息服务,推动“数字水利”向“智慧水利”的积极转变,是当前水利信息化建设工作的重点与难点。

在国务院印发的《促进大数据发展行动纲要》(国发〔2015〕50 号)中,明确指出“加快政府数据开放共享,推动资源整合,提升治理能力”。在“十三五” 水利科技创新规划中,多源异构数据的融合与共享被列为高新技术应用的三大方向之一。“十三五”水利信息化规划中,“水利大数据分析与应用服务示范”作为十三项工程之一列入重大研究专项。

因此,针对水利大数据量大面广、事权复杂、结构异质的特性问题,围绕水利大数据共享与服务过程凸显出来的具体挑战,从构建基于分布式目录的新型水利大数据共享模型,基于多重映射机制的异构数据组织方法,基于语义的水利大数据智能发现技术,以及水利大数据可信共享服务方法 4 个角度出发,对关键技术方法和应用成果进行总结论述,为实现水利大数据的深度应用迈出坚实一步。

[1] 邓坚. 开拓创新 扎实做好新时期水利网信工作[J]. 水利信息化,2016 (4): 5-9.

[2] 水利部网络安全与信息化领导小组办公室. 2015 年度中国水利信息化发展报告[M]. 北京:中国水利水电出版社,2016: 1-3.

[3] 蔡阳. 水利信息化“十三五”发展应着力解决的几个问题[J]. 水利信息化,2016 (1): 1-5.

[4] 蔡阳. 关于水利信息化资源整合共享的思考[J]. 水利信息化,2014 (6): 1-6.

[5] 冯钧,唐志贤,盛震宇,等. 水利数据中心数据交换平台设计探讨[J]. 水利信息化,2014 (1): 15-19.

[6] Nature. Big data: Science in the petabyte era[J]. Nature, 2008,455: 1-136.

[7] 中华人民共和国水利部. 水利信息化资源整合共享顶层设计[R]. 北京:水利部信息化工作领导小组办公室,2015: 3-5.

[8] 冯钧,许潇,唐志贤,等. 水利大数据及其资源化关键技术研究[J]. 水利信息化,2013 (4): 6-9.

[9] 成建国,冯钧,杨鹏,等. 水利数据资源目录服务关键技术研究[J]. 水利信息化,2014 (6): 18-21,35.

[10] FENG J, TANG Z X, WEI M, et al. HQ-Tree: A distributed spatial index based on hadoop[J]. China Communications, 2014, 11 (7): 128-141.

[11] TANG Z, FENG J, XI X U, et al. Research on the modeling and indexing method for river network[J]. Dianzi Keji Daxue Xuebao/Journal of the University of Electronic Science & Technology of China, 2015, 44 (4): 611-616,640.

[12] 朱跃龙,蔡阳,冯钧,等. 一种面向多数据类型信息资源元数据的共享方法:中国,ZL201110211643.7[P]. 2013-03-06.

[13] 冯钧,许潇,唐志贤. 面向水利信息资源目录服务的分布式语义检索方法研究[J]. 计算机与现代化,2015 (2): 122-126.

[14] ZHANG P, LEUNG H, LI W, et al. Web services property sequence chart monitor: a tool chain for monitoring BPEL-based web service composition with scenario-based speci fi cations[J]. IET Software, 2013, 7 (4): 222-248.

[15] ZHANG P, HAN Q, LI W, et al. A novel QoS prediction approach for cloud service based on Bayesian networks model[C]// IEEE International Conference on Mobile Services. New York: IEEE, 2016: 111-118.

Survey on key technologies for catalog service and resource sharing on big water data

LU Jiamin, FENG Jun, TANG Zhixian, ZHANG Pengcheng
(Hohai University, Nanjing 210098, China)

The Water Management Authorities have long been urged to establish different water information management systems, to ful fi ll their own requirements. During this period, massive water data with the overall amount more than 2.5 PB, has been collected but stored dispersedly in different data centers or different business departments located on the Ministry of Water Resources, 7 major basins, 31 provinces and Xinjiang Construction Regiment. Such data is not only various on their structures and storage locations, but is also cross redundant on its semantic expressions and authorization clari fi cation. It severely restricts the sharing and using big data in the fi eld of water conservancy. Facing the water data sharing demand of structured, semi-structured and unstructured and cross-industry and crossdepartment, the article puts forward developing the mass heterogeneous water resources data share technology based on distributed catalog. In order to share such data nationally, over the Ministry of Water Resources, the river basin management agencies and the provincial institutes, it is necessary to establish a national big water data sharing service platform, so that non-refactoring and ef fi cient sharing of water data across the country becomes possible. The research makes full use of existing water conservancy informatization construction achievements. It is one of the important basic works to turn the“digital water conservancy”to“intelligent water conservancy”during the 13th Five Year.

intelligent water conservancy; big data; sharing service; distributed catalog

TP393;TV21

A

1674-9405(2017)04-0017-04

10.19364/j.1674-9405.2017.04.004

2017-05-15

国家科技支撑计划课题(2015BAB07B01);国家自然科学基金(61370091,61602151);江苏省重点研发计划(BE2015707)

陆佳民(1983-),男,江苏南京人,博士,讲师,主要研究方向:数据管理与知识工程,时空数据库管理、分布式数据处理和水利信息化等技术。

猜你喜欢

水利部水利信息化
月“睹”教育信息化
幼儿教育信息化策略初探
为夺取双胜利提供坚实水利保障(Ⅱ)
为夺取双胜利提供坚实水利保障(Ⅰ)
水利工会
水利部2017年1月批准发布的第二批水利行业标准
水利部2017年1月批准发布的第一批水利行业标准
信息化是医改的重要支撑
水利部离退休干部参赛作品
信息化