大数据技术在水利行业中的应用探讨
2016-11-21陈蓓青谭德宝田雪冬
陈蓓青,谭德宝,田雪冬,夏 煜
(1.长江科学院 空间信息技术应用研究所,武汉 430010;2.长江勘测规划设计研究院 长江岩土工程总公司,武汉 430010)
大数据技术在水利行业中的应用探讨
陈蓓青1,谭德宝1,田雪冬2,夏 煜1
(1.长江科学院 空间信息技术应用研究所,武汉 430010;2.长江勘测规划设计研究院 长江岩土工程总公司,武汉 430010)
大数据技术是正在发展中的新兴信息技术。基于大数据复杂性、不确定性等特点,对水利行业应用需求进行分析,提出了水利行业大数据资源化架构设计。通过对综合信息平台信息共享机制的研究、云计算及云存储应用,以及三维智能协同设计流程方案的探讨,对大数据在水利行业的深度应用前景进行了分析与展望。大数据技术将对未来水利行业的发展带来深远的影响。
水利信息化;大数据;综合信息管理平台;云计算;三维智能协同设计
1 研究背景
近年来随着物联网、移动互联网、云计算等技术的快速发展,数据量的爆炸式增长使得当今信息社会正步入大数据时代[1]。大数据改变着我们未来的生活,推动着国家、企业乃至整个社会的变革。
自2008年9月《Nature》出版“Big Data”专刊以来[2],大数据更是成为政府、学术界、商界共同关注的焦点。《Science》杂志在2011年推出了关于数据处理的专刊“Dealing with Data”,数据洪流(Data Deluge)的概念被首次提出。上述研究表明人们已开始关注信息时代大数据给社会和生活带来的变化,并期待能够有效地使用这些大数据,通过信息化更进一步地推动整个社会的科技发展。2012年美国政府也公布了《大数据研究和发展倡议》,并启动了“大数据研究和发展计划”项目,旨在加强对海量数据收集方式的研究,以及如何提高在复杂大数据中分析及快速提取专题信息的能力。
2 大数据带来的挑战
随着网络化不断的普及,数据存储集合不断增大,存储单位已由最初的GB发展为ZB(1021)。业界根据大数据的特点总结了4个V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)和价值(Value)[3],大数据类型多种多样,且常常根据事件特点呈现出突发状态,难以快速有效地根据其变化进行预估和分析。
2.1 大数据的复杂性
大数据的复杂性由于其类型和结构的特点体现在存储与分析等多个方面,但其发展也为信息化带来了无限的机遇。
(1) 数据类型复杂性。随着物联网技术的进步,数据类型日益丰富,数据采集方式的不断变化,使得新的数据存储与处理技术也随之需要不断创新。如图像、音频等数据已成为当今互联网上主要的信息展示方式,传统的文本挖掘技术和方法很难对这些数据的丰富信息进行快速有效的提取与解析。另一方面,传统的数据处理方法也无法适应现代多类型多时相数据融合要求,例如对象地理信息与其属性信息的融合、同一对象不同时空信息的结合等。
(2) 数据结构复杂性。目前相关的研究热点是针对非结构化数据的基础分析,由于信息采集方式的多样化,图像、视频等网络常用的非结构化数据使得数据存储、分析与挖掘的传统方式必须随之需要改变。目前国内外针对这些非结构化数据的分析做了大量的研究,如国外谷歌等公司开发非关系型数据库来存储非结构化数据,实现了多种分布式架构。我国对非结构化处理的研发也投入了大量的研究精力,并取得了较好的成果,如百度和阿里搭建的云服务平台、各行业开展的互联网+行动等。
2.2 大数据的不确定性
大数据的不确定性在于建模和学习的困难,数据的价值难以有效体现,主要表现在以下2个方面:
(1) 数据的不确定性。数据的不确定性主要表现在不同尺度和不同维度上的不确定性,其原因在于不同时相的原始数据采集处理粒度、系统或用户应用需求不同等方面。具体而言,在面对海量、多维、多类型的不确定性数据时,都需要有新的方法来解决大数据的采集存储、建模、查询检索、挖掘等方面的不确定性的难题[4]。
(2) 模型的不确定性。在对不确定数据的建模和系统设计上,早期最常用的是“possible world model”(可能世界模型)[5]。其设计理念是通过发现一定的结构规范,来研究描述数据的每一种状态,期望通过构造一种通用模型来解决实际问题,因此该模型显得过于复杂。而在实际应用中,为了便于数据的快速利用,我们更希望采取简化模型,目前在不确定数据的建模领域中应用最多的是概率图模型,它结合概率论与图论的知识,针对复杂的推理和运算,提供一种数学的简化表达方式。模型参数解算常常是模型学习和建立的第一步,但通常情况下很难求得模型的最优解而只能采用不确定的方法来寻求一个近似解,但这类模型学习方法耗时长,而且处理的数据量不能太大,显然已无法解决目前的大数据建模问题。随着并行计算和云计算研究的不断深入,如何将简化的数学模型算法有效拓展到云服务框架上,已成为当今业界众多学者研究的热点。
3 水利行业大数据资源化架构设计
目前很多水利大数据管理都是遵照关系数据库管理结构化数据,关系数据库结合GIS管理地理空间数据,文件加特征值来管理半结构化和非结构化数据这些原则[6]。随着信息化的发展和行业管理数据的不断积累,这种管理方式已无法满足今后水利的大数据组织与管理需求。
根据大数据的特点和近年来逐渐成熟的海量数据处理技术,水利行业大数据资源化基础架构建设应考虑:
(1) 由于涉及面广,采集地点分散,大量水利实测数据需要协同处理及独立存储的管理要求,安全高效的数据交换与共享管理机制建立则显得尤为重要。在水利数据资源化过程中,通过搭建共享平台和提供交换与共享服务,确保不同部门的数据实现互通,资源得以共享,以达到高效利用水利分散型大数据的目标。
(2) 水利大数据具有数据量大、数据类型复杂、模拟计算过程复杂耗时等特点,同时考虑信息化过程中不断增长的应用需求,为确保水利数据管理中心的海量数据存储与繁复计算能力,应引进不断发展的信息化新技术,如云计算、物联网+等,以实现物联网信息无障碍传输、水利海量数据的分布式存储与应用、大数据并行计算等需求。
(3) 为更好地实现大数据的分析与挖掘应用,满足非结构化海量数据处理易操作、实用化的目的,应通过对水利数据专业化应用需求的综合分析,结合其所属的时空信息和衍生的属性信息,特别是在空间和时间分辨率、精准度和应用尺度之间的协调机理与方法分析,来实现水利大数据的组织管理、空间信息降维、信息主题化智能提取等功能。
图1所示的架构遵循信息系统安全高效,面向现代水利综合业务应用及多模式的信息发布与服务原则,采用了多形式、主题化数据存储的水利大数据管理模式,同时增加了对水利多源异构大数据的动态管理,以丰富水利信息产品,为水利大数据应用和深度挖掘的目标提供了研究和实现的基础。
图1 水利行业大数据资源化架构示意图Fig.1 Framework of big data resources in the water industry
信息资源层是数据资源化的支撑层,主要管理多源异构数据,并保障其安全可靠及具有更新机制;信息汇集与存储层通过前置数据库存储实时采集数据,数据加工与生产库来生产用户需求的专题数据,并应用云存储中心数据库来存储结构化和非结构化数据;应用支持平台层则包括开发服务接口,专业分析模型,大数据分析与应用工具集,提供各类应用系统保障;应用服务层则面向专业用户和公众用户,提供不同需求的查询及专业服务。
4 水利大数据应用前景
水利各部门经过多年建设与管理累积了大量业务与管理数据,如水文气象、水位流量、水质及生态环境、涉水地质灾害等大量的实测信息,包括全国水利普查成果,以及与水利相关的各类辅助信息,如基础地理信息、人文经济信息等,这类数据逐渐汇集,最终形成水利大数据集。
数据的价值从根本上体现在它的应用上,由于水利行业涉及到方方面面,与社会发展和人民生活密切相关,因此水利大数据应用领域非常广泛。水利大数据这种静态资源的管理在新的数据管理理念指导下,需要结合用户功能需求、行业及社会需求,并将管理策略与不断发展的软硬件设施与新兴技术相融合,最终形成一个更具有弹性的,可持续发展的数据智能化管理策略。
4.1 打造综合信息管理平台
随着信息化进程的推进,水利行业各部门均建立了满足本单位业务发展的管理信息化系统,也积累了大量关于水利建设与管理的数据、信息与文档资料等。但由于信息化建设大多从各部门内部的单一业务和事务需求出发,这种“纵强横弱”的建设方式,导致大量的数据管理没有形成统一、有效的管理组织机制,流域管理部门与基层水利单位的数据间存在需求时效性不同、数据精度不同等问题,使得目前分布在各部门的水利数据很难实现便捷的交流与共享。
综合信息管理平台管理着来源于水利行业不同基层单位或部门的实时采集或收集整理的信息,如水文水资源、水环境、水利枢纽管理等基础数据库,以及不同时相的航空航天遥感数据、面向水利业务的各应用专题矢量等空间数据。为加强流域不同部门、水利基层单位之间的信息交换与共享,减少资源重复采集,提高信息利用率,需要着重研究各数据之间的关联关系,安全规范数据资源空间管理,以及信息共享机制的建立,从而完善数据共享服务体系,增强对全流域信息的综合处理能力。针对某一研究对象综合信息的应用耦合,以及突发水事件的决策信息保障,为水资源保护和综合利用制定整体发展战略规划提供科学决策支持。
4.2 云计算应用
从技术层面上看,大数据与云计算的关系密不可分[7],要想高效地对海量数据进行分析、计算和数据挖掘,分布式的云计算布设、云存储的设计及虚拟化技术应用都是必不可少的。
云计算可广泛应用于流域高精度和多尺度的实时模拟演算。对于大范围的流域或河流计算,二维或三维水动力学模型已逐步转向分布式系列,通过云计算来模拟河流水循环过程时,可以运用网络中的分布式计算机,将复杂的二维或三维水动力学及其伴生过程模型拆分成无数个较小的子程序分开同时计算,从分发到计算结果回传,比单台高性能计算机计算用时大大缩短,这表明流域干流或河段的水循环过程高精度三维仿真成为可能。基于云的实时模拟计算不仅可以加深对河道水系等科学问题的研究,还能为水资源管理及灾害应急决策提供科学分析数据和模拟展示平台。
同样,由于具有数据存储与管理功能,云系统可以方便地存储流域或水系海量的原型观测数据,水环境过程模拟中大量的实验数据和成果,甚至是数学模型计算的中间过程数据。同样水利云系统也可以便捷地实现流域管理所需的自然、社会、经济等数据的云交换服务。云计算应用流程如图2所示。
图2 云计算应用流程
4.3 三维智能协同设计
水利水电工程设计是一个系统工程,其特点是涉及面广,各专业区配合度高,在不同设计阶段均需要专业技术人员的协同工作,同时设计人员的设计方案及过程成果也需要实时共享与集成试验,以满足不同工程专业之间的配合。通过三维智能协同设计,可大大缩短工程的设计工期,保障设计成果的可用性,确保项目不同阶段的设计人员和施工方协同高效地完成任务。
三维协同设计是指以三维数字化技术为基础,以三维设计平台为载体,为实现共同设计目标而展开的协同设计工作,是一个数据共享和集成的过程[8]。面向水利工程的三维智能协同设计系统,可形象直观地让各方查看设计过程和进度,如地形、工程枢纽布置、电气布设及施工环境等,从建模开始到各部件的配合设计均可通过三维协同设计系统进行实时的可视化展示。
图3所示为三维智能协同设计的基本流程,项目设计人员采用在同一系统平台下依据统一设计标准在线工作方式。协同系统可保障设计或修改数据的唯一性,各专业人员可方便地共享设计资料,实行并行设计模式。完成工程初步设计后,方案设计人员上传绘制的设计方案电子图到云端服务器上,组成员便可依据图纸进行各部件的三维建模;设计成员的设计图元同时可保存在服务器上并实现共享,便于其他成员下载使用;在各个模型设计完成后,协同智能平台可以通过“链接”方式集成全专业模型,检测设计模型排布时的碰撞情况,优化施工设计布局和电路水管等管线的布设方案。
图3 三维智能协同设计基本流程Fig.3 Basicprocessof3Dintelligentcollaborativedesign
5 结 语
大数据技术是当今正在快速发展的新兴技术,已开始应用于水利行业综合管理、科学计算与模拟仿真、水利工程协同设计等多个方面,随着研究与应用的不断深入,大数据应用在水利行业的信息化建设中发挥着越来越重要的作用,并带动着行业的科技进步,对未来水利事业各方面的发展必将产生深远的影响。
[1]周傲英,金澈清,王国仁,等.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16.
[2] Big Data[J].Nature,2008,455(7209):1-136.
[3]Dealing with Data[J].Science,2011,331(6018):639-806.
[4]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.
[5]ABITEBOUL S, KANELLAKIS P C, GRAHNE G. On the Representation and Querying of Sets of Possible Worlds[J]. Theoretical Computer Science, 1991, 78(1):158-187.
[6]张 琳. 水务数据中心建设研究[J]. 地理信息世界,2012,(4):58-60.
[7]周力峰,刘 文,张治中. 云计算在水利科研信息化中的地位与作用[J]. 长江科学院院报,2014,31(9):110-114.
[8] 陈绍东,惠 兵,潘建武,等. 基于Bentley平台的三维协同设计探讨[J]. 中州煤炭,2015,(5):104-106.
(编辑:黄 玲)
Discussion on the Application of Big Data Technology inWater Conservancy Industry
CHEN Bei-qing1, TAN De-bao1, TIAN Xue-dong2, XIA Yu1
(1.Spatial Information Technology Application Department, Yangtze River Scientific Research Institute, Wuhan 430010, China; 2.Changjiang Geotechnical Engineering Corporation, Wuhan 430010, China)
Big data technology is an emerging information technology. In this paper, the design of big data resourcesframework for water conservancy industry is presented through analyzing the characteristics of big data complexity and uncertainty as well as the application demands of water conservancy industry. The architectural design of big data resources in water resources industry is put forward. Moreover, the information sharing mechanism of integrated information platform is researched, and cloud computing and cloud storage applications, as well as 3D intelligent collaborative design process are discussed. Finally, the prospect of big data technology applied in water conservancy industry is presented. Big data technology will bring about far-reaching influence on the development of water conservancy industry.
water conservancy informatization; big data; integrated information management platform; cloud computing; 3D intelligent collaborative design
2016-09-30
陈蓓青(1971-),女,浙江慈溪人,教授级高级工程师,硕士,主要研究方向为空间信息技术在水利行业中的应用,(电话)027-82926551(电子信箱)chenbq@mail.crsri.cn。
10.11988/ckyyb.20161054
2016,33(11):59-62,67
TP391
A
1001-5485(2016)11-0059-04