智慧水利大数据内涵特征、基础架构和标准体系研究
2019-09-05蒋云钟冶运涛赵红莉
蒋云钟,冶运涛,赵红莉
(中国水利水电科学研究院水资源研究所,北京 100038)
0 引言
2008 年,“大数据”被《自然》杂志刊登专题,引发了全球各国的重点关注[1-2],美国、英国等发达国家及我国先后发布大数据的相关研究和发展计划[3],将其上升为国家层面的战略资源。随着“物物皆能被感知,人人成为传感器”的愿景日益变为现实,人类面临着呈爆炸式增长的数据信息,这无疑向我们昭示——大数据时代已经到来[4-6]。随之而来的是大数据概念的不断发展完善[4,7-8],它被认为是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合[9]1。各行业利用对大数据的采集、存储和关联分析发现新知识,创造新价值,提升新能力,重塑新一代信息技术和服务业态[9]1。
变化环境下水安全问题已成为人类可持续发展面临的新的重大挑战[10],同时是国际上普遍关心的全球性和重大战略问题[11],涉及领域广泛,过程复杂,驱动因素众多,在“自然-人工”耦合的复杂水系统运行中产生了海量的、多源的、异构的涉水数据,这给水安全问题的监测分析和管理决策带来很大难题。融合新资源、新技术和新理念的水利大数据为解决水安全问题开辟了新的途径和指明了新的方向,对认识水规律、强化水管理、谋划水未来均有重要价值。作为大数据关键组成部分的水利大数据具备大数据的一般特征[12]1,[13]2。水利部《关于推进水利大数据的指导意见》的印发标志着水利大数据发展进入一个新阶段[12]1,[14]。
随着我国智慧水利建设工作的推进,智慧水利建设目标是应用物联网、云计算、大数据、人工智能等技术,围绕洪水、干旱、水工程安全运行、水利工程建设、水资源开发利用、城乡供水、节水、江河湖泊、水土流失等 9 个方面,形成融合高效、智能分析、实时便捷的智慧水利应用大系统[15],促进水治理体系和能力现代化[16]。国内外对水利大数据研究进行了有益尝试,但从总体上看,这些研究还处在起步阶段,主要存在以下问题[13]2,[17]:1)大数据的理论技术尚未成熟和大规模应用;2)水利信息系统仍没有统一的数据存储与共享模型;3)水利行业在大数据的理论、研究方法和应用价值等方面存在思想认识落后,技术储备不足的问题;4)水利大数据既缺少战略性研究,又没有能够应用的顶层设计指导。这些问题的存在影响和制约了水利大数据的研究和应用工作的有序推进。尤其是水利大数据概念内涵不清晰,架构体系不统一,标准规范不完善,业务应用不明确等基础问题仍没有得到解决,无法回答“是什么”“怎么做”“如何用”等命题,这就导致在水利大数据建设中,基础设施建设蓬勃发展,但是成功应用案例不多,与大数据建设的“初心”仍有较大差距。以探索解决这些基础问题为出发点,致力于实现大数据技术能够广泛应用在治水实践[18],开展了如下工作:1)基于对大数据的认知,解析水利大数据的内涵特征;2)将成熟先进的大数据产品、开源软件框架及传统数据处理组件相结合,设计一整套水利大数据混合体系架构;3)提出符合水利业务和大数据特点的数据管理规范和应用标准;4)研究总结水利大数据应用场景。
1 对大数据的认知
1.1 对大数据概念的理解
国内外研究机构和企业虽然已对大数据的定义、内涵和标准进行了大量的探索和研究,但是仍没有达成一致共识。刘丽香等[19]根据不同定义的侧重点,将大数据概念分为 3 类理解方式,第 1 类主要突出“大”[20-21],第 2 类主要突出“功能和作用”[22],第 3 类主要突出“价值观和方法论”[23]。目前能被普遍认可的大数据具有“5 V”特点[24-27]:数据规模巨大;数据种类繁杂多样;数据产生快,数据处理能力快速实时;数据价值密度低,应用价值高;真实性低。
大数据技术及应用流程主要包括以下技术[28]:
1)大数据采集技术。是大数据技术及应用的重要基础,其智能感知主要包括数据传感、网络通信、传感适配、智能识别等体系,以及软硬件资源接入系统,同时能够把复杂且不易处理的数据转化处理为简单且易处理的数据结构类型,另外能够支持数据清洗去噪和校核处理,甄别过滤掉无用或错误的离群数据,提取有应用价值的数据。
2)大数据存储及管理技术。需要用存储设备存储采集的数据,并根据数据的结构化、半结构化和非结构化结构类型及业务需求特点,建立相应的并行、高效的大数据数据库系统,以统一管理、检索、调用和互联共享海量数据。
3)大数据分析及挖掘技术。是大数据处理流程最核心的部分,基于对象的数据、相似性连接等大数据融合技术,融合机器语言、人工智能、统计分析和系统建模等新型数据挖掘和知识发现技术,改进现有的数据挖掘技术及算法,突破面向特定领域的大数据挖掘技术。
4)大数据展现与应用技术。将大数据分析及挖掘的信息和知识用多种可视化手段展现,提高各行业各领域的运转效率和集约化水平。
1.2 对大数据研究方法的理解
1.2.1 传统研究方法
传统研究方法是基于机理的研究方法,分为以下 4 个步骤[29]5:
1)步骤 1,合理假设,适当简化。根据大量的先验知识,尽可能地深入了解研究对象的物理本质,在此基础上做出合理的假设和适当的简化,建立物理试验或数学等模型。
2)步骤 2,遵循机理,建立模型。物理模型的建立常需要做出一定的等值或缩微处理;数学模型的建立需要线性化、离散化处理;若缺少详细数据选择参数,就需采用一些典型参数参与后续计算。
3)步骤 3,模型实验,仿真计算。对水利系统来说,相关的研究包括物理模型实验、水利系统安全稳定仿真、水文模拟计算等,数模混合试验在研究大坝、水闸等水利工程建设,水循环演变规律和机理等方面发挥了重要作用。
4)步骤 4,分析结果,机理解释。针对实验研究、仿真和计算结果,需要做出机理性解释,有时为了支持机理解释的正确性,需要对仿真计算结果再次进行可重现的科学实验。
1.2.2 大数据研究方法
大数据研究方法是以多源数据融合为基础,采取数据驱动的研究方法,包含以下 4 个步骤[29]6:
1)步骤 1,构建应用场景,提取合适用例。数据驱动方法通常将研究对象看作一个黑匣子,只需要了解输入和输出数据,便可通过一定的数据分析方法开展研究。依据一定的先验知识,对需要研究的对象或问题进行分析,建立应用场景,分解成用例,明确所需要的数据。
2)步骤 2,采集多源数据,强化数据融合。大数据分析方法强调数据的整体性。大数据是由大量的个体数据组成的一个整体,其中各个数据不是孤立存在,而是有机地结合在一起。如果把整体数据割裂开来,将会极大地削弱大数据的实际应用价值,而将零散的数据加以整理,形成一个整体,通常会释放出巨大的价值。数据融合是大数据研究过程的难点。
3)步骤 3,面向具体对象,多维数据分析。对基于融合后的数据进行数据分析,需针对应用场景和用例,选择合适的分析方法。数据分析是大数据研究过程的关键环节。
4)步骤 4,解读关联特性,解释水利规律。研究结果反映研究对象的内在规律性、因素的相互关联性或发展趋势,应对研究结果给予解释,需要时进行灵敏性分析。
1.2.3 2 种方法对比
物理概念清晰的传统研究方法已形成了较为系统的方法论,在科学技术发展中发挥了重要作用,但对于一个复杂的系统,存在以下局限性:1)在建立复杂系统的模型时,需要做出一些理想的假设和简化,在某些情况下存在着较大的误差甚至错误;2)对于难以基于机理建模的系统,不具有适用性;3)分析较片面、局部,难以反映宏观的时空关联特征。
大数据方法不依赖机理,可将历史和现在的数据综合进行分析,得到多维度宏观的时空关联特性。大数据方法目前还不成熟,尚未形成系统性方法论,需经过长期的发展完善才能发挥应有的作用[29]7。需要强调的是,大数据的出现并不意味着要取代传统业务数据,传统业务数据是大数据的重要数据来源,大数据方法能够挖掘提升传统业务数据的价值。
2 水利大数据内涵特征
以“自然-社会”二元水循环及其伴生的水生态、水环境、经济社会等过程为对象的水利多维立体感知网络的日益完善,一直在持续提升水利行业数据采集的能力,形成了能够获取时空连续的多源异构、分布广泛、动态增长的水利大数据集合,在解决水安全问题时具备了水利行业的特征,具体如下:
1)水利大数据的体量巨大。各类传感器、卫星遥感、雷达、全球导航卫星系统(GNSS)、视频感知、手机终端等形成了“空-天-地-网”信息获取的水联网体系[30]。全国水利行业目前拥有超过 14 万处的雨量、河湖水位、流量、水质及地下水水位等各类水利信息采集点,自动采集点所占比例超过了 80%,当前省级以上水利部门存储数据资源近 2.5 PB[31],构成了海量水利数据集,如果加上与水利相关的气象、生态环境、农村农业等行业外数据,水利大数据的规模更加庞大,而且数据量增加速度很快。
2)水利大数据的复杂多样。a. 从数据类别看,既有来自物联网设备的水文气象、水位流量、水质水生态、水利工程等大量的监测信息,还有全国水利普查、水资源调查评价、水资源承载能力监测预警等成果,以及与水利相关的社会经济信息、生态环境数据、地质灾害数据、互联网数据等各类辅助信息,其中不完全相互独立的水利数据之间有着复杂的业务和逻辑关系。b. 从数据格式看,除了对传统结构化数据类型的处理分析外,大数据技术能够应用与分析水利领域产生的文本(如项目报告)、图片(如卫星遥感图像)、位置(如业务人员的巡查路线)、视频(如河湖监管视频)、日志等半结构化和非结构化数据;来源不同领域、行业、部门、系统的水利数据具有多样的格式,尚无统一标准规范这些数据的整合和合并[13]1-2。
3)水利大数据的新老结合。水利管理决策不仅需要了解水利系统的历史演变规律,还要能够预测未来发展的趋势,同时还需要能够实时处理动态连续观测的数据,对当前状态进行预警监控。历史演变规律为预测预警和实时管理决策提供先验知识,在此基础上,结合实时监测的流式数据,快速挖掘出有用的信息,能够提高预测的准确性和管理决策的科学性。
4)水利大数据的价值很高。水联网体系能够感知无处不在的巨量水利信息的价值密度可能相对较低,需要发展从这些数据中快速地提取有用信息的模型算法,能够通过对海量涉水数据的挖掘,实现从价值密度低的数据中获取最有用的高价值信息。有的水利业务,如洪水、内涝灾害预测预警和水利工程安全运行,要求很高的时效性,需要利用大数据技术对这类数据进行高效处理和及时反馈。
5)水利大数据的模糊很大。虽然各种水利传感器设备监测精度较高,但由于监测指标之间存在关联性,或者设备运行过程中可能产生噪声数据,以及不同设备性能导致记录的相同对象的数据差异较大,从而导致关注的数据可能会淹没在数据海洋中,因此,需要利用大数据技术对多途径获取的海量水利数据进行甄别筛选、过滤清洗、去伪存真,提高获取数据的精准度,使数据更加接近或描述真实的情况[32-34]。
6)水利大数据的交互性。水利大数据以其与国民经济社会广泛而紧密的联系,具有无可伦比的正外部性,价值不局限在水利行业内部,更能体现在国民经济运行、社会进步等方方面面,而发挥更大价值的前提和关键是水利行业数据同行业外数据的交互融合,以及在此基础上全方位的挖掘、分析和再现。这也能够有效地改善当前水利行业“重建不实用”的行业短板,真正体现“反馈经济”带来的价值增长。
7)水利大数据的效能性。提高效率、增长效益是水利大数据服务于治水事业的目标,没有效率和效益的水利大数据建设是没有生命力的。与电力大数据一样[35],水利大数据具有无磨损、无消耗、无污染、易传输的特性,并在使用过程中不断精炼而增值,在水利各个环节的低能耗、可持续发展方面发挥独特巨大的作用,从而达到节约水资源、高效利用水资源、保障水安全的目的。
8)水利大数据的共情性。水利发展的目的在于服务公众。水利大数据天然联系千家万户、政府和企业,推动治水思路转变的本质是体现以人为本,通过人们对高品质水需求的充分挖掘和满足,为人民群众提供更加优质、安全、可靠的水服务,从而改善人类生存环境,提高人们生活质量。
在实际应用中,水利大数据的“大”是一个相对概念,除了“大”到传统数据工具无法处理分析水利数据的规模和复杂度外,水利数据还要能够全面描述水利对象的时空特征或者变化规律。水利大数据以水利数据资产管理为基础,以水利大数据平台为载体,通过新的多元水利数据集成、多类型水利数据存储、高性能水利计算和多维水利分析挖掘等技术,实现跨部门、行业、领域、系统的水利行业内外部数据的关联分析,满足水利行业的政府监管、江河调度、工程运行、应急处置、公众服务等方面的管理效率提升和业务创新需求。
由于水利大数据具有上述特征,其研究方法与传统水利数据分析方法也有所不同:1)传统水利业务数据。以抽样方式获取的结构化数据为主,利用统计学方法分析水利规律,从而实现对水利对象或事件的特征和性质的描述;一般基于水利行业或部门内部的数据进行分析,以少量的水利数据描述水利事件,更多追求合理性的抽样、准确性的计算和科学性分析。2)水利大数据方法。以水问题为导向,在跨行业、部门、系统的基础上,以相关的涉水数据形成对水利对象或事件的全景式描述,以数据的关联和趋势全方位地描述水利对象或事件,更多追求数据的大样本、多结构和实时性。传统的水利数据分析强调的是分析计算的精确性和事件现象的因果关系,水利大数据强调的水利数据的全面性、混杂性和关联性,同时允许数据存在一定的误差和模糊性。从广义上讲,传统的水利数据分析方法是水利大数据的重要组成部分,实际应用时要摈弃掉为“大数据”而“大数据”的片面思想,应以能够解决水问题为选择数据分析方法的首要原则。
3 水利大数据基础体系架构
3.1 水利大数据总体架构
建立水利大数据的体系架构需要从数据“产生、流动、消亡”全生命周期出发[36]2,基于 DIKW 概念链模式[37],根据数据的精炼化和价值化过程分析水利大数据的分析流程,主要由水利数据的集成、存储、计算及业务应用等 4 个阶段组成。该流程将水利数据的治理与分布式存储、高性能混合计算与智能信息处理、探索与一体化搜索、可视化展现、安全治理等信息技术进行融合,能够形成支撑水利数据分析与处理、安全防护的基础平台。通过水利领域内外学科交叉融合的研究,建立水利领域智能化建模分析和数据服务模式,支撑水利业务管理和应用场景需求,总体架构如图1 所示。
图1 水利大数据总体架构
1)水利数据源层。水利数据源层主要负责数据的供给和清洗,就水利行业而言,主要包括以下数据[12]1-2:a. 水利业务数据。目前水利业务数据的产生和积累主要来自重大水利信息化项目、专项和日常工作 3 个方面,重大水利信息化项目包括国家防汛抗旱指挥系统工程、国家水资源监控能力建设、全国水土保持监测网络和信息系统等,水利专项工作包括全国水利普查、全国水资源调查评价等,日常工作主要指水利行业不同部门根据其职责开展的水利业务工作。b. 其他行业数据。主要包括气象、自然资源、生态环境、住房和城乡建设、农村农业、统计、工业和信息化、税务等部门收集整理的数据和产品。c. 卫星遥感影像数据。包括高分、环境、资源等国内卫星遥感影像,以及 Landsat,MODIS,Sentinel 等国外卫星遥感影像。d. 媒体数据。包括传统和新媒体中所涉及的水利领域的民生需求、公众意见、舆论热点等信息。这些数据类型包括结构化、半结构化和非结构化数据,数据的时间维度包括离线、准实时和实时。这 4 类数据共同构成了数据海洋,是水利大数据分析与应用的数据基础和来源。
2)水利数据管理层。水利数据管理层负责对转换和清洗后的水利大数据进行存储、组织、管理。目前采用的全国水利普查[38]1-5和山洪灾害调查评价结果[39]2 种数据模型属于准动态实时 GIS 时空数据模型,在应对高速度大数据量的水利数据流的存储、管理方面则显得无能为力,无法支持水利多传感器的快速接入,不能有效描述水利对象多粒度时空变化,更不能很好地对水利对象的多过程、多层次复合进行精确的语义表达,也没有具备支撑水利多过程、多尺度耦合的动态建模和实时模拟的能力。因此,将实时 GIS 时空数据模型[40]与水利数据模型[38]2的概念和方法相结合,发展一种包含业务属性、时空过程、几何特征、尺度和语义的“多领域、多业务、多层次、多粒度、多版本”的水利实时时空数据模型。基于改进的水利实时动态的时空数据模型,通过水利消息总线、关系数据库、文件等接入方式将数据采集到数据源层,再利用统一的水利数据模型实现数据的存储与集成管理。水利消息总线接入是采集如传感器监测的流式水利和日常管理产生的水利日志等数据,水利关系数据库接入是将结构化的水利数据从关系型水利数据库迁移到水利大数据平台,水利文件接入是向上传输与水利相关的卫星遥感、社交媒体、文档、图像、视频等半结构化和非结构化文件。
3)水利数据计算层。水利数据计算层提供水利大数据运算所需要的水利计算框架、资源任务调度、模型计算等功能,负责对水利领域大数据的计算、分析和处理等。融合传统的批数据处理体系和面向大数据的新型计算方法,通过数据的查询分析、高性能与批处理、流式与内存、迭代与图等计算,构建高性能、自适应的具有弹性的数据计算框架;遴选可以业务化的水利专业模型,整合现有成熟的基于概率论的、扩展集合论的、仿生学的及其他定量等数据挖掘算法,以及文本数据的数据挖掘算法[41],形成可定制、组合、调配的分析模型组件库,有效支持水利模型网[42]的构建和并行化计算。
4)水利数据应用层。水利数据应用层是以水利大数据存储和计算架构为支撑,基于微服务架构,开发的面向我国水资源、水灾害、水生态、水环境、水工程等治水实践需求的水利大数据应用系统的集合。应用系统利用虚拟化方法和多租户模式构建满足水利大数据平台多用户的使用,不仅能够提供结构化、半结构化、非结构化等各种类型的水利数据访问的控制方式,而且还提供直观友好的水利数据图形化的编程框架,为我国水利的政府监管、江河调度、工程运行、应急处置和公共服务中的规律分析,异常诊断,趋势预测,决策优化等提供全方位的技术支撑。此外,还能向第三方提供安全可控的水利数据开放等功能。
3.2 水利大数据平台功能架构
水利大数据平台功能架构设计可用于规范和定义水利大数据平台在运行时的整体功能流程及技术选型,水利大数据平台可整合水利行业数据,融合相关行业和社会数据,形成统一的数据资源池,通过多元化采集、主体化汇聚构建全域化原始数据,基于“一数一源、一源多用”原则,汇聚全域数据,开展数据治理,形成标准一致的基础数据资源。在此基础上,构建具备开放性、可扩展性、个性化、安全可靠、成熟先进的水利大数据分析服务体系,并具备面向社会的公共服务能力。
围绕水利大数据分析应用生态圈,从底层基础设施,水利数据集成、处理、分析、可视化 5 个层面,以及水利系统运维和安全 2 个保障功能,将先进的技术、工具、算法、产品无缝集成,构建水利大数据分析与应用平台功能架构,如图2 所示。
有效生成是培养学生创新品质的最佳策略。教学是一个变化的过程,会有很多意想不到的事情发生,而这些意想不到的事情的发生,常常是学生在老师的某种启迪之下的顿悟或另类思考,是学生灵感的迸发和创新思维的展现,只要教师有意地引导生成,娴熟地应对学生的生成,就能够有效地培养学生的创新品质。
具体功能架构分析如下:
1)水利数据集成。如果对极其广泛来源和极为复杂类型的水利大数据进行处理,首先必须从源数据体系中抽取出水利对象的实体及它们之间的关系,依据时空一致性原则,按照水利对象实体将不同来源的数据进行关联和聚合,并能利用统一定义的数据结构对这些数据进行存储。数据集成和提取的数据源可能来自多个业务系统,则避免不了有的数据是错误数据,有的数据之间存在冲突,需要通过检查数据一致性,处理无效值和缺失值等数据清洗流程,将存在的“脏数据”清洗掉,以保证数据具有很高的质量和可信性。在实际操作中,通过改进现有 ETL 采集技术,融合传感器、卫星遥感、无人机遥感、网络数据获取、媒体流获取、日志信息获取等新型采集技术,完成水利行业、行业外和日常业务产生的数据等多源多元多维数据的解析,转换与转载。
2)水利数据存储。可以利用已成为大数据磁盘存储事实标准的分布式文件系统(HDFS)存储智慧水利中的海量数据[43]。水利行业数据在应用中具有其业务特点,有的业务对数据的实时性要求很高,而有的业务的数据更新频次不高,有的业务产生的数据可能以结构化数据为主,有的业务产生的数据可能以半结构化或非结构化数据为主,因此,需要根据水利业务的性能和分析要求对水利数据进行分类存储。实时性要求高的水利数据,可以选用实时或内存数据库系统进行存储;核心水利业务数据,可以选用传统的并行数据仓库系统进行存储;水利业务中积累的长系列历史和非结构化的数据,可以选用分布式文件系统进行存储;半结构化的水利数据,可以选用列式或键值数据库进行存储;水利行业的知识图谱,选用图数据库进行存储。
3)水利数据计算。根据水利业务应用需求,通过从查询分析,以及高性能与批处理、流式与内存、迭代与图等计算中对计算模式进行选择或组合,能够提供面向水利业务的大数据挖掘分析应用所需要的实时、准实时或离线计算[44]。
图2 水利大数据平台功能架构
4)水利数据分析。水利数据分析是智慧水利大数据的核心引擎,水利大数据价值能否最大化取决于对水利数据分析的准确与否。水利数据分析方法包括传统的数据挖掘、统计分析、机器学习、文本挖掘及其他新兴方法(如深度学习)等方法。需要利用水利大数据分析方法建立模型,发挥关联分析能力,还得建立水利行业机理模型,充分发挥因果分析能力,实现两者的相互校验、补充,共同构成水利数据分析的基础。通过融合、集成开源分析挖掘工具和分布式算法库,实现水利大数据分析建模、挖掘和展现,支撑业务系统实时和离线的分析挖掘应用。
5)水利数据可视。利用图形图像处理、计算机视觉、虚拟现实设备等,对查询或挖掘分析的水利数据加以可视化解释,在保证信息传递准确、高效的前提下,以新颖、美观的方式,将复杂高维的数据投影到低维的空间画面上,并提供交互工具,有效利用人的视觉系统,允许实时改变数据处理和算法参数,对数据进行观察和定性及定量分析,获得大规模复杂数据集隐含的信息。按照不同的类型,数据可视化技术分为文本、网络(图)数据、时空数据、多维数据的可视化等[45]。
6)水利系统安全。解决从水利大数据环境下的数据采集、存储、分析、应用等过程中产生的,诸如身份验证、用户授权和输入检验等大量安全问题;由于在数据分析、挖掘过程中涉及各业务的核心数据,防止数据泄露和控制访问权限等安全措施在大数据应用中尤为关键[46]。
7)水利系统运维。通过水利数据平台服务集群进行集中式监视、管理,对水利大数据平台功能采用配置式扩展等技术,可解决大规模服务集群软、硬件的管理难题,并能动态配置调整水利大数据平台的系统功能。
3.3 水利大数据平台技术架构
水利大数据核心平台基于 Hadoop,Spark,Stream 框架的高度融合、深度优化,实现高性能计算,具有高可用性,技术架构如图3 所示。
图3 水利大数据平台技术架构
具体架构如下:1)数据整合方面,主要采用Hadoop 体系中的 Flume,Sqoop,Kafka 等独立组件;2)数据存储方面,在低成本硬件(x86)、磁盘的基础上,选用分布式文件系统(如 HDFS)、分布式关系型数据库(如 MySQL,Oracle 等)、NoSQL 数据库(如 HBase)、数据仓库(如 Hive)、图数据库(如 Neo4J),以及实时、内存数据库等业界典型系统;3)数据分析方面,集成 Tableau,Pluto,R,Python 语言环境,实现数据的统计分析及挖掘能力;4)应用开发接口方面,集成 Java 编程,CLI,FTP,WebHDFS 文件,ODBC/JDBC 数据库,R 语言编程,Python 语言编程等接口;5)水利分析模型方面,基于大数据和传统分析方法,建立气象模拟预报、洪水模拟预报、干旱模拟预测、水资源数量评价、水资源质量评价、水资源配置和水资源调度等模型;6)监控管理方面,利用 Ganglia,实现集群、服务、节点、性能、告警等监控管理服务[47];7)可视化展现方面,基于 GIS,Flash,Echart,HTML5 等构建可视化展示模块,还可以结合虚拟仿真技术,构建基于三维虚拟环境的可视化模块。
3.4 水利大数据平台部署架构
在基础设施部署架构及容量规划方面,参考全球能源互联网电力大数据省级平台的部署模式[36]5,水利大数据平台集群主要由数据存储、接口、集群管理和应用等服务器组成,支持存储与计算混合式架构,以及广域分布的集群部署与管理。对于七大流域机构和 31 个省级行政区,每个流域或省级行政区的集群由 n 台 x86 服务器(数量 n 可以根据实际数据量的存储和分析模型的计算等需求定)和 1 台小型机组成。其中核心数据集群由(n - 5)台服务器构成;剩余的 5 台服务器中,3 台服务器组成消息总线集群,部署包括消息队列及文件传输协议传输入库等集群,1 台服务器作为用户认证和访问节点,1 台服务器作为 ODBC/JDBC 及 Web HTTP/REST 服务节点;小型机作为关系型及时间序列等数据库的节点。
3.5 水利大数据分析架构
3.5.1 实时分析架构
在水资源、水生态、水环境、水灾害、水工程等监测与状态评估业务中,涉及在线监测、试验检测、日常巡视、直升机或无人机巡视和卫星遥感等数据,水利大数据实时分析框架如图4 所示,实时获取涉水监测与状态的流数据,利用分布式存储系统的高吞吐,实现海量监测与状态数据的同步存储;利用事先定义好的业务规则和数据处理逻辑,结合数据检索技术对监测与状态数据进行快速检索处理;利用流计算技术,实时处理流监测与状态数据,根据流计算结果,实现实时评估和趋势预测,对水安全状态正确评价,指导对事件状态的决策处理,准确识别水安全问题,实现异常状态报警,对极端条件下水安全进行预警,为水灾害防治提供决策支撑。
图4 水利大数据实时分析框架
3.5.2 离线分析架构
针对水空间规划、水工程运行过程中产生的海量异构和多态的数据,具有多时空、多来源、混杂和不确定性的特点,分析水空间规划数据的种类和格式多样性,建立统一的大数据存储接口,实现水空间规划离线数据的一体化分布式快速存储。水利大数据离线分析框架如图5 所示。
在离线数据一体化存储的基础上,建立数据分析接口,提供对水空间规划数据统计处理任务的支撑,并进一步满足水空间规划计算分析、水安全风险评估及预警等高级应用系统的数据要求,为管理层制定优化的决策方案提供科学合理的依据。
图5 水利大数据离线分析框架
4 水利大数据标准体系
通过分析国内外大数据相关标准[48],并结合水利大数据技术、产品和应用需求,形成能够全面支撑水利大数据的技术研究、产品研发、试点建设的水利大数据标准体系,规范水利系统中的水利大数据产生、流动、处理和应用等过程,重点涵盖大数据基础概念、采集、存储、计算、分析、展示、质量控制、安全防护、服务等方面,适用于水利大数据平台建设和相关标准编制。水利大数据标准体系如表1 所示。
具体标准分析如下:
1)水利大数据的基础标准。水利大数据术语规定水利大数据相关的基础术语、定义,保证对水利大数据相关概念理解的一致性;从数据生存周期的角度,提出水利大数据技术参考模型,指导水利大数据模型搭建。
2)水利大数据的采集与转换标准。规定水利大数据平台上所采集的水利数据的基本内容(如水资源、水灾害、水生态、水环境、水工程等)与属性结构,主要水利数据要素的采集方法(如传感器数据、传统关系型数据库并行、ETL 数据、消息集群数据等的接入)及其技术要求,适用于各类水利信息的采集、处理、更新和转换全过程,规范水利大数据的数据采集接口及转换流程。
表1 水利大数据标准体系
3)水利大数据的传输标准。在参考 SL 651—2014《水文监测数据通信规约》、SL 427—2008《水资源管理系统传输规约》等行业标准的基础上,考虑卫星遥感、移动终端、视频监控等新型采集手段,以及已有采集设备与 IPv6 和 5G 的融合需求,规定支撑智慧水利的信息通信的传输模式和协议,满足大数据环境下大容量水利数据高实时性、高可靠性传输的要求。
4)水利大数据的存储与管理标准。在参考水利行业标准 SL 478—2010《水利信息数据库表结构及标识符编制规范》、SL 324—2005《基础水文数据库表结构及标识符标准》、SL 380—2007《水资源监控管理数据表结构及标识符》等基础上,对已有存储与管理标准的业务,需要增加对半结构化和非结构化数据的存储及管理的内容;对没有存储与管理标准的业务,按照水利大数据的特点对业务数据的存储与管理提出新的标准。该类标准主要规范水利大数据不同数据源的结构化、半结构化和非结构化数据的存储及管理,满足海量水利数据的大规模存储、快速查询和高效计算分析的读取需求。
5)水利大数据的处理与分析标准。规定水利大数据的商务智能分析和可视化等工具的技术及功能的规范,用于水利大数据计算处理分析过程中的各项技术指标决策。
6)水利大数据的质量标准。规定水利大数据平台上水利数据采集、传输、存储、交换、处理、展示等全过程的质量控制方法和全面的评价指标,并提出对水利大数据成果的测试方法和验收要求。
7)水利大数据的安全标准。以数据安全为核心,围绕数据安全,需要技术、系统、平台方面的安全标准,以及业务、服务、管理方面的安全标准支撑,提出个人信息隐私保护的管理要求和移动智能终端个人信息保护的技术要求。
8)水利大数据的服务标准。规定水利大数据平台上水利数据服务的模式、内容和方式,制定水利数据开放的管理办法,提出水利大数据平台与外部系统之间交互的数据、文件、可视化等服务接口规范。
5 水利大数据应用场景
5.1 水资源智能应用
围绕最严格的水资源管理制度落实、节水型社会建设、城乡供水安全保障等重点工作,在国家水资源监控能力建设、地下水监测工程的基础上,扩展业务功能,汇集涉水大数据,提升分析评价模型智能水平,构建水资源智能应用,支撑水资源开发利用、城乡供水、节水等业务。
5.2 水环境水生态智能应用
围绕河湖长制、水域岸线管理、河道采砂监管、水土保持监测监督治理等重点需求,在全国河长制管理信息、水土保持监测和监督管理、重点工程管理等系统基础上,运用高分遥感数据解译、图像智能、数据智能等分析技术,构建水环境水生态智能应用,支撑江河湖泊、水土流失等业务。
5.3 水灾害智能应用
围绕水情旱情监测预警、水工程防洪抗旱调度、应急水量调度、防御洪水应急抢险技术支持等重点工作,在国家防汛抗旱指挥、全国重点地区洪水风险图编制与管理应用、全国山洪灾害防治非工程措施监测预警、全国中小河流水文监测等系统基础上,运用分布式洪水预报、区域干旱预测等水利专业模型,提高洪水预报能力,开展旱情监测分析,强化水情旱情预警,强化工程联合调度,构建水灾害智能应用,支撑洪水、干旱等业务。
5.4 水工程智能应用
围绕工程运行管理、运维,项目建设管理、市场监督等重点工作,在水利工程运行、全国水库大坝基础数据、全国农村水电统计信息、水利规划计划等管理系统,以及水利建设与管理信息系统、全国水利建设市场监管服务平台、水利安全生产监管信息系统的基础上,强化运行全过程监管,推荐建设全流程管理,加强建设市场监管,构建水工程智能应用,支撑水利工程安全运行、建设等业务。
5.5 水监督智能应用
围绕监管信息预处理、行业监督稽查、安全生产监管、工程质量监督、项目稽察和监督决策支持等重点工作,在水利安全生产监管信息化系统的基础上,以“水利一张图”为抓手,提升发现问题能力,提高问题整改效率,强化行业风险评估,构建水监督智能应用,支撑水利监督等业务。
5.6 水行政智能应用
围绕资产、移民、项目规划、财务、移民与扶贫、机关事务等行政事务管理需求,优化完善现有系统,利用水利大数据的人工智能等技术支撑,构建水行政智能应用,实现智慧资产监管,移民、扶贫智能监管,项目智能规划,智慧机关建设,财务智能管理。
5.7 水公共服务智能应用
围绕政务服务全国“一网通办”,加快政府供给向公众需求转变的核心需求,以社会公众服务为导向,做好已取消或下放审批事项的事中事后监督,以多元化信息服务为抓手,构建水公共服务智能应用。运用移动互联、虚拟/增强现实、“互联网 +”、用户行为大数据分析等技术,创新构建个性化水信息、动态水指数、数字水体验、水智能问答、一站式水行政等服务,全面提升社会各界的感水治水能力、节水护水素养、管水治水服务水平。
6 结语
智慧水利时代产生的爆炸式水利信息数据催生了水利大数据。水利大数据对提高水利管理效率和决策水平,发挥水利在社会经济、生态环境中的作用和效益,促进水利可持续发展,具有极其重要的现实意义。它旨在突破跨部门、领域、业务之间的数据壁垒,促进水利管理业务变革,提升治水智能化水平。通过对水利大数据基础性问题的研究,得出如下结论:
1)根据对大数据的概念理解,以及对大数据研究方法与传统研究方法的对比,解析了水利大数据的内涵特征,为正确认识和使用水利大数据提供了思路;
2)提出了集“总体架构、功能架构、技术架构、部署架构与分析架构”于一体的水利大数据基础体系架构,为指导水利大数据的建设提供顶层参考;
3)结合数据全周期管理,从基础、技术、产品、应用等方面综合考虑提出水利大数据标准体系,为规范大数据在水利系统中的流动和处理过程提供了依据;
4)总结了水利大数据在水资源、水环境水生态、水灾害、水工程、水监督、水行政、水公共服务等业务管理中的应用场景,为水利大数据的应用指明方向。
水利大数据是新型的战略资源,是水利科学发展的趋势和新一代引擎,是水信息学新的发展方向,也是大数据研究的重要领域。国内外对水利大数据理论、方法与技术的研究仍处于起步阶段,水利数据壁垒依然存在,大数据分析方法不能发挥“威力”,业务应用尚未体现其规模化效益。因此,为全面推动水利大数据发展,需要在水利主管部门的组织下,联合政府、企业、高校和科研院所,产、学、研全方位配合,戮力同心,共谋水利大数据健康有序发展。