长江水文大数据平台架构设计研究
2021-02-04高露雄刘迪陈雅莉
高露雄 刘迪 陈雅莉
摘 要:本文分析了长江水文现有数据中心在应对海量多源异构水文数据的存储与处理时存在的问题,在总结水文大数据的内涵和特征的基础上,研究介绍了基于水文对象的大数据组织、基于Hadoop的分布式存储体系和冷/热分层存储策略、耦合水文模型的大数据分析以及水文大数据可视化等水文大数据平台关键技术,并在此基础上研究设计了长江水文大数据平台架构,以期为平台落地建设提供理论和技术支撑。
关键词:水文大数据;数据组织;大数据分析;可视化
中图法分类号:X524 文獻标志码:A DOI:10.19679/j.cnki.cjjsjj.2021.0616
水文数据是国民经济和社会发展的重要基础性数据,为水旱灾害防御、水资源管理、河湖管理、水工程建设与管理等提供重要基础支撑。长江水文在水文信息化建设进程中,始终围绕水文数据核心资源,提升水文数据采集、存储、管理、分析和应用能力,为治江事业发展提供了有力的数据支撑。特别是近年来通过实施“三个一”水文信息化工程,开展了水文数据标准化建设、水文数据对象化组织、水文数据资源整合、水文数据管理与服务等工作[1],构建了水文数据资源一个中心,初步实现了以水文测站为对象的水文数据统一存储、统一管理和统一服务,有效支撑了防洪预报调度、水文测验管理、水文资料整编、水文一张图等业务应用。
随着长江水文信息化建设的大力推进,水文数据采集基础设施及应用系统数量越来越多,水文数据的内涵不断外延,范围不断扩展,数据量呈指数级增长。水文数据涵盖实时监测数据、历史整编数据、河道断面及地形数据、卫星遥感数据、非结构化的网络舆情、视频图像以及水文分析总结成果文档等多种数据形式。而且近年来,水文监测体系和能力的提升,水文监测设备种类的增加,监测站点数量的增多,监测数据采集频率的加快,使得监测数据量急剧上升[2];防洪调度、水文分析等业务中应用水文模型预报、推演、调度而产生的数据量也正迅猛增长;同时视频、图像和文档等非结构化数据也大量累积。现有水文数据处理体系已无法应对海量多源异构水文数据带来的数据高效组织、存储与处理挑战,主要存在以下典型问题[3]:(1)支持存储类型单一,仅适用结构化监测数据,不能存储和处理非结构化数据;(2)数据存储能力有限,采用传统方式存储海量水文数据对硬件配置要求非常高,即便硬件性能的发展非常快,也赶不上数据增长的需求;(3)数据处理效率低,数据检索主要依赖底层结构化数据库系统,数据处理多为单节点串行处理,无法应对大数据量、强时效性的应用需求;(4)历史数据资源利用率低,一方面处理能力无法支撑大量历史数据的联合分析计算,另一方面当前采用的结构化分析方法和工具也不能满足历史数据深度分析的要求。如何应对当前数据量高速增长的势头,实现对海量多源异构水文数据的高效利用,是水文数据管理、数据处理领域亟待解决的问题。
大数据伴随着互联网时代信息量爆炸式增长而生,以其分布式存储与计算理念颠覆了传统思维方式,有效解决了数据急速增长态势下数据分析处理和知识挖掘的难题[4]。大数据时代的信息运行模式正在改变人们的工作和学习方式,将大数据技术应用于行业海量数据处理和智能分析,挖掘行业大数据价值,已经成为行业信息化建设研究的热点[5-7]。
1 水文大数据的内涵与特征
水文大数据以空天地一体化的智能水文监测信息网为主要数据源,通过整合集成来自各个业务领域不同技术手段获取的涉水观测信息,形成时空要素相对完备、内容丰富、形式多样的水文大数据集,涵盖原始数据(地表水、地下水、水文气象、土壤墒情、水质、水生态)、整编成果(地表水、地下水、土壤墒情、水质)、调查信息(洪水、暴雨、水资源)、评价分析成果(水资源评价;水文分析计算成果)、流域属性(河道,湖库,滨海,地形地质)和其他(包括社会水循环类)等六类基本数据。随着技术的发展和研究的深入,水文大数据的内涵也在不断外延,越来越多过去没有用来参与水文要素演化分析的数据被纳入进来,大数据、云计算等技术的发展也为多源水文要素的关联分析提供了计算环境,使得过去无法用来参与决策的涉水要素能够在决策中发挥作用,成为水文大数据的重要数据来源之一。其中主要是网络数据,包括国内外相关机构网络共享的各类数据资源库和可通过网络爬虫获取的网络非资源型数据,如网络舆情数据。
随着水文事业不断发展和信息化建设的不断推进,水文行业积累了大量历史数据,与此同时,遥感、GIS、卫星拍摄、AI视频、移动互联网等现代化信息技术的发展与应用,全面扩展了水文数据的要素类型。水文数据已逐渐呈现出多源、多维、大量和多态的大数据特性。当前,水文大数据的特征可概括为以下几点[8]:(1)数据总量大。水文数据为一系列的时间序列数据,且覆盖全国各大流域及行政区划的大、中、小河流流经的区域,具有海量数据的特性,数据总量在TB级以上。(2)数据类型多。包括实时雨水情数据、基础水文数据、水质数据等主要结构化业务数据,地理信息数据、卫星遥感数据、成果文档等半结构化数据和非结构化数据。(3)数据持续增长。水文工程的预报、防汛等应用不断增加,监测站点密度提升,监测频次提高,数据增加速度不断加快。(4)数据价值高。水文数据作为水文行业资源性产品,是防汛抗旱、水资源管理、水工程建设等经济社会活动处置的依据,蕴含较高的价值。
2 设计水文大数据平台关键技术与难点
2.1 基于水文对象标识的数据组织
水文大数据包含数据类型众多、结构不一、标识各异,如何有效组织水文大数据,实现信息有序集成和唯一标识,是水文大数据应用的重要基础。可利用对象化组织思想,以水文实体为对象,给该对象赋予唯一标识,将对象所有的属性和行为数据通过该对象标识关联起来,并据此将所有属性数据关联为一个信息集合,实现水文数据的对象化组织[9]。水文实体对象的定义有两种,一种是按照水文对象的物理状态定义的基本对象,如具体的测站、河段、机关部门等,其特点是边界清楚,与结构化数据组织的切合度高。另一种是因水文决策需要定义的非实体对象,可以是逻辑实体或问题域,如水文年鉴、场次洪水灾害事件,其属性往往包含多个基本对像和属性,这类对象称为复合对象。基本对象的构造,通过定义其水文对象标识编码与对象属性的信息关键字编码的关联来实现。复合对象的构造,通过与基本对象的关系关联来实现。
按对象组织水文数据,就是将某个给定水文对象的所有属性数据通过统一对象标识组织在一起。为了适应大数据条件下对象化信息组织与应用需求,必须对水文实体对象进行分类与编码,用于标识和组织复杂结构(如结构化与非结构化混合)的数据,形成水文大数据结构。考虑到随着水文信息化的推进,物联网技术的应用将在水文行业普及,因此可采用类似物联网标识来标识水文对象[10]。
2.2 基于Hadoop的分布式存储体系与冷热分层存储策略
采用关系数据库和分布式文件系统结合的方式,满足水文大数据海量数据集中存储以及结构化和非结构化数据统一管理的要求。基于Hadoop的分布式文件系统(HDFS,Hadoop Distributed File System)是被设计成适合运行在通用硬件上的分布式文件系统,是一个能提供高吞吐量数据访问的高度容错性系统,具有高容错性、适合大数据处理、流式文件写入和可部署于低廉的分布式硬件系统之上等特点[11]。HDFS分布式文件存储系统能够集成和汇总异构的数据源,为数据分析提供统一、完备的数据存储。
对于海量数据的存储,不仅要求具有较高的安全性和完整性,还要求具有较高的数据处理和读写效率。若不加区分的将所有数据全部存储在某一存储设备中,则容易造成存储资源利用效率低下,并带来极大的投资和管理成本,也难以适应未来业务发展趋势。一般认为,数据在被创建之初普遍具有需求量较高、访问量较大和价值较高等一系列相关特性,而随着时间的推移,对于数据的需求也会随之变化。可将这种需求量高、访问量大、价值高的数据称为热数据,热数据是业务应用访问的热点数据,需要较高的读取性能。而随着时间的推移,热数据会慢慢“变冷”,对应访问量会降低,变成冷数据。冷数据对存储读取性能要求相对较低,但数据量会随时间不断增长,对存储量需求高。根据数据在不同时间阶段具有不同价值的特征[12],采用冷/热分层的数据存储策略,将热数据存储在内存、固态硬盘等高性能但相对昂贵的存储设备中,让热数据更高效的参与计算,将冷数据存储在机械硬盘、磁带库等大容量高性价比的存储设备中,实现冷数据集中存储。冷/热分层的存储设计能更加高效地利用有限存储空间,节约大量投资,且通过优化数据存储,提升系统的整体性能。
2.3 与水文模型耦合的大数据分析
水文大数据分析是根据主题化的应用需求进行数据处理分析。通用大数据分析方法大多基于数值方法、统计方法或机器学习,水文数据应用这样的数据处理链条可以分析挖掘出一定的潜含价值信息,为推动认识和发现水文规律提供一种可行的方式[8]。但另一方面,在现实意义上这样的分析结果可能因缺乏理论支撑或与现有水文规律认知存在偏差而无法充分应用。因此,水文大数据分析除集成通用数据处理方法外,还需集成具有水文学背景的水文模型。水文模型处理中存在模型异构性和复杂性等问题,在应用大数据分析时需要对模型进行封装和管理[13],通过模型元数据设计、模型封装集成以及“数据—模型”耦合校验,构建“数据—模型”间的数据互通接口,将水文数据与模型耦合起来形成数据分析处理链。此外,精细水文模型往往需要大规模计算能力,借助大数据技术提供的并行计算能力,利用Hadoop技术体系提供的并行式MapReduce计算实现多节点高效数据处理,可有效解决传统水文模型计算单机处理中计算性能不足的难题。
2.4 水文大数据可视化
大数据分析应用离不开对分析结果的解释与展示。若数据分析的结果不能得到恰当的显示,则会对用户产生困扰,甚至会误导用户。将数据可视化技术应用于大数据的理解、分析和结果展示,是大数据应用的重要技术手段之一,通常称为大数据可视化。大数据可视化,不同于传统的数据可视化,面临的最大挑战就是数据规模和复杂结构[14]。需要提出新的可视化方法帮助用户理解大数据分析得到的大规模、高维度、多来源、动态演化的分析结果,并辅助作出实时的决策。常用的大数据可视化技术有标签云、聚类图、历史流图、热图等[15]。
水文大数据可视化在借鉴应用传统大数据可视化技术的基础上,更多地关注水文数据的长时间序列和大空间尺度的特性,多采用与地理位置相结合的方式,如基于地图叠加多维水文数据进行分析展示,利用三维仿真技术对水文数据的时空变化进行虚拟仿真和推演。
3 长江水文大数据平台设计
3.1 总体架构
基于水文大数据处理与分析的需求,依照软件体系结构理论及软件工程方法,构造长江水文大数据平台总体架构,主要包括水文大数据存储管理层、水文大数据组织处理层和基于大数据的水文业务应用支撑层三个部分,其架构如图1所示。
3.2 水文大数据存储管理
水文大数据存储平台应用云计算和分布式文件系统、关系型数据库等技术体系,实现不同结构(结构化/非结构化)的巨量水文数据存储。在此基础上,实现基于水文对象信息组织模式的数据集成与抽取,为水文大数据分析处理提供高效率的专门数据存取服务。
水文大数据存储平台实现基于HDFS的海量异构水文数据的汇集与存储,为数据分析提供统一、完备的数据存储。支持多种来源、不同结构的水文数据接入,如通过数据转发接入各类在线报送实时数据(包括监测要素数据和监测行为状态数据),通过服务接口或数据同步接入各类已建水文业务系统的节点数据,通过数据接口或网络抽取接入其他领域交换共享数据和网络数据。支撑通过数据净化、综合、分类、整编、识别等ETL处理实现基于水文对象信息组织模式的数据集成与抽取,为上层数据组织和数据仓库提供支撑。
3.3 水文大数据组织处理
水文大數据组织处理平台主要由水文数据网络、水文数据场景及水文知识图谱三个部分组成,实现水文大数据的网络化、场景化和知识化组织。组织平台通过建立和维护资源目录、元数据、对象标识、信息标识和知识图谱,统一生成和维护面向不同主题和场景的各类数据集合,实现数据的动态主题化、对象化和场景化再组织。
水文大數据组织处理平台同时实现对计算资源的组织管理,支持基于MapReduce机制的大数据流/批处理,提供数据挖掘、机器学习和可视分析等大数据分析工具,为业务应用支撑平台提供数据资源和计算资源。
3.4 基于大数据的水文业务应用支撑
基于大数据的水文业务应用支撑平台是整个水文大数据平台的核心,封装各种计算方法和水文模型形成数据分析服务池,用户可以组织相应的数据集合,并针对性地在分析服务池中列表中选择对应算法,亦可上传自定义算法,对数据集合进行运算,应用知识图谱解释分析结果,支撑实现基于大数据的水文业务应用。
基于大数据的水文业务应用支撑平台将数据能力和计算能力封装为标准接口供业务应用使用,同时实现对能力接口的维护和管理。在水文大数据组织平台的支撑下,综合运用常规数据与大数据处理技术,完成面向特定水文问题的数据分析与服务任务。
4 结语
随着水文数据量的不断增大,数据类型不断扩展,各行业用户需求不断增多,多源异构海量水文数据的集成处理与分析应用日趋重要。建设水文大数据平台,实现水文大数据资源的集中统一、安全可靠的存储和管理,构建统一的信息组织和处理体系,建立基于大数据的水文业务应用支撑环境,为水文行业大数据集成应用提供了可行的架构模式。对长江水文落地水文大数据平台建设,笔者提如下3点建议。
(1)在推进重点上,注重水文数据资源网络构建,发力智能数据挖掘算法。基于水文数据内在关联,通过水文对象组织各类数据,构建水文数据资源全景图。在此基础上,面向业务领域组合形成数据集,并应用大数据处理工具,设计智能数据挖掘算法,实现与业务融合的大数据分析。
(2)在技术应用上,注重实用,保证先进,加强大数据与AI的技术融合应用。大数据作为新型信息技术发展迅速,建设水文大数据平台要注重选择成熟先进的技术方案,最大程度发挥技术优势,减少技术成本。此外,建设水文大数据平台不只是为了数据查询与管理,更重要的是为智能分析、机器学习、知识发现提供基础平台,因此要加强与AI等智能技术的融合应用。
(3)在思想认识上,要积极“拥抱”大数据,转变观念,以新的方式利用数据。大数据已经在众多行业展现了其重要价值。水文大数据或许能提供另一种有别于传统水文学的发现和认知水文规律的可行途径。水文行业应积极拥抱大数据,改变经验的传统思维模式,以新的态度看待数据,以新的思维方式利用数据,从中获取新知识,创造新价值。
参考文献:
[1]陈春华,程海云,肖志远.长江水文信息化建设实践与发展思考[J].人民长江,2015(3):70-73.
[2]艾萍,于家瑞,马梦梦.智慧水文监测体系中的关键技术简述[J].水利信息化,2018(1):36-40,45.
[3]邱超,许金涛,元晓华.基于大数据技术的水情云数据中心设计与研究[J].浙江大学学报(理学版),2019(1):92-100.
[4]方巍,郑玉,徐江. 大数据:概念、技术及应用研究综述[J]. 南京信息工程大学学报,2014,6 (5):405-419.
[5]陈军飞,邓梦华,王慧敏. 水利大数据研究综述[J]. 水科学进展,2017,28(4):622-631.
[5]蔡阳. 以大数据促进水治理现代化[J]. 水利信息化,2017 (4):6-10.
[6]蒋云钟,冶运涛,赵红莉.智慧水利大数据内涵特征、基础架构和标准体系研究[J].水利信息化,2019(4):6-19.
[7]陈华,徐坚,肖志远,等.水文大数据共享平台研究与设计[J].水资源研究,2018(1):10-18.
[8]陈春华,陈雅莉.水文信息的对象化组织与应用探讨.大数据时代的信息化建设——2015(第三届)中国水利信息化与数字水利技术论坛论文集,2015:87-95.
[9]钱峰,张志新.水利信息资源目录编制要点解析[J].水利信息化,2021(1):14-19.
[10]饶小康.水利工程灌浆大数据平台设计与实现[J].长江科学院院报,2019(6):139-145,170.
[11]刘颖,叶茂,王耀鲁,等.分级存储技术及其在水利大数据处理中的应用[J].水利信息化,2019(6):18-22.
[12]张耀南,艾鸣浩,康建芳,等.地学大数据处理架构与关键技术研究[J].数据与计算发展前沿,2020(2):91-100.
[13]蒋云钟,冶运涛,赵红莉,等.水利大数据研究现状与展望[J].水力发电学报,2020(10):1-32.
[14]赵杏杏,鞠茂森,刘威风,等.基于大数据可视化的河长制中枢指挥系统建设[J].水利信息化,2017(6):17-22.
收稿日期:2021-11-19
作者简介:高露雄,男,工程师,主要从事水文信息化相关工作。E-mail:gaolx@cjh.com.cn
通讯作者:陈雅莉,女,正高级工程师,研究方向为水文信息化。E-mail:499548458@qq.com
Research on the Architecture System Design of the Yangtze River Hydrological Big Data Platform
Gao LuXiong Liu Di Chen YaLi
(Bureau of Hydrology,Changjiang Water Resources Commission,CWRC ,Wuhan 430010 ,China)
Abstract:This article first analyzes the existing problems of the BOH hydrological data center in dealing with the storage and processing of massive multi-source heterogeneous hydrological data. Based on the connotation and characteristics of hydrological big data,the research introduces the big data based on hydrological objects. Organization,Hadoop-based distributed storage system and cold/hot hierarchical storage strategy,coupled hydrological model big data analysis and hydrological big data visualization and other key hydrological big data platform technologies,and design the hydrological big data platform architecture,expected to provide theoretical and technical support for the construction of the Yangtze River Hydrological Big Data Platform.
Keywords:Hydrological Big Data ;Data organization;Big data analysis;Visualization