APP下载

新版数字黑河信息系统的设计与实现

2021-12-17吴阿丹史艳梅郭建文李建轩

冰川冻土 2021年5期
关键词:黑河可视化流域

吴阿丹, 史艳梅, 郭建文, 李建轩, 李 恒

(1.中国科学院西北生态环境资源研究院黑河遥感试验研究站甘肃省遥感重点实验室,甘肃兰州 730000;2.中国科学院大学,北京 100049; 3.中国人民解放军 32016部队,甘肃兰州 730000)

0 引言

虽然国内外对数字流域的理解存在差异[1-2],但都一致认为数字流域是流域科学的重要研究内容之一。黑河流域是中国第二大内陆河流域,很早就开展了数字流域研究,并且提出了“数字黑河”的概念[3]:黑河数字由基础观测网络设施及信息系统组成,前者由星-空-地观测系统组网构建,后者是为黑河流域科学研究和流域集成管理而搭建的集数据、模型和观测系统于一体的信息化平台,是黑河流域研究的数据中心,又是它的虚拟实验室,模拟和观测平台[4]。

自1990年以来,黑河流域共开展过五次大规模的综合观测试验:

(1)1990 年6 月—1992 年10 月,在黑河流域中游开展了“黑河地区地气相互作用野外观测实验研究”(HEIFE)[5],开创了黑河流域综合观测研究的先河,为之后的观测奠定了基础,其共享数据集至今仍为研究者所广泛使用。

(2)2004 年6—8 月期间,在黑河流域西部子水系中游金塔绿洲开展了为期两个多月的“绿洲系统能量与水分循环过程”观测试验,之后的多个夏季中,又在这一地区开展后续试验,这些试验统称为“金塔试验”。

(3)2007—2009 年,中国科学院西部行动计划项目“黑河流域遥感-地面观测同步试验与综合模拟平台建设”和国家重点基础研究发展计划项目“陆表生态环境要素主被动遥感协同反演理论与方法”共同发起了“黑河综合遥感联合试验(以下简称WATER 实验)[6]”。初步实现了建立一个开放的试验平台和发展多尺度、多分辨率、高质量并最终完全共享的综合数据集的目标,全部数据通过黑河综合遥感联合试验信息系统进行发布。

(4)2012—2015 年,“黑河流域生态-水文过程综合遥感观测联合试验(以下简称HiWATER 实验)”[7]也在黑河流域进行,其目的是目标是显著提升对流域生态和水文过程的观测能力,建立国际领先的流域观测系统,提高遥感在流域生态-水文集成研究和水资源管理中的应用能力。

(5)2016—2020年,生态系统关键参量监测设备研制与生态物联网示范项目[8]也在黑河流域部署生态监测物联网开展监测示范,构建了天地一体化的群落-生态系统-景观多尺度生态物联网监测系统,对推进黑河流域生态文明建设具有重要支撑作用。

针对这些不同时段、不同规模的黑河流域观测实验,中科院西北生态环境资源院(原中科院寒区旱区环境与工程研究所,简称西北院)经过20 年的时间建立了一系列不同功能的数据服务系统,初步实现了实验介绍、数据共享、模型展示等信息服务,如旧版数字黑河[9]、西部数据中心[10]、黑河流域生态水文过程综合遥感观测联合实验、黑河流域遥感-地面观测同步实验与综合模拟平台、中国陆面数据同化网、黑河流域模型集成、黑河数据可视化在线平台[11]、中科院黑河遥感实验研究站等信息系统。这八个系统都涉及到了黑河流域相关的数据和模型,从不同角度提升了黑河实验的数据共享效率,实现了数字黑河信息系统向数据中心的过渡,但这些系统尚不能满足“数字黑河”的现实要求,存在一些急需问题:①信息平台门户较多,不利于平台的维护和数据的高效共享;②一些平台样式陈旧,在不同的终端中会有样式变形问题,用户体验较差;③功能不够全面,缺少数据分析及数据实时监测等功能;④这些系统由不同的团队开发,使用不同的技术框架,很难进行系统间的互操作,随着数据量的不断增多,系统性能也受到挑战。

为了进一步提高数字黑河信息服务,本文在黑河流域空间观测和地面测量等数据基础上,立足中科院西北院信息基础设施,借鉴已有系统资源,重构新版数字黑河信息系统(New Digital Heihe River Information System,以下简称NDHRIS),期望进一步提升黑河流域科学数据的共享效率。本文主要介绍NDHRIS 的设计和实现,重点在新功能及功能优化的考虑和实现上,最后讨论了系统仍存在的问题和未来需要改进的三个方向。

NDHRIS在信息服务方面的主要贡献如下:

(1)将多语言编写的系统统一集成为基于Python的Web系统,一方面能够简化系统的维护,方便用户一站式浏览。另一方面,支持与大数据平台的对接,为后期方法库、模型库的在线运算提供支持。

(2)替换开源元数据编辑器Geonetwork,开发了一套自有知识产权的元数据管理工具,具有较高的可扩展性和稳定性;

(3)基于ISO19115 元数据标准,统一数据共享和交换的规则,实现多平台数据的统一管理与共享。

(4)进一步优化数据汇交流程、数据申请流程。在保证数据质量的前提下,进一步提高了数据管理和使用的效率。

1 整体设计

1.1 系统框架

NDHRIS 以满足数据“共享为本,可视化为根”的原则进行建设。针对已有的平台存在的缺陷,从观测、数据、模型三个角度出发,构建一个风格现代化、内容多样化,标准统一化,流程简单化的信息服务平台。系统整体框架包括基础设施层、服务层和应用层三个层面,如图1所示。

图1 系统整体框架Fig.1 Overall framework of the system

基础设施层:提供整个系统运行的硬件环境及软件环境。本系统基础设施使用中科院青藏高原研究所提供的云环境:一个Web 服务器,一个500 T的磁盘阵列,四个处理服务结点,这四个节点后期可用于基于Spark的分布式计算。

服务层:由一系列Web服务组成,包括数据共享服务、可视化服务、地图服务、数据实时监测服务等。

应用层:即NDHRIS 网站界面,通过调用服务层Web 服务提供的各种方法,实现观测实验介绍、数据汇交、数据浏览及下载、数据可视化及模型代码共享等功能。

1.2 功能设计

NDHRIS是在已有八个旧系统基础上进行功能的升级,重点从观测、数据、模型三个方面进行功能改进(图2)。

图2 系统主要功能Fig.2 Main functions of the system

2 系统实现

2.1 开发技术和运行环境

NDHRIS 采用浏览器/服务器模式(B/S)架构。浏览器端采用Nodejs 作为开发语言,服务器端采用Python 技术,利用瓦片服务、Echart 插件实现不同类型、不同体量数据的可视化。为了提高用户体验同时用到了Jquery、Ajax 等技术。同时采用分布式数据库GreenPlum[12-13]和分布式文件系统Hadoop[14]对不同结构的数据实现差异化的管理策略。Web 系统和数据库均运行在Ubuntu16操作系统环境中。

2.2 功能实现

2.2.1 观测数据输入

随着信息技术的发展,中科院西北院从2012年至2015 年对黑河流域观测系统网络进行了数据自动采集、远程传输[15]、数据质量控制[16]等方面的信息化改造,部署了多尺度嵌套无线传感器网络[17],形成“一条样带+多个核心观测站+遥感综合观测试验+各研究项目自主观测”组成的综合、立体、多尺度的流域观测系统。从2012 年至今,在黑河上游、中游及下游建立9个观测区域,362个观测点,包括数采仪385 个,2 145 个传感器。目前仍在运行的观测点有11个(图3),详细信息如表1所示。

表1 观测站点详细信息(阿柔、大满和四道桥是超级站,其他是普通气象观测站)Table 1 Details of observatory stations(Arou,Daman,and Sidaoqiao are superstations;the other stations are ordinary stations)

NDHRIS 重点对WATER、HiWATER 等几个观测实验网站进行归纳(图4),在集成原有网站内容的基础上,重新设计“观测”栏目,从实验计划、实验组织、实验参与者、合作交流、实验进展、出版物、支持单位等角度详细介绍黑河观测实验,并将观测实验与其观测数据关联,即用户在浏览实验内容的同时可快速获取相关数据(图5)。

图4 集成已有网站Fig.4 Integration of existing web sites

图5 观测实验与对应数据相互关联Fig. 5 Correlation between observation experiment and corresponding data

2.2.2 数据管理、分析和共享

“数字黑河”已阶段性地完成了数据集成,主要数据来源为黑河计划有关项目的数据成果、黑河生态水文遥感试验、以及黑河流域的各种基础地理数据。数据量超过5 T,共1 058 条元数据。根据这些流域数据特点,我们建立了具有高稳定性、高扩展性的分布式数据库管理系统,在此基础上是实现了数据共享功能:用户可以按照专题浏览、所有数据、空间检索、关键词浏览、缩略图浏览、文献浏览及作者浏览等方式查询及下载数据,并提供了数据可视化、数据实时监测等功能。本节重点阐述数据共享功能中的几个新的进展:

(1)细化数据共享流程中用户角色

NDHRIS 的数据共享流程如图6 所示。各类数据贡献者将数据提交到数据平台,数据经过专业评审之后正式发布,并注册DOI。各类数据用户可通过数据共享门户以多种方式检索、查看和按需下载数据。在该业务流程中,主要包括四种角色,具体如表1所示。

图6 数据共享流程Fig.6 Data sharing process

表1 四种用户角色Table 1 Four user roles

针对数据共享流程中涉及的四类用户角色,NDHRIS提供了四个对应的功能:

1)数据提交功能:为三类数据贡献者提交数据提供支持。

2)数据检索及下载功能:为两类数据用户检索、查看(可视化)和获取数据提供支持。

3)数据评审功能:为数据编辑和数据评审人组织评审或评审数据提供支持。

4)数据发布与管理功能:为数据管家发布经过评审的科学数据集和注册DOI提供支持。

(2)数据发布流程的优化

高质量数据是数据共享的基础,因此在汇交数据时必须进行数据的质量检查。旧的平台已经具备数据汇交的功能[18]:数据提供者需要首先登陆数据中心平台,然后撰写元数据并通过FTP 将数据实体进行上传,经过数据中心检查后发布数据。然而该汇交流程还存在一些不足:汇交数据编辑功能不够灵活、数据提供者必须安装FTP 客户端工具、数据评审无法按照不同层级进行评审(如项目、课题、子课题等)、汇交环节出现错误后,数据中心管理人员只能通过邮件或者电话沟通解决。

新版数字黑河信息系统,在总结了大量数据作者及用户的意见后,重新凝练了数据评审流程,从以下三个方面进行了功能改进(图7):

图7 NDHRIS数据发布流程Fig.7 New data publishing process of NDHRIS

1)从数据提交者的角度,整个流程都是向导性操作,显著提高数据汇交效率,体现在两个方面:开发了基于ISO19115标准的元数据编辑工具,替换开源元数据编辑器Geonetwork,使得元数据编辑更加能活,并且支持中文和英文两种语言的元数据编写;增加了网盘方式的数据上传,提高用户体验;

2)从评审专家角度,细化了角色,可以从项目、课题、子课题等不同角色评审数据,实现逐级审核的过程,保证了提交数据的质量;

3)从数据中心管理员的角度,减少了其操作步骤,只需根据系统提示邀请专家及根据意见判断是否发布即可。

(3)基于元数据的数据检索

元数据互操作技术的发展,以及元数据互操作实践成果提供的支撑使得元数据互操作具备可行性。因此,新版数字黑河系统基于ISO19115 标准[10],对所有元数据进行重构,实现元数据之间的互操作:当用户在检索资源时,系统可以在己经建立关系的元数据元素字段中搜索(图8),可以将不同的元数据标准描述的相关信息资源检索出来,实现黑河数据的一站式获取(图9、图10)。目前系统包含的数据集主要是基于中国寒区和干旱区关键变量的数据,如冰川、雪、冻土、沙漠、地表大气强迫、土壤质地、植物功能类型图、生态水文遥感产品等模型数据集。

图8 基于元数据的数据检索Fig.8 Data retrieval based on metadata

图9 数据检索界面Fig.9 Data retrieval interface

图10 元数据浏览界面Fig.10 Browsing interface of metadata

此外,NDHRIS 也实现了多平台数据的统一管理与共享:目前新系统与时空三极大数据平台、国家青藏高原数据中心、三江源国家公园数据监测平台以不同域名对外发布,但这些平台均采用同一套数据库管理系统,这样的设计策列有利于平台数据之间的互操作,如,对于元数据的录入及编辑,这些系统均采用统一的元数据管理系统,管理员可根据数据的特点选择不同的数据发布平台。对于用户来讲,可在国家青藏高原数据中心搜索到NDHRIS中的数据。

(4)针对不同类型数据的可视化分析策略

数据可视化使抽象的数据转化为易于辨识的图像,为用户提供更加直观的信息和知识,是应对数据共享平台“数据丰富,信息贫乏”的有效手段[11]。NDHRIS 针对不同体量、不同类型的数据使用不同的的可视化策略,本节重点介绍地图和结构化数据的可视化方法(图11)。

图11 系统主要数据的可视化方案Fig.11 Visualization scheme of main data in the system

地图可视化包括基础图层、专题图层的可视化。

①基础图层可视化

使用地形、研究区域、河流、湖泊等基础地理信息数据绘制的地图被作为基础底图使用,由于这些数据普遍数据量大,并且具有类型多、属性多的特点,直接浏览如此大量的数据往往效率较低,所以需要引入瓦片地图服务:预先将这些基础数据在服务器端生成切片并存储,利用Geoserver将切片数据发布为WMTS 服务(Web Map Tile Service),最后在Web 前端使用Openlayer 加载该服务即可高效显示基础图层。如图12,该地图中使用了Mapbox 发布的瓦片地图以及经过瓦片处理后的黑河流域(粉色区域),这种方式可以极大的提高了Web 访问速度和用户体验。

图12 以瓦片服务发布的研究区域Fig.12 Research areas published as tile services

②专题图层可视化

根据专题图数据量的大小,采取不同的渲染策略。如果是较小的矢量文件,服务器直接将该数据转换为Geojson 格式的数据,并且通过Gzip 压缩后再发送到客户端,客户端浏览器中可以自动解压并利用Openlayer 直接显示该Geojson 数据(图13)。

图13 黑河下游飞行区域在基础图层上叠加(绿色部分)Fig.13 Heihe downstream flight area is overlaid on the base layer(green)

如果是较大的矢量数据或者是栅格数据,需要调用瓦片服务(WMTS),该过程和基础图层的可视化过程一致。

对于结构化的观测数据,其格式一般为XLS 或CSV,如常规气象水文观测数据(降雨量、水位、流量等),该类数据我们利用Python 程序对其进行自动解析并保存到分布式数据库中,所有的观测数据都保存在Tb_value 表中,但我们对该表进行了分表及索引的优化,在这些工作的基础上利用前后端交互的方式进行可视化绘图;客户端将目前浏览的数据时间范围和空间范围发送到服务器,服务器端则根据对应的数据范围在存储数据库中查询,然后将查询结果转换为JSON 格式[19],并返回给客户端,客户端接收JSON 数据并利用开源脚本Ecahrt 控件绘制图像(图14)。

图14 气象数据可视化效果Fig.14 Visualization of meteorological data

(5)面向生态监测物联网流数据的实时监测

物联网[20-22]的兴起为黑河流域生态观测监测数据的实时获取提供了重要保障[23],这些数据具有高速、无限、不确定性等特征,我们称之为流数据。面对这些流数据,传统数据可视化方法存在挑战:流数据在短时间内持续产生,如果将这些流数据全部加载到内存中进行显示对于普通服务器无法满足这样得性能要求。如果采用客户端频繁请求服务器(如Ajax)的方式更新用户界面上的可视化图表,当用户量较多时服务器负载会急剧增加。

NDHRIS 基于Websocket 实现了客户端浏览器与服务器持续的长连接,降低了服务器的负载,并且可以持续为客户端提供最新数据及其可视化曲线,即只要服务器端接收到野外新数据,客户端会立刻更新数据,如图15,因黑河流域加密观测期间数据采集周期为1 分钟,所以整个数据监测曲线每分钟自动更新一次。

图15 黑河上游、中游及下游数据实时更新(数据每分钟更新一次)Fig.15 Real-time data in upper,middle and down stream of heihe river is updated every minute

2.2.3 模型共享

对黑河流域以及周边地区建立科学模型是开展流域研究必不可少的一种手段[23]。数字黑河集成了流域生态-水文-经济模型,具有对冰冻圈水文过程、地表水与地下水交互、水资源利用、荒漠和绿洲的生态水文过程、人口经济社会发展等的综合模拟能力。

NDHRIS基于开源项目GitLab建立模型代码共享,提供了模型代码浏览、共享及版本控制等功能,便于黑河模型集成研究的开源及共享(图16)。

图16 模型代码共享界面Fig.16 Sharing interface of model codes

3 结论及展望

本文在集成已有数字黑河相关系统的基础上,采用最新的技术和设计理念构建了一个具有良好稳定性和支持大数据分析接口的数字化信息平台—新版数字黑信息系统(http://heihe. westgis. ac.cn/)。该系统将观测、数据、模型集成为一个整体,实现黑河流域科学数据信息服务,可以为黑河流域研究提供有力的支持。目前新系统已经业务化运行,有效弥补了八个旧版黑河数据服务系统的不足,将进一步提高黑河流域相关科研数据的共享效率和服务能力。

目前NDHRIS 的注册用户总数约为4 314 人,向大约100 个研究所和50 个项目提供了大约8 TB数据集和5 000 个数据服务。虽然已阶段性地完成了数据集成和共享,但还存在一些问题。下一步工作将重点解决以下三个问题:

(1)利用Python 对NDHRIS 框架进行了重新改造,具有了与大数据平台(如Spark,Hadoop)对接的能力,但目前还未实现大数据分析功能。今后须完善Mapreduce、Spark 等大数据库计算接口,并支持关键遥感数据典型反演算法接口的Web 调用(如植被覆盖度、植被生产力、积雪覆盖比例、雪深、冻融状态、碳吸收能力等),为实现黑河流域的决策支持提供分析平台。

(2)本系统只能与元数据结构一致的平台进行数据互操作,然而目前已有的国内外数据共享平台没有采用统一的元数据标准,开发语言各不相同,存储策略各不相同,这为不同平台之间的数据集成共享带来挑战。为了能够进一步增强NDHRIS 系统的使用范围及影响力,下一步应该考虑实现异构平台之间的互操作:对各种元数据标准的元数据元素进行分类,建立元数据元素之间多样的关系,实现层级关系丰富的科学数据元数据之间的互操作,为异构互操作的数据共享网络平台提供支撑。

(3)基于ISO19115 标准,我们对NDHRIS 中所有元数据进行了重构,实现基于多要素的数据查询,提高了数据查询的效率和准确度,但是,面对时空数据的快速增长,NDHRIS仍需面对新的挑战:由于应用任务和时空数据之间缺乏深度语义关联导致信息服务从海量数据中为特定任务提取精准信息的能力受到限制,因此笔者期望今后利用本体理论建立任务、时空数据及Web 服务的统一描述模型,并发展多级语义约束的“任务-数据”定量关联方法,实现渐进求精的数据智能聚合,提供更加智能的数据共享服务。

猜你喜欢

黑河可视化流域
基于CiteSpace的足三里穴研究可视化分析
压油沟小流域
基于Power BI的油田注水运行动态分析与可视化展示
堡子沟流域综合治理
罗堰小流域
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
到张掖看黑河
打造智慧流域的思路及构想——以讨赖河流域为例
张掖黑河湿地国家级自然保护区