大数据背景下长江水文数据开放平台设计研究
2022-01-12高露雄王立海
高露雄,王立海
(长江水利委员会水文局,湖北 武汉 430010)
0 引言
科学数据共享作为科技创新的重驱动力,是一个国家科技创新实力和成就保持领先水平的基本保障,是推进经济社会快速可持续发展的重要步骤[1]。发达国家的科学数据共享工作起步早,共享范围、能力及政策策略等发展完备。美国的科学数据共享工程始于 20 世纪 80 年代末,1990 年,美国航空航天局着手建设分布式最活跃数据档案中心群(DAACs),DAACs 由 9 个数据中心构成,水循环数据中心(MSFC)位列其中。在欧洲,欧洲环境总署(EEA)负责研究水利科学数据共享方面的工作,欧洲水主题中心(ETC WTR)协助 EEA 的日常工作,发布相关水信息[2]。我国科学数据共享工作起步较晚,2001 年,我国正式开始实施国家科学数据共享工程,并设立了专项基金项目“气象资料共享系统建设”,标志着我国科学数据共享迈入试点建设阶段[3]。2002 年,科技部又推动 5 个科学数据中心启动建设,水文水资源信息共享服务中心是其中之一[4]。
进入大数据时代,数据为王是对数据这一重要战略资源的完整概述。国家“十三五”规划建设提出“实施国家大数据战略,推进数据资源开放共享”。2015 年国务院发布的《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50 号)中明确提出:加快政府数据开放共享,推动公共数据资源开放,以带动社会公众开展大数据增值性、公益性开放和创新应用,充分释放数据红利[5]。
水文资料是国家基础信息资源的重要组成部分,是一切与水相关的事业活动乃至整个国民经济和社会发展所必须的重要基础信息。水文数据作为重要的基础性、公益性数据资源,其开放共享程度将直接影响社会公共和科研院校对水文数据的创新应用,制约国家经济发展质量的提高和科学创新能力的提升。因此,为进一步强化水文的社会公益属性,贯彻落实“大水文”发展理念,推进水文服务人民生产生活和经济社会发展,根据水文数据的特点探讨水文数据开放能力建设体系,提出大数据背景下长江水文数据开放平台(以下简称开放平台)建设构想。
1 水文数据开放能力介绍
1.1 水文数据主要特点
水文是研究自然界水的时空分布、变化规律的一门学科。水文数据是指从实地调查、观测及计算研究所得与水文有关的各项资料,包括降雨量、蒸发量、水位、流量、含沙量等各种水文要素类型。与一般的科学数据相比,水文数据具有以下特点[6]:
1)空间分布特性。水文数据是对自然界水的运动变化现象的观测结果,由于水的分布具有天然的位置特征,水文数据自然继承了其特征。水文数据由分布在全国各大流域及省市大、中、小河流流经的广大区域上部署的水文测站单元监测得到,因此,水文数据具有地理空间上的分布性。
2)时间序列特性。水文数据是对水文要素长系列的观测所得的资料,一般是水文测站设立以来所测得的数据,具有时间序列特性。水文数据在时间维度上的序列特性是其不可替代价值的基础。
3)强关联性。自然界的水循环是个环环相扣的自封闭体系,水文观测而来的各要素是水循环的组成部分,相互间存在着内在的联系。
随着水文事业的不断发展、监测能力的不断提升,以及信息化建设的不断推进,水文行业积累了大量历史数据,与此同时,遥感、GIS、卫星拍摄、AI 视频、移动互联网等现代化信息技术的发展与应用,全面扩展了水文数据的要素类型。水文数据也逐渐呈现出多源、多维、大量和多态的大数据特性。
1.2 水文数据开放能力定位
为满足面向社会公众和科学研究的多层次数据开放能力需求,在数据基础条件具备的前提下,围绕水文数据的特性,水文数据开放能力应具有解决复杂需求或扩展服务效能的数据开放接口。水文数据开放能力定位如下:
1)提供基础的水文数据资源目录服务。水文数据开放能力建设的基础是水文数据资源目录,水文数据资源目录提供对数据资源发现和定位的高效方法。
2)提供基于 GIS 的水文数据查询和获取服务。水文数据具有地理位置特性,结合空间相互关系,如同一条河流的上下游,结合 GIS 的空间分析能力,提供基于空间位置关系的水文数据查询服务[7]。
3)提供标准一致的长序列水文数据服务。长系列的水文资料对于深入研究水文现象的变化规律具有重要意义。在长期的水文数据观察过程中,水文测站时有断面迁移、基面变更或是撤销重新设站等影响水文数据序列连续性的情况发生。综合应用历史沿革信息,基于统一的标准恢复水文数据的完整序列,是提高水文数据开放质量的重要举措。
4)提供满足多层次需求的水文成果数据计算能力。水文数据各要素间的内在复杂关系及其意义,社会公众是不易知晓和理解的,应用水文计算成果设计简单易懂的大众概念,如各种水文民生、洪水、内涝等指数[8],可提升水文数据开放的实用性;对于科研工作者,水文数据开放能力还需引入专业成熟的水文分析计算能力,如频率计算等,满足不同层次的水文数据需求。
2 水文数据开放平台设计
2.1 开放平台结构设计
开放平台总体采用分层结构设计,包含基础设施层、数据层、服务层、应用层、平台门户及标准规范体系和安全保障策略。基础设施层为平台运行提供计算、存储和网络资源,包括机房、服务器和网络等基础设施。数据层为上层服务提供数据源,包括标准化水文数据库、空间数据、元数据及数据索引等,是数据开放平台的重要基础。服务层实现核心的应用支撑服务,为开放应用层提供各项服务能力,包括基础支持和应用支撑服务。应用层包含数据和能力开放应用,数据开放应用可以提供数据产品定义、配置、发布、审核、获取等功能,能力开放应用可以提供 API(应用程序编程接口)功能的在线注册、测试、发布、审核、订阅等功能。开放平台门户为用户提供统一便捷的访问入口,将应用层的开发能力展示给用户,并引导用户完成对开发能力的申请与使用。标准规范体系是开放平台建设的重要依据和持续发展的重要保障,包括数据和运维规范。安全保障策略是维持开放平台有序健康发展的必要手段,包含开放平台各层次的安全策略与方案。开放平台总体结构如图1 所示。
图1 开放平台总体结构
2.2 数据开放应用
数据开放应用建设的体系架构如图2 所示。
图2 数据开放应用建设的体系架构
数据开放应用建设具体包含内容分析如下:
1)数据转换。数据转换是根据数据应用场景的不同,进行的数据标准或格式的转换,是对数据的再封装。如基础水文数据可依据使用场景是分析计算还是输出打印,而对提供服务的数据产品进行关系型数据库或整编年鉴的格式的转换封装。
2)数据配置。数据配置是指配置数据资产的产品描述信息、数据加工方式、产品质量信息等,是对数据产品元数据的补充完善,如某河段断面的流量数据产品应该配置其测流断面位置、方式方法、数据的时间范围等。
3)数据发布。数据发布是将数据产品发布到产品目录中。数据发布时以数据产品的元数据对象为依托,构建产品目录树和搜索服务。数据层中的任意表、视图、接口服务、文件资料等都可以作为数据产品发布出去。
4)数据获取。通过“数据超市”的方式为用户提供数据产品浏览检索、类别筛查、详细信息查看、数据产品获取及申请使用等。用户在取得数据产品使用权限后,在数据平台中提取并生成数据文件,完成数据产品的获取。
2.3 能力开放应用
API 是应用功能的外部接入点,是应用能力的外在表现。能力开放应用建设的体系架构如图3 所示。
图3 能力开放应用建设体系架构
能力开放应用建设具体内容分析如下:
1)API 封装。API 封装对开放平台内部已有的服务能力或新建的服务接口实现封装,以供外部调用。使用 URL、参数列表、返回值等接口信息描述API,API 的调用及传输协议采用标准简单通用的轻量级协议 HTTP,接口设计风格参考 RESTful。
2)API 注册。通过提供 API 描述信息完成,包括名称、用途、版本、URL、参数、返回值、调用方式、错误处理等。
3)API 发现。API 发现是利用 API 的注册信息提供 API 搜索服务,通过列表浏览,以及关键词、分类、字段限制和可视化的检索等途径实现对 API的快速查找。
4)API 管理。完成对已注册 API 的测试、审核、版本管理、调用监控、权限控制、安全验证的管理功能。
3 长江水文数据开放平台建设
3.1 开放平台建设的条件和基础
开放平台建设具有以下重要基础和条件:
1)数据资源基础。长江水文是我国水文行业的领军者,在水文资料采集、数据库建设、数据管理、数据资源整合等多个方面取得了显著的成绩,为开放平台的建设打下了数据基础。
2)信息化基础设施。通过近几年信息化能力的提升建设,长江水文信息化基础设施环境已大幅革新,相应的标准化体系逐步完善,运维管理能力显著提升,为开放平台建设提供了环境保障。
3)发展理念及政策条件。全面深化“社会水文、绿色水文、智慧水文、和谐水文”,构建覆盖综合站网、立体监测、专业支撑、信息服务、管理保障的“五大体系”,是长江水文在新发展阶段实现高质量发展的重要举措。其中社会水文强调水文的社会服务属性,积极服务社会经济建设,为社会公众提供简单、合理、实用的水文服务。建设长江水文数据开放平台契合这一发展理念。
4)人才资源基础。长江水文在多年水文信息化建设中培养了一批专业技术能力强的水文信息化人才队伍,为长江水文信息化发展和水文行业信息化应用建设做出了积极贡献。
3.2 开放平台建设的主要内容
开放平台建设整体结构采用本研究提出的开放平台架构,主要内容包括:
1)数据资源层方面。建设水文大数据中心,进一步扩展数据资源,加强数据资源整合,扩充数据资源的范围,构建数据资源间的关联关系,丰富数据资源索引,为开放平台建设提供数量更多、范围更广、质量更优的数据资源。
2)服务支撑层方面。完善基础服务,建成包括数据索引、搜索引擎、消息、统一认证、流程、地理信息等服务在内的平台级基础服务;开发核心服务,包括数据服务配置、发布及获取,API 服务注册、发布和管理;扩展平台的专业应用服务,将成熟的水文分析计算算法固化为一套应用级产品服务,如统计分析计算、频率计算、相似性分析、序列延长等标准化应用。
3)开放应用层方面。结合长江水文数据资源状况,建设覆盖基础水文、实时水情、水质、测验实况、预警预报等的业务数据,以及 OA、人事、财务、合同等管理数据的数据开放服务。其中业务数据面向社会公众和科研工作者开放,提供精准数据加工服务;管理数据面向单位内部开放,促进管理信息在单位内部的共享,激发管理数据应用创新。
4)标准体系建设方面。完善数据资源分类、水文元数据、资源索引等标准,以及开放服务接入、使用和管理流程标准,建立数据更新维护保障机制,促进开放平台规范可持续发展。
5)安全策略建设方面。按照开放平台的分层结构,对每层分别采取相适应的安全保护策略,建立起多层次的安全控制模型[9]。
3.3 开放平台建设面临的挑战与对策
在建设开放平台过程中将面临诸多挑战,较为突出的包括数据开放的范围与程度、数据质量与更新保障能力、数据的友好性和安全性等,具体如下:
1)水文数据开放范围的确定没有可依据的相关规范条款,在不涉密和兼顾事业发展、信息安全的前提下,如何恰当选择开放数据的范围满足社会公众需求,是十分值得思考的。
2)数据的质量和时效性对数据应用至关重要。水文数据的采集、处理、存储是一个复杂的过程,控制每个环节以保证数据的质量和时效性是个复杂工程。如果开放的水文数据出现不可靠的数据,不仅有违数据开放初衷,也会对社会公众的利益造成损害。
3)水文数据具有较强的专业性,如何创新水文数据产品形式,让专业的水文数据更适应社会需求,更贴近民生,是水文数据开放过程中亟待解决的问题。
4)水文数据开放共享后的安全性是阻碍水文数据开放进程可持续发展的重要障碍之一。由于电子数据的可匿名拷贝和重复使用等特性,如何保护开放数据的知识产权,开展数据确权[10],让开放数据使用安全可控,保护数据提供方的权益,促进开放平台的可持续发展,是需要妥善解决的重点问题。
针对上述问题,在参考政府数据开放的实践经验和研究成果的基础上[11-13],提出相关对策建议:
1)有选择、分层次地开放数据。在推进水文数据开放的过程中,应遵循统筹兼顾、重点优先的原则进行处理,在保障事业发展和维护信息安全的前提下,有良好数据资源基础和广泛用户需求的数据资源要优先实施,在过程中不断调整认知,形成规范,再逐步向更深层的数据开放推进。
2)建立数据更新发布审核和使用反馈机制。为优化数据质量,兼顾数据的时效性,建立一套数据更新发布审核机制,从源头把控数据质量,确保开放数据的可靠性和语义完整。建立积极反馈机制,对有问题的开放数据不断改进提升,进一步提高数据质量。
3)创新数据产品形式,满足多层次数据开放需求。除了传统的各类水文数据产品外,在服务社会公众领域创新产品形式,让水文数据更贴近民生,形成有温度的公众水文指数数据;在水文服务科研领域,除继续提供传统的基础数据服务外,利用专业系统生产出成熟数据成果产品,为科研工作者提供更有附加值的科学数据,推进科研创新进程。
4)建立良性的应用生态,促进数据开放可持续。可从以下 3 个层次建立良性应用生态:a. 面向行业普遍应用需求,构建成熟丰富的水文数据应用服务,为用户提供深加工成果数据;b. 面向定制类应用需求,建立数据可信计算平台,用户根据自身需求设计并提交算法,算法在可信计算平台中使用水文数据进行计算,完成后将结果返回给用户[14],实现开放数据“可用不可见”;c. 面向原始数据集开放需求,可基于区块链技术的内生优势[15],应用NFT(非同质化代币)[16]对开放水文数据集进行版权登记,标记数字资产所有权,保护数据提供方的权益。NFT 具有不可分割、替代、复制,以及独一无二的特点,具备天然的收藏属性且便于交易,在数字音乐、数字画作、数码影像等数字艺术品领域已有广泛应用。
4 结语
水文科学数据开放共享是水文服务国家科技创新、推动社会经济发展的重要举措。本研究结合水文数据特点和开放应用能力提出长江水文数据开放平台的总体结构和建设体系,开放平台设计可满足面向公众服务、科学研究的多层次水文数据开放共享需求。本研究成果为推动长江水文数据开放提供了有效途径,对深入推进长江水文高质量发展、构建水文信息服务体系具有重要意义。
推动水文科学数据开放共享是一项系统性工程,除了需要开放平台的技术支撑,相关管理、评价及监督机制亦不可或缺,在如何构建完整的数据开放生态和长效机制,强化数据开放内在驱动力,形成良性生态循环等方面还需要深入研究。只有两者结合起来,开放平台才能实现可持续健康发展,最大限度地发挥水文数据的价值。