APP下载

数据湖在气象信息系统中的应用

2022-08-29徐娟刘鑫席晓慧张春燕

现代信息科技 2022年12期
关键词:客户端气象节点

徐娟,刘鑫,席晓慧,张春燕

(1.甘肃省气象信息与技术装备保障中心,甘肃 兰州 730020;2.国家气象信息中心,北京 100081)

0 引 言

随着信息技术的发展,气象信息系统经历了多次迭代升级,气象数据越来越丰富,气象数据传输时效和数据服务质量有了明显提高,数据共享服务方式也更加灵活多样。但由于气象信息系统的分批建设,多套存储设备共存,数据分散,现行各业务系统服务节点均需挂载底层存储系统,业务拓展、设备扩充、存储设备更换等场景设备关联维护困难问题突出。基于用户分级的数据安全考虑,要对不同的用户和系统进行目录访问授权,由于多套存储并存的现状,存储空间有效利用率受到影响,使用不同年份、不同类型的气象数据时往往需要挂载很多存储目录,不利于数据统一管理。首先需要将多个存储系统集成作为统一的底层数据源,为上层的数据应用提供客户端应用接口和全局命名空间,其次需要通过追踪用户对文件的访问记录掌握数据存储状况和应用情况,此外,记录并分析用户的操作记录可以在数据访问发生异常时进行及时的溯源和问题排查。实际业务生产环境中,产品加工系统的应用通过读取文件内容加工成新的产品写入存储,最终服务接口需要读取实时和历史气象数据并提供给应用,稳定统一的目录视图、按需提供的目录权限,定额的空间使用分配都能更好地保障气象数据服务应用。

数据湖是一种以自然格式存储数据的方法,可以容纳包括结构化数据、半结构化数据、非结构化数据等多种数据类型,它的主要功能是对用户的所有数据进行统一存储,从原始数据转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。数据湖技术的引入可以有效解决因数据分散造成的技术和管理壁垒、数据质量溯源困难、质量提升难度大等问题,提高数据集成和治理能力、安全管控能力,实现数据的统一管理、充分共享和开发应用,为进一步的预测分析做支撑,并且在石油化工,交通、卫生医疗等领域已有广泛应用。

1 系统设计

PostgreSQL 是一个免费的对象-关系数据库服务器(ORDBMS),支持大部分SQL 标准并且提供了包括复杂查询、外键、触发器、可更新视图、事务完整性、多版本并发控制等许多现代特性。ES(Elastic Search, ES)为非关系型实时数据库,系统根据具体监视提交DI(Detail Information)最终进入ES 库存储,可通过Kibana 服务实现存储在ES 库中数据的查看和搜索,还能实现基于浏览器的用户界面快速创建仪表板es 查询动态的实时显示。

Redis(REmote DIctionary Server)是一种基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的应用程序接口(Application Program Interface, API),支持应用的配置和元数据的加速缓存,同时还支持Master-Slave(主从设备模式)的数据备份,可以作为应用系统元数据的缓存加速。Redis-Sentinel 服务是一个独立运行的进程,可以对Redis 的运行状态进行监控,实现master 节点故障后主备节点的自动切换。

Ansible 是一种可通过Playbooks 定制配置和对设备状态进行管理的轻量级自动化运维工具。FS Gateway(Factory Suite Gateway)可以将不同通信协议的客户端数据源连接在一起。

省级数据湖部署在四台建立互信并挂载了本地NAS 存储的Linux 服务器上,通过应用的部署实现虚拟文件系统搭建、存储接入、元数据管理、系统后台管理以及系统的高可用。数据湖系统设计管理节点和计算节点各两台,两个管理节点为高负载服务器,均需部署PostgreSQL、Redis、Redis-Sentinel 服务和es 服务,其中一台管理节点作为PostgreSQL主节点还需部署Ansible 自动化工具和Kibana 服务,另一台管理节点作为PostgreSQL 备节点和Redis 的主节点还需部署FS Gateway-rest 管理服务。计算节点为低负载服务器,一台部署FS Gateway-gw 存储服务和Redis-Sentinel 服务,另一台则只部署FS Gateway-gw 存储服务。数据湖实现的整体架构如图1所示。

图1 数据湖实现架构

2 应用流程

2020年全国气象部门部署了气象大数据云平台“天擎”系统,该系统具备海量数据存储、全业务贯通、数据应用高效的能力,能够为天气预报、气候预测、公众服务、人工影响天气等各类气象应用的云化融入提供技术和平台支撑,构建“云+端”的业务应用模式,系统包括数据交换及质控、产品加工、挖掘分析、数据存储及服务、业务监控五大功能。数据湖可以集成省级现有的文件存储系统,提供统一的目录视图,集中权限管理和目录级别的权限设置,能够有效实现用户分级情况下的数据访问授权应用。数据湖软件整合多源异构存储文件,将各类存储系统的存储目录挂载到统一的目录树上,并且按照业务应用重新组织目录结构,以统一的命名空间对外提供文件共享服务,此外,提供专用客户端实现统一目录空间的本地挂载,有助于各类分析手段的应用,提升数据隐含价值。

加工流水线系统(DPL)通过算法库的建立对气象算法进行统一管理,提升算法的汇集、使用、管理和共享,建立加工流水线,根据算法任务应用场景的不同,将算法模块部署到相应的计算框架下,实现加工处理任务自动化运行和数据产品的批量生产。在加工流水线系统挂载数据湖服务客户端,按照不同应用系统的数据访问需求进行目录授权,实现各租户即使登录相同计算节点也只能访问自己关注目录的应用效果。气象数据统一服务接口系统(MUSIC)负责对分级存储、分库存储的各类数据提供统一、便捷的数据服务,在该系统的所有节点挂载数据湖客户端并授权所有目录访问权限,当接收到用户访问文件产品的请求后查找文件索引库记录中文件位置信息并通过数据湖获取存储中文件内容返回用户。存储管理系统(SOD)采用分布式存储技术对各类气象资料数据进行存储,利用数据湖提供的接口,管理底层NAS 与虚拟文件目录的映射关系。数据湖的业务应用流程如图2所示。

图2 数据湖的业务应用流程

3 授权管理

数据湖提供了目录的统一管理,包括目录挂载、目录授权、日志审计、用户管理等,多套存储之间可以灵活组合来提供给用户使用。数据湖管理页面和菜单展示如图3所示。

图3 数据湖管理页面和菜单

3.1 虚拟文件系统管理

按照业务应用流程,首先需要创建后端存储,对存储进行命名,选择存储类型、读写权限并填写挂载点,后端存储(以NAS 为例)一般是指真实的NAS 地址。其次是虚拟目录的创建和虚拟目录与物理存储目录的关系映射,分为批量和手动两种方式。批量方式提供适用于多套NAS 或挂载点为“年份”级别目录的Excel 批量挂载方式,并自动对导入的挂载目录进行校验检查,该功能还可提前指定好虚拟目录与未来会创建物理目录的映射关系,通过“导入标签目录文件”菜单将提前制定的真实NAS 目录和目标虚拟目录映射关系导入来实现。映射成功的目录可在“虚拟目录挂载管理”菜单进行查看。通过批量方式导入的虚拟目录也可以进行批量卸载。手动方式中虚拟目录的创建通过“虚拟目录管理”菜单进行,并在“虚拟目录挂载管理”菜单进行虚拟目录与后端存储目录的关系映射和卸载操作。

3.2 虚拟目录用户管理

用来访问数据湖目录的用户称为虚拟目录用户(简称用户),用户对文件的访问操作限制通过目录的访问授权实现。通过“网关授权管理”菜单进行用户创建,用户的权限范围通过用户所在分组的授权实现,即数据湖中不会直接给某个用户授予权限,而是以组为单位的,如果授予用户组某些权限,那么该用户组下的所有用户也就拥有相同的权限。用户组的授权有根据目录路径授权和根据时间范围授权两种方式。

3.3 客户端授权

数据湖提供Linux 客户端和Windows 客户端,在Linux系统中,数据湖客户端是提供给Linux 系统连接数据湖文件管理系统的一个服务,它类似于NAS,可以把目录信息直接挂载到Linux 系统的某个目录上,提供用户使用。Linux客户端的授权,需将客户端所在IP 地址和操作系统用户与数据湖已授权的虚拟目录用户进行关联,操作系统用户便会拥有虚拟目录用户的相应权限,通过修改关联的虚拟目录用户权限来实现客户端用户权限的修改,删除客户端权限只需删除数据湖管理平台中客户端对应的IP 地址便可达到。Windows 客户端只需要输入虚拟目录用户的账号信息即可访问该用户对应的授权文件而不需要根据IP 地址进行授权。数据湖Windows 客户端界面如图4所示。

图4 数据湖Windows 客户端界面

4 结 论

数据湖系统与气象信息业务应用密不可分,是统一气象文件数据的管理平台,也是气象数据访问安全的重要保障基础,能够有效解决并提高气象数据访问质量,有助于更好发挥气象数据价值。

猜你喜欢

客户端气象节点
“人民网+客户端”推出数据新闻
——稳就业、惠民生,“数”读十年成绩单
走进气象 探索科学——山西省运城市钱学森科技小学开展气象实践活动
气象树
基于移动汇聚节点和分簇的改进节能路由算法
CAE软件操作小百科(48)
基于点权的混合K-shell关键节点识别方法
文章有象
虚拟专用网络访问保护机制研究
新闻客户端差异化发展策略
浅析IEEE 802.1x及其客户端软件