基于气象大数据环境的西南区域数值模式管理
2022-08-25江蕾邱玲
江蕾 邱玲
1. 高原与盆地暴雨旱涝灾害四川省重点实验室 四川 成都 610072;
2. 四川省气象探测数据中心 四川 成都 610072
引言
在数据分析的过程中,我们会接触到很多的数据,这些数据根据结构分类可划分为3种:结构化数据、非结构化数据和半结构化数据。其中结构化数据指是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理(在气象领域应用主要是地面、高空的站点气象要素数据)[1]。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的二进制文件(卫星、雷达)、文档、图片、XML文件等;最后是半结构化数据,这类数据采用冗余方式进行存储服务,数据索引信息保存在某个指定的关系数据库中,数据文件按照非结构化数据的组织形式进行存储,采用此方式的原因是查询统计比较方便,并且能够灵活地进行扩展与检索。
目前四川自有产品中最具特色而且应用频度高的是高原所生成的西南区域数值模式预报产品,产品包括两个子模式产品:9km产品SWC-WARMS和3km产品SWC-WARR,每个子模式产品每天起报4次:02时、08时、14时、20时(北京时),产品1天的数据量至少130GB,未来随着精细化气象预报的应用和预报要素、预报时效的精细化程度提高以及用户数的激增,数据量会越来越大,而且对于气象应用来说,数据的共享服务的横向、纵向都会有涉及,因此从数据量和数据服务来说,问题越发明显,基于以上从数据量以及数据应用的角度来看,简单的数据转发或者推送已经无法满足目前多元气象数据的应用[2-3]。
为了解决以上问题,基于四川省局数据中心对数值模式产品的管理方式(原始产品的转发保存、CMADAAS规范的要素级产品管理与共享服务、要素级产品接入MICAPS4分布式数据环境与代理下载服务),考虑到系统集约化要求和目前用户对下行共享存储的原始产品的需求越来越少,因为全要素的产品数据量大并且只能提供单一的服务方式(FTP),并且CMADAAS和MICAPS4两个系统实现了数值预报服务产品细粒度、多维度、高效的管理服务,因此数值模式产品需要进入CMADAAS和MICAPS4分布式数据环境(MDFS)才能更好更全面地为气象用户提供共享服务[4]。
1 产品接入天擎CMADAAS
根据CMADAAS对数值预报模式的处理流程,西南区域模式产品在CMADAAS里的接入包括CTS系统、DPC系统、SOD系统、MUSIC系统的流程配置,其中CTS系统按照CMADAAS对数值预报模式产品规范进行产品接入,DPC系统、SOD系统、MUSIC系统的配置需要按照产品本身的气象元数据信息配置。
1.1 解码应用
数据处理系统(DPC)涉及产品的处理有产品预报场的拆分和GRIB的解码模块的加载,根据已有算法对数值模式产品的处理,DPC子系统将四级编码为F.0027.0006.R001的9km西南区域数值产品(GRIB1格式)由系统的GRIB1算法解码,并且解码出两种产品,一个是产品文件,一个是产品描述文件。系统解码出的预报要素如下表:
表1 解码的预报要素
续表
从上表中可以看到其中前面11个预报要素为数字,代表西南区域数值模式产品存在DPC系统未定义的预报要素,剩下的用具体字母的代表西南区域数值模式产品的预报要素在DPC系统中存在定义并已经被正确解码[5]。因此,未正确解码出预报要素的产品需要使用WGRIB查看具体的预报要素并且更新DPC系统的GRIB解码配置文件,下表是使用WGRIB解码上述11个预报要素为数字的产品,得到的结果。
表2 WGRIB解码后预报要素
续表
1.2 存储配置
西南区域数值模式产品在数据存储系统中的管理包括结构化部分和非结构化部分,即索引入库和产品归档。为了方便管理与提供服务,存储结构的管理和产品归档的配置需要通过数据处理系统解码出来的产品描述文件确定存储结构的要素和存储的细节[6]。
首先是索引入库配置。这一部分包括了存储结构管理和入库策略配置,存储结构管理根据产品描述文档里解码出的要素和消息内容确定,存储结构的字段应该包括文件大小、入库时间、存储路径、年月日时分秒等时间要素,文件格式(GRIB1、GRIB2、netCDF等)、文件名、原文件名、预报气象要素代码、加工中心、预报时效、层次等。其次是入库策略配置,这一个配置会最终生成入库的SQL语句,主要配置的是数据处理系统传过来的消息内容和产品描述文档确定对应入库的字段[7]。
其次是产品归档存储配置(NAS存储)。这一部分涉及了入库位置和入库位置的目录策略。
以上索引入库和产品归档配置完成后,重启入库策略即可生效,下表是9km西南区域数值模式产品在数据存储系统中的配置。
表3 9km西南区域数值模式产品数据存储系统配置
1.3 服务配置
在CMADAAS气象数据统一服务接口(MUSIC)中配置9km西南区域数值模式产品的模式描述,预报要素和接口等,根据数值模式产品应用场景,获取9km西南区域数值预报模式产品常用要素应用的MUSIC接口列表有表4所示。
表4 获取9KM西南区域数值预报模式产品服务接口
2 MICAPS4应用
针对海量实时气象数据的预报应用需求,MICAPS4不仅提升了数据显示、统计分析效率,而且增加了数据“显示样式”自定义的灵活性,西南区域数值模式产品加入MICAPS4分布式数据环境并直接支撑MICAPS4客户端应用成为数据中心对新模式产品应用的关键之一[8-9]。
针对海量实时气象数据处理需求,实现西南区域模式产品加入非结构化产品高速加工处理流水线(DPC),并且按照MICAPS4定义的数据规则持久化到分布式存储(Cassandra)中,用户不仅可以通过客户端直接使用此产品而且可以通过MICAPS4分布式数据环境系统提供的数据下载代理服务(GDS)下载此产品。
3 产品应用范例
目前通过CMADAAS气象数据统一服务接口(MUSIC)方式获取西南区域模式产品的应用主要在四川省省、市、县三级预报业务平台、四川省精细化预报业务平台和市州局的一些应用或者系统平台中,下图是三级预报业务平台对西南区域数值模式产品的站点插值应用和MICAPS4客户端应用截图[10]。
图1 省市县三级预报业务平台应用截图
图2 MICAPS客户端应用截图
4 结束语
基于CMADAAS气象数据统一服务接口,根据CMADAAS气象数据产品、处理流程规范和数值模式产品的表格驱动码编码规范接入四川气象大数据云平台(天擎CMADAAS)的西南区域数值模式产品为全省气象部门提供应用支撑,确保数据底层支撑在数据中心的集约化、统一性和可维护性。
同时,西南区域数值模式产品接入面向海量气象数据实时处理的分布式MICAPS4数据环境并直接支撑MICAPS客户端应用,保证了数据应用的多样性和数据的可用性。