APP下载

西南区域气象网格实况产品检验系统的设计与实现

2023-08-09向筱铭黄晓龙徐晓莉

软件工程 2023年8期
关键词:格点实况预处理

向筱铭, 杨 雪, 黄晓龙, 徐晓莉, 吴 薇

(1.四川省气象探测数据中心, 四川 成都 610072;2.高原与盆地旱涝灾害四川省重点实验室, 四川 成都 610072)

0 引言(Introduction)

随着我国气象现代化建设的快速推进,气象观测系统发展迅速,遍布全国的地面自动气象站、新一代天气雷达、X波段天气雷达和卫星的观测资料也迅速增加[1]。随着同化等技术的成熟应用,时空连续的格点化气象数据资料也成为精细化预报和服务的核心需求[2-3]。因此,中国气象局近年来大力推进实况业务,基于融合技术和数据同化技术,对来自多类观测设备的多源资料进行融合,形成高精度、高质量和实况连续的多源数据融合气象产品[4]。先后研制了包括降水、陆面、海洋、三维大气等多圈层多要素的网格实况分析产品[5-6],并建立了全国1 km、5 km分辨率的智能网格实况分析产品,作为基础产品应用于日常天气会商、预报检验和智能网格预报滚动订正等业务中[7-8]。

在评估方面,国内气象学者开展了大量的网格实况分析产品的检验评估[9-11],但主要是基于非实时的固定时段的产品质量评估,而网格实况分析产品是每小时都在生成和下发的实时气象业务产品,研究该类产品的实时检验评估技术,构建西南区域气象网格实况产品检验系统,对产品开展实时的动态质量评估和应用,是气象科技工作者开展灾害性天气预警、智能网格预报产品制作和智慧气象服务的基础,具有较高的研究价值。

1 数据流程(Data flow)

网格实况分析产品具有面向实况应用的特点,因此快捷高效的数据流程是应用该产品时的主要关注点。本文对网格实况产品的资料来源和数据处理流程进行如下介绍。

1.1 网格实况产品

目前,已经在各种业务中投入应用的网格实况产品包括两类:一类是由国家气象信息中心生成的,另一类则由本地融合生成的,由于后者还处于业务试验阶段,因此西南区域气象网格实况产品检验系统是主要接入国家气象信息中心生成并下发的网格实况产品,包括5 km格距和1 km格距两种分辨率,产品的下发渠道在前期为通过卫星广播系统下发,为提高时效性,目前已经更改为通过国内气象通信系统进行快速分发[12]。

5 km分辨率多源融合实况分析产品包括降水融合实况分析产品、陆面融合实况分析产品、三维云融合实况分析产品和海洋融合实况分析产品等,共计8个要素、11种产品。其中,降水、气温、风速、相对湿度、能见度、总云量、三维云量7个要素产品的空间分辨率为0.05°×0.05°,空间覆盖区域为0°~60°N、70°~140°E;海表温度产品空间分辨率为0.25°×0.25°,空间覆盖区域为全球,产品格式均为GRIB2(计算机无关的压缩的二进制编码)。

1 km分辨率多源融合实况分析产品包括降水、气温、10 m风、比湿4要素,空间分辨率为0.01°×0.01°,时间分辨率为1 h,逐小时更新,各要素均分为全国产品与分省产品,全国产品空间覆盖范围为70°~140°E、15°~60°N,分省产品根据各省责任范围裁剪而成,产品格式均为GRIB2。

1.2 网格实况产品处理流程

为了快速推广应用网格实况产品,目前已经建立了国省网格实况产品应用链。省级CTS系统,通过基于消息通知机制的国省数据共享系统,快速获取最新时次的网格实况产品列表,并将最新时次产品下载至省级通信系统,省级通信系统将其采用消息和共享文件系统的方式快速推送至气象大数据云平台“天擎”,并通过接口提供服务,网格实况分析产品检验评估分析系统、气象信息综合处理系统等各类业务系统可通过接口实时获取网格实况产品。

网格实况产品检验评估分析系统采用基于统一服务接口目录服务的快速轮询机制,快速获取网格实况产品原始文件,并将其统一处理为NetCDF格式存储于数据库中,方便用户访问。同时,针对产品中包含的气象要素,分别采用双线性插值和最邻近插值方法计算产品在四川省所有气象站点位置的格点场插值和误差值,相应的结果存储至系统中,用户查阅时,能够快速地完成评估指标计算的后续部分,实现毫秒级的低延迟显示实况产品和评估结果。

2 关键技术(Key techniques)

2.1 质量评估数据预处理分段计算和缓存加速优化方法

根据中国气象局预报与网络司下发的《实况分析产品质量评估规范》中的评估指标,包括平均误差ME(Mean Error)、平均绝对误差MAE(Mean Absolute Error)、均方根误差RMSE(Root Mean Squared Error)和相关系数COR(Correlation)。

指标计算的传统方法是采用实时计算,即根据用户选择的插值方法(双线性插值或者最邻近插值)和参与评估的站点,从国家气象信息中心下发的网格实况产品中,读取相应的要素场,并按照评估规范计算上述4个评估指标。上述方法在面向较多数据点和评估时次的情况下,计算时间会变得很长,用户需要等待较长的时间,并且在指标计算期间,系统界面无响应,用户体验感较差。

针对该问题,本文提出一种分阶段计算的数据预处理方案,该方案将评估指标的计算分为两个阶段,即单站误差计算和区域评估指标计算,质量评估数据预处理流程如图1所示。

图1 质量评估数据预处理流程Fig.1 Preprocessing process of quality assessment data

2.1.1 单站误差计算阶段

在单站误差计算阶段,系统通过定时任务,准实时从气象大数据云平台“天擎”系统获取网格实况产品,并分别采用最邻近插值法和双线性插值法将1 km分辨率和5 km分辨率的网格实况产品的降水、气温、风速、风向、相对湿度要素插值到测站的位置,并计算误差,从而形成每个测站的数据组,包括要素名称、观测值、网格产品插值和误差,并将上述值存储至系统数据库中,通过同步策略写入缓存数据库,详细步骤如下。

(1)从“天擎”系统获取每时次的实况格点场数据。

(2)分别采用最邻近插值法和双线性插值法,计算实况格点场在测站位置处的插值Gn和Gd。

(3)计算误差,即根据要素的观测值Oi和插值Gn、Gd,采用公式(1)计算最邻近插值法的误差En,采用公式(2)计算双线性插值法的误差Ed。

En=Oi-Gn

(1)

Ed=Oi-Gd

(2)

(4)将相应的计算结果存储至数据库。

2.1.2 区域指标计算阶段

在区域指标计算阶段,主要完成各项评估指标的后半部分计算,即根据用户选择的评估站点范围(用户可勾选国家站、区域站,也可勾选考核站、非考核站,或根据地形因子选择站点),以数据库读取的方式,实时获取相应时次(时间段)参与该次评估站点的预处理数据,并开展最终指标的计算,详细步骤如下。

(1)根据用户选择的参与评估站点范围,从数据库中读取所需时次和要素的质量评估预处理指标数据,包括要素观测值Oi、要素插值Gn和Gd,以及误差En和Ed,根据用户选择参与评估的站点范围,计算站点数量N。

(2)根据用户选择的插值方法,从En和Ed中选择一个值作为Ei,根据公式(3)计算平均误差ME。

(3)

(3)根据公式(4)计算平均绝对误差MAE。

(4)

(4)根据公式(5)计算均方根误差RMSE。

(5)

(6)

(7)

(8)

在优化资料评估指标计算过程的基础上,针对高频次的预处理质量评估数据读取,基于内存读取速度远大于磁盘的原理,提出基于内存数据库的质量评估预处理指标数据缓存加速优化方法,该方法通过在二阶段计算模块和数据库之间加入Redis缓存数据库,将近期热点数据全部缓存至内存数据库中,当用户获取数据时,优先从缓存数据库读取,如果在缓存中无法获取到相应数据,则从数据库中读取,从而提高数据读取的速度,最终有效减少系统响应耗时,提高用户WEB端评估指标实时计算的速度。

2.2 高分辨率格点场高效显示技术

目前,常用的格点场绘制方式为Canvas(画布)渲染方式,但在实况产品的格点分辨率超过一定量级时(大于等于200×100分辨率或总格点数量大于2万个),Canvas渲染方式的绘制时长会出现大幅度的增长。当前,系统使用的实况产品背景场分辨率为1 km和5 km,所需显示的数量级已经超出了Canvas渲染方式的高性能区间,在绘制时会出现一定的卡顿情况,甚至会造成显示模块的崩溃,严重影响用户使用。为解决该问题,系统采用了根据地图缩放级别动态抽稀格点的显示方式,并根据视窗范围动态调节绘制范围,即只绘制在屏幕显示范围内的格点,而不是绘制所有格点,从而能够有效解决绘制的性能瓶颈。

动态抽稀格点方式在抽稀的过程中会抽掉一部分格点,而在降水过程中,大雨以上的区域范围会比较小,但是这类降水落区又是不可忽略的。在普通的抽稀过程中,必然会损失一部分雨量较大但范围较小的格点,从而出现误判。针对这种降水落区的特殊性,本文对普通抽稀算法进行了特殊化处理,抽稀过程针对格点降水量级的差异进行了不同的合并策略。下文以2×2四个格点合并为1×1一个格点为例进行说明。

策略一:单一量级降水区域格点合并,被合并格点属于同一降水量级,则取全部待合并格点值求平均值作为合并后格点的值,如图2所示。

图2 策略一示例Fig.2 Example diagram of strategy one

策略二:不同量级降水区域格点合并,被合并格点不属于同一降水量级,则取全部待合并格点值的最大值作为合并后格点的值,如图3所示。

图3 策略二示例Fig.3 Example diagram of strategy two

在两种策略的作用下,强降水落区将不会被掩盖,也不会出现由平均值引起的降水量级变化,通过网格的填色和相应格点的降水数值填图,实现缩放前后降水落区的分布和量级不发生变化。

2.3 基于Elasticsearch的检验评估产品全文检索

系统中的资料管理模块,采用了Elasticsearch数据库作为检验评估产品资料的全文搜索引擎。Elasticsearch是一个基于Lucene使用Java开发的分布式、高扩展、高实时的搜索与数据分析引擎,它基于RESTful WEB接口,具有实时搜索、稳定、可靠、快速、安装使用方便的特点。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境中变得更有价值。用户在检验评估产品资料模块的查询页面搜索框中输入检索关键词,就可以实时快速地对Elasticsearch数据库中检验评估产品文档的标题、标签及文档内容进行检索和匹配。

构建基于ElasticSearch的产品全文搜索引擎,综合采用了Spring、Maven和关系型数据库技术,检索流程如图4所示,具体技术思路如下。

图4 基于Elasticsearch的数据检索流程Fig.4 Data retrieval process based on Elasticsearch

(1)设计索引数据库存储结构,用于存储检索所需的检验评估产品索引数据信息。

(2)搭建Elasticsearch服务,根据设计完成的存储结构建立Elasticsearch搜索引擎数据库及其相关文档、类型和索引。

(3)实现数据同步服务,并将数据库中检验评估产品信息表数据转化为JSON数据格式,导入并存储在Elasticsearch的数据库中。

(4)设置Elasticsearch搜索模板、分词算法、字段权重及最小匹配阈值等参数,实现当用户输入关键字时,系统调用Elasticsearch接口实现全文检索。

3 应用成效(Application effect)

网格实况产品检验评估分析系统主要面向西南区域各省用户,提供实时的网格实况产品动态评估和检验,因此能否高效地完成评估指标计算和面向用户呈现检验评估所需的完整功能,是系统能够投入业务应用的关键。

3.1 质量评估指标计算性能

为准确评估不同站点数量时的质量评估指标计算性能,按照日常业务常用场景,分别测试单时次场景下的四川省国家气象站156 个、四川省区域地面观测站中的骨干站800 个、 四川省区域地面观测站中的考核站2 700 个和非考核站3 300 个、单时次及时收集的四川省所有国家气象站和区域地面观测站6 100个、单日及时收集的四川省所有国家气象站和区域地面观测站146 400个等场景。统计实时完整计算方案和本文提出的预处理分段计算方案的耗时,并进行对比。

将各类场景下的测试数据进行汇总对比(表1)可以发现,在各类评估场景中,传统的指标完整计算方案是分段计算方案运行耗时的十倍至几十倍,并且随着站点数量的增多,传统的指标完整计算方案耗时累计增加,耗时过长,会导致系统长期处于卡顿中,导致系统不可用。本文提出的质量评估指标分段计算的性能提升超过10倍,计算的耗时在毫秒级,使得系统能够流畅响应指令,充分满足用户的使用需求。

表 1 质量评估指标计算性能对比

3.2 系统应用效果

网格实况产品检验评估分析系统基于SpringBoot的微服务架构,综合采用JavaScript、Leaflet、Canvas、Vue.js等WEB技术构建,并通过Nginx建立负载均衡,面向西南区域用户提供网格实况产品交互应用和产品检验评估服务。系统实现了当前业务化运行的27种实况产品在二维和三维GIS上的统一展示应用,通过系统的站点格点对比分析,可以很明显地发现,基于网格实况产品的色斑图较传统基于站点插值的色斑图,随着网格实况产品分辨率的提高,细节愈加清晰。

4 结论(Conclusion)

针对复杂地形下气象网格实况分析产品快速检验等问题,本文提出了构建检验评估系统的思路和相应的分段计算等优化方法,得出的结论如下。

(1)通过基于消息机制的国省数据共享系统和“天擎”系统,建立了网格实况产品的接收、格式转换和评估指标预处理,实现低延迟的产品接入和标准化预处理流程。

(2)提出了质量评估数据预处理分段计算及缓存加速优化方法,将质量评估指标计算分成两个阶段,第一阶段作为数据预处理提前完成,并根据用户选择的站点范围实时完成第二阶段计算,试验结果表明,该方法能够有效减少用户等待耗时。

(3)优化了高分辨率格点场高效显示技术,实现了高分辨率格点场数据抽稀过程中强降水落区不被覆盖且保持降水的量级。

(4)设计了基于Elasticsearch的检验评估产品全文检索技术框架,实现了系统管理的检验评估报告的高效检索,提高了用户查询报告的效率。

猜你喜欢

格点实况预处理
带有超二次位势无限格点上的基态行波解
一种电离层TEC格点预测模型
乡村小学的愿望与现实——宜君乡村教育实况
带可加噪声的非自治随机Boussinesq格点方程的随机吸引子
基于预处理MUSIC算法的分布式阵列DOA估计
天舟一号货运飞船发射实况掠影
可爱潮咖们的独门彩妆实况直播
格点和面积
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法