APP下载

基于多要素的短临降水预报及可解释性分析

2024-11-04陈龙彭静胡雪飞黄占鳌李孝杰

计算机应用研究 2024年9期

摘 要:当前的短临降水预报方法大多是基于雷达回波外推,没有充分考虑其他气象要素对降水生消演变的密切影响,从而限制了其预报的准确性。为解决此问题,基于风云四号B星数据,制作了包含四种背景气象要素、以定量降水估计为预报对象的短时临近降水预报数据集,提出了短临降水预报模型——MFPNM。以TransUNet为骨干,设计了并行双编码器分别提取预报对象和背景气象数据的高维时空特征;构造了内容编码模块将背景数据的空间特征作为预报对象高维特征向量的可学习位置编码;以已有的Transformer模块构建序列数据高维特征间的全局关系,以实现更准确的序列预测。MFPNM在风云-4B数据集和开源数据集上达到了最优水平,采用的指标包括临界成功指数、虚警率、均方根误差和结构相似性等。同时通过SHAP(shapley additive explanations)技术对模型进行了可解释性分析。实验结果及可解释性分析表明,该模型具有更好的预报准确度及可靠性。

关键词:短时临近降水预报;气象卫星;数据融合

中图分类号:TP391 文献标志码:A 文章编号:1001-3695(2024)09-029-2773-08

doi:10.19734/j.issn.1001-3695.2024.01.0030

Precipitation nowcasting based on multiple factors and explainability analysis

Chen Long,Peng Jing,Hu Xuefei,Huang Zhan’ao,Li Xiaojie

(School of Computer Science,Chengdu University of Information Technology,Chengdu 610225,China)

Abstract:The current methods for short-time precipitation nowcasting are based on radar echo extrapolation model,without fully considering the close influence of other meteorological factors on the evolution of precipitation generation and cancellation,thus limiting the accuracy of the forecasts.To address the above issues,this paper produced a short-time precipitation nowcasting dataset,and proposed the MFPNM(multiple factors precipitation nowcasting model)Based on data from the Fengyun-4B satellite,the dataset toke quantitative precipitation estimation as the forecast object and contained four background meteorological factors.Taking the TransUNet as the backbone of the model,this molel proposed the parallel dual encoder to extract the high-dimensional spatio-temporal features of the forecast object and the background meteorological data,respectively.Besides,it constructed the content coding module to encode the spatial features of the background data as the learnable positional embedding of the high-dimensional feature vectors of the forecast object.It used a Transformer module to construct the global relationship between the high-dimensional features of the sequence data for better sequence prediction.The metrics used in this paper included critical success index,false alarm rate,root-mean-square error,and structural similarity,etc.The MPFNM was evaluated on two datasets(the proposed dataset and an open-source dataset)and outperformed the baseline models,and it was analyzed for explainability through the SHAP technique.The experimental results and explainability analysis show that the model has better forecasting accuracy and reliability.

Key words:short-time precipitation nowcasting;meteorological satellite;data fusion

0 引言

短时临近降水预报指提供某一地理区域未来0~6 h(0~2 h为重点)时段的高时空分辨率降水预报。准确的预报有助于提前规划和危机管理,如生成紧急降雨警报,为机场及地面交通管理、户外活动和体育比赛提供天气指导。短临降水预报对时空分辨率和预报实时性的要求远高于传统预报任务,该领域具有相当高的挑战性,已成为气象学界的研究热点。

传统气象预报任务依赖于数值天气预报技术(numerical weather prediction,NWP)[1,2]。在大量气象观测资料的基础上,NWP利用流体力学和热力学定律来描述和模拟大气、海洋和陆地表面的基本物理过程,从而提供可靠的预报。迄今为止,其仍然是中长期天气预报的主流方法。但是因为其模拟过程极其复杂且耗时,难以满足短时临近预报的实时性要求。降水预报基于对降水的准确观测,而观测方式包括雨量计、天气雷达和卫星等。当前主流临近降水预测算法是雷达云图外推预测算法,主要包括:互相关法[3]、质心跟踪法[4]和光流法[5,6]等。天气雷达利用水汽对电磁波的散射作用探测大气中的降水空间分布、强度以及演变过程。这些信息通过时序的雷达回波图表示,雷达回波图具有非常高的时空分辨率,能够显示降水结构的演变。不同于NWP,作为一种基于数据图像驱动技术,雷达云图外推算法主要是根据当前时刻雷达云图预测下一时刻雷达云图,如假定降水分布不变,计算其质心的运动轨迹[4]。而云图与降水的关系依赖于经验公式:Z-R关系式[7],这类方法对气象资料的利用效率低、外推时效性有限且泛化能力弱。从输入输出的形式上看,雷达云图外推的核心是图到图(image2image)的预测,可以视为深度学习中时空序列预测任务(spatio-temporal seq2seq)的子任务。

Shi等人[8]创新性地提出了ConvLSTM模型,将卷积与长短期记忆网络(long short-term memory,LSTM)相结合以便同时对雷达云图序列时空关系建模,其中,LSTM捕获云图序列随时间的演变,二维卷积则学习数据的空间分布。在ConvLSTM的基础上,Shi等人[9]进一步提出了TrajGRU,该模型可以主动学习降水的结构与位置变化。这些工作开创了时空序列网络在临近降水预报方面的应用,后续涌现出一系列时空模型,如ST-LSTM[10]、Causal LSTM[11]、E3D-LSTM[12]和IDA-LSTM[13]等。Wang等人[10]提出了时空LSTM(spatio-temporal LSTM,ST-LSTM)单元,该单元允许沿着状态转换路径在堆叠的循环层上更新记忆状态,以便同时提取并记忆空间和时间表示。Wang等人[11]提出15aafaf7088ccbaccaf8e33f8e409b30339102903e98d13b134327b895f03b19了PredRNN++,它利用一种名为Causal LSTM的新循环结构(具有级联双记忆)使PredRNN在时间上递归的更深。后来,Wang等人[12]又提出了E3D-LSTM,其结合了ST-LSTM、3D卷积和记忆注意力模块,构建了一个记忆增强的循环网络以捕获长期视频动态。此外,U-Net结构也被用于临近预报。Samsi等人[14]实现了基于U-Net的数据并行CNN模型,以实现更快的迭代。文献[15]将预测视为图像到图像的转换问题,利用U-Net卷积神经网络并采用三个二元分类来指示降雨率的强度。在不确定性预测方面,Bihlo等人[16]使用SVG-LP模型[17]进行降水临近预报。吴卓升等人[18]提出了基于动态概率的卷积神经网络,引入动态概率计算层对不同的雷达回波输入序列计算对应的概率卷积核,使模型能够在测试阶段对输入做动态调整。

上述方法有力地促进了短临降水预报的研究,但是均基于雷达回波图[19]进行预测,而雷达的应用常受到地面杂波、地形及成本等因素限制;其次,雷达回波强度并不直接反映降水量,而是依赖于经验公式:Z-R公式,存在二次误差且泛化能力弱。另一方面,温度、压力和湿度等气象要素在任何时间和地点都有意义,而降雨的生消具有局部性强、突发性强、在时空分布上相对稀疏和变化快等特点,这使得针对降水的临近预报比其他气象要素更具挑战性。已有研究表明,在短临降水预报中引入其他气象要素作为背景信息,可以提升预报的准确性,降水并非孤立事件,其与天气系统中其他要素密切相关[20~24]。Kaparakis等人[20]提出了weather fusion U-Net(WF-UNet)模型,其利用core 3D-UNet模型,将降水和风速变量作为学习过程的输入,并分析其对降水目标任务的影响,证明了相比于仅使用降水雷达数据,引入背景变量可以获得更优的预测结果。Küük等人[21]提出了一个基于Transformer的模型,其使用提前两小时的卫星数据来预报地面雷达图像序列。该模型在反映恶劣天气条件的数据集上进行训练,可以预测不同天气现象下发生的雷达场,并对快速增长/衰减的场和复杂的场结构表现出鲁棒性。Mark等人[25]提出了多要素的风暴事件图像数据集,并将其应用于短临降水预报和雷达云图反演。这些工作都扩展了气象数据(来自雷达或气象卫星载荷)在短临降水预报中的应用,并获得了更好的预报效果,本文是这些工作延续。

本文提出了短临降水预报模型——MFPNM,该模型引入多种气象要素作为短临降水预测过程的背景信息,以获得丰富的学习特征、实现更为准确的预报。该模型包括两个编码器(序列编码器和背景编码器)、内容编码模块(content embedding)和Transformer注意力模块、序列解码器。模型的输入包括降水变量和背景变量,其中降水变量是序列数据,而背景变量指初始时刻其他的气象要素,如温度、压力、红外通道云图等。以TransUNet为骨干,本文在原始的编码器与解码器中引入3D卷积,同时处理降水变量的时序信息和空间特征,即序列编码器与序列解码器;同时,设计了并行的背景编码器提取背景变量的空间特征;另外,本文提出了内容编码模块以替代原TransUNet中的位置编码,将背景变量特征编码到降水变量特征中作为其可学习的位置编码。MFPNM模型沿用了TransUNet中的Transformer模块,通过注意力机制学习序列数据间的相关性,以建模序列元素间的长程依赖关系。

为了有效地训练和验证提出的模型,本文利用气象卫星数据制作了以多种物理要素为背景变量的高分辨率短临降水预报数据集,以推动短临降水预报研究。通过在制作的和开源的数据集上进行实验,验证了所提模型优异的预报性能。另外,使用SHAP技术对模型进行了可解释性分析,验证了所提模型的可靠性和多要素融合预报的有效性。

1 算法

气象卫星的观测范围广且不受自然条件限制,但存在分辨率较低、获取的降水数据特征不足以及时空分布相对稀疏等问题。基于CNN-RNN的预测模型在下采样中丢失过多信息,其在特征稀疏的卫星降水数据上表现相对较差。ViT(vision Transformer)网络是将图像分割成块并转换为序列,通过嵌入层得到序列中每个成员的向量表示,利用Transformer的注意力机制捕捉图像中的全局关系;受ViT的启发,本文将其扩展到时空序列预测任务。常规的ViT模型无法有效地处理尺寸较大的降水序列数据,但是通过结合U-Net网络与ViT模型得到的TransUNet模型可以较好地处理该问题。

本文提出了一个基于TransUNet的降水预报模型——MFPNM,其网络结构如图1所示,主要包括两个编码器(序列编码器和背景编码器)、一个序列解码器、内容编码模块(content embedding)和Transformer注意力模块。其中,序列编码器接受过去连续T个时刻定量降水估计(quantitative precipitation estimation,QPE)数据作为输入Sin,背景编码器将序列初始时刻对应的背景变量(CTH、CTT、CTP和CLE,具体情况如表1所示)作为输入Gin,以预测未来T个时刻的QPE数据Sout。序列编码器和背景编码器分别获取Sin和Gin的高维向量表示,Gin为目标变量Sin提供丰富的气象背景信息如温度、压力等,这些气象背景信息将通过内容编码模块融合到降水数据的高维特征中作为其位置编码。卷积操作具有局部性,基于卷积的U-Net对远程依赖关系的建模能力有限,因此在U-Net引入Transformer模块,通过多头注意力机制计算不同特征向量之间的相关性,学习序列数据间的全局关系。最终,序列解码器重构出序列预测结果。同时,在序列编码器与解码器之间使用了短连接来解决下采样过程信息丢失的问题。

1.1 双编码器时空特征提取

本文设计了双编码器分别提取降水序列变量Sin和背景变量Gin的高维特征并映射为向量表示。Transformer的输入是具有位置嵌入(positional embedding,PE)的一组向量,其通过注意力机制计算向量之间的相关性并构建向量间的全局关系;本文使用了序列编码器学习得到这些向量。但作为预测目标的降水数据在空间分布上具有稀疏性,经过序列编码器下采样后空间信息损失较重;引入背景编码器处理与降水具有强相关性的背景变量如温度、压力等,可以为模型处理序列变量提供丰富的气象背景信息和学习特征,因为降水具有区域性和时效性,而温度、压力等气象要素在任何时刻、任何地点都有意义且都与降水密切相关。

如图1右侧所示,构建编码器与解码器的基本块包括Ch block、Res block、down block和up block。Ch block用作编码器和解码器的输入输出层,用于将数据在通道维度进行快速升维或降维;其内部采用双层卷积的残差结构,同时对输入使用1×1卷积改变通道数。Res block是网络中提取特征的残差块,与down block与up block构成了编码器与解码器的主干;down block与up block分别负责进行下采样与上采样,up block会接受来自前一层和对应短连接的特征图作为输入。根据文献[12,20],三维卷积网络(3D-CNN)和循环递归网络(RNN)都具有时空建模功能,本文在序列编码器和序列解码器中使用3D卷积和3D转置卷积来保留序列的时间和空间特征,即对应的基本块中均使用3D卷积。而背景编码器只处理初始时刻背景变量的空间特征,其使用的Ch block、Res block和down block中均使用2D卷积。

序列编码器的输入Sin是一个时空序列变量,包括通道、长、宽和时间四个维度,3D卷积核会同时在空间(长和宽)和时间维度提取QPE序列的时空信息,通道数对应于卷积核数,不同的卷积核会提取不同类型的特征。将初始时刻的云顶高度(cloud top height,CTH)、云顶温度(cloud top temperature,CTT)、云顶压力(cloud top pressure,CTP)和云反射率(cloud emissivity,CLE)四种背景变量在通道维度叠加,形成三维变量作为背景编码器的输入Gin,即这些数据表征了同一时间和空间下不同的气象要素。在两个编码器最后一层通过Ch block将特征的通道数统一扩展到N,以确保两个编码器都得到N个向量。通过训练,序列编码器可以学习到输入序列的高维特征,背景编码器学习初始时刻其他气象要素的高维特征。这些高维特征分别被映射为N×d1的二维特征矩阵Svectors和N×d2的二维特征矩阵Gpe(N个长度为d1和d2的向量,每个向量表示整个序列或对应背景变量的某种高维特征),这些气象背景信息将通过内容编码模块以位置编码的形式,融合到降水数据的高维特征。

1.2 内容编码模块

为了给Transformer模块提供更合理的位置嵌入,本文模型通过背景编码器对背景变量进行特征提取,得到的向量作为可学习的位置编码。ViT模型通常将图像切分为一系列补丁,再展平为多个一维向量,因此可以直接对向量进行位置编码。为了处理高时空分辨率的气象数据,本文使用了序列编码器对序列数据进行降维,得到高维特征表示,但是这些特征间的位置信息与原始序列间的位置信息并不对应。为了合理地表达特征间的位置信息,如1.1节所述,本文引入了背景编码器提取初始时刻背景变量的空间特征作为序列数据高维特征的位置编码。

如图2所示,传统的位置编码服从标准正态分布;而本文提出的内容编码中使用背景编码器的输出Gpe作为位置嵌入。通过训练与学习,背景编码器拟合数据集中背景变量Gin的分布,因此可以将背景编码器每次前向传播视为一次采样过程。Sin与Gin具有强相关性,Gpe为Svectors提供的位置嵌入因Svectors不同而不同,也即位置嵌入是基于输入向量的内容而不同的,而非一个服从正态分布的随机参数。在内容编码模块中,使用两个linear线性映射层将两组向量的长度统一到d维;最后,将二者加和得到编码后的向量。通过内容编码后,向量将传入Transformer模块计算向量间的相关性,通过注意力机制捕获序列时空特征间的长程关系。对于任意降水序列,初始时刻作为背景变量的气象条件不同,则对应的背景向量也不同,内容编码模块可以提供针对降水序列内容的位置嵌入。

1.3 模型可解释性分析方法

深度学习模型在降水预测中存在黑盒问题,其具有大量的计算层和参数以及复杂的模型结构,这是模型学习能力的基础,但使其内部工作机制变得难以理解。在应用深度学习模型进行降水预测时,需要权衡模型的性能和可解释性,以确保模型的预测结果在实际应用中是可靠的。可解释性方法可按照训练周期划分,训练前期的可解释性着重数据分析,如数据可视化、统计分析数据分布(MMD)等;训练中应用可解释性方法即创建可解释的模型,如Li等人[26]提出了一种基于大气散射模型的物理感知清晰特征预测模块,该模块可以从场景照明和深度中推断出透光率的变化。训练后的可解释性即解释黑盒模型的决策依据,典型方式是敏感性分析(sensitivity analysis)和基于梯度的方法(gradient-based method)。敏感性分析考察模型对特定数据实例的敏感程度及数据对模型决策边界的影响;基于梯度的方法考察输入的哪一部分更影响决策,对于图像任务来说,输入对决策的贡献度体现为显著图,显示图片中每个像素的重要性。

本文使用基于梯度的SHAP(Shapley additive explanations)技术[27],分析引入的背景变量是否为序列变量的预测提供了合理的气象背景信息。分析流程如图3所示,利用背景编码器提取到背景变量的特征矩阵(N×d2),这些特征向量是数据在模型中的抽象表示。采用SHAP技术计算特征矩阵中每个特征向量的Shapley value,与原特征向量相加即得到对应的重要性向量,重要性向量表征了对应特征向量对输出结果的贡献度。为了便于通过可视化判断,后续重要性向量进行上采样输出得到显著图,可直观判断模型从输入数据中学习到的特征向量的有效性。

SHAP基于博弈论中的Shapley值概念,为每个特征分配一个Shapley值,表示该特征对于模型输出的贡献。这种方法提供了一种全局解释,可以揭示每个特征对于整体预测的影响。对于本文的N个d维特征向量,SHAP通过以下步骤计算Shapley值:

a)采样特征子集。对于给定的N个特征向量,生成一系列子集,每个子集包含若干个特征向量。

b)计算边际贡献。对于每个特征子集,计算该子集中每个特征的边际贡献,即在考虑其他特征的情况下,每个特征对于模型输出的贡献。

c)计算平均边际贡献。对于每个特征,计算它在所有可能子集中的平均边际贡献,得到Shapley值。

d)分配Shapley值。将计算得到的Shapley值分配给每个特征,表示该特征对于整体预测的平均贡献。

2 数据集

本文在自制的FY-4B数据集和开源的SEVIR数据集上进行了实验,数据集制作流程介绍如下。

2.1 FY-4B卫星数据概要

我国气象卫星系统发展逐步成熟,其可以稳定持久提供丰富的气象数据且不受地形、地面杂波和恶劣天气等因素影响。本文所使用数据来自我国第二代静止轨道气象卫星风云四号B星(简称FY-4B,http://www.nsmc.org.cn/nsmc/cn/satellite/FY4B.html),其于2022年6月1日转入业务试运行。FY-4B提供了丰富的定量监测产品,包括云和大气产品、地表类产品、天气产品、辐射产品等等。本文使用的定量降水估计(quantitative precipitation estimation,QPE)是采用卫星红外资料生成的卫星估计降水,反映了高时空分辨率的同区域降水动态变化信息,全面监测降水系统的强度、面积、趋势走向等特征演变。降水是大气中水的相变,降水的形成大致包括:a)水汽的水平输送;b)水汽垂直运动:水汽辐合上升,绝热膨胀并冷凝成云;c)云滴增长。当水汽供应越充足,上升运动增强,则云顶高度越高,云层越厚,当云层温度足够低或云顶压力足够大时就会通过冰晶效应或云滴碰撞合并,使得云滴快速增长形成降水。因此,本文另外选用了云顶高度(CTH)、云顶压力(CTP)、云顶温度(CTT)和云反射率(CLE)作为预报QPE的气象背景数据,数据产品概况如表1所示。

数据的空间分辨率为4 km,时间分辨率为15 min,FY-4B星下点精度为东经133°,覆盖从东经51.776°至西经145.776°区域,包括亚洲、大洋洲和西太平洋,数据存储为2 748×2 748的二维矩阵。本文使用数据覆盖2022年6月1日至2023年5月31日,为方便叙述,本文称每15 min一次的数据为一帧,理论上,每天包含96帧数据,一年有35 040帧数据,在排除不可用数据(缺失、损坏和空值)后,实际数据的完整性如表1所示。

2.2 FY-4B数据预处理与数据集制作

地面温度、压力等物理要素在任何时间任何地点都有意义,但现实中多数时间和区域均无雨,即原始降水数据中存在大量零值,为避免数据集中有效数据太少导致模型无法训练,因此数据预处理时需要尽力筛选出原始数据中的降雨区域。数据集的制作主要包括以下步骤:

a)根据需要下载选定数据产品、筛选可用数据。风云卫星遥感服务网提供多种下载方式,下载地址:http://satellite.nsmc.org.cn/PortalSite/Data/Satellite.aspx?currentculture=zh-CN。

b)将原始数据由标称圆盘投影转换为墨卡托投影。

c)降水区域选择:

(a)根据定量降水估计(QPE),统计中心2 560×2 560区域内每个格点的月平均降水;

(b)将区域划分为256×256的100个子区域,每月选择降水量最大的四个子区域备用;

(c)计算每帧QPE数据的每个子区域中降水面积比,图4(a)是一个有效降水面积为19%的子区域,公式如下:

p=降水量大于0.1 mm/h的像素点数256×256×100%(1)

d)时间点筛选:

(a)筛选出QPE、CTH、CTT、CTP和CLE数据都可用的时间点,共计33 348个;

(b)根据需要筛选降雨区域面积足够大的数据,本文采取阈值为19%,四个子区域内分别得到9 804,9 237,6 646和7 822个可用数据。如图4(b)所示,为原始数据与筛选后得到的数据集中有效降雨面积大于特定阈值的子区域的比例分布。蓝色圆点表示降水面积比大于某阈值的子区域在所有子区域中的占比;筛选掉阈值小于19%的子区域后,得到红色方点所示的分布。

e)设定序列长度为16,步长为2,从上述可用数据中生成连续的序列数据。

f)划分数据集。将所有序列随机分为训练集、测试集和验证集(数据量为8 000:1 000:1 000)。

最终,数据集样本量为10 000,每个样本为5×16×256×256的四维矩阵,5代表QPE、CTH、CTT、CTP和CLE五类变量,16表示序列包含4 h共16帧,256×256是数据覆盖的空间范围。

2.3 SEVIR数据集

storm event imagry(SEVIR)数据集是一个多源气象数据集,包含来自对地静止环境卫星系统(GOES-16)与下一代雷达(NEXRAD)系统的五种图像数据:GOES-16 0.6 μm可见卫星通道(C02)、6.9 μm和10.7 μm红外通道(C09,C13;分辨率为2 km)、GOES-16收集的闪电事件(分辨率为8 km)和垂直集成液体雷达拼图(vertically integrated liquid,VIL,分辨率为1km)。五个变量依次表示为VIS、IR069、IR107、LGHT和VIL。C09通道被称为“中层水汽”通道,用于跟踪对流层中层风;C13被广泛应用于与云和其他大气特征相关的监测,例如估计云顶温度、云粒径和大气湿度校正。最后,闪电计数提供了5 min内汇总的云间和云地闪电总数。VIL提供了给定大气柱中液态水总量的估计,是恶劣天气的重要诊断工具,被广泛用于业务临近预报系统。SEVIR数据集将单位为kg/m2的VIL通过非线性缩放存储为0~255的整数;在输入模型时通过最大最小归一化映射到[0,1]。SEVIR包含超过10 000个天气事件,每个天气事件由跨越4 h的384 km×384 km的图像序列组成(长度为49帧、时间分辨率为5 min)。数据集中的变量于2017—2019年采集自美国本土,且进行了时空对齐。Veillette等人(2020)设计了复杂的采样方案,以避免数据集中包含过多无降水样本从而导致数据类别不平衡问题。

本实验中将两个红外通道数据作为背景变量,VIL作为预测目标,由于设备限制,只采用每个序列的前16帧,其中前8帧作为历史数据,后8帧作为预测目标。打乱所有天气事件并将其按5:1:1的比例拆分为训练集、验证集和测试集。三种变量都通过双线性差值统一调整为256×256的二维图像。

3 实验与结果

3.1 实验方案

给定初始时刻背景变量(为方便叙述,以FY-4B数据集为例,包括CTH、CTP、CTT和CLE)和前8个时刻QPE序列数据,模型预测出未来8个时刻的QPE数据,序列编码器输入QPE序列的形状为(256,256,8),初始时刻背景变量在通道维度叠加成为背景编码器的输入,其形状为(4,256,256)。对数据进行标准化处理,对不同类型数据进行伸缩变换使得不同量度之间的特征具有可比性,使用最大最小值标准化(min-max standardization)将数据变换到[0,1];为了避免少量极端值的存在影响标准化,使其余大部分数据的分布过于集中,先对这些极端值采取了适当的截断措施再对数据进行标准化。模型中卷积核大小为3×3(如图1、2所示),使用的基础通道数为16,每次下采样时通道数翻倍。Transformer的嵌入维度为512,其MLP的维度为4 096。使用ReLU函数作为网络的激活函数、在模型的输出层使用sigmoid()函数将输出约束在[0,1],并用Kaiming方法初始化网络的参数,通过l1+l2损失进行优化,模型中使用了分组归一化(group normalization)。损失函数公式如下:

loss=1N×256×256∑Nn=1∑256i=1∑256j=1|xn,i,j-n,i,j|+(xn,i,j-n,i,j)2(2)

其中:N表示预测帧数;数据的长宽为256;xn,i,j和n,i,j表示第n帧(i,j)处的真实数值和预测数值。在训练步骤中,模型使用ADAM优化器,以0.000 1的学习率进行迭代优化。每个迭代过程的批量大小和最大epoch数分别设置为20和100。此外,还采用了early-stop策略。模型的实现基于PyTorch深度学习框架,使用了DataParallel并行化训练策略以加速训练,所用显卡为NVIDIA GeForce GPU RTX 4080Ti。

3.2 评价指标

本文采用了图片质量评价指标(RMSE和SSIM)和基于降雨等级的预报技能得分(CSI、FAR和HSS)对算法的临近预报性能进行全面评估。预报技能得分的计算基于降水阈值,对于FY-4B数据集的定量降水估计(QPE,单位为mm/h),本文选定0.1、2.5、8和16作为阈值,依据为小时累计降雨等级表(如表2所示);对于SEVIR数据集的垂直累计液体(VIL,单位为km/m2),选定0.1、0.3和1.4作为阈值,数据集中VIL大于0.1、0.3和1.4的像素点占比分别为25%、18%和10%。在给定某阈值时,将预测数据和真实数据中大于等于阈值的数据设为1,将小于阈值的数据设为0,由表3统计各类别检验结果的数量,由式(3)~(5)计算关键成功指数(critical success index,CSI)、误报率(false alarm rate,FAR)和海德克技能评分(heidke skill score,HSS)。临界成功指数(CSI)指预报结果的正确部分占所有结果的比例;虚警率(FAR)预报结果中误报部分所占比例。图像质量评价指标包括均方根误差(RMSE)和结构相似性(SSIM),其计算方法如式(6)(7)所示。

CSI=TPTP+FP+FN(3)

FAR=FPTP+FP(4)

HSS=2×TP×TN-FN×FP(TP+FN)×(TN+FN)+(TP+FP)×(TN+FP)(5)

RMSE=1n∑ni=1(xi-yi)2(6)

SSIM=(2μxμy+C1)(2σxy+C2)(μ2x+μ2y+C1)(σ2x+σ2y+C2)(7)

其中:xi和yi分别表示真实数据x和预测数据y的第i个值;μ和σ表示均值和方差;σxy表示x和y之间的方差。C1和C2分别为6.502 5和58.522 5。

在计算SSIM时,需将降水量通过线性映射扩展到0~255并存为灰度图,SSIM从亮度、对比度和结构三方面评价预报降雨分布图与真实降雨图之间的相似度。RMSE衡量预报降雨量与真实降雨量之间的差异。SSIM的最佳值为1,RMSE的最佳值为0。

3.3 结果与分析

3.3.1 FY-4B数据集

为验证本文模型的有效性,将其与近年的SOTA模型进行对比实验。实验的定量结果如表4~6所示,相比对比模型,本文模型在各个指标上都明显取得更好的效果,可以证明本文模型的有效性。随着降雨等级增强,各指标都逐渐变差,因为极端的降水事件在现实中发生概率也较低,训练样本少使得模型无法有效学习到其规律。但是观察表4、5可知,当降雨等级越高,本文模型与次优模型的差异越大,如在误报率方面,降雨量大于2.5时相差0.013 4,而在降雨量大于16时相差0.044 5,这表明本文模型可以更好地预报极端降雨事件,这得益于其他气象背景信息的引入;而其他模型只依赖于降水数据进行预测,很难有效利用稀疏的极端降水数据。

预报技能得分是基于阈值进行计算的,并不能反映预测值与真实值之间的实际差异,因此本文也使用了均方根误差(RMSE)和图像结构相似性(SSIM)。均方根误差是计算每个像素点真实降雨量与预测降雨量之间误差的均值平方根,而SSIM是从亮度、对比度和结构等方面评价真实图像与预测图像的相似性。本文模型在EF Sat2Rad的基础上将RMSE降低了0.57,将SSIM提升0.09。

某时刻降雨的定性结果如图5所示,图5(a)为模型的输入数据,即过去两小时(每15 min一帧,共8帧)的降雨趋势图,各个模型根据输入预测未来两小时的降雨趋势图;图5(b)为预测时段的真实降雨;图5(c)为本文MFPNM模型预测结果;图5(d)~(g)依次是EF Sat2Rad[21]、WF-UNet[20]、IDA-LSTM[13]和E3D-LSTM[12]等模型的结果。各个模型均能预测出降雨的整体趋势,而在细节上则差异明显。图5(f)(g)的基于CNN-RNN的模型在小雨区域表现很差,基本无法预测,而在降雨量大时倾向于低估降雨量,特别是随预报时间延长,无法或只能部分预测出暴雨区域。WF-UNet可以较好地捕获暴雨,但是会将部分无雨的离散点错误地预报为有雨。EF Sat2Rad普遍低估降雨的强度,如预测的中雨区域明显小于真实中雨区域。但是相比于前两个方法,WF-UNet和EF Sat2Rad都能捕获到小面积的降雨。本文模型在预测降雨时由于结合了更多气象背景信息,其可以充分关注到大雨到暴雨的区域,可以看出预测的大雨区域会比实际更大,而在暴雨区域预报地很精准,从这些定性结果中可以判断本文模型的有效性和预报的高准确度。

3.3.2 SEVIR数据集实验结果及分析

在SEVIR数据集上在进行了模型间对比实验,包括本文MFPNM、WF-UNet[20]和EF Sat2Rad[21]。SEVIR数据集的VIL原始数据为1~255的整数,在分析实验结果时转换为实际的垂直累计液体值,单位为kg/m2,其遵循如图6所示的非线性关系。

在SEVIR数据集上各预报时刻和不同降雨阈值水平下的CSI得分与HSS得分如图7、8所示,图中thr表示降雨等级。由图7、8可知,MFPNM在不同阈值和不同时间下的CSI和HSS得分均明显优于其他两个模型,表明本文模型预报性能优异。在不同阈值水平下,三个模型的预报性能都随着预报时间的增加而下降,但是根据曲线的趋势可知,MFPNM随预报时间延长,得分变化更为平滑稳定;反之,WF-UNet和EF Sat2Rad的得分变化波动大,这表明了MFPNM的预报性能更稳定。在预报时间40 min、阈值为0.1和1.4时可观察到MFPNM的指标显然更高,这源于其对序列数据长程关系的建模能力。

3.4 模型可解释性分析

可解释性分析流程如1.3节所述,SHAP方法计算得到每个特征的重要性向量以表征其对预测的贡献度。为评价所得重要性向量是否能客观反映特征的贡献度,使用预训练网络得到了对应的显著图,可以直观表现背景变量的不同区域对于模型最终输出的显著性或重要性,亮色(如黄色或红色)表示高重要性,而深的颜色(如蓝色)表示低重要性。如图9所示,第一行是背景编码器的输入及其显著图;第二行是模型的预测结果(连续五个时刻),其显示了降雨的分布范围与强度变化。显著图与背景编码器的输入之间具有强相关性,背景编码器良好地学习到了输入数据的有效特征,而显著性图中高亮区域与降水区域具有明显的空间对应关系,说明这些特征在模型中得到了应有的关注,特别是其作为特殊的位置编码参与Transformer模块中注意力的计算,为QPE的预测提供了有益的信息。这表明了本文模型作出的降水预报是基于模型正确识别了气象要素,验证了降水预测结果的可靠性。

4 结束语

本文以TransUNet模型为基础提出了基于双编码器与内容编码的短临降水预报算法,通过在降水预测过程中融入更多气象背景信息,引导模型实现更为准确的预报。为此,利用我国第四代静止卫星FY-4B的气象数据制作了一个包含多种物理要素的短临降水预报数据集。在该方法中,采用双编码器分别提取降水数据的时空特征和其他变量的空间特征;通过内容编码模块将其他变量特征编码到降水特征中作为其可学习的位置编码,同时为其提供更为丰富的气象背景信息,以解决降水数据稀疏的问题。使用SHAP技术对模型进行了可解释性分析,其结果表明本文模型是基于正确理解输入数据而得到合理且可靠的预测结果。通过与其他现有模型的比较,本文模型的性能优越性得到了充分证明。

参考文献:

[1]Marchuk G I.Numerical methods in weather prediction[M].[S.l.]:Academic Press,2012.

[2]Alley R B,Emanuel K A,Zhang Fuqing.Advances in weather prediction[J].Science,2019,363(6425):342-344.

[3]Chen Mingxuan,Wang Yingchun,Yu Xiaoding.Improvement and ap-plication test of TREC algorithm for convective storm nowcast[J].Journal of Applied Meteorological Science,2007,18(5):690-701.

[4]Moral A D,Rigo T,Llasat M C.A radar-based centroid tracking algorithm for severe weather surveillance:identifying split/merge processes in convective systems[J].Atmospheric Research,2018,213:110-120.

[5]Woo W C,Wong W K.Operational application of optical flow techniques to radar-based rainfall nowcasting[J].Atmosphere,2017,8(3):48.

[6]Ayzel G,Heistermann M,Winterrath T.Optical flow models as an open benchmark for radar-based precipitation nowcasting[J].Geoscient-ific Model Development,2019,12(4):1387-1402.

[7]Dhiram K,Wang Zhenhui.Evaluation on radar reflectivity-rainfall rate(Z-R)relationships for Guyana[J].Atmospheric and Climate Sciences,2016,6(4):489-499.

[8]Shi Xingjian,Chen Zhourong,Wang Hao,et al.Convolutional LSTM network:a machine learning approach for precipitation nowcasting[C]//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:802-810.

[9]Shi Xingjian,Gao Zhihang,Lausen L,et al.Deep learning for precipitation nowcasting:a benchmark and a new model[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:5622-5632.

[10]Wang Yunbo,Long Mingsheng,Wang Jianmin,et al.PredRNN:recurrent neural networks for predictive learning using spatiotemporal LSTMs[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:879-888.

[11]Wang Yunbo,Gao Zhifeng,Long Mingsheng,et al.PredRNN+:towards a resolution of the deep-in-time dilemma in spatiotemporal predictive learning[C]//Proc of the 35th International Conference on Machine Learning.[S.l.]:PMLR,2018,5123-5132.

[12]Wang Yunbo,Jiang Lu,Yang M H,et al.Eidetic 3D LSTM:a model for video prediction and beyond[C/OL]//Proc of the 7th International Conference on Learning Representations.2019.(2019-12-21).https://openreview.net/forum?id=B1lKS2AqtX.

[13]Luo Chuyao,Li Xutao,Wen Yongliang,et al.A novel LSTM model with interaction dual attention for radar echo extrapolation[J].Remote Sensing,2021,13(2):164.

[14]Samsi S,Mattioli C J,Veillette M S.Distributed deep learning for precipitation nowcasting[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:5622-5632.

[15]Agrawal S,Barrington L,Bromberg C,et al.Machine learning for precipitation nowcasting from radar images[EB/OL].(2019-12-11).https://arxiv.org/abs/1912.12132.

[16]Bihlo A.Precipitation nowcasting using a stochastic variational frame predictor with learned prior distribution[EB/OL].(2019-05-13)[2024-03-09].https://doi.org/10.48550/arXiv.1905.05 037.

[17]Denton R,Fergus R.Stochastic video generation with a learned prior[EB/OL].(2018-03-02).https://arxiv.org/abs/1802.07687.

[18]吴卓升,张巍,林艳,等.动态概率卷积神经网络在雷达回波外推中的应用[J].计算机应用研究,2021,38(7):2125-2129.(Wu Zhuosheng,Zhang Wei,Lin Yan,et al.Application of dynamic probability convolutional neural network in radar echo extrapolation[J].Application Research of Computers,2021,38(7):2125-2129.)

[19]潘龙,吴锡.基于双向Transformer的降水临近预报模型[J/OL].计算机应用研究.(2024-03-18).https://kns.cnki.net/kcms/detail/51.1196.TP.20240315.0936.001.html.(Pan Long,Wu Xi.Bidirectional Transformer-based precipitation nowcasting model[J/OL].Application Research of Computers.(2024-03-18).https://kns.cnki.net/kcms/detail/51.1196.TP.20240315.0936.001.html.)

[20]Kaparakis C,Mehrkanoon S.WF-UNet:weather data fusion using 3D-UNet for precipitation nowcasting[J].Procedia Computer Science,2023,222:223-232.

[21]Küük ,Giannakos A,Schneider S,et al.Transformer-based nowcasting of radar composites from satellite images for severe weather[EB/OL].(2023-10-30)[2024-03-09].https://doi.org/10.48550/arXiv.2310.19515.

[22]Ivashkin V,Lebedev V.Spatiotemporal data fusion for precipitation nowcasting[EB/OL].(2018-12-28)[2024-03-09].https://doi.org/10.48550/arXiv.1812.10915.

[23]An S.Nowcast-to-forecast:token-based multiple remote sensing data fusion for precipitation forecast[C]//Proc of the 32nd ACM International Conference on Information and Knowledge Management.New York,NY:ACM Press,2023:4495-4501.

[24]Bouget V,Béréziat D,Brajard J,et al.Fusion of rain radar images and wind forecasts in a deep learning model applied to rain nowcasting[J].Remote Sensing,2021,13(2):246.

[25]Mark S V,Siddharth S,Christopher J M.SEVIR:a storm event imagery dataset for deep learning applications in radar and satellite mete-orology[C]//Proc of the 34th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2020:article No.1846.

[26]Li Xilai,Liu Wuyang,Li Xiaosong,et al.Physical perception network and an all-weather multi-modality benchmark for adverse weather image fusion[EB/OL].(2024-02-03)[2024-03-09].https://doi.org/10.48550/arXiv.2402.02090.

[27]Lundberg S M,Lee S I.A unified approach to interpreting model predictions[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:4768-4777.

收稿日期:2024-01-21

修回日期:2024-03-25

基金项目:国家自然科学基金资助项目(42075142,42130608);国家重点研发计划资助项目(2020YFA0608000);四川省科技计划资助项目(2022YFG0029,2023YFG0101,2024YFG0001);成都信息工程大学科技创新能力提升计划资助项目(KYTD202330)

作者简介:陈龙(1997—),男,四川巴中人,硕士,主要研究方向为深度学习与降雨预报;彭静(1991—),女,四川绵阳人,讲师,博士,主要研究方向为图形图像处理、分布式计算优化等;胡雪飞(1980—),女,重庆永川人,副研究员,硕士,主要研究方向为数字文旅、文化传播等;黄占鳌(1993—),男,四川隆昌人,讲师,博士,主要研究方向为神经网络理论与应用、不平衡数据学习;李孝杰(1981—),女(通信作者),山东菏泽人,教授,硕导,博士,主要研究方向为机器学习、图像处理与智慧气象(lixj@cuit.edu.cn).