基于前馈式神经网络的多源精细化降水预报及检验
2022-07-08赖维肖陈丹妮
雍 星 , 陈 佳 , 赖维肖 , 陈丹妮
(四川省德阳市气象局,德阳 618000)
引言
近年来,全球气候变化更加剧烈,在各种气象灾害中,暴雨灾害以其突发性强、成灾速度快、季节性强以及容易引发山体滑坡、泥石流、城市内涝等破坏性较大的次生灾害等特点,加大了对人民生命财产的潜在威胁[1]。据统计,暴雨洪涝是导致人员伤亡最多和造成直接经济损失最大的灾害[1-2],由此对降水的监测和预报提出了更高的要求。但长期以来,降水的精准预报都是气象业务的难点之一。目前,由于人工智能的迅速发展,机器学习方法已广泛应用于气象领域[3],对于改进气象预报具有明显的应用价值。
然而,如何有效利用海量的气象观测资料和预报产品,设计更加优化的预报模式,改善预报预测结果,在数据挖掘、机器学习技术方面还有很多工作要做[4]。尤其是逐步推进气象业务与人工智能技术的对接,拓展预报模式的实际能力,满足多角度气象专业服务需求,是实现气象业务自动化、智能化以及现代化的重要途径。其中,利用机器实现自动学习,同时提取天气过程的特征,是多源数据融合的一个新思路[5]。贺圣平等[6]指出,在建立及其学习模型时,充分了解海量气象数据背后的动力学原理至关重要。黄小燕等[7]对广西热带区域降水预报的研究表明,神经网络方法具有很强的非线性映射和自适应学习能力,可以更好地反映降水的非线性变化特点。虽然国内外有关专家和学者将人工智能方法与多种资料融合,提出了关于中短期降水预报的新算法,并获得了较好的预报效果[7-15],但是,仍不能满足社会需求,还需要进一步开发应用。
因此,本文针对四川省德阳市的降水业务预报,融合智能网格气象预报(SPCO、SPZC)及欧洲中期天气预报中心(ECMWF)降水预报[13],结合动力学因子,采用神经网络方法,建立德阳市基于前馈式神经网络的多源精细化降水数值预报系统(下文简称系统),以期为提升德阳市中短期降水预报水平提供必要的技术支撑。
1 资料与方法
1.1 资料
本文根据降水天气的基本原理和预报方法,结合暴雨天气发生、发展的规律及预报预警产品精度、时效的具体需求,选用以下几种资料作为神经网络的输入单元:
(1)两种智能网格气象预报产品分别是四川省数值预报释用精细化预报指导产品(SPCO)和气象台短临预报产品(SPZC),分辨率均为 0.05°×0.05°;
(2)实况降雨量观测资料采用德阳市自动观测站及区域自动站观测资料;
(3)ECMWF数值预报产品中的降水和物理量资料,分辨率为 0.125°×0.125°,并利用 ECMWF 数值预报进行部分动力物理量的计算;
(4)国家气象信息中心多源融合降水产品(CMPA),分辨率为 0.05°×0.05°。万逸波等[16]研究表明,CMPA反映降水多寡的能力较其他产品更高,其数据在中海拔地区的相关性与精度较高,在高海拔和极大坡度地区的质量降幅较小。由于德阳市位于四川盆地周边山地,地势自西北向东南倾斜,西北部属龙门山脉中段,海拔较高,最高海拔为什邡市九顶山狮子王峰(4984 m),中部为成都平原,东南部为四川盆地中部丘陵,最低海拔在中江县普兴镇(306 m),故选取CMPA降水数据用于降水预报系统的建立和预报效果的检验。
1.2 方法
1.2.1 前馈神经网络法
本系统采用的前馈神经网络(Feedforward Neural Network,FNN),是人工神经网络的一种。图1是一个简单的神经网络模型,图中每个小圆圈代表一个感知机模型,第一层称之为输入层,因为它直接跟输入数据相连,第二和第三层称之为隐藏层或全连接层,第四层为输出层。
图1 前馈式神经网络结构
第一层网络的各个神经元接收了输入信号,一般会对训练集进行中心化处理,即每个样本减去训练集的均值,当不同维度的连续特征量级不一样时,还需要做标准化或归一化处理[17]。这里,输入层归一化处理详见表1,编制读取程序并处理输入数据后,根据格点值,基于各家模式降水量预报进行分级(<10 mm,10~25 mm,25~50 mm,>50 mm),然后将归一化的资料读入内存形成输入层。在隐藏层的相邻两层之间,前一层的所有单元都会有一个到下一层所有单元的输出,这样的层称为全连接层,后一层某个单元接受到的输入就是前一层所有单元值的加权和。输出层的值即最后一层隐藏层经过一个输出函数(Output Function)得到的。输出层可能有一个单元也可能有多个单元,在系统中,输出层包含一个池化层。按照前馈神经网络的层数不同,可以将其划分为单层前馈神经网络和多层前馈神经网络。本系统采用单层前馈神经网络,包含一层隐藏层,输出层上节点的值(输出值)通过输入值与权重值(ω)相乘后加上偏移值(B)得到。
表1 输入层数据的归一化处理
1.2.2 激活函数及资料处理流程
由于神经网络是一个封闭的黑格子计算单元,尚不清楚神经网络的具体工作原理,FNN直接输出的结果应该是输入参数线性叠加的结果。然而,暴雨的预报问题往往是非线性的,而“神经元”与“激活函数”的组合可以实现复杂的非线性数学转换。为使神经网络可以更好地表达出非线性的降水特征,这里,引入了激活函数f(n)。它具有激活和抑制两种状态,当输入激活函数的值到达一定的区间,激活函数就会进行输出,否则将会抑制这些值的输出。本系统采用的激活函数为对称饱和线性函数(Symmertrical Saturating Linear Transfer Function),表达式为:
资料的处理流程为:神经元接受到一个到数个不等的输入变数(x)后,视输入变量的重要性,赋予一个改变权重的参数,该参数称为权重(Weight, ω ),神经元将所有输入变量经由配重值的加权累加,然后再与神经元中的偏移量(Bias,B)相加,从而产生一个净值(n),这个净值将通过转换函数的转换,获得的数值即为该神经元的输入变率或是作为输出值,视网络结构而定。虽然每个神经元可以同时接受一个到多个的变量值,但只有一个输出值,神经元的计算公式如下:
式中:R是神经元输入变量的个数,Ij是输入特征量,ωj是神经元每个输入变量的权重值,B是该神经元的偏移量。虽然同一层的神经元具有相同的输入变量和激活函数,但因为每个神经元内具有不同权重和偏移量,导致同一层的神经元虽然接受相同的输入变量,但输出值却大不相同。
2 系统构建
系统结构如图2所示,是根据预报区域范围内的多源资料及预报因子,进行汇总处理,由神经网络深度学习模块进行训练和预报,最后得到本地的暴雨预报结论。
图2 FNN降水预报模型
在训练期内,本系统利用上述预报历史降水及相关风力、温度资料形成训练集,以CMPA格点化实况降水作为目标集,完成对多源数据特征的提取。对站点降水资料进行格点化插值处理,与初步筛选出的降水天气发生发展密切相关的动力因子进行相关度检验,筛选出与本地暴雨天气相关度较高的物理量,剔除相关性较低的物理量,实现从高位预报因子数据集中提取少数包含主要信息的变量来预报暴雨灾害,进而深度挖掘相关物理量及预报产品与降水天气的关联特征和演变特征。将选出的包含动力因子的物理量与SPCO降水预报、SPZC降水预报及欧洲中心数值预报产品一同用于建立本地暴雨(降水)预报方程组,构成网络结构规模小、有效预报信息量大的非线性集成预报,以此提高预报方程的技巧和稳定性。系统使用梯度下降法[6],将输出层的数据再输入隐藏层的神经元函数,利用逐日CMPA融合降水产品对隐藏层输出的结果进行检验,根据预测值和实际值的区别,将梯度从网络输出层反向传递至输入层,并在此过程中优化模型参数,从而降低预报误差。神经网络对数据进行建模的过程,就是寻找最合适的权重 ω 和偏移量B的过程,即对数据进行最优逼近[6]。通常会设计一个损失函数来度量逼近效果,最优参数应使得损失函数最小化。系统反馈最优结果到输入端,寻找到各个神经元节点的最佳权重序号和偏离序号,计算出最佳权重和最佳偏离值并存储结果,形成精度为0.05°×0.05°的初步格点参数,得到计算结果,最终结果会分级存储到相应时次、相应降水分级中。根据上述结果,取最近n次的最佳结果(分量级 ω 、B集合)作为最终模型,将最新的输入端数据代入该模型,通过池化后的数据作为德阳市降水预报进行输出,形成最终的降水预报。
3 应用与检验
3.1 系统降水预报性能的检验
为了进一步了解系统对德阳市及周边降水过程的预报效果,本节选取2021年汛期以来(5月1日~8月20 日)德阳市及周边(103.75°~105.25°E, 30.5°~31.75°N)CMPA 24 h降水量进行格点检验分析。
将 24 h降雨量按照 0.1~9.9 mm、10~24.9 mm、25~49.9 mm、≥50 mm共4个标准,对SPCO、ECMWF及本系统预报降水量与相应时段的实况降水量进行分级统计与检验。从检验结果(表2)可以看出,除了大雨量级以外,所有成员对其他量级降水预报的TS(Threat Score)评分随预报时效的增加是逐渐降低的。各成员对于小雨量级降水的TS评分均为最高,其中由于ECMWF在0~48 h对小雨漏报率较低,其TS评分(0.516)均高于SPCO和本系统预报。由于各成员对中雨和大雨量级的空报和漏报率均较高,导致对上述量级的预报准确率明显低于小雨。中雨TS评分为0.151~0.184, ECMWF在 24 h时效最优,本系统TS评分在48 h时效略高于ECMWF,SPCO在72 h时效的TS评分最高。从中雨的漏报率来看,SPCO在0~48 h时效的漏报率为最高,在72 h时效本系统漏报较多。空报率显示,SPCO在24 h时效的空报率较高,ECMWF在24~72 h时效的空报率最高,各成员空报率介于0.674~0.828。大雨的总体TS评分与中雨较接近,ECMWF在24 h和72 h时效为最佳,本系统在上述时段评分仅次于ECMWF,在48 h时效的TS评分最高。当降雨量达50 mm及以上时,SPCO在24 h时效的TS评分最高, ECMWF在48 h时效的TS评分最高,本系统在上述时段的预报评分均为次佳。本系统在48~72 h时效的空报率和漏报率相对较低,TS评分最高,而SPCO对暴雨及以上量级降水的空报、漏报情况最严重,导致其TS评分远低于其他两个模式。
表2 降水分级检验
从预报偏差来看,除暴雨以外,所有产品对其他三个量级的降水范围预报均较实况偏大,表明上述产品对德阳市及其周边的降水多存在空报现象。对小雨落区的预报,在0~24 h和24~48 h时效上,ECMWF对降水落区的估计严重偏大,SPCO与实况最接近,本系统偏差位于两者之间。对中雨落区的预报,在0~24 h时效上,ECMWF预报与实况落区最接近,SPCO偏大最多,本系统预报效果介于两者之间;在24~72 h时效上,SPCO最接近实况,ECMWF偏大最多,本系统的落区预报效果同样介于两者之间。对大雨落区的预报,SPCO落区预报在0~48 h时效上偏大最多而在48~72 h时效上较实况略偏小,ECMWF落区预报在48~72 h时效上偏大最多,本系统预报落区在不同时效上均介于两者之间。对于暴雨及以上量级降水的落区预报,随着预报时效的减小,成员的预报落区较实况偏小逐渐转为偏大;ECMWF在0~24 h时效上预报偏差最小,本系统偏差与ECMWF接近;SPCO落区预报在24~48 h时效上偏差最小,本系统略高于SPCO,而ECMWF的预报偏差为最高;3个成员落区预报在48~72 h时效上均偏小,本系统的预报最接近实况。
从可以表征降水准确率的ETS(Equitable Threat Score)评分可以看出,检验成员对各个量级降水的评分都大于0,表现为正技巧,但不同成员在不同的预报时效上对不同量级降水的预报能力存在差异。从不同预报时效检验来看,随着预报时效的增加,各成员对降水的预报能力是逐渐减弱的。从分量级检验来看,各成员对小雨量级降水预报的ETS评分均高于其他量级降水;对中雨量级的ETS评分除0~24 h ECMWF和本系统外,其余均降至0.1以下,ECMWF预报能力在0~24 h时效上相对最强,本系统次之,SPCO预报能力在24~72 h时效上最强;对大雨量级,本系统预报在0~48 h时效上较好,ECMWF预报在48~72 h时效上相对较好,本系统仅次于ECMWF;对暴雨及以上量级,SPCO预报技巧在0~24 h时效上最高,ECMWF预报技巧在24~48 h时效上最高,本系统预报技巧在上述时效均为次佳,而在48~72 h时效上ETS评分最高。
综合来看,针对不同预报时效和不同量级降水,SPCO、ECMWF和本系统对于德阳及周边降水的预报表现各有优势。本系统的预报能力与作为输入层相关因子的SPCO与ECMWF预报能力相当,并且在大部分情况下,本系统的预报准确率和预报偏差与预报表现较好的因子更加接近,甚至在部分预报时效上本系统的预报准确率可以超过输入层因子。其中,本系统在24~72 h时效上对暴雨及以上量级降水的预报TS评分较高、预报偏差表现也较好,对暴雨的提前预报具有重要参考价值。这表明本系统可对输入层因子的降水及其落区预报进行有效的智能优化,在实际预报中,可以利用本系统与其他的降水预报进行综合分析,使预报结果更具参考价值。
3.2 在两次大范围连续强降雨天气中的应用
为了进一步分析系统对德阳市降水的预报情况,选取2020年8月10~17日德阳市罕见大范围连续强降水天气过程(以下简称过程1)及2021年9月12~16日德阳区域暴雨天气过程(以下简称过程2)进行分析。过程1在10日20时~18日08时出现了两轮连续性区域大暴雨天气,部分地方达到特大暴雨。从14日晚至17日连续3 d的第二轮区域暴雨到大暴雨,从系统预报与过程1实况的对比(图3)可以看到,14日预报的暴雨区较实况略偏西,但总体预报的暴雨区、大暴雨区及特大暴雨区与实况均较接近,并且系统预报的降水极值与实况极值的量级一致。从系统预报与过程2的实况对比(图4)可以看出,系统预报的13日20时~14日20时暴雨落区东部与实况一致、西部较实况偏大,系统预报出了大暴雨量级的降水,虽落区范围较实况偏大,但主要落区与实况一致。
图3 过程1中24~48 h时效降水预报(a.13日20时,c.14日20时)与降水实况(b.14日20时~15日20时,d.15日20时~16日20时)对比
图4 过程2中12日20时24~48 h时效降水预报(a)与13日20时~14日20时降水实况(b)对比
总的来看,系统对上述两次连续降雨天气过程的预报效果均较好,提前24 h预报出过程的开始时间,在两个过程中对暴雨及以上量级的降水和落区预报都较准确,并对极端降水的量级和位置有一定的预报能力,可为预报员提前预报预警提供依据。
4 结论与讨论
本文基于降水观测资料,结合多种模式预报产品,应用前馈式神经网络及最优逼近方法对德阳市降雨预报系统进行训练,并利用多源融合降水资料对预报结果进行检验,得到如下主要结论:
(1)本系统在暴雨的短期预报时效中,时效越临近,对降雨量级和落区预报的准确率越高,预报员可通过不同起报时间的降水预报结果结合其他降水预报产品,对降水强度和落区进行调整。
(2)SPCO、ECMWF及本系统对不同量级的降水各有优势,本系统能够对输入层因子的降水及其落区预报进行有效的智能优化,在日常预报业务中充分利用本系统与其他资料进行综合分析,对降水天气的提前预报具有重要作用。
(3)FNN方法的优势在于可以改善强降水中心分布及极端降水量的预报效果,使之更加接近降水实况,可以在智能网格预报和模式雨量预报的基础上,进一步为预报降水极值及降水大值区的分布提供参考依据。
此外,本系统还存在一些需要改进的方面,如鉴于人工智能方法学习的固有特性,未来需要收集更多的历史个例资料,进一步扩大人工智能学习样本库;在深度学习模型训练过程中,考虑降水对地形因子的敏感性等影响,有望获得更加准确有效的降水预报。