深度学习网络在降水相态判识和预报中的应用*
2021-04-20黄骄文蔡荣辉王胜春滕志伟
黄骄文 蔡荣辉 姚 蓉 王胜春 滕志伟
1 湖南省气象台,长沙 410118 2 气象防灾减灾湖南省重点实验室,长沙 410118 3 湖南师范大学信息科学与工程学院,长沙 410081
提 要: 利用1996—2015年中国的高空探测资料和地面观测数据,挑选发生降水的数十万个样本将其分为降雨和降雪两类事件,抽象为二分类问题,采用深度学习网络技术构建降水相态判识模型,并用2016—2017年的数据进行测试检验,针对2018年1月下旬中国一次大范围雨雪天气过程进行个例检验,在此基础上探讨了深度学习网络在降水相态判识和预报中的应用。主要结论如下:基于深度学习网络判识模型的判识准确率为98.2%,雨、雪的TS评分分别为97.4%和94.4%,相应空报率为1.7% 和2.0%,漏报率为1.0%和3.7%,较传统指标阈值法的判识准确率有较大提高;个例检验显示,基于实况探空数据的模型判识结果与降水相态实况在全国基本保持一致,欧洲中期数值预报中心(ECMWF)的降水相态预报产品和模型的预报结果对全国的降水相态都表现出较好的预报能力,而对雨雪分界线的预报,模型的预报结果较ECMWF总体上更接近实况。测试结果表明,模型较好地提取了雨、雪降水相态的结构特征,深度学习网络在降水相态判识和预报中的应用具有可行性和一定的优势,可为降水相态的客观判识和预报提供重要技术支撑。
引 言
随着社会的发展,冬季降水对人们的生产生活造成的影响愈发严重(马宗晋,2009)。一次冬季降水过程中可能同时包含多种降水相态或不同降水相态之间的转换,而不同降水相态的致灾性是不一样的。例如24 h累计降水量达到5 mm时,如果降水相态是雨,则只是小雨天气,对城市运行和社会生产生活的影响不大;如果降水相态是雪,天气表现为大雪,致灾性会大大提升;而如果降水相态是冻雨或者冰粒时,这种冰冻天气带来的影响则可能是致命的。即使是很弱的降雪过程,如果降水相态预报出错,也会给城市运行带来严重的不利影响(孙继松等,2003;蒋建莹等,2005)。因此,冬季降水相态的判识和预报问题非常关键,这对满足精细化天气预报需求、进一步提升防灾减灾能力具有重要意义。
我国冬季降水相态主要包括雨、雪、雨夹雪、冻雨、冰粒等。近几十年来,国内外学者开展了很多关于降水相态方面的研究,得到了不少有益的成果。Lownde et al(1974)提出用1000~850 hPa的位势厚度值来区分雨雪。Heppner(1992)在此基础上,增加850~700 hPa的位势厚度值来识别雨、雪、冻雨和冰粒。Bernstein(2000)、李江波等(2009)、漆梁波和张瑛(2012)、张琳娜等(2013)、孙燕等(2013)和余金龙等(2017)通过个例研究给出了一些降水相态的判识指标和阈值,其中多是包括近地面气温、位势厚度等单个指标或多个指标的组合,较好的指标对降雪的判识准确率在80%左右。但是,在前人的研究中,降水相态判识的指标阈值在不同区域存在差异,不具有普适性。降水相态的形成与整个大气层结中的温、湿度及其平流变化等有关(杨舒楠等,2017),简单的指标阈值法往往表征某些方面的特性,不能很好地体现整层大气之间复杂的关系,并且不同指标判识结果不一致时,也无法取舍。
近些年来,计算机运算的能力得到不断提升,人工神经网络的应用也得到推广。气象部门积累了海量实况数据,因而人工神经网络在气象上的应用拥有广泛的发展空间(Ortiz-Garcíaa et al,2014;Young et al,2017;李文娟等,2018)。董全等(2013)通过对比人工神经网络法和线性回归法发现,人工神经网络法对降水相态的预报效果更优。彭霞云等(2018)利用决策树和随机森林算法对浙江省冬季降水个例进行研究发现,随机森林算法可使降雪的判识准确率得到明显提高。陈双等(2019)基于云顶温度、中层融化参数、低层湿球温度构建的决策树判别模型,可较好地提升临界气温下雨、雪的判别准确率。随着深度学习技术的发展,深度学习网络模型采用分层无监督训练方法,模型学习能力大大增加,可在大量的数据中自动提取相应的特征(韩丰等,2019;黄小玉等,2019;郭瀚阳等,2019)。相比于传统的机器学习手动提取特征,深度学习有着更强的特征学习能力,能提取到更加丰富准确的信息,分类和预报效果获得极大的提升。因此,本文拟采用深度学习网络,研究其在我国冬季降水相态判识和预报中的应用。
1 数 据
1.1 数据说明
本文采用1996—2018年共23年逐日08时和20时(北京时,下同)的高空探空数据和地面观测填图资料,其中1996—2015年共20年的探空数据和地面观测资料作为模型的训练集,以此建立基于深度学习网络的降水相态判识模型,2016—2017年冬季(12月至次年2月)数据作为降水相态判识模型的统计学检验样本集,2018年数据集作为该模型的天气学个例检验样本集,高空探空数据为中国120个探空站数据,站点分布如图1所示;2018年逐日08时和20时起报的欧洲中期数值预报中心(ECMWF)的降水相态预报产品,空间分辨率为0.125°×0.125°,用来在天气学个例预报检验中与模型的预报结果进行对比检验。文中所涉及的地图是基于审图号为GS(2017)3320号的中国地图制作,底图无修改。
图1 中国120个探空站的分布Fig.1 Distribution of 120 sounding stations in China
降水相态的预报包含了晴雨预报和发生降水后的相态预报两个问题,晴雨预报的偏差会影响降水相态的预报偏差,为了简化问题,本文降水相态判识模型的构建和检验只针对出现降水的站点和地区。
1.2 数据预处理
在将数据集输入到深度学习网络模型中进行训练前,需要对数据集进行预处理。首先,挑选出中国探空站和对应地面观测数据,将同一时间的探空数据与地面填图资料进行一一匹配。随后,将高空所有探空特性层的气象要素自下向上按层编排,与该对应时次站点的地面填图要素进行合并,最后拼接成一条长序列数据条,作为训练模型标准的输入数据条。
由于高空和地面的气温和露点温度是影响降水相态变化的关键因子,为了避免选取多个气象因子带来的样本损失,突出关键气象因子的作用,本文模型训练集采用的气象要素只包括地面气温、露点温度,以及高空的气压、气温和露点温度。根据地面观测资料中的天气现象编码,将降水相态分为雨(包括降雨和冻雨)和雪(包括纯雪和雨夹雪)两类,其中雨、雪降水相态对应的天气现象编码如表1所示。
表1 雨、雪降水相态对应的天气现象编码Table 1 Weather code corresponding to precipitation type of rain and snow
在模型训练过程中,每个输入数据条包含了不同的气象因子,而这些气象因子的量纲和数值量级都是不一样的。如果在模型训练中直接使用原始的数据值,就会突出数值较高的气象因子在模型训练中的作用,相对削弱数值水平较低因子的作用。因此,为了消除不同气象因子之间的量纲和数量级的影响,本文对所有输入的气象因子分别进行标准化处理:采用归一化处理,对原始数据进行线性变换,将数据统一映射到0~1的区间上,转换公式为:
式中:X为输入的气象因子序列,X*为标准化后的新序列,max(X)和min(X)分别为该因子序列的最大值和最小值。
1.3 数据质量控制
在样本数据输入前,还需对其进行严格的质量控制。本文高空探空数据选取的是自下向上依次6个特性层的数据,不同海拔高度的站点选取的特性层也不一样,例如在低海拔地区的湖南长沙站,6个特性层选取的是1000、925、850、700、500和400 hPa,而在高海拔地区的西藏拉萨站,选取的是500、400、300、250、200和150 hPa。在此过程中,将由站点海拔高度过高等原因导致该探空站数据不足6个特性层的样本剔除,当选取的数据样本中的气象要素存在缺测,也将该条数据样本进行剔除,同时还将包含奇异值,即超出该气象因子的正常阈值范围的数据样本剔除。最终,得到输入模型中的雨和雪两类降水相态的训练集和测试集,样本集数量如表2所示。
表2 雨、雪降水相态的样本数(单位:个)Table 2 Samples corresponding to precipitation type of rain and snow
2 方 法
2.1 深度神经网络算法
深度神经网络(deep neural network,DNN)是一种人工神经网络(Hinton et al,2006),包含多个隐藏层,根据神经元的特点可分为多层感知机(multi-layer perception,MLP)、卷积神经网络(convolutional neural networks, CNN)、循环神经网络(recurrent neural network,RNN)等,不管它是线性还是非线性的关系,DNN能够在数据之间找到正确的计算关系,通过在各个层之间的计算,得到每个输出结果的概率。通过训练识别降水相态的DNN,将遍历给定的数据集并计算每一种降水相态的概率,用户查看结果并选择最好的概率(高于某个阈值),返回对应建议的标签。这样每种降水相态的计算操作被认为是一个层,复杂的DNN有许多层,因此被称为深层神经网络。
DNN按不同层的位置划分,其内部的神经网络层可以分为三类:输入层、隐藏层和输出层(图2),其中第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。DNN通常是前馈网络,其中数据从输入层流向输出层而不会回送。首先,DNN创建虚拟神经元的映射,并将随机数值或“权重”分配给它们之间的连接,权重和输入相乘并返回0~1的输出。如果网络没有准确识别特定模式,算法将调整权重,直到它确定了正确的数学运算,以充分处理数据。目前,包括计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络,DNN在很多人工智能任务中表现出了当前最佳的准确度,因此本文采用DNN构建降水相态判识模型。
“微型探究”策略引导:设计“微型探究”问题时必须考虑学生已有的认知,找准探究情境与教学内容之间的有效结合点,设计出合理的、具有思考价值的若干个问题串,通过“微型探究”,让学生体验数学家对数学概念的抽象过程,领悟探索知识的思维方法,由“知其然”发展到“知其所以然”,并体会蕴涵其中的数学思想方法,从而实现学习价值的最大化和最优化.
图2 深度神经网络结构示意图(庞勇,2003)Fig.2 Structure diagram of deep neural network (Pang, 2003)
2.2 降水相态判识模型
通过大量训练试验,本文基于DNN的降水相态判识模型共设置5层神经网络,其中输入层主要提取经过预处理和质量控制后的数据。在输入层中对数据进行归一化处理,消除不同气象因子量纲和数量级的影响,在使用梯度下降的方法求解最优问题时,归一化后还可加快梯度下降的求解速度,即提升模型的收敛速度。经过输入层后,数据将通过3个隐藏层进行一系列变换,隐藏层节点数分别设置为500、100和20个,最后在到达输出层,得到模型的分类结果。线性整流函数(rectified linear unit,ReLU),又被称为修正线性单元,通常指代以斜坡函数及其变种为代表的非线性函数,是人工神经网络中常用的一种激活函数(Krizhevsky et al,2012)。本文使用ReLU作为激活函数,设置初始为0.001的自适应学习率,得到前向传播的结果,结合对数损失函数(李航,2012)的方法对比结果与实况的差别,使用自适应矩估计(adaptive moment estimation,Adam)优化算法(Kingma and Ba,2014)进行反向传播,更新权重,每次训练选取的样本数设为200个,共设置2 000次迭代,通过反复训练,寻找最优的结果,最终得到基于DNN的降水相态判识网络模型。
2.3 检验方法
本文利用实况资料构建基于深度学习网络的降水相态判识模型,对该模型的检验分为两个部分,一部分是基于实况数据进行实况判识检验,另一部分是基于ECMWF未来24 h预报数据,对模型输出的预报结果和ECMWF降水相态产品进行预报对比检验。模型预报结果和ECMWF降水相态预报产品均采用最近邻点插值法,将离站点最近的网格点数据赋值给该站点,实现格点数据向站点数据的转化。检验中判识准确率、TS(threat score)评分、空报率和漏报率计算公式如下:
式中:NA为实况出现时的判识正确站(次)数,NB为实况未出现但模型判识出现的站(次)数,NC为实况出现但模型判识不出现的站(次)数,ND为实况未出现时的判识正确站(次)数。
3 结果检验
3.1 统计学检验
2016—2017年冬季,我国120个探空站08时和20时发生降水的样本共有3 281个,其中降雨样本2 222个,降雪样本1 059个(表2)。通过计算模型的判识准确率以及降雨和降雪的TS评分、漏报率和空报率,对基于深度学习网络的降水相态判识模型进行检验。结果显示,模型的判识准确率可达98.2%,其中有3 221个样本判识正确,60个样本判识错误,出错的样本主要集中在我国南方地区,模型在湖南郴州站和贵州贵阳站判识出错的频次最高,均出现了5次判识错误(图3)。统计学检验的结果显示(图4),降雨和降雪的TS评分分别达到了97.4% 和94.4%,空报率分别为1.7%和2.0%,漏报率为1.0%和3.7%,在错判的样本中,有39个样本实况为降雪,模型判识为降雨,还有21个样本实况为降雨,模型判识为降雪。指标阈值法对降雪的判识准确率很少有超过90%的(漆梁波和张瑛,2012;张琳娜等,2013;孙燕等,2013;余金龙等,2017;彭霞云等,2018),相较于传统指标阈值法,模型的判识准确率有较大提升。可见,基于深度学习网络的降水相态判识模型对实况数据表现出良好的判识性能。
图3 基于2016—2017年冬季样本模型判识出错的探空站点频次(单位:次)Fig.3 Frequency of sounding stations with the model giving incorrect identification based on the winter samples during 2016-2017
图4 基于2016—2017年冬季样本的雨、雪相态统计学检验结果Fig.4 Statistical test results of rain and snow based on the winter samples during 2016-2017
3.2 北方天气个例检验
2018年1月下旬,我国各地出现了大范围的雨雪天气,其中1月21—22日北方地区出现雨雪天气过程,接着24—28日我国南方出现了一次大范围的低温雨雪天气过程。此次过程具有雨雪冰冻范围广、严寒程度重、持续时间长等特点,造成了自2008年以来又一次较大范围的雨雪冰冻灾害。
在北方地区雨雪天气过程的开始阶段(图5),从降水相态的实况可看出,在内蒙古中部、山西北部、河北中北部、北京和天津都出现了降雪,而长江中下游地区出现大片的降雨区。21日20时我国探空站共有12个站点发生降水,其中10个站为降雨,2个站为降雪,模型基于探空站实况数据的判识结果与降水相态实况全部一致,判识准确率为100%。从ECMWF和模型对21日20时降水相态的预报结果对比可看出(与地面站观测对比,下文同),二者均在华北地区和长江中下游地区分别预报了降雪和降雨,与降水相态实况较一致,但存在较大范围的空报。此时ECMWF对降雨和降雪的TS评分分别为36.8%和12.6%,而模型则分别可达43.4%和20.0%,模型预报结果相对较好。
图5 2018年1月21日20时中国北方地区雨雪天气过程开始阶段(a)降水相态实况(绿点:降雨,蓝点:降雪)和模型基于实况的判识结果(数字1:降雨,数字2:降雪),以及(b)ECMWF预报未来24 h的降水相态产品(绿色:降雨,蓝色:降雪)和模型基于ECMWF预报数据的未来24 h降水相态预报结果(点号:降雨,星号:降雪)Fig.5 (a) Real precipitation type (points) and model identification results (numbers) (green dot and number 1: rain, blue dot and number 2: snow), and (b) the ECMWF 24 h products (shaded) and model forecast results (marks) of next 24 h during the beginning stage of rain and snow processes over North China at 20:00 BT 21 January 2018(green and red dots: rain, blue and stars: snow)
图6 同图5,但为2018年1月22日08时中国北方地区雨雪天气过程结束阶段Fig.6 Same as Fig.5, but for the ending stage of rain and snow processes over North China at 08:00 BT 22 January 2018
3.3 南方天气个例检验
在南方地区雨雪天气过程的开始阶段(图7),从降水相态的实况可看出,我国南方出现大范围的雨雪天气,雨雪分界线呈东西向分布,位置分布在四川北部—重庆北部—湖南北部—湖北东北部—安徽南部—浙江北部一线。25日08时我国探空站共有24个站点发生降水,其中8个站为降雨,16个站为降雪,此时模型判识准确率为95.8%,降雨和降雪的TS评分分别为88.9%和93.4%。基于探空站实况数据的模型在上海站判识错误,上海站实况为降雪,而模型判识为降雨,其他站点模型均判识正确。
图7 同图5,但为2018年1月25日08时中国南方地区雨雪天气过程开始阶段Fig.7 Same as Fig.5, but for the beginning stage of rain and snow processes over South China at 08:00 BT 25 January 2018
从ECMWF和模型对25日08时降水相态的预报结果对比可看出,二者的预报分歧主要位于四川东部和湖南西北部地区。从降水相态实况来看,四川东部主要以降雨为主,只有部分站点转为降雪,ECMWF预报此时在四川东部全部为降雪,预报与实况存在较大偏差,而模型预报的结果在该地区表现为降雨,只在北部预报了降雪,与实况更为接近。在湖南西北部地区的降水相态实况此时已转为降雪,ECMWF预报此时在湖南西北部地区主要以降雨为主,模型预报该地区为降雪。此时ECMWF对降雨和降雪的TS评分分别为33.7%和41.3%,而模型则分别可达42.4%和52.8%,模型预报结果相对较好。
在南方地区雨雪天气过程的持续阶段(图8),从降水相态的实况可看出,此时雨雪分界线呈“V”型分布,位置主要沿四川中部—贵州东部—湖南中部—江西北部—浙江中部地区分布。27日08时我国探空站共有33个站点发生降水,其中10个站为降雨,23个站为降雪,此时模型判识准确率为94.0%,降雨和降雪的TS评分分别为81.8%和91.7%。基于探空站实况数据的模型在江西南昌站和浙江衢州站判识错误,南昌站实况为降雨,模型判识为降雪,衢州站实况为降雪,模型判识为雨,其他站点模型均判识正确。判识出错站点均出现在雨雪边界线附近,这些地区降雨和降雪的温湿层结曲线比较近似,这可能是导致模型判识出错的原因。
图8 同图5,但为2018年1月27日08时下旬中国南方地区雨雪天气过程持续阶段Fig.8 Same as Fig.5, but for the continuous stage of rain and snow processes over South China at 08:00 BT 27 January 2018
从ECMWF和模型对27日08时降水相态的预报结果对比可看出,二者的预报分歧主要位于雨雪分界线附近地区。在贵州东部、湖南中部、江西北部和浙江中部地区,降水相态的实况显示该地区均已转变为降雪,ECMWF预报仍主要以降雨为主,雨雪分界线的位置预报偏北,与实况存在一定偏差。而模型预报结果显示在该地区均为降雪,雨雪分界线的预报与实况基本一致,另外针对四川东南部和重庆西部地区的预报来看,模型较ECMWF预报的降水区更大,与实况更吻合。此时ECMWF对降雨和降雪的TS评分均为35.1%,而模型则分别可达40.6%和44.8%,模型预报结果相对较好。
在南方地区雨雪天气过程的结束阶段(图9),从降水相态的实况可看出,此时雨雪分界线呈东西向分布,位置分布在贵州南部—广西北部—湖南南部—江西中部—浙江中部一线。28日20时我国探空站共有17个站点发生降水,其中10个站为降雨,7个站为降雪,判识准确率为100%,模型基于探空站实况数据的判识结果与降水相态实况全部一致。
图9 同图5,但为2018年1月28日20时中国南方地区雨雪天气过程结束阶段Fig.9 Same as Fig.5, but for the ending stage of rain and snow processes over South China at 20:00 BT 28 January 2018
从ECMWF和模型对28日20时降水相态的预报结果对比可看出,二者的预报分歧主要位于湖南南部和江西中部地区。湖南南部的降水相态实况已转为降雪,ECMWF预报此时仍为降雨,雨雪分界线较实况偏北,而模型预报的结果在该地区表现为降雪,跟实况基本一致。从江西中部的雨雪分界线对比来看,ECMWF预报产品与实况基本一致,而模型预报的结果略偏南。此时ECMWF对降雨和降雪的TS评分分别为50.8%和13.6%,而模型则分别可达51.9%和22.1%,相较于ECMWF的降水相态预报产品,模型预报结果仍较好。
通过2018年1月下旬中国一次雨雪天气个例检验发现,基于深度学习网络的降水相态判识模型对实况数据的判识结果与降水相态实况基本一致,判识准确率保持在94%以上。针对整个雨雪天气过程,ECMWF降水相态预报产品对降雨和降雪的TS评分分别为31.3%和28.6%,而本模型的预报结果则分别可达40.2%和39.8%。ECMWF降水相态预报产品和模型的预报结果对中国的降水相态都有较好的预报能力,但对雨雪分界附近地区,模型的预报结果较ECMWF总体上更接近实况,表明基于深度学习网络的降水相态判识和预报中的应用是合理可行的,并且具有其独特的优势。
4 结论与讨论
本文利用1996—2015年共20年的探空资料和地面观测资料,应用深度学习网络技术构建降水相态判识模型,对2016—2017年的数据进行测试检验,并用2018年1月下旬中国一次大范围雨雪天气过程进行个例检验。在此基础上,对深度学习网络在降水相态判识和预报中的应用进行有益探讨,主要结论如下:
(1)利用2016—2017年冬季3 281个测试样本,对基于深度学习网络判识模型进行统计检验,该模型的判识准确率为98.2%,判识出错的样本主要集中在我国南方地区,降雨和降雪的TS评分分别可达97.4%和94.4%,空报率分别为1.7%和2.0%,漏报率分别为1.0%和3.7%,表明该模型较好地提取了雨、雪降水相态的结构特征,对于降水相态的判识表现出很好的效果。
(2)2018年下旬雨雪天气个例的检验表明,基于实况数据的模型在全国的判识结果与实况基本保持一致,判识准确率保持在94%以上,针对整个雨雪天气过程,ECMWF预报对降雨和降雪的TS评分分别为31.3%和28.6%,而模型则分别可达40.2%和39.8%,ECMWF降水相态预报产品和模型的预报结果对全国的降水相态都有较好的预报能力,针对雨雪分界线的预报,模型的预报结果较ECMWF总体上更接近实况,表征深度学习网络在降水相态预报中的应用具有可行性和一定的优势。
本文构建的模型还存在一些不足,可尝试结合气象要素指标,进一步提高模型在雨雪分界附近地区的判识准确率,另外本模型判识和预报的降水相态只有雨和雪两类,无法识别和预报雨雪分界附近地区出现的雨夹雪、冻雨等降水相态,需要进一步研究细化,改进模型使之具备多种复杂降水相态的判识和预报能力。