APP下载

深度神经网络方法在山东降水相态判别中的应用

2020-11-16朱文刚李昌义曲美慧温晓培

干旱气象 2020年4期
关键词:相态实况位数

朱文刚,李昌义,曲美慧,温晓培

(1.山东省气象科学研究所,山东 济南 250031;2.吉林省气象科学研究所,吉林 长春 130062)

引 言

冬季一次降水过程往往存在多种相态或多种相态之间的相互转换,而降水相态的判别是冬季降水预报成败的关键,也是决定降水过程是否为灾害性天气的重要指标。降水相态和大气热力学垂直廓线相关,例如完全低于冰点(0 ℃)的大气温度廓线会产生雪;近地面暖性大气层结厚度较厚时会产生雨、毛毛雨或冰雹;高空暖层盖住地面冷层时会产生雪、雨、冰粒或冻雨,这种情况下的降水类型取决于暖层和冷层的厚度、层结内最高和最低温度、层结内水成物的类型和大小[1]。

早期国外对降水相态的判别是利用大气层结厚度来区分不同类型的降水[2-5],后来发展成计算高空暖层的厚度及其最高温度、地面冷层的厚度及其最低温度,再综合阈值判断降水类型[6-9]。RAMER[10]提出使用各气压层的温度、相对湿度和湿球温度设置不同的阈值逐步诊断降水类型,SCHUUR等[11]在RAMER的基础上又加入偏振雷达的判据,进一步提高降水相态的判断。还有采用模式输出的各气压层气象要素作为预报因子,建立降水相态和预报因子的线性回归方程进行降水相态预报[12-13]。国内对于降水相态的判别研究多集中于分析单个降水过程的相态转变以及不同天气系统对降水相态的影响,给出降水相态在局部区域的经验阈值[14-20],或者利用大量历史资料统计分析对降水相态有影响的预报因子,得到一组混合判据指标[21-26],或者利用混合判据指标建立降水相态判别方程[27-30]。随着观测手段的发展,发现风廓线雷达的强度和下落速度、雨滴谱仪的浓度和反射率因子对临近降水相态变化的检测预报有一定的指示意义[31-33]。近年来,随着机器学习方法在气象领域的广泛应用,利用人工神经网络法和线性回归法对降水相态的预报结果表明前者的预报效果大都优于后者[34]。另外,利用数据挖掘的C5.0决策树和随机森林算法构建模型,尝试判别降水相态,结果表明两种方法预测结果均较准确,其中随机森林算法表现更优[35]。

之前对于降水相态识别的分析资料主要来源于探空站和地面自动站的观测,实际上降水相态受海拔、下垫面、气候背景等影响,局地性差异较大,且探空资料较稀疏,因此建立的降水相态预报方程不具有代表性。另外,雨滴谱参数和雷达参数在数值模式中难以表达,业务应用时如何选择降水相态预报因子,如何处理数值预报偏差等问题需要进一步研究讨论。而且统计方法存在阈值精度较低的问题,而方程判别因子的权重很难达到最优,且对雨夹雪判别能力不足等。针对这些问题本文首先分析ERA-Interim资料在山东降水相态识别方面的可行性,然后统计得到可用于降水相态判别的因子,进而利用判别因子建立降水相态判别方程和训练深度神经网络(deep neural networks,简称“DNN”)模型,检验判别方程和DNN法对雨、雪和雨夹雪的判别结果,分析存在的问题,最后,选择最优的降水相态判别模型应用到欧洲中心细网格预报和山东省中尺度数值预报模式中,以期为预报员提供更加准确的降水相态预报客观产品。

1 资料与方法

1.1 资 料

所用资料包括2008—2017年冬半年(11月至次年3月)山东省122个自动气象站(剔除地形偏差较大的泰山站)观测的地面2 m温度(T2 m)、降水相态资料;同期欧洲天气预报中心(ECMWF)ERA-Interim再分析资料(简称“ERAI”),包括地面2 m温度(T2 m),1000、975、950、925、900、875、850、800、700 hPa 温度(T1000、T975、T950、T925、T900、T875、T850、T800、T700),1000~850 hPa、850~700 hPa、700~500 hPa位势厚度(H1000-850、H850-700、H700-500)资料。ERAI资料是ECMWF继ERA40之后推出的一套新的再分析资料,空间分辨率为0.125°×0.125°,每日4个时次(00:00、06:00、12:00、18:00,世界时,下同)分析场。ERAI资料在处理上有很大进步:由三维同化系统(3DVAR)变成四维同化系统(4DVAR);更改了模型参数,增加了资料精度,水平分辨率提高;应用了更多卫星和地面观测资料等。通过对比分析发现ERAI资料在中国东部地区有很高的适用性,和实况的偏差主要由模式地形和站点高度的地形差引起[36-37]。对比分析时利用反距离权重插值法将ERAI资料插值到山东省122个自动气象站,与观测的降水相态资料进行时间匹配。

1.2 方 法

1.2.1 判别方程法

基于线性权重方法建立判别方程,具体公式如下[29-30]:

(1)

1.2.2 深度神经网络(DNN)法

DNN指全连接的深度神经网络,形式上和多层感知机一样,但DNN在训练算法上和人工神经网络(ANN)、多层感知机(MLP)不同,ANN和MLP容易过拟合,参数难以优化,训练速度比较慢,优化过程存在梯度弥散、收敛到局部最小值等问题。为克服神经网络训练中的问题,HINTON等[38]提出在非监督数据上建立多层神经网络的有效方法,具体分为两步:一是每次训练一层网络,使用自下上升非监督学习;二是调优,使用自上向下的监督学习,通过带标签的数据去训练,误差自上向下传输,对网络进行微调。图1为深度神经网络(DNN)结构示意图。

图1 深度神经网络(DNN)结构示意图Fig.1 Structure diagram of deep neural network (DNN)

1.3 检验方法

根据中国气象局《中短期天气预报质量检验办法》的规定,使用降水相态判别的检验指标,以雨、雪判别为例,实况观测为雨、判别也是雨的站次数(判别正确)记为“NA”,实况观测为雨、判别为雪的站次数(判别错误)记为“NC”,实况观测为雪、判别为雨的站次数(判别错误)记为“NB”,实况观测为雪、判别也是雪的站次数(判别正确)记为“ND”。对于多种降水相态的判别,把一种降水相态看成一类,其余的降水相态看成另一类。雨、雪相态检验公式如下:

(2)

式中:PCall(%)为雨、雪总准确率,表示雨和雪都判别正确的站次与雨和雪的总站次之比。

降水相态检验公式如下:

(3)

式中:RCr、PCr、P0r、FARr(%)分别为雨的准确率、精确率、漏报率、空报率。

降雪相态检验公式如下:

(4)

式中:RCs、PCs、P0s、FARs(%)分别为雪的准确率、精确率、漏报率、空报率。模型准确率和精确率呈负相关,为平衡准确率和精确率引入综合评价指标Fs,当Fs得分较高时说明试验方法比较有效,具体公式如下:

(5)

式中:PC是雨或雪的精确率,RC是雨或雪的准确率。除了这些量化的评价指标,还可以使用P-R曲线、ROC曲线评价机器学习模型的好坏[39]。

2 气象要素统计特征

降水相态判别因子的选取主要有温度、位势厚度、0 ℃层高度、露点温度、相对湿度、湿球温度、假相当位温等,其中,温度和位势厚度作为常用的判别因子对降水相态的判断具有重要指示意义。对不同降水相态的温度和位势厚度判别因子进行统计分析,最终选取8个降水相态判别因子(T2 m、T1000、T975、T950、T925、T850、H850-700、H1000-850)用于建立降水相态判别方程和训练降水相态DNN模型。

2.1 降水相态与温度

大气温度垂直廓线能够反映整层大气垂直结构及冷暖层结。雨滴在下落过程中,温度直接影响雨滴的相态变化,同时小雨滴相态变化通过吸收和释放潜热,反过来影响大气温度,温度廓线的微小变化(±0.5 ℃)也会对地面降水相态产生很大影响。

图2为2008—2017年山东冬半年实况和ERAI资料对应的不同降水相态(雨、雨夹雪、雪)的地面2m温度箱线图。可以看出,降雨样本,ERAI和实况箱线图10%~90%分位数区间基本一致,10%分位数的T2m约为2.0 ℃,当T2m>2.0 ℃时,实况和ERAI判断为降雨;降雪样本,10%~90%分位数区间ERAI的T2m比实况略微偏高,实况90%分位数为0.4 ℃,ERAI 90%分位数为0.9 ℃,而降雪90%分位数和雨夹雪10%分位数有交叉,因此降雪时T2 m阈值设为0 ℃,即当T2 m<0 ℃时,判断为降雪;雨夹雪样本,ERAI 10%分位数和实况比较一致约为0 ℃,但ERAI 90%分位数T2 m为3.3 ℃,而实况为2.5 ℃,即ERAIT2m比实况偏高,对雨夹雪的判断有一定影响,雨夹雪时T2 m阈值设为0~2.0 ℃。整体上,无论实况还是ERAI资料,T2 m有区分不同降水相态的能力,具有适用性,能够作为降水相态判别的因子。

图2 2008—2017年山东冬半年实况和ERAI资料不同降水相态(雨、雨夹雪、雪)的地面2 m温度箱线图Fig.2 The boxplot of T2m for different precipitation types (rain, sleet, snow) corresponding to the actual situation and ERAI data in winter half year in Shandong Province during 2008-2017

图3为2008—2017年山东冬半年ERAI资料不同降水相态下、不同气压层的温度箱线图。可以看出,雨和雨夹雪有明显的温度界限,雨夹雪和雪的温度界限不明显,高度越高温度对区分降水相态的能力越弱,850 hPa以上,不同降水相态的箱线图10%~90%交叉较大。雨和雨夹雪在1000、975、950、925 hPa有明显的温度特征,不同相态箱线图10%~90%基本没有交叉,但1000 hPa接近地面,受地形影响误差较大,综合考虑当各层温度同时满足以下条件时判别为降雨:T850>-3 ℃,T925>-1 ℃,T950>0 ℃,T975>0 ℃,T1000>2 ℃,T2 m>2 ℃。而雨夹雪和雪的温度特征不明显,箱线图10%~90%温度区间在各气压层交叉都较大,因此取20%~80%温度区间,得到雪的各层分类阈值指标:T850<-7 ℃,T925<-4 ℃,T950<-3 ℃,T975<-3 ℃,T1000<-1 ℃,T2 m<0 ℃。

2.2 降水相态与位势厚度

位势厚度能够反映大气的冷暖结构,影响小水滴下落过程中吸收和释放潜热,图4为2008—2017年山东ERAI资料冬半年不同降水相态对应的位势厚度箱线图。总体上,在区分降水相态能力上,位势厚度指标不如温度指标特征明显,平均值和中位数比较接近,满足正态分布,且H1000-850优于H850-700、H700-500。在雨、雨夹雪、雪的判断上,H1000-850雨和雨夹雪的10%~90%分位数交叉范围较小,H1000-850>130 dagpm时判断为降雨,H1000-850雨夹雪和雪的10%~90%分位数有交叉范围,因此取雨夹雪20%分位数和雪80%分位数作为阈值指标,H1000-850<128 dagpm判断为降雪,H1000-850位于128~130 dagpm之间判断为雨夹雪。H850-700雨和雨夹雪的10%~90%分位数交叉范围较大,因此取雨25%分位数和雨夹雪75%分位数作为阈值,H850-700>153 dagpm为降雨,H850-700取雨夹雪25%分位数和雪75%分位数作为阈值指标,H850-700<150 dagpm判断为降雪,H850-700位于150~153 dagpm之间为雨夹雪。H700-500不同降水相态间的箱线图交叉范围较大,散点图也没有明显的边界特征(图略),因此不考虑H700-500作为降水相态判断的预报因子。

图3 2008—2017年山东冬半年ERAI资料不同降水相态下、不同气压层的温度箱线图Fig.3 Temperature boxplot of different precipitation types on different pressure layers based on ERAI data in winter half year in Shandong Province during 2008-2017

图4 2008—2017年山东冬半年ERAI资料不同降水相态的位势厚度箱线图Fig.4 Boxplot of geopotential thickness of different precipitation types based on ERAI data in winter half year in Shandong Province during 2008-2017

3 试验设计和检验

3.1 试验设计

通过对降水相态和温度、位势厚度的分析,选取T2 m、T1000、T975、T950、T925、T850、H850-700、H1000-850共8个因子建立降水相态判别方程和训练DNN模型。经统计2008—2017年山东冬半年雨、雪和雨夹雪分别有14 801、8730、979站次,将数据随机分成训练样本和测试样本,比例为9:1。训练样本用来建立判别方程和训练DNN模型并验证模型,雨、雪和雨夹雪分别有13 321、7857、882站次,测试样本用来进行检验,雨、雪和雨夹雪分别有1480、873、97站次。

3.1.1 建立降水相态判别方程

利用8个判别因子的阈值分别进行降水相态识别,检验得到雨、雪和雨夹雪的准确率如表1所示,近地面的准确率较高,但在实际业务应用时,地面预报误差较大,单一判据得分并不理想。因此,将8个判据利用公式(1)建立3种降水相态的判别方程,具体公式如下:

(6)

式中:y0、y1、y2分别为雨、雪和雨夹雪的判别方程。表2为2008—2017年山东冬半年判别方程训练样本降水相态判别检验结果:雨的准确率为88.5%,实况为雨判别成雪占0.8%、实况为雨判别为雨夹雪占10.7%,雨的漏报率为11.5%;雪的准确率为81.8%,实况为雪判别为雨占0.8%、实况为雪判别为雨夹雪占17.4%,雪的漏报率为18.2%;雨夹雪的准确率为63.6%,实况为雨夹雪判别为雨占13.3%、实况为雨夹雪判别为雪占23.1%,雨夹雪的漏报率为36.4%。相比用单个判别因子,判别方程的结果更合理,但是雨夹雪的准确率较低,这和前人研究结论一致[29-30]。

表1 2008—2017年山东冬半年训练样本8个判别因子降水相态判别准确率Tab.1 Accuracy of precipitation type discrimination based on 8 discriminant factors of training samples in winter half year in Shandong Province during 2008-2017 单位:%

表2 2008—2017年山东冬半年判别方程训练样本降水相态判别检验结果Tab.2 Test results of precipitation type discrimination of training samples using discrimination equation in winter half year in Shandong Province during 2008-2017

3.1.2 训练DNN模型

训练模型之前对数据进行标准化、上采样等预处理,为验证模型的有效性,采用10次交叉验证策略。DNN方法的参数设置:迭代算法使用随机梯度算法adam,激活函数使用relu,包含5个隐含层,每个隐含层神经元的个数分别为64、64、32、32、16。

表3为2008—2017年山东冬半年训练样本DNN方法10次交叉验证的结果,图5为DNN方法的ROC曲线和P-R曲线,ROC曲线越左凸越好,P-R曲线越右凸越好,AUC为ROC曲线和坐标轴围成的面积,其值越接近1越好。10次交叉训练结果接近平均值,说明数据随机划分合理,模型稳定。从平均值来看,雨的识别最高,精确率(PC)、准确率(RC)、Fs得分分别为95%、90%、93%,其次为雪的识别,PC、RC、Fs得分分别为90%、81%、86%,雨夹雪的识别最差,PC、RC、Fs得分分别为76%、87%、81%。雪的精确率大于雨夹雪的精确率,但雪的准确率小于雨夹雪的准确率,雨夹雪的空报率高于雪的空报率,雪Fs得分大于雨夹雪Fs得分。另外,雨、雪和雨夹雪ROC曲线的左凸趋势、P-R曲线右凸趋势和AUC值(雨、雪、雨夹雪分别为0.99、0.96、0.93)也说明DNN方法对雨识别最高,其次为雪、雨夹雪的识别。

对比DNN(表4)和判别方程(表2)的结果,DNN方法雨、雪、雨夹雪的准确率分别为90.7%、82.8%、87.2%,判别方程雨、雪、雨夹雪的准确率分别为88.5%、81.8%、63.6%,说明DNN方法优于判别方程方法。

3.2 检 验

3.2.1 随机检验

利用测试样本进行随机检验,雨、雪和雨夹雪样本分别有1480、873、97站次。表5和表6分别为2008—2017年山东冬半年利用2种判别方法对降水相态判别的检验结果,可以看出判别方程的总准确率为85.8%,DNN方法的总准确率为87.9%,提高2.1%;判别方程雨、雪和雨夹雪的准确率分别为88.4%、83.5%、66.0%,DNN方法雨、雪和雨夹雪的准确率分别为90.3%、83.7%、87.6%,分别提高1.9%、0.2%和21.6%,说明DNN方法大大提高了雨夹雪的判别能力。

表3 2008—2017年山东冬半年DNN方法训练样本10次交叉验证结果Tab.3 The 10 times cross validation results of training samples using DNN method in winter half year in Shandong Province during 2008-2017

图5 DNN方法ROC曲线(a)和P-R曲线(b)Fig.5 ROC curve (a) and P-R curve (b) of DNN method

表4 2008—2017年山东冬半年DNN方法训练样本降水相态判别检验结果Tab.4 Test results of precipitation type discrimination of training samples using DNN method in winter half year in Shandong Province during 2008-2017

表5 2008—2017年山东冬半年判别方程测试样本降水相态判别检验结果Tab.5 Test results of precipitation type discrimination of test samples using discriminant equation in winter half year in Shandong Province during 2008-2017

表6 2008—2017年山东冬半年DNN方法测试样本降水相态判别检验结果Tab.6 Test results of precipitation type discrimination of test samples using DNN method in winter half year in Shandong Province during 2008-2017

3.2.2 个例检验

以上建立了降水相态判别方程和训练DNN模型,并对两种方法进行了对比检验。然而在实际业务应用时,需将降水相态预报模型应用到实时数值预报模式中,由于不同模式预报偏差不同,且预报时效越长预报偏差也越大,预报偏差会严重影响降水相态的判别能力。因此利用ERAI资料训练的降水相态预报模型能否应用到数值预报?两种方法的预报效果如何?以ECMWF细网格模式预报为例,2016年12月26日06:00山东省出现一次大范围的雨、雪、雨夹雪天气过程。图6为欧洲中心2016年12月25日12:00起报未来16~18 h累计降水量空间分布和实况观测、判别方程法、DNN方法判别的12月26日06:00雨、雪和雨夹雪站点填图。可以看出,全省实况观测109站出现降水,其中雨39站,雪53站,雨夹雪17站,模式漏报3站[图6(a)]。通过对106站的检验结果表明:判别方程对雨和雪的判别有一定的识别能力,但在不同降水相态的分界线上误差较大[图6(b)],雨、雪和雨夹雪的准确率分别为83.3%、69.8%和58.8%(表7),说明该方法雪和雨夹雪的识别能力不足,有30.2%的雪漏报成雨夹雪,29.4%的雨夹雪漏报成雪。目前业务上常把雨夹雪和雪都当做雪来预报,此时判别方程雨和雪准确率分别为83.3%和89.2%,但纯雪24 h降水量超过10 mm则为暴雪,雨夹雪24 h降水量超过10 mm则达不到暴雪级别,因此需要提供更精细化的预报服务。表8为2016年12月26日06:00 DNN方法降水相态判别检验结果,通过对比,DNN方法的判别能力明显优于判别方程法,全省106站判别方程判别错误29站[图6(b)、表7], DNN方法判别错误14站[图6(c)、表8],DNN方法雨、雪和雨夹雪的准确率分别为91.7%、84.9%和82.4%,比判别方程分别提高了8.4%、15.1%和23.6%。个例检验结果表明将DNN降水相态预报模型应用到实时数值预报模式中取得了较好的应用效果,对降水相态的识别能力优于判别方程。

图6 欧洲中心2016年12月25日12:00起报未来16~18 h累计降水量空间分布(a、b、c,阴影,单位:mm)和实况观测(a)、判别方程判别(b)、DNN方法判别(c)的2016年12月26日06:00雨、雪和雨夹雪站点填图(其中红色符号为判别错误站,黑色符号为判别正确站)Fig.6 The distribution of cumulative precipitation of 16~18 hours in the future starting from 12:00 UTC on 25 December 2016 fore casted by the European center (a, b, c, shadow, Unit: mm) and the map of rain, snow and sleet station at 06:00 UTC on 26 December 2016 from actual observation (a), discriminant equation (b) and DNN method (c) discrimination(the red symbol for incorrect station, black symbol for correct station)

表7 2016年12月26日06:00判别方程降水相态判别检验结果Tab.7 Results of discriminant test of precipitation type using discriminant equation at 06:00 UTC on 26 December 2016

表8 2016年12月26日06:00 DNN方法降水相态判别检验结果Tab.8 Results of discriminant test of precipitation type using DNN method at 06:00 UTC on 26 December 2016

4 结论和讨论

(1)分析ERAI不同降水相态的温度特征和位势厚度特征,得到8个可用于降水相态判别的因子(T2 m、T1000、T975、T950、T925、T850和H850-700、H1000-850)及其阈值指标,并利用这些要素建立适合山东区域的降水相态判别方程,相比较用单个判别因子,判别方程的结果更加合理,但雨夹雪的准确率较低。

(2)考虑判别方程的阈值精度低和权重难以取最优,利用DNN方法训练降水相态预报模型,通过随机检验和利用欧洲中心细网格预报进行个例检验,结果表明DNN方法的降水相态识别能力优于判别方程,尤其是提高了对雨夹雪的识别能力。

ERAI地面2 m温度和近地面层温度受地形的影响偏差较大,应该进行地形订正。在实际的业务应用时由于数值预报存在系统性偏差,且随着预报时效越长偏差越大,预报偏差会严重影响降水相态的判别能力,因此需要偏差订正;DNN方法对降水相态的识别能力优于判别方程方法,能够得到较好的效果,但是无论哪种方法都依赖于数值模式的降水预报和温度预报;对降水相态的识别研究只考虑了雨、雪和雨夹雪3种相态,将来进一步研究冻雨、冰雹等天气现象的特征识别,另外只分析温度和位势厚度的降水相态特征,湿球温度、相对湿度、露点等气象要素能否进一步提高降水相态识别的准确率有待进一步研究,尤其是降水相态实施自动观测以后,需要根据仪器观测原理增加雷达垂直速度重新训练机器学习模型用于降水相态的预报。

猜你喜欢

相态实况位数
五次完全幂的少位数三进制展开
乡村小学的愿望与现实——宜君乡村教育实况
天舟一号货运飞船发射实况掠影
SBS改性沥青相态结构的参数化表征方法
可爱潮咖们的独门彩妆实况直播
四川省降水相态识别判据研究
PS/PLA共混物的相态结构及其发泡行为研究
遥感卫星CCD相机量化位数的选择
泡沫油WINPROP相态研究
“判断整数的位数”的算法分析