APP下载

一种基于神经网络的中国区域夏季降水预测订正算法

2022-05-17涛,陈杰,汪方,韩

干旱气象 2022年2期
关键词:距平树突降水量

李 涛,陈 杰,汪 方,韩 锐

(1.南京信息工程大学人工智能学院,江苏 南京 210044;2.南京信息工程大学电子与信息工程学院,江苏 南京 210044;3.国家气候中心,北京 100081;4.中国人民解放军93117部队,江苏 南京 210018)

引 言

降水是引发干旱和洪涝的最主要气象因素,准确预测降水一直是气候预测的一项重要任务。随着对天气气候系统物理机制及外强迫认识的不断深入,气候数值模式得到了优化和发展,未来气候模式系统将成为模拟和预测气候变化的重要工具。然而,数值预报模式在降水预测时易受大气初始状态和边界条件等因素影响,往往会导致模式预测结果存在误差。因此,开展模式降水预测订正技术研究非常重要,这对推动社会经济可持续发展和防灾减灾具有重要意义[1]。

数值天气预报模式是当前天气预报的核心,只要给定大气初始状态和边界条件,通过求解描述大气运动变化规律的方程组,就可以精确计算未来大气状态。美国国家大气研究中心(National Center for Atmospheric Research,NCAR)研制的区域气候模式系统(regional climate modeling system,RegCM),在全球许多区域得到广泛发展和应用。随后,NCAR以先进的软件架构为基础研制了下一代中尺度预报模式WRF(weather research and forecasting model),在并列运行上表现卓越。考虑到WRF模式新的动力框架和物理过程等设计以及并行计算效率,我国也持续研发了新一代CWRF(climate extension of WRF)模式,该模式拥有WRF模式所有功能,既可用于数值天气预报,也能用于气候模拟[2-3]。预报检验是考察模式性能的关键[4]。研究发现,CWRF模式对中国夏季降水及相关物理过程的模拟能力较全球气候模式BCC_CSM(Beijing Climate Center climate system model)有大幅提升,但由于CWRF模式的边界条件依赖于全球气候模式,使得全球气候模式对下边界条件和侧边界环流的模拟误差带入该模式甚至放大,严重影响回报及预测技巧[5-7]。因此,在利用CWRF模式进行降水预测前,需对模式回报降水进行订正。

CWRF模式模拟误差订正主要有2个方面:(1)过程订正。在回报或预测过程中,对下垫面和侧边界条件进行订正,如采用系统性偏差对环流订正。(2)后验订正。采用客观方法对模式回报结果进行订正,即假定模式对物理过程和相关环流间关系模拟足够好,理论上可以达到同过程订正相同效果,主要的方法有线性回归法、分位数映射法和机器学习等。后验订正较系统性偏差对大气环流订正的计算效率和可行性高,如分位数映射(quantile mapping,QM)法对RegCM4.4模拟的逐日降水误差进行订正,当模拟值和观测值比较接近时订正效果较好[8]。目前,机器学习方法中的人工神经网络(artificial neural networks,ANN)在气候预测方面已发展较为成熟,在短期降水预报上具有良好的应用前景[9-12]。ANN是一种不考虑逻辑运算的非线性映射的黑盒网络,而树突(dendrite, DD)网络则是一种具有逻辑运算关系的白盒网络,具有更好的泛化能力,其特点是利用泰勒多项式,对网络输入特征进行逻辑组合运算,将DD模块加入ANN可以提高网络性能和泛化能力[13]。因此,将人工树突神经网络(artificial dendritic neural network,ADNN)算法有效应用于CWRF模式降水预测订正中,可为提升模式预测精度提供一种新思路。为此,本文通过对ANN和DD的相关性研究和模型实现,利用CWRF区域气候模式回报数据和观测数据的关联性,建立机器学习算法模型,实现对中国CWRF模式回报夏季降水订正,以提高该区域气候模式对降水模拟的准确性。

1 数据和方法

1.1 数据来源

所用数据为中国气象局国家气候中心提供的1996—2019年CWRF模式多个物理配置组合历史回报的逐日和逐月数据,包括降水量、风速、地面10 m累积风量、地面2 m相对湿度及温度、500 hPa高度场、海平面气压、整层水汽和垂直速度等要素。该区域气候模式的水平分辨率30 km,垂直方向36 层,顶层高度50 hPa,模拟范围58.4°E—161.6°E、8.37°N—58.75°N,水平格点数232×171。挑选7个物理配置组合,分别为case01、case02、case06、case15、case16、case23和case28,每一组合都有00:00、06:00、12:00、18:00(北京时)4个起报时次,共28组数据样本。此外,选用除南海诸岛、台湾、钓鱼岛等区域外中国其余区域1996—2019年夏季2288个地面气象站逐日降水观测资料作为目标数据,本研究不包括上述区域。文中涉及的中国及省(市、区)行政边界是基于国家测绘地理信息局标准地图服务网站下载的审图号为GS(2019)1822号的标准地图制作,底图无修改。

1.2 方法简介

1.2.1 人工神经网络算法模型

人工神经网络(ANN)是由大量神经元通过不同权值连接组成的具有非线性、自适应信息处理能力的系统,它能够逼近任意非线性函数。传统的降水预测及订正方法需要了解降水机理及影响因素,而ANN方法则不需要清楚降水机理,通过挖掘数据间的联系,建立有效的算法预测模型对降水进行准确预测,同时不断更新相关气象要素与降水的联系,考虑外界条件的影响和降水规律,实现对未来降水的准确预测,流程见图1。其中:X=[x1,x2,…,xn],W=[w1,w2,…,wn],b=[b1,b2,…,bn],Y=[y1,y2,…,yn]。

图1 人工神经网络算法模型流程图Fig.1 Flow chart of artificial neural network algorithm model

ANN算法模型包括信息正向传播和误差反向传播两部分,x1~xn是从神经元传入的输入特征信号;w1~wn是对应不同神经元传入信号的权重;b1~bn表示偏置,是为实现准确输出而设置的一个参数。不同神经元通过不同的权重矩阵组合为最终的输入信号。f(*)为激活函数,在模型中增加非线性函数,能够很好实现模型对非线性问题的学习。ANN通过误差反向传播调整神经元的权重,使模型的损失沿着负梯度方向传播。

构建ANN的主要参数有隐藏层节点的个数、激活函数以及学习率等。本文神经网络隐藏层节点个数是根据如下经验公式[14]确定:

(1)

式中:Nh表示隐藏层神经元个数;Ni表示算法模型输入特征个数;No表示算法模型输出神经元个数;R表示常数,取值范围是1~10。根据R的取值进行逐步实验以确定隐藏层节点数,通过比较不同节点数得到的模型预测性能,选择效果最好的节点数作为隐藏层神经元节点数。

1.2.2 人工树突神经网络算法模型

树突(DD)网络模型是假设输出的逻辑表达式中包含输入信号之间对应类的与或非逻辑关系,其可在学习后识别该类。DD网络具有白盒属性,在网络模型中调节DD模块可获得不同精度和较低计算复杂度,它可用于广义工程,作为深度学习模块具有广阔的发展潜力。DD模块的表达式[15]如下:

Al=Wl, l-1Al-1∘X

(2)

式中:Al-1和Al分别代表模型的输入和输出;X表示DD的输入;Wl, l-1是l-1模块到l模块的权重矩阵;∘是矩阵对应元素相乘,有时称为Hadamard积。

人工树突神经网络(ADNN)算法模型是在ANN基础上增加了DD模块,不同DD模块的连接增强了对神经元携带信息的处理能力,模块的数量可以有效调整DD的逻辑表达能力,避免过度拟合,更易于获得具有突出泛化能力的模型。因考虑逻辑运算,DD以很高的概率收敛到全局最优,引入DD模块来改进ANN,能够提高ANN算法模型的泛化能力。ADNN算法模型流程见图2。

图2 人工树突神经网络算法模型流程图Fig.2 Flow chart of artificial dendritic neural network algorithm model

1.2.3 降水回报订正评价指标

采用气象业务上常用的均方误差(mean square error,MSE)、时间相关系数(temporal correlation coefficient,TCC)、距平相关系数(anomaly correlation coefficient,ACC)、趋势异常综合检验评分Ps等4项指标[16],评估ADNN方法对CWRF模式夏季降水回报的订正效果。MSE、TCC、ACC的表达式如下:

(3)

(4)

(5)

趋势异常综合检验评分是业务上常用的预测评分指标,其公式为:

评分步骤如下:

①逐站判定预测趋势是否正确,统计趋势预测正确的总站数N0;

②逐站判定一级异常预测是否正确,统计一级异常预测正确的总站数N1;

③逐站判定二级异常预测是否正确,统计二级异常预测正确的总站数N2;

④预测未出现二级异常,而实况出现降水距平百分率Roi≥100%或Roi=-100%的站数M;

⑤统计实际参评的站数N,即规定参加考核的站数减去实况缺测的站数;

⑥a、b和c分别为气候趋势项、一级异常项和二级异常项的权重系数,本文分别取2、2和4。

2 夏季降水预测订正模型搭建

2.1 中国气候区域划分

中国气候地域多样性特征明显,对其夏季降水回报数据直接建模,难以解决区域差异性问题,致使单一预测模型很难准确预测大范围夏季降水。为实现全国CWRF模式夏季降水回报数据的有效订正,需根据不同区域气候特点进行分区建模预测,以提高模型的泛化能力,进而提高夏季降水的预测精度。根据降水规律,将中国划分成8个区域[17],分别为西北地区(NWCH,72.5°E—100°E、35°N—50°N)、青藏高原区(TP,77.5°E—100°E、22.5°N—35°N)、黄河上中游(UMRYR,100°E—110°E、33°N—45°N)、西南地区(SWCH,100°E—110°E、20°N—33°N)、东北地区(NECH,110°E—135°E、41°N—55°N)、华北地区(NCH,110°E—125°E、35°N—41°N)、淮河流域(YHRB,110°E—125°E、25°N—35°N)和华南地区(SCH,105°E—125°E、17.5°N—25°N),区域划分边界见图3。

图3 中国降水区域划分Fig.3 The regional division of precipitation in China

2.2 特征量筛选

采用皮尔逊相关系数对降水观测数据进行特征选择,即分别计算夏季观测降水量与CWRF模式回报降水量、风速、累积风量、相对湿度、温度、500 hPa高度场、海平面气压、整层水汽和垂直速度的皮尔逊相关系数,并进行排序,挑选相关性显著(通过α=0.1的显著性检验)的要素作为特征量。为避免年代均值对订正的影响,气象预测业务常采用距平指标用于中长期预测。因此,本文采用距平指标对各要素数据进行分析。经计算,与夏季观测降水量相关性显著的5个要素分别是CWRF模式回报降水量、相对湿度、累积风量、风速、温度。

2.3 数据组织与模型搭建

模式回报的夏季降水量为网格化数据,考虑点对点订正可能导致单点订正故障,故基于邻近区域气候相似性特征,将目标点周围划分M×M的小区域,则每个目标格点有M×M个特征数据。采用两种数据组织方式:(1)CWRF模式回报降水集成方法。M取值3,即目标格点周围3×3的小区域。考虑降水月际间的影响,采用5个月(4—8月)的回报降水距平和均值进行组织作为模型训练输入特征,输出则为当年观测站4—8月降水距平。(2)多要素集成方法。选用皮尔逊相关性显著的CWRF模式回报降水量、相对湿度、累积风量、风速、温度5个要素,按照3×3区域,将其6—8月(或者单个月份)距平数据作为模型训练输入特征,输出则为对应6—8月(或者单个月份)降水量距平。根据上述两种方式,构造适合网络模型训练的数据格式。

通过上述数据组织方式,分别对4个起报时次7个物理参数配置的28组CWRF模式回报数据,采用一种或多种预报因子进行降水预测,然后对28组预测结果采用加权平均法进行集成,作为最终结果输出。基于ADNN的夏季降水预测流程如图4所示,首先对组织好的数据进行划分,70%数据作为训练集,20%数据作为验证集,其余的作为测试集;然后选用MSE作为误差损失函数进行网络模型训练,最后获得一个泛化能力最好的模型。通过对上述两种数据组织方式的预测结果进行分析,发现多要素集成方法的订正效果优于单要素,后期将采用多要素集成方法进行数值试验。

图4 基于人工树突神经网络算法模型的夏季降水预测流程图Fig.4 Flow chart of summer precipitation forecast based on ADNN algorithm model

基于气象要素的年代际影响,在训练ADNN模型时采用近Na数据,然后预测N+1年的降水距平值,本文N选取的范围为3~10。通过对不同时长序列数据进行回归分析,发现采用近5 a的数据训练模型,其订正效果最好。

3 CWRF模式夏季降水回报及订正结果分析

3.1 不同分区精度评价

3.1.1 时间相关系数

针对中国8个子区,分别计算1996—2019年每个格点CWRF模式回报的夏季降水及其ADNN算法订正值与观测值的TCC值。从图5看出,经ADNN算法订正后,中国不同区域夏季降水回报的TCC正值范围均有不同程度的扩大,尤其是中国夏季雨带关键区域(UMRYR、NCH、NECH、YHRB、SCH)TCC订正效果较为明显,其中黄河流域、华北地区、江淮流域TCC值较其他区域增大明显,且通过α=0.1显著性检验的区域明显增大。另外,计算了不同区域夏季回报降水订正前后的TCC均值,发现除青藏高原区、西南地区、华南地区外,其余地区订正后的TCC值较订正前提高了0.09~0.25,其中黄河上中游和华北地区提高较明显。

3.1.2 距平相关系数

基于CWRF模式回报及其ADNN算法订正结果,对中国8个区域分别计算1996—2019年夏季回报降水量、订正降水量与观测降水量的距平相关系数。从图6看出,8个区域中ADNN算法订正的夏季降水量的ACC均值较CWRF模式回报均有不同程度的增大,且年际波动幅度整体相对较小,表明ADNN订正后结果减小了CWRF模式回报误差,其中UMRYR、NECH、TP、SCH、SWCH和YHRB等区域ACC值提高明显,尤其是中国夏季雨带关键区江淮流域、东北地区和西南地区。另外,除西北地区和华北地区外,其余地区订正后的ACC均值较订正前提高了0.08~0.87,其中黄河上中游提高最明显,说明ADNN算法对CWRF模式回报的中国不同区域夏季降水量具有一定的订正能力。

图5 1996—2019年中国8个区域CWRF模式回报的夏季降水量及其ADNN算法订正值与观测值的时间相关系数[绝对值大于等于0.33的填色区由浅至深分别通过α=0.1、0.05和0.01的显著性检验(下同)]Fig.5 The temporal correlation coefficients of summer precipitation reforecast of CWRF model and its correction of ADNN algorithm with the observation in the eight regions of China from 1996 to 2019(The colour areas from light to dark with absolute value greater than or equal to 0.33 passed the significance tests at 0.1, 0.05 and 0.01 level, respectively (the same as below))

图6 1996—2019年中国8个区域CWRF模式夏季回报降水量及其ADNN算法订正值与观测值的距平相关系数Fig.6 The anomaly correlation coefficients of summer precipitation reforecast of CWRF model and its correction of ADNN algorithm with the observation in the eight regions of China from 1996 to 2019

3.2 中国全区精度评价

3.2.1 均方误差

不同参数配置对模式模拟结果有一定影响,因此分别计算了不同物理参数配置下CWRF模式夏季回报降水量及其人工树突神经网络算法订正值与观测值的均方误差(MSE)。从图7看出,不同物理参数配置下CWRF模式夏季回报降水量与观测值的年平均MSE在8.5~11.0 mm之间(平均9.5 mm),可见不同物理参数配置对CWRF模式夏季降水回报精度有一定影响,其中case02和case28的回报误差明显偏大;经ADNN算法订正后年平均MSE均有不同程度下降,且7个配置的MSE较接近,基本在7.0 mm附近波动,MSE整体下降约26%。订正后的7个MSE趋于稳定,说明人工树突神经网络算法模型对CWRF模式夏季降水预测具有稳定的正订正技巧,能够在一定程度上降低CWRF模式预测误差。

图7 1996—2019年不同物理参数配置下CWRF模式夏季回报降水订正前后的均方误差Fig.7 MSE of summer precipitation reforecast of CWRF model under different physical parameter configurations before and after the correction from 1996 to 2019

3.2.2 时间相关系数

图8是CWRF模式28组样本集合(4个时次、7种物理参数配置)回报的夏季降水量及其ADNN算法订正值与观测值的时间相关系数。可以看出,订正前TCC为正值的区域相对较少,且较为分散,尤其在中国东部降水关键区长江流域至华南一带、华北区域以及青藏高原区、西南地区出现大面积的负相关区[图8(a)];经ADNN算法订正后,正相关区及其通过α=0.1显著性检验的区域明显增大,黄河中上游、华北地区、西北地区有较高的相关性,显示良好的订正效果。需要注意的是,订正后的青藏高原区和西南地区仍存在大面积负相关区,表明人工树突神经网络算法模型对上述地区CWRF模式夏季回报降水量无订正技巧。总体上,订正后TCC值较订正前提高约0.10。

图8 1996—2019年中国主要大陆CWRF模式夏季回报降水量(a)及其ADNN算法订正值(b)与观测值的时间相关系数Fig.8 The temporal correlation coefficients of summer precipitation reforecast of CWRF model (a) and its correction of ADNN algorithm (b) with the observation in main land of China from 1996 to 2019

3.2.3 距平相关系数

图9是CWRF模式夏季回报降水量和ADNN算法订正降水量与观测降水量的距平相关系数。可以看出,近24 a来CWRF模式回报的中国夏季降水量ACC值平均约为-0.01,多数年份ACC值小于0,呈现空间负相关;ADNN算法订正后,ACC值明显增大,整体较订正前提高约0.10,且多数年份ACC值大于0。另外发现,订正后ACC值稳定性较订正前有所提高,具有良好的订正效果。

图9 1996—2019年CWRF模式夏季回报降水量和ADNN算法订正值与观测值的距平相关系数Fig.9 The anomaly correlation coefficients of summer precipitation reforecast of CWRF model and its correction of ADNN algorithm with the observation from 1996 to 2019

3.2.4 趋势异常综合检验评分

图10是CWRF模式夏季回报降水量和ADNN算法订正降水量与观测降水量的趋势异常综合检验评分。可以看出,1996—2019年CWRF模式夏季回报降水量的Ps评分平均为67.79,经ADNN算法订正后Ps评分增至74.34,且多数年份Ps值高于订正前,表明人工树突神经网络算法模型对CWRF模式夏季回报降水量具有一定的正订正技巧,订正后整体预测精度有所提高。另外,订正后Ps评分整体比CWRF模式原始回报波动小,呈现稳定状态,说明订正后夏季降水预测技巧较订正前在一定程度上有所提升。

图10 1996—2019年CWRF模式夏季回报降水量和ADNN算法订正值与观测值的趋势异常综合检验评分Fig.10 The trend abnormal comprehensive test scores of summer precipitation reforecast of CWRF model and its correction of ADNN algorithm with the observation from 1996 to 2019

3.2.5 2019年夏季降水量对比

图11是中国2019年夏季降水量和CWRF模式夏季回报降水量及人工树突神经网络算法夏季订正降水量的空间分布。可以看出,2019年中国夏季降水自东南向西北逐渐递减,人工树突神经网络算法订正的大部分区域降水变化趋势与CWRF模拟一致,但订正值偏小,说明人工树突神经网络算法模型对晴空或者雨量很小的区域订正效果较好,雨量大的区域订正效果不明显,如在淮河流域(YHRB)、华南地区(SCH)、西南地区(SWCH)降水量较其他区域大,人工树突神经网络算法模型订正效果不明显。另外,与实况相比,CWRF模式回报的夏季降水量大部分区域比较接近,但存在一些降水量偏大的异常值(青藏高原东南侧),经人工树突神经网络算法模型订正后有所改善。

综上所述,人工树突神经网络算法模型订正后的均方误差、时间相关系数、距平相关系数和趋势异常综合检验评分等评价指标均有所改善,且该模型可以有效改善CWRF模式模拟降水的异常值。因此,人工树突神经网络算法模型可在一定程度上降低CWRF模式夏季回报降水量误差,提高CWRF模式夏季降水预测技巧。

图11 中国主要大陆2019年夏季降水量空间分布(单位:mm)(a)气象站观测降水,(b)CWRF模式回报降水,(c)人工树突神经网络算法模型订正降水Fig.11 The spatial distribution of precipitation in summer of 2019 in main land of China (Unit: mm)(a) the observed precipitation at meteorological stations, (b) the reforecasted precipitation of CWRF model,(c) the corrected precipitation of ADNN algorithm model

4 结 论

(1)就中国各分区而言,CWRF模式夏季回报降水量经人工树突神经网络算法模型订正后,其与观测值的ACC和TCC值大部地区均提高0.10左右;就整个区域而言,CWRF模式夏季回报降水量订正后的MSE下降26%,ACC和TCC值提高0.10,Ps评分由67.79提高到74.34,降低了夏季降水异常值的影响,从而提高了CWRF模式对夏季降水预测的精准度。

(2)人工树突神经网络算法模型订正的夏季回报降水量在大部区域与CWRF模式模拟趋势一致,但订正值偏小,其对晴空或雨量小的区域订正效果较好,雨量大的区域订正效果不明显。

总体上,CWRF模式夏季回报降水量经人工树突神经网络算法模型订正后相关评价指标均有所改善,表明人工树突神经网络算法模型能够有效降低CWRF模式夏季降水量历史回报误差,从而提高该模式对夏季降水预测技巧。然而,在对模式夏季降水量历史回报数据订正时,未剔除极端天气数据的影响,可能会降低ADNN算法模型订正的准确率,在之后的研究中将对降水数据进行异常值分析,剔除异常数据对整个预测模型的影响。另外,中国区域降水数据分布不均衡,存在长尾效应,未来可通过由高到低的分层,采用逐层建模的方式来提高降水预测准确率。

猜你喜欢

距平树突降水量
1958—2019年新兴县汛期降水量的气候特征
飓风Edouard(2014)暖心结构的多资料对比分析
成都市年降水量时空分布特征
小鼠臂丛离断对脊髓运动神经元树突结构与形态退变的影响
神经元树突棘病理学改变的研究进展
科学家揭示大脑连接的真实结构 解决了树突棘保存难题
负载HBcAg对慢性HBV感染患者树突状细胞的活化作用及功能影响
1956—2014年铁岭县降水变化趋势分析
1970—2016年吕梁市离石区降水量变化特征分析
基于距平的白城地区干旱时间分布特征分析