基于ECMWF细网格产品的吉林省东南部冬季气温BP-MOS预报方法
2022-01-14郭俊廷胥珈珈王太然
郭俊廷 胥珈珈 吴 晗 王太然
(1.白山市气象局,吉林白山 134300;2.延边州气象局,吉林延吉 133000)
1 引言
气温预报在天气预报中有着重要意义,尤其是极端气温预报的准确性会直接影响人们的生产生活,如为供热、供电等系统提供专业气象服务,就需要精准的气温预报[1]。
数值预报技术已成为现代天气预报技术的基础,但对气象要素的预报存在着模式误差,对其释用可以在一定程度上减少误差影响。对数值预报的释用包含动力、统计方法,模式输出统计方法(MOS)是统计方法最常用的方法之一。MOS是一种线性预报方法,其优点是可以消除系统误差,提高预报准确率的关键在于最优预报因子的选择。但气象预报量与预报因子的关系更接近非线性,所以非线性方法在理论上预报效果更优[2]。人工神经网络是非线性方法的一种,有研究发现BP神经网络方法(BP Neural Network Algorithm)对明显的升降温过程反映敏感,特别是对出现的破历史极值的最高、最低温度能很好地把握[3]。吉林省位于中纬度亚欧大陆东部,地势东南部高、西北部低,属于温带大陆性季风气候,冬季长而干燥寒冷,气温波动较大,气温预报有一定难度。东南部山区(白山、通化地区)地形复杂,进一步增加了提高气温预报准确率的难度。本文基于ECMWF(简称EC)细网格模式产品优化选出的预报因子,综合MOS预报和BP神经网络方法对未来24h气温进行预报,探索适合吉林省东南部山区冬季的气温预报方法。
2 资料与方法
2.1 资料来源
用气候方法进行分类,取12月—次年2月为冬季,选取的预报资料来源为EC细网格模式2018—2019年冬季数据(2018年12月—2019年2月、2019年12月—2020年2月)。考虑在实际工作中资料的获取时间,以前一日20时起报预报48h的气温资料预报未来24h气温,文中称“模式对24h气温的预报”。资料时间间隔为3h。地面资料空间分辨率为0.125°×0.125°,其他层的空间分辨率为0.25°×0.25°。利用双线性插值方法将格点数据插值到站点上。实况数据为各气象站点观测值,以20时为日界。因抚松县现用气象观测站于2019年年初建成,本文暂时不对其相关数据进行统计分析。研究站点分别为白山地区的白山市、江源区、靖宇县、临江市、长白县以及通化地区的通化市、通化县、辉南县、梅河口市、柳河县、集安市。
2.2 研究方法
2.2.1 预报检验方法
通过评分方法可以衡量气温预报质量,本文用到的评分方法如下:温度预报准确率:
上述各式中Nr为预报正确的次数(当预报误差绝对值≤2.0℃时记为预报正确);Nt为总次数;Fi为预报值;Ti为对应观测值;N为总日数。依据中国气象局下发的“中短期天气预报质量检验办法”进行气温预报准确率(TT)的检验;系统偏差(MBE)表示温度预报模型得出预报值相对实况值的偏高或偏低情况;平均绝对误差(MAE)能够反映预报温度偏差的实际情况。
2.2.2 MOS方法
MOS方法中预报量与预报因子的统计关系具有同时性,本文的MOS预报方法为常用的通过建立预报气温与同时输出的模式预报要素产品间的多元线性回归方程。方程形式如下,其中a0为常数;ai为线性回归系数;xi为模式预报因子;y为预报气温。
2.2.3 BP神经网络方法
BP神经网络属于前馈神经网络,是一种最常使用的神经网络,可自动实现两组变量间非线性映射关系的数据处理。研究表明[4],对任何在闭区间内的连续函数,都可以用一个隐层的BP网络来逼近,因而一个3层的BP网络可以完成任意的n维到m维的映射。本文使用的BP神经网络为3层神经网络结构(图1),分别为输入层、隐含层、输出层,其中隐含层有2层。
图1 3层BP神经网络结构
3 预报模型的建立
3.1 预报因子的处理与选取
冬季在无冷空气过境时,吉林省东南部山区日最低气温多在05时前后出现,日最高气温多在14时前后出现。根据MOS方法预报因子的选择原理,本文的相关模式输出值选择05时和14时2个时间点。因为气温的变化是一个累积过程[5],所以在建立预报方程前,需要将模式输出值进行滑动平均。考虑模式时间分辨率,在预报气温时选择出现相应气温时刻输出值,前3h以及前6h输出值,即预报最高气温时选择08时、11时、14时预测值进行计算,预报最低气温时选择23时、02时、05时预测值进行计算,滑动时间段为6 h。
火封装置供气系统见图2,首先打开氮气管路阀门,对管道进行吹扫,20 s后火帘管氢气管路阀门打开,火帘管道的氢气被长明火引燃,调节至使喷出的火焰高度能封住炉口为限。
根据局地温度变化的原始方程[6]可知,局地温度变化由温度平流、垂直运动、气压变化和非绝热加热共同决定的。在大尺度系统中,对热力学能量方程进行零级简化后,得出局地温度变化是由温度平流和非绝热作用造成的。所以对于某一站点来说,影响气温波动的因素有很多,除客观存在的地理环境和季节变化外,还有大气环流背景、温度平流、风向风速、垂直运动、湿度、降水和云量等。中低层大气的物理特性对气温影响较大,预报因子多选择于低空大气。引入合适数量的预报因子有利于建立预报效果相对更好的MOS方程,经反复试验后得出,选取4~20个预报因子效果更佳。
初步选定预报因子为:850hPa温度(T850)、20时850hPa的24h变温(ΔT850)、2m相对湿度(rh2)、925hPa比 湿(q925)、850hPa比 湿(q850)、925hPa温度露点差(Td925)、850hPa垂直速度(w850)、3h降水量(r3)、850hPa的u分量(u850)和v分量(v850)、10m风的u分量(u10)和v分量(v10)、总云量(c)和低云量(cl)、海平面气压(p0)、2m气温(t2),共16个。分别计算研究时段内上述16个预报因子与预报量(日最高气温Tmax、日最低气温Tmin)间的相关系数(表1、表2),依据具有较大相关系数且通过α=0.05的显著性检验这2个条件选取合适的预报因子,共选出9个预报因子,分别为:850hPa温度(T850)、20时850hPa的24h变 温(ΔT850)、925hPa比湿(q925)、850hPa比湿(q850)、925hPa温度露点差(Td925)、850hPa的u分量 (u850)、10m风的u分量(u10)、低云量(cl)、2m气温(t2)。对05时和14时预报因子进行优化处理后相关系数总体增大,但出现个别因子(T850)在优化处理后相关系数会减小,分析可能是因为该因子对预测值的作用不是“过程”,而是“瞬时”的,这在其他相关研究中也出现了同样情况[5],所以该因子不进行滑动平均处理。另外,虽然降水对气温的影响较大,可能是降水样本较少,导致整体来看预报因子与气温预报相关性较小。
表1 吉林省东南部山区05时和14时优化前后地面、925hPa预报因子与气温的相关系数
表2 吉林省东南部山区05时和14时优化前后中低空预报因子与气温的相关系数
3.2 基于气象物理量优化BP神经网络方法的建立
本文在BP神经网络模型建立过程中应用的是Matlab 2015a版本,其工具箱提供的函数容易实现。输入层、2个隐含层、输出层神经元个数分别为9个、10个、10个以及1个;隐含层传递函数为“tansig”,输出层传递函数为“purelin”。设置相关参数,其中训练次数(Epoch)为4 000;学习率(lr)为0.1;性 能(Performance)的 均 方 误 差(Mse)为1.00e-4,梯度值(Gradient)为1.00e-5。训练过程中Epoch、Performance、Gradient有一个达到指标,训练停止;或者泛化能力检查(Validation Checks)中连续6次训练Mse不降反升,则强行结束训练。基于气象物理量优化BP神经网络方法流程见图2。
图2 基于气象物理量优化BP神经网络方法流程
由于隐含层数过高会影响准确率,比较测试相同参数条件下得出2层隐含层网络训练效果较好。各隐含层节点设置需在满足精度要求的前提下有尽可能紧凑的结构,即取尽可能少的隐层节点数,根据经验公式(式5,m:隐含层节点数;n:输入层节点数;α:1~10之间的常数)计算得出节点范围,从最小值逐一实验得出相对最佳个数。Epoch是超参数,需要反复尝试训练模型寻找合适迭代次数,通过查看BP神经网络的结果分析图选择合适值。由于不宜过度拟合,设置最小全局误差为1.0e-4。
建模前需要对数据进行如下处理[7]:
样本资料归一化处理:为了保证模型程序运行过程中加快收敛速度,需要利用mapminmax指令将数值归一化到[-1.00,1.00]的区间内。网络训练完成后,还需要将数据进行反归一化输出。
样本顺序问题:样本集的特征连续性导致网络训练过程中对连接权的修改幅度较小,使得训练时间过长[8]。具有连续时间序列和在空间上有相依性的气象资料,其物理特征也具有一定的连续性,所以本文中参加训练的样本进行随机排序。
本文用选出的9个预报因子做诊断因子,用当天的最高或最低气温做目标值,从剩余经过处理的102d数据样本中随机选出50d数据组作为检验样本。即参加训练的样本个数为572个,参加检验的样本个数为550个。依据检验样本得出TT、MAE、MBE值,分析各模型对吉林省东南部山区冬季气温预报能力的高低。
3.3 基于气温预报误差BP神经网络方法的建立
在实际工作中,利用EC细网格模式对白山地区进行气温预报时发现,当物理量值大多变化不大时,有时出现模式预报误差较大的情况,此时在BP神经网络模型中再利用气象要素作为训练样本得出的结果效果并不佳。实际工作对气温进行短期预报订正时验证,对于短期预报即数值模式连续4d的预报误差存在一定连续性。建立一个3层BP神经网络模型,输入的神经元为连续的前3d数值模式日最高或最低气温,输出的目标值为预测的第4d数值模式日最高或最低气温。对该神经网络模型进行训练,参加训练的样本目标值与基于气象要素建立的BP神经网络模型一致,即参加训练的样本个数为572个,参加检验的样本个数为550个。依据检验样本得出TT、MAE、MBE值,分析各模型对吉林省东南部山区冬季气温预报能力的高低。
数据处理同基于气象要素的BP神经网络模型一致,输入层、2个隐含层、输出层神经元个数分别为3个、10个、10个以及1个。隐含层传递函数为“tansig”;输出层传递函数为“purelin”。设置相关参数,其中训练次数(Epoch)为4 000;学习率(lr)为0.1;性能(Performance)的均方误差(Mse)为1.00e-4,梯度值(Gradient)为1.00e-5。训练过程中Epoch、Performance、Gradient有一个达到指标,训练停止;或者泛化能力检查(Validation Checks)中连续6次训练Mse不降反升,则强行结束训练。基于气温预报误差BP神经网络方法流程见图2。
4 结果分析
分析11个站点各模式最高气温、最低气温的TT、MBE、MAE平均值(表3),总体来看预报能力由高到低依次为BP优化、BP不优化、MOS优化、MOS不优化、EC细网格。综合比较,MOS方法和BP神经网络方法对气温的预报能力高于EC细网格模式预报。其中基于预报气温误差建立的BP法对24h日最高气温的预报效果较好,优于MOS法,比基于气象要素建立的BP法要差;而其对于24h日最低气温预报预报效果却不理想,在冬季日最低气温预报过程中不做参考。预报因子经过滑动平均优化处理后较处理前效果更好。其中效果最好的BP优化方法预报最高气温、最低气温的TT值比模式本身分别高出了25.7%和34.0%;MAE值分别减少了1.1℃和1.4℃,基本能够满足日常24h气温预报需求。EC细网格模式对日最低气温预报,预报值较实况整体偏高;对日最高气温的预报较实况整体偏低。经过BP优化方法重新进行预报,预报值较实况值整体均有所偏高。相对于最高气温的预报,最低气温经过订正处理前后,其预报效果均较差,分析这与山区复杂的地形有关[9]。受地形影响,特别是在同时受高压系统影响时,山区的地面辐射降温非常剧烈,导致增加了日最低气温预报的难度。
表3 吉林省东南部山区各预报方法下日最高、最低气温TT、MBE、MAE平均值
利用参加检验的50d样本站点MBE、MAE平均值对EC细网格和BP优化预报方法进行逐一比较(图3),当有明显升、降温,即MBE较大时,大多时候,BP优化预报法反应灵敏,体现了较好的预报效果,在相关研究中也验证了这一结论[3]。在对气温预报的相关研究中,常将当日最低(最高)气温相对前一日最低(最高)气温相差在5.0℃以上的天气定义为特殊天气[10]。气温的大幅波动增加了气温预报的难度,本文建立的BP优化预报方法对这类特殊天气预报效果较好。
图3 50个检验样本EC细网格、优化的BP神经网络方法日最低气温MBE(a,单位:℃)、MAE(b,单位:℃)和最高气温的MBE(c,单位:℃)、MAE(d,单位:℃)随机序列
吉林省东南部山区部分市(县)为平原向山区过渡地带,有的位于海拔相对较高的山区,地形复杂,同一预报方法的预报能力也不同。分析各站点24h日最高、最低气温预报准确率空间分布(图4),了解BP优化法的订正效果,便于后期对该方法的进一步完善。比较24h日最高、最低气温的预报准确率空间分布异同发现,二者大、小值区都相对集中,最低气温TT值相对较大区域为通化市、通化县和柳河县,相对较小区域为靖宇县;最高气温TT值相对较大区域为梅河口市、靖宇县,相对较小区域为白山市区、江源区和临江市。对于最低气温的预报准确率从东北向西南递增;而对于最高气温的预报准确率从东南向西北递增。
图4 吉林省东南部山区24h日最低气温(a)、日最高气温(b)预报准确率的空间分布(单位:%)
5 结语
(1)在预报过程中,考虑预报因子对气温影响的累积过程,通过滑动平均法对因子进行优化处理,有利于提高建立的预报方法的预报水平。
(2)通过比较初选预报因子与24h日最高、最低气温的相关性,得出影响吉林省东南部山区的9个预报因子,分别为850hPa温度(T850)、20时850hPa的24h变温 (ΔT850)、925hPa比湿(q925)、850hPa比 湿 (q850)、925hPa温 度 露 点 差(Td925)、850hPa的u分量(u850)、10m风的u分量(u10)、低云量(cl)、2m气温(t2)。
(3)比较EC细网格模式、对预报因子进行优化处理的MOS方法和BP神经网络方法、对预报因子未处理的MOS预报方法和BP神经网络方法,通过计算TT、MBE、MAE指标值作为比较标准,得出对预报因子进行优化处理的BP神经网络法预报效果最好。
(4)本文预报思路对于降水量或其他季节气温等气象要素的预报有一定借鉴意义。由于样本有限,进而影响预报效果的稳定性,后期需要适当增加样本的数量开展进一步研究。本文研究的预
报时效仅为24 h,且没有考虑逆温这一复杂情况,在研究过程中发现日最高、最低气温预报效果存在明显地域差异,这都是未来需要进一步解决的问题。