基于机器学习的格点气温预报订正方法*

2024-02-06方鸿斌王珊珊王晓玲谭江红鲁礼炳

气象 2024年1期

方鸿斌王珊珊王晓玲谭江红鲁礼炳

1 武汉中心气象台,武汉 430074 2 湖北省襄阳市气象局,襄阳 441022 3 湖北省荆州市气象局,荆州 434022

提要：使用2017年9月至2021年3月国家级业务化运行的智能网格实况分析产品和欧洲中期天气预报中心全球模式(EC)产品,根据湖北省的地理分布特征构建6个分区,采用基于LightGBM机器学习算法建立的气温预报方法,生成湖北省0.05°×0.05°格点气温预报产品。利用2021年4—9月的预报产品和格点实况资料进行检验,结果表明:基于机器学习的气温预报方法(MLT)取得了较好的预报效果,其在0～72 h时效内优于中央气象台下发的气温精细化指导预报(SCMOC)和EC产品;MLT在山区的误差较平原大,但山区的订正幅度大于平原,日最高气温的订正幅度大于日最低气温的订正幅度;4—9月MLT、SCMOC、EC产品的平均绝对误差(MAE)日变化都呈现了白天偏高、夜间偏低、午后凸起的单峰特征,MLT的MAE值较SCMOC和EC产品的更低,并且在转折性天气中仍具有优势;站点检验与格点检验结论一致,基于格点建模的气温预报产品对站点预报同样得到了订正。机器学习在格点气温的模式订正方面可以作为一个行之有效的手段。

引言

气温的高分辨率格点预报是精细化预报业务中的一项重要工作,提高格点气温预报的准确率是气象预报业务智能化、客观化的发展要求,是气象工作“观测精密、预报精准、服务精细”目标的内在要求。近年来,在国内外大力发展无缝隙精细化预报的背景下,我国的格点实况分析场产品也得到了长足的发展(师春香等,2019;俞剑蔚等,2019)。2017年7月国家级格点实况分析产品(CLDAS-V2.0),正式投入业务化运行。与此同时,机器学习在气象预报领域的应用也正在蓬勃发展,国际上已经有越来越多的机器学习方法应用在天气预报领域中(Haupt et al,2021; Kashinath et al,2021)。欧洲中期天气预报中心在2021年初发布的未来十年发展规划(Machine learning at ECMWF:A roadmap for the next 10-years,https:∥www.ecmwf.int/en/elibrary/81207-machine-learning-ecmwf-roadmap-next-10-years)中阐明了未来机器学习技术在其数值天气预报流程中的重要性。我国学者在气象领域应用机器学习技术上也进行了诸多探讨和实践(许小峰,2018;李扬等,2021;周康辉等,2021a,杨绚等,2022)。通过预报员主观手动订正千米级分辨率的气温网格预报难以做到准确高效,而利用高分辨率格点实况产品,通过机器学习算法订正精细化的格点预报产品是未来的一大趋势。

国内常见的气温模式后处理订正方法有模式输出统计(MOS)、卡尔曼滤波、人工神经网络、站点订正值向格点传递法、最优集合预报订正法、滑动平均和空间误差综合订正技术、机器学习订正方法等(潘留杰等,2017;雷彦森等,2018;郝翠等,2019;薛谌彬等,2019;门晓磊等,2019;任萍等,2020;陈昱文等,2020)。以上方法基本是针对站点的预报订正,订正后的2 m气温有不同程度的改进,但优势不够突出。基于本地业务基础和天气特点,也有多种后处理方法。如,吴启树等(2017)发展了最优TS评分订正算法,王建鹏等(2018)研发了动态交叉最优要素预报方法,盛春岩等(2020)选择最优的数值预报产品,分析不同客观释用方法预报效果,研究适合的最优集成预报方法,生成气温智能网格最优集成预报产品。这些方法考虑了本地地理、气候等特征以及模式偏差,但仍然没能很好地解决实况分辨率粗的问题,并且方法复杂不易推广,没能充分利用数值模式环流预报较为准确的优势,中高层物理量对气温的影响考虑不足。而针对气温预报,除了需要考虑天气因子的影响外,地理特征、日变化的特征以及模式固有的偏差都是非常重要的。因此本文提出,结合地理特征、日变化特征、融合多种影响气温预报的物理因子及模式偏差,基于LightGBM(light gradient boosting machine)算法建立湖北省格点气温预报方法,将该方法生成的温度预报产品命名为MLT(matching learning temperature)。

1 数据资料

1.1 数据

本文资料采用的是2017年9月至2021年9月28.9°～33.4°N、108.25°～116.25°E范围的 EC模式数据、CLDAS-V2.0逐小时格点气温实况数据及中央气象台下发的气温格点预报产品(SCMOC)。EC模式数据时间分辨率为3 h,空间分辨率为0.125°×0.125°;格点气温实况的时间分辨率为1 h,空间分辨率为0.05°×0.05°(约5 km);SCMOC时间分辨率为1 h,空间分辨率为0.05°×0.05°。

1.2 数据处理

本文采用线性插值方法分别在时间、空间上做了插值。提取逐小时格点实况数据与数值预报要素,并进行时空对齐,去掉缺失、存在异常的样本,形成机器学习样本数据库。为了使建模的特征因子更接近真实值,选取08时和20时起报的0～11 h时效EC模式预报产品作为样本。本文采用的EC模式没有24 h高温、低温产品,所以在检验时,采用的是由逐3 h高温、低温统计出来的24 h高温、低温。基于气候差异和地形特征,对湖北省进行地理分区,6个分区示意图如图1。28.9°～33.4°N、108.25°～116.25°E范围内6个矩形块分别为鄂西南、鄂中南(江汉平原南部)、鄂东南、鄂西北、鄂中北(江汉平原北部)、鄂东北。本文对数据进行裁剪,应用机器学习算法,针对6个分区分别建立预报模型。

图1 湖北省6个分区示意图

2 方法

2.1 机器学习算法

机器学习中,常见的算法是决策树类(树模型)。该算法具有可解释性较强,在天气预报中的连续性变量(气温、湿度、气压)预报效果出色,不亚于深度学习,具有训练更高效的特点(杨璐等,2021)。近年在树模型算法中梯度提升算法 (gradient boosting decision tree,GBDT)较为流行,例如XGBoost(extreme gradient boosting)算法、LightGBM算法。LightGBM是一种基于梯度提升树的机器学习方法,是2016年由微软公司开发的一种比较快速的梯度提升框架,较XGBoost有明显优势。LightGBM是对GBDT的高效实现,原理上它和GBDT及XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。XGBoost的不足在于,计算信息增益需要扫描所有样本,从而找到最优划分点;在面对大量数据或者特征维度很高时,其效率和扩展性很难使人满意。考虑到本文采用的数据体量较大,训练样本较多,而LightGBM利用了单边梯度采样算法和互斥特征绑定算法,能够很好地解决上述问题(Ke et al,2017),因此本文选择LightGBM机器学习算法。

2.2 特征工程

机器学习模型的好坏需要建立在对天气物理规律清晰、明确的认识基础之上(周康辉等,2021b)。正确的特征选择可以降低机器学习任务的难度,减少计算和存储开销,同时优化学习模型(孙全德等,2019;Pan et al,2019,Wang et al,2021)。因此,本文根据预报员经验初选出能够反映气团冷暖、日照辐射、日变化等56种特征因子,通过机器学习(统计分析)特征重要性排序,综合考虑硬件环境、业务运行耗时及检验评估结果,进一步筛选38个特征因子形成最优因子集进行建模。

构建模型使用的要素主要有预报场的各层风场、湿度场、温度场、海平面气压场以及平均位势高度(用500 hPa场代替)。本文选取的风场数据层次包括10 m、925 hPa、850 hPa、700 hPa,一定程度上体现了影响某地的天气系统。相对湿度,用于体现当地上空的天空状况以衡量辐射因子。气温方面,选取了1000～850 hPa气温,用以表征大气的基本冷暖状态。

相似的天气特征,由于格点所处位置的不同,格点实况值往往有较大差异。因此构建特征时,分别把6个分区的格点进行编码。每个分区有约2840个格点,每个分区用从0开始的正整数,逐一将格点编码,并在训练时把格点编码作为类别特征。经机器学习特征重要性排序,格点编码排名第一,说明格点的位置是气温客观预报应该考虑的一个重要特征。此外,气温存在明显的日变化特征,因此在逐小时的样本中将小时作为特征之一,并且把小时作为类别变量。预报员做主观预报时往往会考虑到模式近期预报的偏差,所以在24 h内的预报建模当中,使用过去5 d对应时刻的气温预报偏差作为特征之一进行建模。本文建模及预报流程如图2。

图2 机器学习气温预测流程图

2.3 训练方法

LightGBM将连续特征离散化成直方图特征,减少了数据的存储空间和计算复杂度;训练过程中通过高效的垂直并行化计算,提高了训练速度;通过设置类别变量参数(categorical_feature),选择类别变量,基于类别特征值的最优分割,对经纬度编码和小时特征设置为类别变量,较one-hot编码更方便、高效,可以有效反映时空特征。

在硬件环境及时间允许范围内进行个别关键参数的网格搜索,寻找最优参数,6个分区建模的关键参数保持一致,LightGBM建模关键参数的最优值详见表1。值得说明的是,迭代次数(num_iterations)设置为10 000,同时设置早停(earlystopping_rounds)参数为30,即如果一个验证集的评估指标在最近30次循环中没有继续改善(误差降低或者准确率提高),训练将提前停止训练,而不会进行到第10 000次。6个分区虽然面积相差不大,但是由于迭代循环中,平原地区的误差改进小进而迭代次数相对少,所以耗时短,山区则相反。机器学习训练调优之后,保存一份含有最优参数的模型,用来进行预报。基于机器学习的气温预报MLT从获取EC模式数据到未来24 h的产品生成,可以在3 min内完成。

表1 LihgtGBM建模关键参数的最优值

2.4 检验方法

智能网格检验业务相关要求使用平均绝对误差(MAE)进行气温预报性能对比。机器学习一般采用均方根误差(RMSE)作为损失函数进行回归建模。分析气温预报偏高、偏低问题,通常使用平均误差(ME);在对比多种产品的站点预报性能时,本文使用气温的预报准确率。即本文共使用了4种检验方法,分别是ME、MAE、RMSE、气温预报准确率。以上检验方法均是参照全国智能网格预报业务产品检验评估办法(2021版)。

3 结果分析

3.1 高温、低温预报产品误差的空间分布对比

利用2021年4—9月时间段的格点实况数据进行检验,对比24、48、72 h时效MLT、SCMOC、EC预报产品的高温、低温预报在6个分区的MAE和RMSE(图3)。由图3a、3b可见,MLT低温MAE在6个分区24～72 h时效预报误差均在1℃左右,与EC相比,西部山区低温订正幅度较大,平原地区订正幅度略小。MLT低温在6个分区的RMSE均在1℃左右,与MAE相差不大,由于RMSE对误差的反映更敏感,也证明了MLT低温较接近于实况。由图3c、3d可见,MLT高温与EC预报产品相比,西部山区高温订正幅度较大,平原地区订正幅度略小。SCMOC高温24 h预报较EC预报产品有正订正,随着时效的延长,订正幅度降低。MLT高温在6个分区的RMSE,明显低于EC和SCMOC预报产品的相应数值,且与MAE相差不大。综合分析表明,MLT高温、低温的预报效果优于SCOMC与EC预报产品,预报误差较小且较稳定。

图3 2021年4—9月08时起报的24 h、48 h、72 h时效MLT、SCMOC、EC(a,c)日最低气温和(b,d)日最高气温预报产品在湖北省6个分区的(a,b)平均绝对误差和(c,d)均方根误差

图4、图5分别展示了湖北省区域内MLT、SCMOC和EC高温、低温预报产品的MAE空间分布对比。EC预报产品高温较大的MAE除位于鄂西山区外,鄂东北的大别山区和鄂东南的幕府山区也有两个小中心。从SCMOC和MLT高温预报产品的订正效果看,SCMOC在平原地区24 h订正较好,MAE基本在1.5℃以下,但是鄂西山区和大别山、幕府山一带订正效果不明显。SCMOC在48 h和72 h对山区和平原的订正效果均不明显。MLT在山区有明显的订正效果,24～48 h西部山区的MAE在2℃以下,72 h的MAE有所增大,但是比EC预报产品低0.4～0.5℃,比SCMOC低0.1～0.3℃。综上所述,MLT对EC高温、低温预报产品有较好的订正效果,与SCMOC相比,MLT高低温的偏差也有一定的降低,特别是西部山区降低的幅度更大。

图4 2021年4—9月08时起报的24 h、48 h和72 h时效MLT、SCMOC、EC日最低气温预报产品的平均绝对误差

图5 2021年4—9月08时起报的24 h、48 h和72 h时效MLT、SCMOC、EC日最高气温预报产品的平均绝对误差

对比SCMOC和MLT的方法,可以发现SCMOC主要基于CMA-GFS模式为基础,采用格点化MOS方法(韦青等,2020;赵声蓉等,2012),其主要思路和MLT的方法是一致的,都是通过选取最优的要素,利用回归的方法建立气温预报方法,但是在回归方法、要素和建模方案上存在一定的差别。SCMOC产品输出的是全国的气温,相较MLT不够精细,虽然鄂西北和鄂西南都是山区,但是气温变化规律不同,鄂西北升温和降温幅度都很大,而鄂西南一般云系多,夜间气温降幅小,因此精细的分区有利于找到更准确的地域规律。另外MLT是直接利用格点气温实况建模,而SCMOC是先利用MOS建模得到城镇站点预报结果,再通过插值得到格点预报(金荣花等,2019),即MLT减少了中间环节,更接近于格点实况。

3.2 格点预报产品误差的日变化特征

对比2021年4—9月08 时起报的SCMOC、EC预报产品24 h逐小时整点气温预报的MAE日变化特征(图6),可以发现24 h时效内三种预报产品的逐小时平均绝对误差在白天较大,夜间较小;误差最大出现在7 h、8 h时效,误差最小出现在23 h时效左右。图6a、6d分别为鄂西南与鄂西北的气温误差日变化特征,可以看出湖北西部高海拔山地区域逐小时平均绝对误差较其他地区大,15 时和16时的气温误差最大;平原地区占比较多的地区(图6b、6c、6e、6f),逐小时MAE较小;三种预报产品在6个分区表现出了一致的误差日变化特征,即同时段山区误差较大,同地区每个时段MLT的预报效果都是最好的。20 时起报的产品(图7)也有类似的这种日变化特征,高温时段误差较大。

图6 2021年4—9月08时起报的24 h时效MLT、SCMOC、EC逐小时整点气温预报产品在湖北省6个分区的平均绝对误差

图7 2021年4—9月20时起报的24 h时效MLT、SCMOC、EC逐小时整点气温预报产品在湖北省6个分区的平均绝对误差

结合图6、图7对不同分区整点气温的MAE日变化分析可以看出,SCMOC在平原地区低温预报误差较小,但山区误差仍较大,而MLT低温在平原和山区都较小。在24 h时效内,EC 对白天的气温预报误差明显偏大(1～3℃),尤其是中午至下午时段,鄂西山区更为突出(1.5～3.0℃);SCMOC对白天的气温有一定的正订正效果,但对夜间气温却是负效果;MLT对白天、夜间的气温都有明显的订正效果,尤其是对山区白天的气温订正幅度更大。

3.3 站点气温预报误差的空间分布及日变化特征

以湖北经纬度范围内的171个站实况作为真值,检验MLT、SCMOC在2021年4月1日至9月30日的逐小时气温。由图8可见,SCMOC小时气温的MAE和ME明显高于MLT(图8a、8b);SCMOC在湖北地区的气温预报东部偏高,西部偏低;SCMOC、MLT的准确率分别是77%、84%,MLT较SCMOC提高了7%(图8e)。站点的空间误差检验表明:SCMOC、MLT在东部平原地区的预报较西部山区更好,同时MLT在西部山区的预报结果比SCMOC更有优势,该结论与格点检验的结论一致。

注:各圆点以相应站点数值为半径;设置时以批量站点数据的平均值为基准,当某站点数值超出或小于基准时,则以其绝对值为半径,以凸显偏差情况。

对比分析逐小时整点气温预报的日变化特征(图9)。EC、SCMOC和MLT的准确率都存在单低谷的日变化特征,即在14—17时出现准确率低谷值。上述时段大致为汛期最高温的出现时间,气温起伏较大,导致预报准确率较低。MLT在站点逐小时整点预报中每一个观测时间预报准确率都高于SCMOC,这与格点的平均绝对误差日变化结论保持一致。形成上述检验结果的原因可能是:汛期白天气温变化幅度较大,高温出现时段三种产品的预报误差较大,所以在14—17时出现准确率低谷值;而MLT建模时是逐1 h作为一个样本,以小时为单位将时间作为类别变量建模,可以有效学习到气温日变化。

图9 2021年4—9月湖北省各站点整点气温预报准确率

3.4 转折天气个例检验

该算法目前已经在业务中实时运行,本文虽然没有将常规天气和转折天气分开建模,但是由于模型在训练的过程中充分考虑了各层的湿度,可以理解为考虑了云的情况,所以该产品在转折天气中仍有较好的表现。2021年4—9月的检验结果表明,MLT的24 h高温预报准确率优于EC和SCMOC;同时,其在晴雨转换天气中也有较好表现。

以2021年4月7日为例,湖北省自西向东出现了降雨,SCMOC的高温预报比实况偏高,准确率仅为56.7%,MLT的准确率达到96.1%。图10a、10b分别为MLT和SCMOC的高温预报MAE,SCMOC为2.09℃,MLT则为0.69℃,即MLT比SCMOC的MAE降低了1.40℃,预报结果更接近实况。2021年4月12日过程,是一次雨转晴的过程,SCMOC的高温预报比实况偏低,准确率为52.3%,MAE为2.19℃(图10d),MLT的高温预报也偏低,但是偏低的幅度要小于SCMOC,MAE为0.95℃(图10c),即MLT比SCMOC的MAE降低了1.24℃,准确率也达到89.2%。

图10 2021年4月(a,b)6日20时,(c,d)11日20时起报的24 h时效(a,c)MLT和(b,d)SCMOC格点日最高气温平均绝对误差

4 结论与讨论

本文建立了一种基于机器学习的气温预报方法(MLT),应用于湖北地区,并与SCMOC和EC模式的预报产品进行了对比检验。主要有以下结论:

(1)通过格点气温实况产品和主客观筛选的30多个特征量,利用LightGBM方法建立的格点气温预报方法,可以提供时间分辨率为1 h、空间分辨率为0.05°×0.05°的气温预报产品。在0～72 h时效内MLT的MAE、RMSE较SCMOC与EC的低。

(2)MLT在山区的误差较平原大,但山区的订正幅度大于平原,日最高温的订正幅度大于日最低温。RMSE比MAE略大,但误差分布是一致的。在模型中设置格点编码和小时特征为类别变量,较好地分别反映了格点气温的地理特征和日变化特征。

(3)MLT以站点为真值检验,仍然有很好的预报效果。这说明应用机器学习基于格点实况建模的格点气温预报产品对站点预报同样有订正作用。

(4)2021年4—9月MLT、SCMOC、EC 的MAE日变化都呈现了白天偏高、夜间偏低,午后凸起的单峰特征,MLT不仅在湖北全省累计平均误差较低,在单时次、单区域的平均误差较SCMOC、EC仍较低,并且在转折性天气中仍具有优势。检验结果表明,MLT在湖北的气温预报准确率优于EC和SCMOC。

由此可见,机器学习在格点气温的模式订正方面可以作为一个行之有效的手段。本文运用的机器学习方法对EC气温预报模式订正表现出了较好的效果,对其他模式或其他要素预报订正仍具有很大的潜力。未来可以在天气学的物理意义指导下进行更精细的数据处理、特征工程,应可挖掘出更多的可订正的时空误差信息,进而达到更好的预报效果。