南方地区1954—2023年冻雨日数的时间序列构建与变化特征
2024-11-11张海鹏杨旗龚博曾华荣李昊吴建蓉
摘" 要:利用南方地区15年地面观测冻雨数据,结合有明显冻雨形成物理机制的16种气象因子,构建具有可解释性的XGBoost冻雨模型,其能够很好地模拟非训练期间的冻雨个例和年冻雨日数的时间变化。利用1954—2023年的ERA5再分析资料驱动该模型,获得南方地区冻雨日数70年的长时间序列。在长达70年中,冻雨日数存在2~3年的显著周期,且随着全球温度的升高,冻雨日数呈明显的下降趋势,其有3个突变点,分别为1958年、1967年和1990年,其中最长的下降时段为1990—2023年。该研究为冻雨的气候研究提供坚实的数据支撑。
关键词:冻雨日数;预报模型;可解释性;机器学习;南方地区
中图分类号:P426.6" " " 文献标志码:A" " " " " 文章编号:2095-2945(2024)32-0087-04
Abstract: An interpretable XGBoost model of freezing rain was constructed by using surface freezing rain data observed in southern China over the past 15 years, and combining 16 meteorological factors with obvious physical mechanisms of freezing rain formation. The model was able to simulate well the temporal variation of individual freezing rain events and the annual number of freezing rain days during non-training periods. A 70-year long time series of freezing rain days in the southern region was obtained by XGBoost freezing rain model which driven using ERA5 reanalysis data from 1954 to 2023. The freezing rain days showed an obvious decreasing trend with the increase of global temperature, and existed a significant cycle of 2-3 years. There were three mutation points in the long 70-year period, which are 1958, 1967 and 1990, with the longest period of decline from 1990 to 2023. This study provides solid data support for climate change studies of freezing rain.
Keywords: freezing rain days; forecast model; interpretability; machine learning; southern region
冻雨是我国南方地区冬季发生的一种极端天气现象,其量虽不及雨和雪,但严重的冻雨一旦发生,对自然环境系统和社会经济将造成巨大的危害[1-2]。如2008年冬季南方地区发生的冻雨事件,覆盖范围广泛、持续时间长,导致湖南、贵州、江西等地大面积断电,交通中断,农作物颗粒无收,造成超千亿元的经济损失[3]。
目前,冻雨预报主要依靠耦合了冻雨参数化方案的数值模式,如耦合在WRF模式中的冻雨参数化方案如Ramer方案、AFWA方案、Thompson方案和RUC方案等,它们根据冻雨发生时气象要素的统计阈值和各降水相态形成的物理机制所得,但由于冻雨具有高度复杂性和多变性,目前的冻雨物理及经验模型在处理涉及冻雨的诸多气象要素的复杂性和不确定性时仍面临诸多挑战,凭借经验统计得到的气象要素阈值范围存在偏差,导致这些冻雨参数化方案对冻雨的预报评分相对较低。机器学习模型能够更好地适应非线性、多维度、非稳态的气象数据,通过对大量气象数据的学习,提取气象要素与冻雨之间的潜在非线性关系,这为冻雨预报提供了新的途径。目前,已有学者利用机器学习模型构建了我国冻雨预报模型,如王珊珊等[4]使用探空、地面观测和高分辨率的模式预报产品作为特征参量,并使用决策树的集成学习算法,构建了长江中下游地区的冻雨预报模型,比耦合了冻雨参数化方案的数值模式预报的准确率有所提高,但这种机器学习模型仍缺乏冻雨物理机制,具有不可解释性。另外,我国现有的冻雨观测资料数据质量差、时空分辨率低,冻雨序列不足25年(1995—2019年),仅有学者[5]根据风速、相对湿度和气温等简单气象要素构建了1954—2008年冻雨的长时间的序列,但因冻雨的物理机制非常复杂,其反演的冻雨序列具有很大的不确定性。加上地面测站分布稀疏且部分测站存在缺测、漏测的现象,导致冻雨数据质量差、时空分辨率低,急需找到一种能够较好模拟南方地区冻雨的预报模型,并利用该模型重新构建长期的、高时空分辨率的冻雨数据集,为我国南方地区冻雨长期预报提供科学支撑。
针对上述存在的问题,本文利用大量的冻雨个例和同期的ERA5再分析资料产品,构建了基于冻雨物理机制的XGBoost冻雨预报模型,使其具有可解释性。并通过TS、命中率、空报率和漏报率评价该模型对冻雨预报的能力,并对1954—2023年逐小时南方冻雨日数进行回溯,获得高时空分辨率的冻雨数据集,构建70年南方地区冻雨日数的时间序列,进而分析其变化趋势、突变性和周期性。
1" XGBoost冻雨模型的构建
1.1" 数据的来源和预处理
资料来源:地面降水相态观测资料来源于中国气象局国家信息中心整编发布的Micaps资料,研究区域范围为20~31°N,97~117°E,资料包含西藏、云南、四川、贵州、重庆、湖南、广东、广西、江西、福建、安徽和湖北省共729个气象站点每日2时、8时、14时、20时(北京时)的小时变温与变压、风向、风速、过去天气、现在天气、露点温度、总云量和本站气压等。探空观测资料来源于美国怀俄明大学的天气数据网站(http://weather.uwyo.edu/wyoming/),研究区域所包含的腾冲、昆明、威宁和西昌等22个探空站点每日8时和20时的探空观测结果。此外,对探空资料进行插值处理,除每个探空资料处特性层外,间隔50 hPa进行插值,并采用Poore等[6]的温度露点差判断方法,计算云顶高度及对应的云顶温度。ERA5再分析资料来源于欧洲中期气象预报中心(ECMWF)基于数值模式和资料同化技术构建的高时空分辨率气象再分析数据集,该资料逐小时进行更新,水平网格分辨率为0.25°×0.25°。
数据预处理:提取南方地区2000—2015年地面观测降水相态数据,整理得到冻雨数据4 954条,按雨、雪、冻雨和雨夹雪的顺序标号为1—4。ERA5再分析产品中的气象要素采用离差标准化(即min-max标准化),使原始数据在0~1区间波动;同时,根据对冻雨物理机制的研究,暖层、融化层和再冻结层是否存在等这些因子对冻雨的形成非常关键,因此,对这些定性的气象数据如是否存在再冻结层、融化层和暖层等采用“是”为1,“否”为0进行处理。
为了解决因子之间多重共线性的问题,采用方差膨胀因子(VIF)来衡量独立变量中的多重共线性。对47种气象要素进行多重共线性检查,当VIF显著高于其他变量时,直接丢弃该变量,当VIFlt;5,则认为不存在显著的共线性关系[7],最终选定16种气象因子作为输入量,分别为降水量、气温、露点温度、湿球温度、云顶温度、能见度、液水含量、海拔高度、相对湿度、最小相对湿度、云顶高度、次冻结层顶部高度、暖层高度、风向、含冰率和探空廓线类型。
这些变量对冻雨的形成均有明显的物理机制,如相对湿度能准确划分云顶和云底的边界[8],气温、湿球温度、露点温度、海拔高度、含冰率、暖层高度、降水量、液水含量和风向等要素均是冻雨参数化方案中的关键要素[9-13],将其作为输入量构建的XGBoost冻雨模型具有了很好的解释性。
1.2" 预报效果评估指标
预报效果评估采用小概率成功指标即风险评分(Threat Score),简称为TS评分。因为冻雨是一种小概率事件,采用TS评分必须报“有”且实况为“有”时才有记分,其有效避免了报“无”而导致预报准确率很高的弊病。其算法如下
小概率成功指标TS
命中率POD
空报率FAR
漏报率MAR
式中:NA为实际发生且预报发生次数;NB为实际不发生但预报发生次数;NC为实际发生但预报不发生次数。
1.3" XGBoost冻雨模型的构建
在XGBoost对冻雨模型的训练中,以7∶3的比例将冻雨数据随机分配成训练集和测试集,即3 467条冻雨数据作为训练集,1 487条数据数据作为测试集。同时,匹配同时刻ERA5再分析资料产品中的16种气象因子作为输入量。
XGBoost冻雨方案中各参数设置如下:学习率learning_rate(0.05),控制每一步迭代中对模型参数的更新幅度;gamma(0.1)为减少损失最小值,alpha(0.01)为L1正则化权重项,lamb-da(0.6)为L2正则化权重项;max_depth(5)为每棵树的最大深度,控制树的复杂度;min_child_weight(2)为决定子树停止的条件阈值,subsample(0.8)为每棵树所用的子样本的比例,colsample_bytree(0.8)为弱学习器所用特征的比例, num_class(5)为分类的类别数量,objective(multi:softmax)为优化目标此处设置为多分类问题,n_estimators(2000)为弱学习器(即决策树)的数量,num_boost_ro und(20)为迭代次数,即训练树的数量。
2" XGBoost冻雨模型预报效果检验
选择2016—2019年南方22个探空测站的大气温湿廓线与同一地面站点及附近的冻雨观测结果进行匹配,共获取冻雨发生时的探空廓线样本156个,首先对 XGBoost冻雨模型预报的冻雨个例与观测进行了TS评分(图1),从图1中可以看到TS评分为0.6,命中率0.92,漏报率0.05,显示了非常好的冻雨个例预报能力。然后,使用XGBoost冻雨方案,对南方地区年冻雨日数进行回溯。由于将2000—2015年的冻雨数据随机取样分为训练集和测试集,因此仅对1995—1999年和2016—2019年南方地区冻雨日数时间序列进行回溯。模拟结果(图2)显示,南方地区冻雨日数与观测冻雨日数二者的相关系数均达到了0.99,通过了0.001的信度检验,且均方根误差平均在0.1左右,表明XGBoost冻雨方案模拟的年冻雨日数和与实际非常一致。
3" 南方地区70年冻雨日数时间变化特征
由于XGBoost冻雨模型能够很好地模拟南方地区非训练期间的冻雨个例和年冻雨日数的时间变化,故而利用ERA5再分析资料驱动XGBoost冻雨模型,构建了1954—2023年逐小时中国南方地区3 km×3 km冻雨灾害数据集,进而获得了南方区域冻雨日数70年的长时间序列。图3(a)为1954—2023年南方地区冻雨日数的年际变化,70年平均冻雨发生天数为9.3 d,存在以2~3年为周期的显著变化。70年间南方地区年冻雨日数呈下降趋势,线性变化趋势系数为-0.6/10 a,这种趋势同全球气候变暖密切相关,全球平均温度与70年南方地区区域冻雨的时间序列在1~2月呈现显著的负相关,负相关系数达0.37,通过了99.99%的相关信度检验。冻雨日数距平值的年际变化(图3(b))显示,1990年以前冻雨发生天数以正距平为主,其中1977年正距平值最大为19.7 d,次大值出现在1984年为16.7 d;冻雨日数的负距平主要出现的时段在1958—1966年和1990—2023年,其中1991、2004年和2020年无冻雨出现,其负距平值最大为-9.3 d,次大值分别出现在1997年、2002年和2017年。但在以负距平为主的1990—2023年,仍出现了较高的正距平如2008年的8.7 d和2005年的6.7 d。为了分析其是否发生突变,使用累计距平法,发现冻雨日数在1958年、1967年、1990年存在突变点,并得到了Mann-Kendall检验的证实,最终确定1958年、1967年、1990年为真实突变点,其中1990年为显著突变点。最终确定有2个显著冻雨日数下降时段为1958—1967年、1990—2023年;3个显著冻雨日数上升时段为1954—1958、1967—1973年、1980—1990年。
4" 结论
本研究提取了南方地区2000—2015年地面观测冻雨数据4 954条,通过数据的预处理,获得了对冻雨的形成有明显的物理机制的16种气象因子,然后以7∶3的比例将冻雨数据随机分配成训练集和测试集,匹配同时刻16种气象因子作为输入量构建了XGBoost冻雨模型。该模型不但能够很好地模拟南方地区非训练期间的冻雨个例和年冻雨日数的时间变化,而且构建的XGBoost冻雨模型具有了很好的解释性。利用ERA5再分析资料驱动该模型,获得了南方地区冻雨日数70年的长时间序列。在70年间,冻雨日数存在2~3年的显著周期,且随着全球温度的升高,冻雨日数呈明显的下降趋势,其中1958年、1967年和1990年为突变点,最长的下降时段为1990—2023年。
参考文献:
[1] 陶诗言,卫捷.2008年1月我国南方严重冰雪灾害过程分析[J].气候与环境研究,2008(4):337-350.
[2] 黄强,王家红,欧名勇.2005年湖南电网冰灾事故分析及其应对措施[J].电网技术,2005(24):16-19.
[3] 曾明剑,陆维松,梁信忠,等.2008年初中国南方持续性冰冻雨雪灾害形成的温度场结构分析[J].气象学报,2008,66(6):1043-1052.
[4] 王珊珊,雷彦森,方鸿斌,等.基于CatBoost算法的长江中游冬季降水相态预报方法研究[J].气象,2022,48(9):1153-1161.
[5] 王遵娅.中国冰冻日数的气候及变化特征分析[J].大气科学,2011,35(3):411-421.
[6] POORE K D, WANG J, ROSSOW W B. Cloud layer thicknesses from a combination of surface and upper-air observations [J]. Journal of Climate, 1995,8(3):550-568.
[7] BELSLEY D A, KUH E, WELSCH R E. Regression diagnostics: Identifying influential data and sources of collinearity[M]. John Wiley amp; Sons, 2005.
[8] 周毓荃,欧建军.利用探空数据分析云垂直结构的方法及其应用研究[J].气象,2010,36(11):50-58.
[9] RAUBER R M, OLTHOFF L S, RAMAMURTHY M K,et al. The relative importance of warm rain and melting processes in freezing precipitation events[J]. Journal of Applied Meteorology, 2000,39(7):1185-1195.
[10] RAMER J. An empirical technique for diagnosing precipitation type from model output[C]// International Conference on Aviation Weather Systems, 5 th, Vienna, VA. 1993: 227-230.
[11] 漆梁波.我国冬季冻雨和冰粒天气的形成机制及预报着眼点[J].气象,2012,38(7):769-778.
[12] 赵培娟,邵宇翔,李周,等.冻雨形成的天气条件分析[J].气象与环境科学,2008,31(4):36-39.
[13] 牛生杰,周悦,贾然,等.电线积冰微物理机制初步研究:观测和模拟[J].中国科学:地球科学,2011,41(12):1812-1821.