ECMWF 的QPF 短期预报性能在新疆的评估

2021-10-28曾晓青张俊兰

沙漠与绿洲气象 2021年4期

曾晓青，汤浩，张俊兰，代刊

（1.新疆气象台，新疆乌鲁木齐830002；2.国家气象中心，北京100081）

新疆位于我国西北部，是我国“一带一路”核心区之一，同时也是中欧班列重要的西部通道。随着全球气候变化，近些年来新疆地区暴雨、特大暴雨频繁出现，如2016 年“7·6”叶城山区暴雨引发特大泥石流，2017 年6 月6 日呼图壁县创新疆日降水极值，2018 年“7·31”哈密特大暴雨[1]造成大量人员伤亡，突破单站日降水极值，2019 年南疆暴雨和大暴雨增多等。这些极端降水造成的次生灾害给人民财产造成巨大损失。已有学者对新疆降水的空间分布[2-3]和水汽来源情况[4]进行了详细研究，这些研究对气候指导有很好的参考意义，但无法直接用于模式短期预报结果订正中，如果能有效地掌握短期模式的降水预报产品规律，提高短期预报准确率将会大大降低灾害风险。

2014 年我国开展无缝隙精细化网格天气预报业务以来，客观定量降水预报（Quantitative Precipitation Forecasts，QPF）技术是其中最重要的发展方向之一[5-6]，QPF 业务流程是以数值模式预报产品为基础，客观订正基础优化和提升QPF 结果，预报员在模式和客观预报基础上发挥人的作用[7]。可以看出，数值模式的降水预报结果是一切后处理发展的基础。目前，国家气象中心会定期对数值模式的预报性能进行检验，根据最近的检验结果表明[8-10]，欧洲中期天气预报中心（简称EC）发布的细网格模式预报效果最好。但上述研究中的检验时段都较短，没有直接针对QPF 要素的单独检验，所以需要一次针对新疆地区QPF 检验的全面分析。同时，EC-QPF预报产品是目前新疆各地预报员主要参考的预报产品，较好地把握EC 短期QPF 预报产品的性能将对新疆地区降水预报起到关键作用。

另外，EC-QPF 是各种客观订正技术和天气过程机理分析[11]主要依赖的模式产品之一，即使在多模式主客观融合中，EC-QPF 所占的权重也很高[12]。一些研究者使用人工智能中的机器学习或者深度学习技术[13]进行降水订正研究，而要进行深度学习必须要有大数据样本作为支撑[14]。如果样本不足，使用深度神经网络可能失去必要性，另一方面，使用深度神经网络训练出来的模型很容易产生过拟合现象，在实际预报中效果大减，甚至出现负技巧订正效果[15]。鉴于很多问题都依赖EC-QPF 的预报性能，本次研究将对EC 的QPF 在新疆地区的短期预报性能进行多角度检验，这不仅能让新疆地区预报员更好地了解EC 的QPF 产品性能，还能为后期新疆QPF 的客观订正和融合技术提供有力的数据支撑。

1 资料和方法

1.1 资料

选取的EC-QPF 预报产品的起报时间是20 时（北京时，下同），资料范围是 70°～100°E，31°～52°N，时间分辨率为3 h，预报时效为12～36 h（根据实际业务中的使用需求，在获得EC 资料后需要制作的是12 h 后的预报产品），空间分辨率为0.125°×0.125°。本次研究只针对液态降水量观测站，3 h 的站点降水观测（Site precipitation observation SPO）资料来自新疆地区国家级151 个地面气象观测站，所有站点分布在“三山夹两盆”的地理地貌中（图1），研究中采用双线性插值法将EC-QPF 格点预报产品插值到相应的观测站点上。所有资料样本时间均从 2016 年 9 月 1 日—2019 年 12 月 31 日中截取。

图1 研究区域和气象站点分布

1.2 降水等级与评分方法

新疆地区属于干旱地区，西部天山地区属于半干旱地区，一些研究者曾经提出了新疆地区的部分降水强度标准[16]，但是这些标准还不完善，没有短时（3 h）的降水强度等级指标，所以，本次研究还是依据中国气象局颁布的《降水强度等级划分标准（内陆部分）》的 3、24 h 进行降水等级划分（表 1）。

表1 降水强度等级划分标准

研究中使用公正预兆得分（Equitable Threat Score，ETS）评分[17]（公式1）作为其中一个检验指标，该评分范围为-1/3~1，评分≤0 表示无技巧或负技巧，评分等于1 表示完美预报。

式中，h 是正确预报降水次数，n 是正确预报未出现降水次数，m 是漏报次数，f 是空报次数。表2 为降水列联表。

表2 降水列联表

2 检验与分析

2.1 总体检验分析

新疆年平均总降水量在300～500 mm[18-19]。通过对全疆151 个站点40 个月的3 h 模式资料和站点实况整理（包括：除缺、排错），总的降水样本量达到140×104个，24 h 的累计降水样本有 17.6×104个，这为后期深度神经网络的学习提供了很好的样本支撑。从3 h-QPF 对站点降水观测量的散点图可知（图2a），一元回归拟合方程的斜率为0.32，远低于1，近2/3 的样本分布在y=x 直线的下方，一些大量级（大雨以上量级）的降水位于x 轴附近，仅有部分理想散点分布在y=x 直线附近。因为数据偏离正态分布，研究使用 Fligner-Killeen 和Mann-Whitney（U检验）非参数检验法对SPO 和QPF 的方差与均值进行同质性检验，结果p=0，远小于0.05 的可信度标准，表明两组数据不具有方差和均值齐性，两组数据在统计学上存在显著性差异。

累积分布函数（Cumulative Distribution Function，CDF）常被用来评估未知分布与观测数据的拟合程度，图2c 显示了3 h-SPO 和3 h-QPF 的CDF 曲线在降水量为2.4 mm 和累积概率为0.994 之前的变化基本一致，降水量＞2.4 mm 时，3 h-SPO 曲线与3 h-QPF 曲线出现明显分化（该分叉点在频率匹配订正技术中扮演关键的角色）。2017、2018、2019年的分叉点分别为2.1、2.6、2.8 mm，与总样本曲线中出现位置基本一致。而3 h-SPO 的CDF 曲线在过去3 a 大量级降水方面变化很大，3 h-QPF 随降水量增加而累积概率增长速度要远高于3 h-SPO，3 h-QPF 总样本和 3 a 的 CDF 曲线在 16.5 mm 附近累积概率很快达到最大值1，表明3 h-QPF 在16.5 mm以上的大量级降水无法拟合。从24 h 结果来看（图2b，2d），一元回归拟合方程的斜率达到0.58，明显高于3 h 的斜率，更多的点靠近对角曲线y=x 附近。但是通过Fligner-Killeen 检验和Mann-Whitney 检验，结果p=0，远超过0.05 的显著性水平，表明两组数据依然不具有方差和均值齐性，在统计学上仍存在显著性差异。CDF曲线图中总样本分叉点为11.0 mm，与2017、2018、2019 年的分叉点基本一致。24 h-QPF 的CDF 曲线在52.5 mm 附近累积概率达到最大值1，相比3 h 的结果，24 h-QPF 的不确定性明显减小，与SPO 曲线的拟合程度更高，但分叉点之后的拟合程度依然不足。

图2 QPF 对 SPO 散点（a、b）及降水 CDF 曲线（c、d）

将整个样本按照表1 进一步细化（图3a，3b），3 h-SPO 样本中无雨占96.07%、小雨占3.44%、中雨占0.45%、大雨543 次占0.04%、暴雨65 次、大暴雨3 次。3 h-QPF 样本中无雨占90.60%、小雨占8.98%、中雨占0.42%、大雨88 次占0.01%。3 h-QPF有12.6×104次的小雨预报，而对应的3 h-SPO 只有4.8×104次，仅 1/3。3 h-SPO 和 3 h-QPF 的中雨级别样本量都在6 000 次附近，基本一致，3 h-QPF 的大雨次数仅为3 h-SPO 的16%，暴雨和大暴雨全未预报出。24 h-SPO 样本中无雨占85.80%，小雨占13.25%，中雨占0.86%，大雨155 次占0.09%，暴雨14 次占0.01%。24 h-QPF 样本中，无雨占69.48%，小雨占 29.52%，是 24 h-SPO 的 2 倍；中雨占0.95%，与24 h-SPO 基本一致；大雨85 次占0.05%，是 24 h-SPO 的 1/2；暴雨 1 次。可见，3 h-QPF 与24 h-QPF 的中雨与实况在频次上都非常接近，而小雨明显偏多，大雨以上频次严重偏少，24 h-QPF 在频次上要比3 h-QPF 更加接近实况，表明3 h-QPF要比24 h-QPF 的预报不确定性高，预报员通过订正EC 模式的24 h-QPF 再重新估算3 h-QPF 的量级是更加合理的。

图3 分量级降水频次统计（a、b）和降水排序（c、d）

从 2017—2019 年的 SPO 变化情况看，2019 年降水次数明显减少，特别是24 h 大雨以上量级，2017—2019 年的 24 h 大雨频次分别为 49、41、31次。而24 h-QPF 的大雨频次是逐年增加的，2017—2019 年的大雨频次分别为16、19、27 次，小雨和中雨的变化不大。SPO 与QPF 在大雨频次上的年度变化趋势相反，可以推测2019 年EC 模式在大雨以上量级预报能力有所提高，但与SPO 相比，大雨以上的预报频次依然偏少。

2.2 大降水检验分析

研究进一步通过排序选取前200 个SPO 降水量和与之对应的QPF 分析发现（图3c、3d），在3 h-QPF 的前200 个大降水（大雨以上的降水）样本中（14.5～59.3 mm），有 1/4 个是无降水预报，1/2 是小雨预报。对于前 200 个 24 h-QPF（23.7～81.0 mm），仅有7 个无降水预报，近1/3 是小雨预报。可见在大降水预报上，EC 的QPF 在大量级降水预报上并非简单的由于预报量级偏差产生的预报误差，而是由于整个模式对大降水预报能力非常弱。另一方面，200 个排序后的SPO 与时间一一对应的QPF 之间的量级关系是一个不规律的、非线性的关系，也就是SPO 发生大量级降水的同时，QPF 可能出现无雨、小雨、中雨、大雨等情况，这就为后期预报订正增加了很大难度，特别是使用频率匹配大量级降水订正方法。空间分布上（图 4），3 h-SPO 和 24 h-SPO 的大量级降水主要分布在新疆西部的昆仑山和天山、中东部的天山山脉周围、伊犁河谷和西北部塔城山区。3 h 中天池大降水频率最高为12 次，其中最小降水为15.0 mm，而QPF 的最大预报降水为13.6 mm，预报很弱，大降水频率在6～7 次的7 个站点都分布在天山中脉（乌鲁木齐区域附近）。24 h 天池大降水频率依然最高为20 次，SPO 降水量为24.5～53.4 mm，QPF 降水量为 5.9～52.5 mm（52.5 mm 仅 1 次，其余都是38.6 mm 以下），24 h-QPF 在天山中脉和伊犁河谷地区的吻合度要远高于3 h 预报，但是西部昆仑山周围的降水依然预报效果较差。可以看出，新疆大降水主要发生在山脉附近，EC 模式3 h-QPF 产品对新疆地区地形造成的大降水预报效果并不好，24 h-QPF 产品在天山中脉（乌鲁木齐区域附近）和伊犁河谷地区的大降水预报具有一定的参考意义，但预报强度偏弱和漏报现象依然严重。

图4 排序前200 的SPO 和对应的QPF 站点空间分布

2.3 逐时检验分析

精细化格点预报经常需要在降水订正或者融合后进行时间拆分，时间拆分需要一组权重信息，特别是逐时滚动订正中，不同时效的选择需要考虑不同的订正权重信息，每个时间的发生频率很重要。对3 h-QPF 在 1 d 中 8 个时间（02—23 时）小雨以上量级的频次进行统计（图5a、5d），QPF 的频次平均是SPO 的 2.5 倍，趋势上，SPO 的频次 08 时最高，之后开始减小，17 时最低，之后再增加，而QPF 是17 时频次最高，23 时频次最低，趋势与SPO 相反。中雨以上量级（图5b，5e）的SPO 频次总体上略高于QPF，20 和 23 时的SPO 频次是QPF 的 1.5 倍，SPO 最大频次发生在20 时，而此时刻QPF 是最小值。大雨以上量级（图5c、5f），新疆地区的大量级降水主要发生在17—02 时，而 QPF 在 17—23 时的频次比其他时刻低。SPO 频次平均是 QPF 的 10 倍，SPO 在 11 时频次最小，20 时频次最高，而QPF 在11 时频次最高，QPF 的频次趋势和量级上都与SPO 差距很大。从每年定时频次误差（SPO 减 QPF）可知（图 5d、5e、5f），趋势并不随年度变化，仅仅是量级上有区别，这就说明总的频次趋势可以代表SPO 与QPF 的变化情况。可见，QPF 在8 个时间的小雨上过度预报，大雨上预报不足，中雨从频次量级上比较接近SPO，小雨、中雨、大雨的QPF 频率在时间趋势上都与SPO 存在相反情况。

图5 3 h-QPF 在 1 d 中不同时间的频次分布（a，b，c）和分年度频次误差（d，e，f）

2.4 空间检验分析

为了了解QPF 整个样本在地理空间上的预报能力分布情况，使用ETS 评分作为检验指标进行分析，ETS 评分与业务中用的TS 评分相比，优势在于对于空报的惩罚力度更大。从24 h-QPF 小雨以上量级的ETS 评分可知（图6a、6d），最高评分出现在裕民站为0.49，3 h 最高ETS 在塔城为0.42。24 h-ETS 在 0.35 以上的站点都分布在43°N 以北的地区，ETS≥0.4 以上的站点集中在4 个地区：塔城、伊犁河谷、阿勒泰山西南山脚沿线以及天山博格达峰北侧沿线。3 h-ETS 和24 h-ETS 较低的站点主要分布在南疆的和田、喀什、克州、阿克苏地区（昆仑山北侧、天山南支南侧）。从样本频次可知，24 h-QPF 小雨以上的预报样本平均是SPO 的2.6 倍，3 h-QPF的是SPO 的2.9 倍。评分最低的霍什拉甫乡空报次数是观测的20 倍。小雨以上量级的ETS 评分不高的主要原因是受空报的影响。中雨以上量级的ETS评分结果相对来说是最好的（图6b、6e），从样本频次看，24 h-QPF 中雨以上的预报样本平均是SPO的 1.3 倍，3 h-QPF 的是 0.96 倍，与 SPO 非常接近。24 h-ETS 最高在巩留为0.56，还有3 个站评分达到0.5 以上，包括精河、且末、彩南油田气站。3 h-ETS最高是乌鲁木齐为0.35。3 h-ETS 和24 h-ETS 评分较高的站点也主要分布在43°N 以北地区。中雨以上量级的24 h-ETS 在南疆的喀什地区也出现了评分相对较好的站点。大雨以上量级的ETS 评分绝大部分站点都非常低，但在24 h-ETS 中，阿尔泰山西南部山麓2 个站点（冲乎尔乡、查干郭勒乡）、巴州策达雅乡和田地区塔瓦库勒乡出现了ETS 为1.0 的高分。通过分析，主要是SPO 仅有1 次大雨以上量级发生，QPF 产品正好预报出现。而4 次降水过程中大尺度降水量占总降水量的87%、56%、76%、76%。可见，大量级降水主要贡献来自于系统性大尺度降水量、非对流性降水量。有13 个站的大雨以上ETS评分＞0.2，并主要分布在伊犁河谷和乌鲁木齐地区。24 h-QPF 出现大雨以上量级的样本频次是SPO 的0.43 倍，3 h-QPF 的样本频次是 SPO 的 0.14 倍。说明造成大雨以上ETS 评分较低的根本原因是ECQPF 对大量级降水在整个新疆地区的预报不足。可以看出，整个EC-QPF 预报结果偏向均值预报。

图6 QPF 的站点ETS 评分

3 结论与讨论

新疆地区的降水预报一直是一个难点，目前新疆气象台和各地州的预报员在日常的主观订正业务工作中以及模式释用人员研发的客观订正算法中都强烈依赖EC 细网格QPF 产品，本次研究从实际业务需求出发，利用频次统计、非参数检验法、累积分布函数、ETS 评分等多种技术，通过双线性插值方法将3 h-QPF 的12～36 h 预报面雨量插值到151 个国家地面气象观测站位置，并与站点降水观测量进行对比，从多角度分析了2016 年9 月—2019 年12 月仅3 a 的QPF 产品在新疆地区的预报性能，并得出以下结论：

（1）通过 Fligner-Killeen 和 Mann-Whitney 非参数检验表明，SPO 和QPF 两组数据在统计学上存在显著性差异，不具有方差和均值齐性，表明预报与实况还是有很大差距。3 h-QPF 的预报不确定性要高于 24 h-QPF，3 h-QPF 在 2.4 mm 附近和 24 h-QPF在11.0 mm 附近是空报和漏报的分界点，3 h-QPF对16.5 mm 以上和24 h-QPF 对52.5 mm 以上的大量级降水完全无预报能力。

（2）新疆大量级降水主要发生在山脉附近，24 h-QPF 产品在天山中脉和伊犁河谷地区的大降水预报具有一定的参考意义，但预报强度偏弱和漏报现象依然严重。3 h-QPF 的大降水预报效果不好。

（3）3 h-QPF 在 1 d 中 8 个时间的小雨、中雨、大雨的QPF 频率在时间趋势上都与SPO 存在相反情况。从统计频次和ETS 评分上看，小雨过度预报，空报较多，所以ETS 评分低，大雨预报不足，漏报较多，同样总体ETS 评分低，中雨从频次量级上比较接近SPO，ETS 评分相对最好，整个EC 模式的QPF偏平均态预报。

数值模式QPF 产品后期的统计订正业务是未来智能网格预报中的一个重要研究方向，现在全国很多气象业务中都使用频率匹配法，一些研究[20、21]也表明频率匹配法对QPF 有一定改进效果，但从本次研究的图3 中，可以看出这样一个问题，在新疆地区，SPO 与QPF 在大量级降水的量级对应关系是一个不确定的、非规律性的、非线性的关系。而使用常规的频率匹配技术在EC 产品上很难解决大量级降水预报问题，仅仅使用短时间的资料样本将更难确定降水发生情况。根据CDF 结果可知，如果对新疆3 h 降水订正建模，应该在 [0，2.4]mm 建立消空模型，在（2.4，16.5]mm 建立订正漏报模型，如果对24 h降水订正建模，应该在[0，11.0]mm 建立消空模型，在（11.0，52.5]mm 建立订正漏报模型，3 h 的 16.5 mm以上以及24 h 的52.5 mm 以上需要通过其他相关物理量建立预报模型。在本次研究过程中，通过对模式衍生物理量观察，当SPO 的大量级降水出现时都与EC 模式中的大气可降水量有相对不错的对应关系，以QPF 为主，其他相关物理量为辅，建立大样本下深度学习模型，先进行降水量级划分，再进行相关的多模式频率匹配等方法将是一种更有效的预报方案。

致谢：感谢新疆气象台杨霞同志在论文修改过程中给予的指导！