四种机器深度学习算法对武汉地区雷达回波临近预报的检验和评估*

2022-05-09李武阶

气象 2022年4期

袁凯李武阶李明庞晶

武汉市气象台，武汉 430040

提要：基于PredRNN++、MIM、CrevNet和PhyDNet四种机器深度学习算法，利用武汉地区2012—2019年的雷达和降水资料，开展了人工智能技术在武汉地区临近预报中的应用研究，根据均方误差(MSE)、结构相似性指数(SSIM)、命中率(POD)、虚警率(FAR)和临界成功指数(CSI)等指标检验评估了四种机器学习算法对武汉地区雷达回波临近预报的预报性能，并以半拉格朗日光流法进行了对比，得到以下主要结论：MIM算法的MSE和FAR最低，SSIM最高;PredRNN++算法的POD和CSI最高。机器深度学习算法的POD、CSI和SSIM均高于光流法，FAR和MSE则更低，其中SSIM、POD、CSI三种指标的提升幅度在3.2%～24.7%，MSE和FAR两种指标的降幅在13.1%～43.3%。30 min以内，除CrevNet外，其余三种机器学习算法和光流法的预报能力较为接近；30 min以后，深度学习算法和光流法都随着预报时效的延长，预报能力均显著下降，但机器学习算法下降得更缓慢，尤其是60 min以后光流法的降幅进一步增加，显示出机器学习长预报时效的优势。此外，机器学习算法之间针对不同评分指标在不同预报时效的下降速度并不一致。PredRNN++算法在所有强度上CSI均表现最佳，MIM和PhyDNet两种算法对≥40 dBz的回波预报、CrevNet算法对≥50 dBz的回波预报均好于光流法。机器学习算法和光流法都随着回波强度的增加，CSI和POD迅速降低，FAR快速上升，但机器学习算法的FAR上升得更慢。四个不同回波形态、不同发展趋势个例的分析结果表明，机器学习算法不仅具备对一定回波强度变化的预报能力，而且对回波强度和面积变化趋势的时间节点预报也与实况基本一致。此外，机器学习算法对回波运动的预报能力明显强于光流法，显示出机器学习算法良好的应用前景。

引言

在天气预报业务中，临近预报通常是指对某一区域未来0～2 h内的短时强降水、冰雹、雷暴大风、龙卷和雷电等灾害性天气进行预测(俞小鼎等，2012)，在气象灾害防御中具有极为重要的地位。临近预报的方法主要有雷达回波外推预报、中尺度数值模式预报以及概念模型预报等(Wilson et al，1998)。中尺度数值模式预报由于模式初始场协调和资料同化时效等问题的限制，在最初的几个小时内其预报效果较差，甚至无法直接用于临近预报(王丹等，2014；吴剑坤等，2019)；概念模型预报带有预报员一定的个人主观性，且精细化程度较低。因此，目前业务上临近预报方法仍以雷达回波的外推预报为主(Wilson et al，2010；Wang et al，2016)，主要包括单体质心法、交叉相关法和光流法。

目前业务上广泛使用的单体质心算法主要有TITAN(thunder identification tracking analysis and nowcasting)(Dixon and Wiener，1993)和SCIT(storm cell identification and tracking)(Johnson et al，1998)。单体质心法最先由Austin and Bellon(1982)提出，然后Rosenfelds(1987)、Dixon and Wiener(1993)和徐月飞等(2011)对其进行了大量试验和改进，虽然取得了一定的效果，但其较大的计算量和只适用于强对流风暴的“先天性缺陷”，导致其预报准确率很难以较大幅度地提高。

交叉相关法由Rinehart and Garvey(1978)提出，其后国内外专家和学者从不同角度对其进行了改进，改进后的交叉相关法解决了回波波形变化导致的运动无序(Rinehart，1981)和反演矢量不连续等问题(Li et al，1995)，得到了较为均匀的风场(徐亚钦等，2011)，但基于交叉相关法的外推预报技术主要获得的是雷达回波的水平运动矢量，并没有考虑深对流系统通常伴随较强的垂直运动，因此该方法仅适用于缓慢变化的层状云降水系统，而对快速增长或消散的强对流系统的预报效果并不理想(韩雷等，2008；曹春燕等，2015)。

为了进一步提高雷达回波的外推预报技术，许多专家和学者引入了计算机视觉领域的光流法，该方法最早由Gibson(1979)提出，众多专家学者对其进行了大量检验和优化升级，结果表明：光流法可以较为准确地得到雷暴的整体运动趋势，对于移动型局地生成及强度和形状随时间变化较快的雷暴，光流法明显优于交叉相关法，而对于热带降水系统尤其是台风系统，光流法没有考虑雷达回波的旋转性，预报效果不如交叉相关法(曹春燕等，2015；Bechini and Chandrasekar，2017)。虽然光流法已较大幅度地提高了回波临近预报的准确率，但其基本模型较实况仍存在不少误差，比如要求图像遵循灰度不变形假设，即线性外推原则，此外求解光流场时，也只适用于回波运动较小的情况，对于快速移动的回波误差仍然较大。

近年来，以机器深度学习为代表的人工智能技术在图像识别和视频领域取得了突破性进展，由于其挖掘海量数据和非线性建模的优秀能力，众多学者将其引入到以雷达回波预报为主的短时临近预报业务中，并取得了良好的成果(许小峰，2018；黄骄文等，2021)。Shi et al(2015) 提出了卷积长短期记忆单元网络算法(convolutional LSTM network，ConvLSTM)，结果表明ConvLSTM优于普通的光流法；Wang et al(2017)提出了PredRNN算法，并在此之上，提出了PredRNN++算法(Wang et al，2018)，结果显示PredRNN++效果较ConvLSTM有明显的提升；Wang et al(2019)提出了MIM(memory in memory)算法，结果表明MIM算法不仅具有良好的平稳信息的提取能力，还具备一定提取非平稳信息的能力；陈元昭等(2019)研究了基于生成对抗网络的临近预报方法，结果表明对中等强度的回波其预报效果较好。Yu et al(2020)提出了 CrevNet算法，结果显示该算法对交通视频识别与处理精准度较高，具有较强的预测能力；Le Guen and Thone(2020)以ConvLSTM为内核，提出了PhyDNet算法，结果表明该算法在视频预测上具有良好的时空预测能力，尤其对长时间预测具有明显的优势。陈训来等(2021)利用卷积门控循环单元神经网络算法(convolutional gated recurrent unit，ConvGRU)对雷达回波进行临近预报，结果表明，基于ConvGRU方法对强对流天气具有较好的预报效果，业务中具有广泛的应用前景；顾建峰等(2020)采用TrajGRU算法，建立了重庆地区三维雷达回波智能预报系统，并将其业务化，结果显示机器学习在回波演变的临近预报方面具有明显优势，人工智能技术在重庆临近预警业务中已初见成效。

虽然基于深度学习的临近预报技术已经取得了令人欣喜的成果，各种算法都表现出特有的预报性能，但雷达回波的发生、发展和移动是非常复杂的，它与站点所处的气候带、站点附近特殊的地形和地貌特征等因素相关，所以开展机器深度学习算法预报性能的检验评估，有利于各地选择适用于本地的深度学习方法，建立最优的深度学习模型(陈锦鹏等，2021；周康辉等，2021)。因此，本文选取在常规数据集中表现良好、计算成本较低且内部结构差异较大的四种深度学习算法，利用武汉地区较长时间序列的雷达和降水资料，开展基于机器深度学习算法的雷达回波临近预报应用研究和预报结果的检验评估，并与业务中常用的半拉格朗日光流法进行对比分析和检验，以期寻找到适合武汉地区的深度学习算法，为武汉地区雷达回波临近预报提供智能化的客观参考。

1 资料与方法

1.1 资料

本研究主要用到以下两种资料：逐日和逐小时的降水资料，主要用来选取训练和检验样本;新一代多普勒天气雷达组合反射率因子拼图产品，时间分辨率为6 min，本文所选范围为覆盖湖北东部地区的以武汉雷达站为中心、边长为256 km的正方形区域，其经纬度范围分别为29.247°～31.797°N、113.098°～115.648°E，空间分辨率为1 km ×1 km。雷达回波数据进行了孤立噪音过滤和超折射回波抑制(吴涛等，2013)，并利用中值滤波(赵悦等，2007)进行质量控制。

为尽可能地增多训练和检验样本个数，使算法能够学习到不同种类的回波特征，同时降低样本严重失调(弱降水过程和无降水的天气占全年的绝大多数时间)带来的不利影响，本文以武汉地区5个国家气象观测站和14个观测环境良好、数据质量较高且地理分布较为均匀的自动气象观测站为基础(具体站点和位置如图1所示)，选取2012年6月1日至2019年12月31日，上述任一站点日降水量≥10 mm、小时降水量≥0.6 mm且组合反射率因子拼图连续3小时不断裂的连续雷达回波为1个样本(如有重叠则算为1个样本)，然后对样本进行切片(这里所说的“切片”是指将样本进行分段处理，即样本前10张连续的雷达回波作为模型训练的输入资料，后20张连续的雷达回波为模型训练的输出资料)，共计得到3 112个样本，考虑到各年之间天气过程的差异性较大，本文按照4∶1的比例，随机分配训练和检验样本(2 490个训练样本和622个检验样本)，由于检验样本没有参与算法的训练和参数调整，因此可以客观地衡量各算法的学习能力和预报效果。

图1 武汉市5个国家气象观测站、14个自动气象观测站以及武汉雷达站的空间分布(圆点为国家站，十字形为自动站，实心三角形为雷达站)Fig.1 Spatial distribution of observation stations (dot: national station, cross: automatic station, solid triangle: radar station)

1.2 检验方法

为了统一有效地评估各算法的预报能力，以半拉格朗日光流法为对比(本中所指光流法如无特殊说明，皆为半拉格朗日光流法)，以实况回波图像为基础，将实际回波图像和预报的回波图像格点化成单独的像素点，再逐个像素点检验预报准确率，用均方误差(mean squared error，MSE)表征预报回波图像与实际回波图像在强度上的误差，用结构相似性指数(structural similarity index，SSIM)(Wang et al，2004)衡量预报回波图像与实际回波图像的相似度，SSIM介于-1～1，当两张图片一模一样时SSIM的值等于1，MSE和SSIM的计算公式如下：

此外，为了考察各方法对不同量级范围内反射率因子的预报能力，采用临界成功指数(critical success index，CSI)、命中率(probability of detection，POD)和虚警率(false alarm rate，FAR)等指标对预报结果进行量化评估，其计算公式如下：

式中：NAk为预报正确格点数，NBk为空报格点数，NCk为漏报格点数，k为检验雷达回波不同强度阈值，采用分阈值的检验方法(分别为20、30、40和50 dBz)，对逐个像素点进行检验。

表1 雷达回波预报分级检验表Table 1 Classification of radar echo forecast test

2 机器深度学习算法和半拉格朗日光流法

众所周知，雷达回波临近预报的本质就是时空序列的预测，在机器学习方面可以分为以卷积神经网络(convolutional neural network,CNN)和循环神经网络(recurrent neural network，RNN)为基础的两个大类，其中以CNN为基础的机器算法侧重于对空间特征的提取，而以RNN为基础的机器算法则更偏重于对时间特征的捕捉，且存在梯度消失的问题(Wang et al，2018)。为了兼顾空间特征和时间信息的均衡性，因此大多数的深度学习算法将CNN和RNN结合起来使用，本文采用的四种算法亦如此，其中PredRNN++、MIM算法已经应用于雷达回波临近预报，而CrevNet和PhyDNet算法则是视频预测领域最新的算法，尚未应用于雷达回波临近预报。

2.1 PredRNN＋＋算法

Shi et al(2015)将RNN中传统的LSTM(long short-term memory)中的全连接层改为卷积层，提出了ConvLSTM算法，而后发展出的ConvGRU、TrajGRU等算法(Shi et al，2017)与ConvLSTM并无本质的区别，这些算法将LSTM或GRU中的记忆模块改造成CNN结构，增强了算法对空间特征的提取能力。Wang et al(2017)在ConvLSTM算法的基础之上，将可以记忆的单元放置在算法的堆叠结构中，提出了PredRNN算法，为了缓解该算法中梯度容易消失的问题以及提高其对短时非线性时空特征的提取能力，引入了GHU(gradient highway unit)，该结构使得梯度能够在第一层和第二层之间高速传递，有效抑制了梯度的消失，最终提出了PredRNN++算法(Wang et al，2018)。

2.2 MIM算法

Wang et al(2019)为了解决PredRNN中LSTM遗忘门的饱和问题，将图片的信息分为平稳信息和非平稳信息两部分，提出了MIM算法，该算法分两次对图片信息进行提取，首先由MIM-N结构提取出非平稳信息，而后传递给MIM-S，MIM-S则利用门控来选择记忆或忘记非平稳信息的多少，同时通过多层模块之间相互的差分运算，使得非平稳信息缓慢降低，从而提取出各种高阶的非平稳信息，最终将所提取的平稳信息和非平稳信息相结合，进行输出与预测。

2.3 CrevNet算法

Yu et al(2020)提出的CrevNet算法，是一种全新的嵌套了三维卷积模块的双向可逆自编码结构，其在一系列正向和反向计算过程中使得输入和特征之间建立了一对一的双向映射关系，这种关系理论上保证了在特征提取过程中不丢失信息，因而保留更多信息进行预测，明显提高了预测图片的清晰度。此外，该算法的内存和计算开销都较小，对于硬件要求不高，易于训练和调试。

2.4 PhyDNet算法

Le Guen and Thome(2020)提出了PhyDNet算法，该算法参考了MIM算法的基本假设，将图片信息分为已知的物理过程和未知因素(包括生消、发展等)两个部分，然后用深度网络结构来约束模型，以ConvLSTM为主要内核来提取未知因素，此外利用卷积过程模拟偏导，从而学习到新的物理信息，最后将物理信息和已有的未知因素结合，从而进行更好的预测。

2.5 半拉格朗日光流法

本文所指的半拉格朗日光流法均为Lucas-Kanade稀疏光流法(Lucas and Kanade，1981)。Lucas-Kanade稀疏光流法处理的像素点较少，耗时短，该算法需满足以下3个基本假设：(1)亮度恒定，即同一点随着时间的变化，其亮度不变；(2)小运动，即随着时间的变化不会引起位置的剧烈变化；(3)空间一致，即场景中邻近点投影到图像上相邻位置不变且相邻点速度一致。具体的计算步骤：首先，根据每组样本中最后连续的s3张雷达回波实际图像，利用Lucas-Kanade方法计算出光流场；然后，基于已经计算出的光流场，利用半拉格朗日方法进行外推预报(张蕾等，2014)。

3 结果分析

3.1 个例分析

3.1.1 2018年6月30日片状回波个例

2018年6月30日11:30的雷达回波上显示(图2)，武汉地区西部有强度超过45 dBz的片状回波，从回波的演变来看，预报时效内该片状回波不断东移进入湖北东部地区，回波面积变大，强度无明显变化。对比光流法和机器深度算法的预报结果：光流法对片状回波的位置把握较好，但对回波形态的预报较差，尤其是对后侧进入武汉地区的回波缺乏预报能力。而四种机器学习算法中，除CrevNet算法外均准确预报出了后期进入武汉地区的片状回波面积的增大，尤其是PhyDNet和PredRNN++算法预报的回波形态与强回波位置与实况吻合较好。另外，从回波强度上看，深度学习算法预报的回波强度较实况都偏弱，PhyDNet和PredRNN++算法强度最强，最接近实况。

图2 2018年6月30日11:30—14:24(a～g)回波实况和(h～l)预报回波对比(a)11:30,(b)11:54,(c)12:24,(d)12:54,(e)13:24,(f)13:54,(g)14:24；(h)光流法,(i)MIM,(j)CrevNet,(k)PhyDNet,(l)PredRNN++Fig.2 Comparison between (a-g) observation and (h-l) forecast of radar echo from 11:30 BT to 14:24 BT 30 June 2018(a) 11:30 BT, (b) 11:54 BT, (c) 12:24 BT, (d) 12:54 BT, (e) 13:24 BT, (f) 13:54 BT, (g) 14:24 BT; (h) optical flow, (i) MIM, (j) CrevNet, (k) PhyDNet, (l) PredRNN++

3.1.2 2014年7月4日弓状回波个例

2014年7月4日08:30的雷达回波上显示(图3)，武汉中北部和南部地区有多个强度达45 dBz以上的块状回波存在，从回波的演变来看，预报时效内这些块状回波在东移的过程中，逐渐合并和组织化，强度几乎保持不变，最终形成一个经武汉东北部—东南部—西南部的环绕湖北东部地区的大弓状回波。从光流法和机器深度算法的预报结果来看：光流法对东北侧回波位置的把握较好，但对整体的回波形态的预报较差，尤其是对块状回波移动过程中的合并缺乏预报能力。而除CrevNet以外的其他三种机器学习算法均成功预报出了块状回波在东移过程中的合并，整体回波形状和回波中心位置与实况非常吻合。最后，从回波强度上看，所有深度学习算法预报的强度较实况都偏弱，但PredRNN++算法强度最强，与实况最接近。

图3 同图2，但为2014年7月4日08:30—11:24(a～g)雷达实况(a)08:30,(b)08:54,(c)09:24,(d)09:54,(e)10:24,(f)10:54,(g)11:24Fig.3 Same as Fig.2, but from 08:30 BT to 11:24 BT 4 July 2014(a) 08:30 BT, (b) 08:54 BT, (c) 09:24 BT, (d) 09:54 BT, (e) 10:24 BT, (f) 10:54 BT, (g) 11:24 BT

3.1.3 2018年7月30日分散性回波个例

2018年7月30日20:30的雷达回波上显示(图4)，武汉地区中部和南部有多个分散性块状回波存在，其中中部块状回波强度超过50 dBz，南部块状回波强度较弱，从回波的演变来看，预报时效内中部块状回波的面积和强度均快速减弱，至23:30基本消散殆尽，而南部的块状回波面积逐渐减小，强度略有减弱。对比光流法和机器深度算法的预报结果：光流法虚报出了中部地区多块的强回波以及过高估计了南部块状回波的强度和面积。而机器学习算法中，除PhyDNet算法外，均准确预报出了中部块状回波的强烈衰减，而且对回波强度减弱和面积变小的时间节点的预报也与实况几乎一致，都表现为21:54—22:24回波强度的稍有减弱和面积的稍微变小，以及22:24—23:24回波强度的明显减弱和面积的显著缩小，尤其是CrevNet算法还成功地预报出了南侧块状回波面积的变小，其预报的回波面积与回波位置与实况吻合较好，强度也非常接近实况回波强度。

图4 同图2，但为2018年7月30日20:30—23:24(a)20:30,(b)20:54,(c)21:24,(d)21:54,(e)22:24,(f)22:54,(g)23:24Fig.4 Same as Fig.2, but from 20:30 BT to 23:24 BT 30 July 2018(a) 20:30 BT, (b) 20:54 BT, (c) 21:24 BT, (d) 21:54 BT, (e) 22:24 BT, (f) 22:54 BT, (g) 23:24 BT

3.1.4 2016年7月1日带状回波个例

2016年7月1日15:30的雷达回波上显示(图5)，武汉地区有南北两块中心强度超过45 dBz的强回波，北部呈块状，南部则呈带状，从后期回波的演变来看，北部的块状回波缓慢东移，强度减弱，面积变小，南侧的带状回波强度和面积无太大变化，但位置略有南压。从光流法和机器深度算法的预报结果来看：光流法对北部回波移动的把握较好，预报的强回波的位置与实况基本吻合，但其预报的回波强度较实况略偏强，而对南侧带状回波位置预报误差较大，尤其在30 min之后误差进一步增大。而四种机器学习算法均预报出了北部块状回波在东移过程中强度减弱和面积变小的变化趋势，而且对回波强度减弱和面积变小的时间节点的预报也与实况几乎一致，都表现为16:54—17:24回波强度的稍有减弱和面积的稍微变小以及17:24—18:24回波强度的明显减弱和面积的显著缩小。此外，机器学习算法对强回波位置的预报也与实况基本一致，其所预报的南北两块强回波位置与实况基本一致，但南侧带状回波的面积较实况稍有偏大。另外，从强度上看，所有算法预报的回波强度较实况都偏弱，其中MIM算法偏弱的最明显，而CrevNet算法强度最强，与实况最为吻合。

图5 同图2，但为2016年7月1日15:30—18:24(a)15:30,(b)15:54,(c)16:24,(d)16:54,(e)17:24,(f)17:54,(g)18:24Fig.5 Same as Fig.2, but from 15:30 BT to 18:24 BT 1 July 2016(a) 15:30 BT, (b) 15:54 BT, (c) 16:24 BT, (d) 16:54 BT, (e) 17:24 BT, (f) 17:54 BT, (g) 18:24 BT

上述四个不同回波形态、不同发展趋势个例的分析结果表明：光流法由于其“刚体边界”以及对非线性运动的拟合，随着外推时间的增长，光流场使得预报图片的形变就越明显，导致其对回波位置预报误差较大，尤其在30 min之后这种误差表现得更加明显。此外，由于亮度恒定假设的限制，使得光流法缺乏回波强度变化的预报能力。而机器学习算法不仅对回波运动的把握能力明显强于光流法，而且还具备一定回波强度变化的预报能力，并且对回波强度和面积变化趋势时间节点的预报也与实况基本一致，但所有算法预报的回波强度较实况都偏弱。而造成各种机器算法预报的回波强度偏弱的原因主要有以下两个方面：一方面各算法所采用的网络结构在提取空间特征的过程中不可避免地存在信息损失，预报时效越长，信息损失得越明显，从而导致预报的回波强度较实况偏弱；另一方面还可能与损失函数的设定有关，由于以MSE为损失函数平均了整幅图像的误差，使得在预报的后期时段像素值趋于平均，导致所预报的回波强度偏弱，在视觉上产生逐渐“模糊化”的过程(Zhao et al，2017；陈训来等，2021)。后期将图像梯度差(gradient difference loss，GDL)引入损失函数中，进行多损失函数的加权试验(Nie et al，2018)，让算法更加注重图像整体结构而忽略局部噪音影响，同时探索不同预报方式的可行性，改进算法对空间信息提取的效果，让新算法预报的图像更接近实际的回波强度。

3.2 整体评分

为满足户外重大活动气象保障临近预报精细化服务的需求，以10 dBz为回波强度阈值，对622组检验样本2 h的平均得分(预报时间间隔为6 min)进行再平均(结果见表2)，可以看到四种机器学习算法中，MIM算法的MSE和FAR最低、SSIM最高，表明其对大多数回波位置和整体回波形状的预报较其他算法更为准确；而PredRNN++的POD和CSI最高，表明该算法对大多数强度回波预报最为准确。但四种机器学习算法无论是哪种检验指标均要明显好于光流法，其中SSIM、POD、CSI三种指标的提升幅度在3.2%～24.7%，MSE和FAR两种指标降幅在13.1%～43.3%。

表2 平均的MSE、SSIM、POD、FAR和CSITable 2 The average MSE, SSIM, POD, FAR and CSI of algorithms

3.3 评分随时间的演变

从各种评分指标随时间的演变来看(图6)，在初始的30 min以内，除CrevNet算法外，其余三种算法和光流法的预报能力比较接近，都表现出MSE、FAR的缓慢上升以及SSIM、POD、CSI的缓慢下降，而CrevNet算法的MSE和FAR几乎持平，甚至略有降低，而且SSIM、POD甚至还略有上升的趋势，这种差异可能与其特有的结构有关，即CrevNet算法对预报的回波采取预测图像和实况回波图像相结合的策略，即对于靠前时刻的回波图像，它重点考虑输入的第8～10张实况回波图像，而后随着预报时刻的延长这种权重不断降低。换而言之，在刚开始进行预测的半小时内，由于过分考虑了输入的第8～10张实况回波图像，导致其所预报的回波位置出现了较大偏差，因而MSE和FAR较其余算法明显偏大，POD、SSIM和CSI则明显偏低，但30 min之后这种权重减弱显著，与其他算法表现一致。

图6 平均的(a)MSE、(b)SSIM、(c)POD、(d)FAR和(e)CSI随时间的演变(横坐标为预报时间，预报时效为0～120 min，时间间隔为6 min)Fig.6 The average evaluation of (a) MSE, (b) SSIM, (c) POD, (d) FAR and (e) CSI(The abscissa axis is forecast time, 0-120 min， the interval is 6 min)

30 min以后，各种机器学习算法和光流法都随着预报时效的延长，预报能力逐步下降，但所有指标都显示机器学习算法较光流法下降得更加缓慢，尤其是60 min以后，光流法的降幅进一步增加，而机器学习算法降幅相对平稳，两者之间的差距随着预报时效的延长而显著增加。以MSE为例，30 min 时光流法与MIM算法的MSE差值为9.43 (dBz)2，到120 min时两者之间的MSE差值扩大到了11.64 (dBz)2，这与顾建峰等(2020)和陈训来等(2021)的研究结果一致。此外，四种机器学习算法针对不同评分指标在不同预报时效内的变化趋势也不尽相同： MIM算法的MSE、SSIM、POD和FAR在30～120 min内变化得最慢；PhyDNet算法的CSI在30～120 min变化最慢；CrevNet算法在30 min内的变化与其他算法相比有较大不同，预报效果最差，但在30～120 min内，其和PredRNN++算法在SSIM、POD和FAR上的变化趋势几乎一致，只是CrevNet的CSI下降较PredRNN++稍快。

3.5 不同阈值回波的检验

为了客观衡量各算法对于不同强度回波的预报能力，进行了不同阈值回波的检验评估(表3)。整体来看，各算法随着回波强度的增加，CSI和POD都迅速降低，FAR则陡然上升，但各指标下降和上升最快的区间有一定的差异：CSI和POD在20～30 dBz 的区间下降最快，而光流法和CrevNet算法的FAR在此区间上升最快，MIM、PredRNN++和PhyDNet算法则在40～50 dBz 急剧上升。

表3 各算法对不同阈值回波预报的平均评分表(预报时效2 h，预报时间间隔为6 min)Table 3 The average score table of each algorithm for radar echo prediction with different thresholds (lead time: 2 h， forecast interval: 6 min)

逐个指标来看，PredRNN++算法在所有强度上CSI均表现最佳，MIM、PhyDNet算法对≥40 dBz回波的预报较光流法好，而CrevNet算法则对≥50 dBz 回波的预报较光流法好；对≥20 dBz、≥30 dBz和≥40 dBz回波预报，POD得分最高的均为PredRNN++算法，而对≥50 dBz回波预报，则是CrevNet算法的POD得分最高；从FAR指标检验来看，≥20 dBz和≥30 dBz回波预报得分最低的都为MIM算法，≥40 dBz回波预报得分最低则为PhyDNet算法，而PredRNN++算法则对≥50 dBz回波预报的虚警率最低。

4 结论与讨论

本文基于PredRNN++、MIM、CrevNet和PhyDNet四种机器深度学习算法，利用2012年6月1日至2019年12月31日武汉地区的雷达和降水资料，以MSE为损失函数，对武汉地区雷达回波临近预报的性能进行了初步探讨，得到以下主要结论：

(1)通过622组随机样本的检验表明：MIM算法的MSE和FAR最低、SSIM最高，PredRNN++的POD和CSI最高。但这四种机器学习算法无论是哪种检验指标均要明显好于光流法，其中SSIM、POD、CSI三种种指标的提升幅度约在3.2%～24.7%，MSE和FAR两种指标降幅约在13.1%～43.3%。

(2)从各指标的时间演变来看：30 min以内除CrevNet算法外，PredRNN++、MIM和PhyDNet算法与光流法的预报能力较为接近，30 min以后机器算法和光流法都随着预报时效的延长，预报能力均下降，但机器学习算法较光流法下降得更加缓慢，尤其是60 min以后光流法的降幅进一步增加，因此两者之间的差距进一步增大，显示出机器学习长预报时效的优势。此外，机器学习算法之间对不同评分指标在不同时段下降速度的反映不尽相同：MIM算法的MSE、SSIM、POD和FAR在30～120 min内变化最慢，PhyDNet的CSI在30～120 min变化最慢，CrevNet和PredRNN++算法在SSIM、POD和FAR上几乎一致，但CrevNet的CSI下降较PredRNN++稍快。

(3)从不同阈值强度回波的评分来看：Pred-RNN++算法在所有强度上CSI均表现最佳，MIM、PhyDNet算法对≥40 dBz回波的预报较光流法好，而CrevNet则对≥50 dBz回波的预报较光流法好；POD方面，≥20 dBz、≥30 dBz和≥40 dBz回波得分最高的均为PredRNN++算法，≥50 dBz以上则是CrevNet算法；FAR方面，≥20 dBz和≥30 dBz 回波得分最低的都为MIM算法，≥40 dBz最低则为PhyDNet，≥50 dBz最低则为PredRNN++。

(4)四个不同回波形态、不同发展趋势个例的分析结果表明：光流法由于其固有缺陷，对回波强度的变化缺乏预报能力，并且30 min以后对回波移速和移向的估计也出现明显偏差，而且这种偏差随着预报时效的增长不断增加，最终导致其所预报的回波位置与实况的误差越来越大，而机器学习算法不仅对回波运动的把握能力明显强于光流法，而且还具备一定回波强度变化的预报能力，并且对回波强度和面积变化趋势时间节点的预报也与实况基本一致，但所有算法预报的回波强度较实况都偏弱。

(5)就四种机器学习算法而言：MIM算法对大多数回波的位置和整体回波形状的把握最好，Pred-RNN++算法对大多数强度回波预报最为准确，CrevNet算法对50 dBz以上强回波的预报能力最强，但MIM、PhyDNet和PredRNN++算法所预报的回波强度较实况明显偏弱，尤其是MIM偏弱得非常显著，而CrevNet则最强与实况强度最为接近，但其强回波范围较实况略偏大。

虽然机器深度学习算法较光流法表现出一定程度的优势，但也存在一些问题：首先，从时间演变来看，机器学习算法预测的回波在60 min之后逐渐开始“雾化”，这种“模糊化”作用会让小面积的最强回波被平滑掉，并“泛化”出较大的次强回波的范围，因此在业务应用过程中，对于60 min后，尤其是90 min 后，机器学习预报出回波面积显著增大的区域，需要特别警惕降水区域可能有显著的变化。此外，这种过度平滑的回波预报图像将会对机器算法的检验评分也产生一定程度的影响，比如对于一个实况上回波强度明显减弱的个例，将导致其评分偏高，而对于一个实况上回波强度明显增强的个例，又将导致其评分偏低，而具体定量的影响则可能与各算法对回波强度整体的平滑程度、检验样本中不同的回波强度演变趋势个例的占比等因素有关。其次，由于大多数雷暴的平均生命期仅为30 min，对于生命期短于这个时间的雷暴，外推预报的意义不大(俞小鼎等，2012)，只有对那些生命期较长的对流系统，外推预报才具有意义。最后，仅基于雷达回波的外推预报仍具有一定的局限性，快速更新循环同化预报的高分辨率中尺度数值模式与不断发展的外推技术的融合将是未来临近预报的发展方向(王丹等，2014)。