深度学习在印度洋偶极子预报中的应用研究

2022-06-01刘俊唐佑民宋迅殊孙志林

大气科学 2022年3期

关键词：北半球印度洋耦合

刘俊唐佑民宋迅殊孙志林

1 浙江大学海洋学院, 杭州310058

2 河海大学海洋学院自然资源部海洋灾害预报重点实验室, 南京210021

3 自然资源部第二海洋研究所卫星海洋环境动力学国家重点实验室, 杭州310012

4 南方海洋科学与工程广东省实验室(珠海), 珠海519082

1 引言

在热带印度洋存在两个明显的年际变率模态：印度洋海盆模态（Indian Ocean Basin-wide Mode，IOBM)和印度洋偶极子模态（Indian Ocean Dipole Mode，IODM）。IOBM 表现为整个热带印度洋区域一致增暖的模态，该模态一般被认为是热带印度洋对热带太平洋的厄尔尼诺—南方涛动（El Niño-Southern Oscillation, ENSO）的响应（Klein et al.,1999; Venzke et al., 2000）。IOD 模态表现为东西部海表温度异常（Sea Surface Temperature anomaly,SSTA）符号相反的印度洋偶极子模态（Saji et al.,1999）。印度洋偶极子的两极分别位于：热带西印度洋（10°S～10°N，50°～70°E；简称西极子，WIO）与热带东南印度洋（10°S～0°，90°～110°E；简称东极子，EIO）。两极子之间SST 距平的区域平均之差定义为印度洋偶极子指数（Indian Ocean Dipole Mode Index，DMI）。

IODM 是印度洋气候异常年际变率的主要模态（Saji et al., 1999; Ashok et al., 2001），也是全球气候季节到年际变化的主要影响因子之一（Saji and Yamagata, 2003）。IOD 一般起始于5～7 月，在9～11 月达到峰值，12 月到来年1、2 月迅速消亡，呈现出明显的季节锁相性（McKenna et al., 2020）。IOD 事件的整个过程受到热带印度洋背景场的调控。以正IOD 事件为例，通常在IOD 发展的初期，即5～7 月，在热带印度洋夏季风的作用下，苏门答腊岛沿岸的东南风加强，边界流引起的Ekman 输运增强，离岸流造成上升流也增强，使得局地的温跃层变浅。当温跃层抬升到一定的深度后，上升流的作用使得苏门答腊—爪哇岛沿岸的SST 变冷。东印度洋的SST 负异常将进一步加强热带印度洋东西向的SST 梯度，SST 的梯度反过来导致大气对流向西流动，从而进一步增强苏门答腊—爪哇岛沿岸和赤道印度洋的东风异常，此东风异常有利于苏门答腊沿岸的SST 变冷，这个过程也称为Bjerknes 正反馈。而在来年的冬季，由于季风转换，背景风场转向，热带东南印度洋的东南风转为西北风，不再利于上升流的产生，从而关闭利于产生IOD事件的时间窗口，使得IOD 事件迅速消亡（Saji et al., 1999; Saji and Yamagata, 2003; Liu et al., 2017）。

IOD 会直接或间接影响世界许多地区的气候，例如东非、印度尼西亚、澳大利亚、中国、欧洲和日本。IOD 的正相位时期，印度洋东南部地区的冷SST 异常会影响澳大利亚的气候，澳大利亚周围的异常冷水会导致降雨的减少（Ashok et al.,2003）；IOD 还可以通过调节太平洋遥相关对日本的气候产生影响，并且借由大气遥相关影响欧洲的夏季（Behera et al., 2013）；IOD 还能通过调节亚洲冬季风影响我国多个地区的气温和降雨（Li and Mu, 2001）。IOD 对许多国家产生了巨大的社会经济影响，因此，提前精准预测IOD 尤为重要。目前，世界上各大预报中心多使用大气海洋耦合气候模型来预测IOD（Luo et al., 2007; Weller and Cai,2013; Kirtman et al., 2014）。这些动力学模型对全球气候模拟与IOD 预报起到了巨大的推动作用。目前气候动力学模型对IOD 的实际预测时效约为一个季度左右，而理论分析表明，IOD 的潜在预测时效在两个季度以上（Zhao and Hendon, 2009; Shi et al., 2012; Becker et al., 2014; Liu et al., 2017; Wang et al., 2017; Wu and Tang, 2019）。因此，IOD 的实际预报技巧仍有较大的提升空间。

随着大数据时代的来临，深度学习由于其高效的数据处理能力（LeCun et al., 2015），在气候科学中的应用逐渐增多（Sahai et al., 2000; Lee et al.,2018; Rasp et al., 2018; Ham et al., 2019; Ratnam et al., 2020）。深度学习一般由多个处理层来组成计算模型，在经过若干处理层的转换之后，模型可以学到非常精细的组合模式和空间特征（LeCun et al., 2015; Krizhevsky et al., 2017）。 Ham et al.（2019）利用深度学习中的卷积神经网络（CNN）模型对ENSO 进行了预报。他们的结果显示利用深度学习获得的ENSO 预报技巧要高于现有最先进的耦合气候动力模式，证明了深度学习在预报气候事件中的潜力。由于IOD 的预报存在冬春季和夏季预报障碍（Feng et al., 2014; Liu et al.,2018），当起始态为北半球冬春季时，预报后续的IOD 发展最为困难（Wu and Tang, 2019; 雷蕾等,2020）。因此，本文将使用深度学习中的卷积神经网络处理再分析资料中的SSTA，以春季为起始来预报IOD 事件以及东、西极子的温度变化。同时，我们应用人工神经网络（ANN）中的多层感知机（MLP）进行相同的预报试验，作为经典神经网络的预测结果。通过比较两种模型的预报结果，分析CNN 模型的在预报印度洋海温上的优势。

本文的主要内容如下：第二节为本文所用的数据和模型；第三节为利用CNN 和MLP 模型对DMI、EIO 指数和WIO 指数的预测结果；第四节为总结与讨论。

2 数据与模型

2.1 数据

本文训练模型选取的观测资料为美国国家海洋和大气管理局（National Oceanic and Atmospheric Administration，NOAA）的再分析资料Extended Reconstructed Sea Surface Temperature Version 5（ERSSTv5）（Huang et al., 2017），其中，训练集时间范围为1854～1989 年；验证集时间范围为1990～2019 年（共30 年）。SSTA 所选范围为整个印度洋区域（70°S～25°N，25°～130°E）。我们将ERSSTv5 中连续三个月（1～3 月（JFM）、2～4 月（FMA）、3～5 月（MAM））的SSTA作为CNN 的输入数据。模型输出为提前时间（lead month）对应的DMI、EIOI 、WIOI。输入和输出的数据均是相对于气候态的异常值，并且输入与输出的数据都进行了去趋势化处理。

2.2 CNN 模型与MLP 模型

如图1 所示，本文使用的CNN 模型架构包含两个卷积池化层，一个全联接层和一个输出层。卷积层的作用是提取输入SSTA 的空间特征等关键信息，池化层对这些信息进行放大或平均。经过两次卷积池化处理后，全联接层将特征图展开并映射到合理的解空间。每个卷积层中有10～12 个过滤器，用于提取SSTA 的空间信息。过滤器在3×3 网格中提取SSTA 数据特征。平均池化层在2×2 网格中提取特征。全连接层具有8～10 个神经元。因为需要回归来生成DMI，最终输出层是一维的。根据卷积层中过滤器和全联接层中神经元数目的不同，共有27 种CNN 模型的架构，分别记做C10C10D8，C10C10D9， C10C10D10， C10C11D8， ······，C12C12D10 等（C 和D 分别表示卷积层和全连接层，后面的数字代表过滤器或神经元数量）。数据批次为每次更新CNN 模型读取的数据量大小。训练中尝试了将数据批次设置为12、24、48 和全批次（whole batch）。结果表明，CNN 模型对数据批次并不敏感，因此，数据批次设置为24。

图1 CNN 模型框架图Fig. 1 Architecture of the CNN (convolutional neural network) model

训练输入数据为ERSSTv5 连续三个月的SSTA，时间范围为1854～1990 年。原始ERSSTv5网格点由原先的180×89 被重新调整为72×36，目的是避免CNN 模型参数过多导致的过拟合现象。除了限制输入数据大小外，本文还通过减少神经元数量来尽量避免过拟合现象。如前文所述，CNN模型的神经元数量选取地较少，这本质上也是在限制CNN 模型的参数。CNN 模型的激活函数为Relu 函数，损失函数为常用的平均绝对误差函数MAE（Mean Absolute Erorr）。

学习率（Learning Rate，LR）是CNN 模型中相当重要的参数，它代表了模型寻优过程的优劣。不同CNN 模型架构倾向于不同的LR。因此，对于这27 种CNN 模型架构中的每一种，采用从0.05到0.0001 的LR 范围进行训练测试，选取使训练出的DMI 与观测值相关系数最高的LR 作为对应CNN模型架构的参数。随后，在这个模型上，输入验证集数据来生成预测的DMI。将27 个不同架构的CNN 模型输出的平均值用作最终的预测DMI。

文中针对每个输入时刻和对应的输出时刻建立各自的CNN 模型组合（表1）。由于使用了三种预报初始时刻，且分别预报后续7 个月的DMI，则一共有21 个CNN 模型组合。考虑到不同的27种CNN 模型架构，则总的CNN 模型数量为567（21×27）。同理，预测EIO 和WIO 的CNN 模型的数量也均为567 个。

表1 CNN 模型、MLP 模型的输入（SSTA）与输出（DMI）Table 1 Input (Sea Surface Temperature Anomaly, SSTA) and output (Indian Ocean Dipole Mode Index, DMI) of CNN model and MLP (multi-layer perceptron) model

MLP 模型是一种前向结构的人工神经网络（ANN）模型，由输入层、隐藏层、输出层组成。MLP 模型所有的神经层均为全联接结构，且可以包含多个隐藏层。本文使用的多层感知机MLP 只包含一个隐藏的全联接层。与本文所用的CNN 模型相比，MLP 模型缺少了卷积层和池化层，因此提取空间特征的能力相对较弱。为了与CNN 模型的预测结果进行对比，MLP 模型输入输出的资料和设置与CNN 一致。

3 结果

3.1 IOD 预报技巧

et al., 2017; Wu and Tang, 2019），利用CNN 模型从JFM、FMA、MAM 三个初始状态预报出的DMI 有效预报时效均达到7 个月，而利用MLP 模型所获得的DMI 有效预报时效则不超过3 个月。同时，利用CNN 模型从三个初始时刻预报出DMI的RMSE 技巧均优于MLP 模型。从相关系数和RMSE 这两种实际预报技巧评价标准来看，CNN模型对DMI 的实际预报技巧远胜于MLP 模型。这可能是由于CNN 能对海表温度异常的空间结构进行解析，其卷积与池化能提取SSTA 中的空间特征，并充分考虑SSTA 中的非线性因素，从而能够将输入的SSTA 映射到合理的解空间，实现对数据的高效处理。MLP 模型由于不擅长处理结构型数据，对SSTA 空间结构特征的提取能力较弱，因此，MLP 预报的结果较差。现有最先进的动力耦合模式以春季为初始状态对DMI 的有效预报时效不到一个季度（Shi et al., 2012），这远低于CNN 模型的预报技巧，说明CNN 模型在预报DMI 上较现有的动力耦合模式有明显的优势。RMSE 在预报目标月11 月以后迅速减少，主要是因为IOD 在秋季成熟后迅速衰退所致。RMSE 的大小跟预报量的振幅有直接的关系。

图3 为利用CNN 模式预报出的北半球秋季（9 月和10 月）平均的DMI 和对应观测值随时间的变化。所有指数均做了标准化处理。我们以一个标准差作为判定IOD 事件的阈值。当秋季平均的DMI 减去多年均值后超过一个标准差时，则认为发生了正IOD 事件；反之，当小于一个负标准差时，则认为发生了负IOD 事件。根据此标准，1990～2019 年间共发生五次正IOD 事件（1994 年、1997 年、2006 年、2015 年、2019 年）和七次负IOD 事件（1990 年、1992 年、1996 年、1998 年、2005 年、2010 年、2016 年）。如果标准化的预报DMI 超过1，则认为预报出了IOD 事件。由于MLP 预报北半球秋季（9 月和10 月）平均DMI 的效果较差，其相关系数不超过0.5（图2）。因此我们仅重点分析CNN 的结果。

图2 1990～2019 年以JFM、FMA、MAM 为起始态，分别使用CNN 模型（实线）与MLP 模型（虚线）预报的DMI 与观测值的（a）相关系数和（b）均方根误差（RMSE）Fig. 2 (a) Correlation coefficients and (b) RMSE (root mean square errors) between the forecasted and observed DMI during 1990-2019 using CNN(solid lines) and MLP (dashed lines) models, respectively, with JFM (January-March), FMA (February-April), and MAM (March-May) as the initial conditions

图3 1990～2019 年观测和CNN 模式预报的北半球秋季（9 月、10 月）平均的DMI（标准化的）Fig. 3 Normalized DMI observed and forecasted by CNN model averaged in boreal autumn (September and October) during 1990-2019

以MAM 为起始态，即提前预报时间为4 个月时，CNN 预报秋季平均DMI 与对应观测值之间的相关系数为0.72。CNN 模型正确预报出了1997 年和2019 年的强IOD 事件，但低估了1994 年强IOD 事件的强度。对于强负IOD 事件，例如1990 年、1996 年和2016 年，CNN 模型预报的强度与观测较为符合，但CNN 模型低估了2010 年强负IOD 时间的强度。

随着提前时间的增加，预报出的DMI 与观测的相关系数逐渐减小。以FMA 和JFM 为初始时刻的相关系数预报技巧分别降低至0.67 和0.61。预报出的DMI 在21 世纪初出现较多的误报。但对于1994 年和1997 年的强正IOD 事件，CNN 模型能够提前5 个月（以FMA 为初始态）和6 个月（以JFM 为初始态）正确预报出IOD 的强度。而目前动力耦合模式以春季为初始态对这两个强事件进行的预报均低估了IOD 事件的强度（Luo et al.,2005; Zhao and Hendon, 2009）。这说明CNN 在预报IOD 事件的强度上比现有的动力耦合模式存在优势。

3.2 EIO 预报技巧

印度洋东极子（EIO）在IOD 的发生发展中起到重要作用，是IOD 预报的重要区域（Luo et al.,2005）。图4 显示了利用CNN 模型和MLP 模型预报出的DMI 与观测值的相关系数和RMSE 随目标月份的变化。MLP 模型以北半球春季为起始态对EIO 的有效预报能够提前约3～4 个月做出，而CNN 模型则能够提前7 个月做出有效预报。同时，CNN 模型预报出EIOI 的RMSE 也明显低于MLP模式，说明CNN 模型对EIOI 的预报技巧优于MLP 模型。目前耦合动力模式以北半球春季为起始态对EIO 预报的有效预报时效约为4～5 个月（Luo et al., 2007; Zhao and Hendon, 2009）。这一预报技巧优于MLP 模型但低于CNN 模型，说明CNN 模型能够显著改进目前对EIO 的预报技巧。

图4 1990～2019 年以JFM、FMA、MAM 为起始态，分别使用CNN 模型（实线）与MLP 模型（虚线）预报的EIO 指数与观测值的（a）相关系数和（b）RMSEFig. 4 (a) Correlation coefficients and (b) RMSE between the forecasted and observed EIOI (East Pole Index for Indian Ocean) during 1990-2019 using CNN (solid lines) and MLP (dashed lines) models, respectively, with JFM, FMA, and MAM as the initial conditions

图5 是以北半球春季为初始态，CNN 模型预报出的北半球秋季（9 月和10 月）平均的标准化EIO 指数随时间的变化。可以看出，无论哪个初始态，CNN 模型能够较好地预报出过去30 年主要的EIO 冷暖事件，例如：1994 年、1997 年的冷事件和1998 年、2010 年的暖事件。但对于2019 年的强冷事件，无论以哪个初始状态，CNN 模型均低估了其强度。

图5 1990～2019 年观测和CNN 模式预报的北半球秋季（9、10 月）平均EIO 指数（标准化的）Fig. 5 Normalized EIOI index observed and forecasted by CNN mode averaged in boreal autumn (September and October) during 1990-2019

3.3 WIO 预报技巧

印度洋西极子（WIO）受到太平洋ENSO 事件的影响，其预报技巧通常比EIO 和DMI 高（Luo et al., 2005, 2007; Zhao and Hendon, 2009; Shi et al., 2012）。图6 显示了以北半球春季为初始态，利用CNN 模型和MLP 模型预报出的WIO 指数与观测的相关系数和RMSE 随目标月份的变化。MLP 模型对WIO 指数的有效预报时效仅为一个季度不到，这远低于目前耦合动力模式的有效预报时效（约为6～7 个月，Luo et al., 2007; Zhao and Hendon, 2009）。而CNN 模型对WIO 的有效预报也仅能提前6～7 个月做出，与目前耦合动力模式的预报技巧相近。与EIO 的预报技巧相比，CNN模型对WIO 的预报技巧更低，这与耦合动力模式的预报技巧不一致。这可能是由于我们在构造CNN 模型时仅利用印度洋作为输入数据，缺少太平洋的ENSO 信号作为先兆因子，从而导致受到ENSO 影响的WIO 的预报技巧降低。

图6 1990～2019 年以JFM、FMA、MAM 为起始态，分别使用CNN 模型（实线）与MLP 模型（虚线）预报的WIO 指数与观测值的（a）相关系数和（b）RMSEFig. 6 (a) Correlation coefficients and (b) RMSE between the forecasted and observed WIOI (West Pole Index for Indian Ocean) during 1990-2019 using CNN and MLP models, respectively, with JFM, FMA, and MAM as the initial conditions

图7 给出了以北半球春季为初始态，CNN 模型预报出的北半球秋季（9 月和10 月）平均的标准化WIO 指数随时间的变化。当提前时间较短时，以MAM 作为初始状态，CNN 模型基本预报出了主要的WIO 事件，例如，1996 年的冷事件以及2015 年和2019 年的暖事件。随着提前时间的增长，CNN 模型对WIO 的预报技巧逐渐降低，并且在21 世纪初出现了较多的误报。对于强WIO 事件（如1996 年、2015 年和2019 年），CNN 模型均能提前5 个月以上（以FMA 为初始条件）预报出。

图7 1990～2019 年观测和CNN 模式预报的北半球秋季（9、10 月）平均WIO 指数（标准化的）Fig. 7 Normalized WIOI observed and forecasted by CNN mode averaged in boreal autumn (September and October) during 1990-2019

4 结论与讨论

本文使用CNN 模型和MLP 模型处理再分析资料ERSSTv5，并以北半球春季的三个初始态为起始，对IOD 模态以及印度洋东西极子的海温变化进行了预报。结果表明：

（1）CNN 对DMI、EIOI 和WIOI 的有效预测时效均超过了6 个月。与现在耦合动力模式相比，CNN 模型能够显著提升DMI 和EIOI 的预报技巧，但对WIOI 的预报技巧提升有限。

（2）当预报提前时间为7 个月时，CNN 模型能够比较准确地预报1994 年、1997 年与2019 年的IOD 事件。

（3）相比于传统的神经网络模型MLP，CNN模型对DMI、EIOI 和WIOI 的预报均有更高的预报技巧。

IOD 事件在空间结构上的主要特征是东西印度洋的温度梯度。由于CNN 模型拥有卷积层和池化层，能够更好地解析图像数据的空间结构（Zeiler and Fergus, 2014），抓住IOD 事件东西温度梯度的特征，从而能高效地求解SSTA 与DMI 之间映射关系，因此，CNN 模型对IOD 事件的预报技巧较优于传统的神经网络MLP 模型。

CNN 模型对WIOI 的预报不够理想表明了在训练模型时，不仅要考虑局地印度洋的信号，而且还要考虑太平洋信号的遥相关作用。今后我们将就这一点进行进一步研究。

同时，深度学习中超参数的最优解会随具体数据集变化而不同，需根据具体的数据状况进行逐步调试，应避免过拟合与欠拟合现象发生。神经元数量、学习率、优化器、网络层数等是模型自身超参数，其调节一般都是试错的过程。在算力充足的条件下，可对每个超参数设定一个数值或类型范围，对它们的组合全部进行训练。若时间有限，在固定其他超参数为默认值的条件下，可优先调节神经元数量与学习率，同样能够取得较为理想的结果。

总而言之，我们的研究结果表明，CNN 模型在印度洋海温预报中有着较好的表现，深度学习方法在气候预报中存在较大的潜力和应用价值。