一种雷达回波外推的注意力融合和信息回忆的LSTM 方法

2024-01-12程勇钱坤康志明何光鑫王军庄潇然

热带气象学报 2023年5期

程勇，钱坤，康志明，何光鑫，王军，庄潇然

(1.南京信息工程大学，江苏南京，210044；2.中国气象局广州热带海洋气象研究所，广东广州 510641；3.江苏省气象台，江苏南京 210008)

1 引言

雷达回波外推可视为对连续时间序列图像变化趋势的估计和预测，即用现有一段时间内雷达回波图像预测未来一定时间内雷达回波图像。临近预报通常是指描述现时天气状况和未来两小时内的天气预报，其主要预报对象包括强降水、大风、冰雹等灾害性天气。例如，临近强降水预报的目标是准确、及时地预报未来两小时内区域降水强度和分布情况。由此可见，雷达回波外推的方法能为临近预报提供直观的雷达回波图像参考，因而如何快速准确地预报出气象雷达图像序列已成为气象领域研究的热点和难点。

雷达回波图外推的传统方法主要有交叉相关外推算法[1]、质心跟踪法[2]和光流法[3]。交叉相关外推算法通过计算雷达回波等资料在连续时次的空间最优相关，得到对流系统不同位置的移动矢量特征，并基于这些移动矢量对雷达回波等进行外推。然而，在强降水、雷暴天气下，雷达回波信号受到干扰和遮挡影响，目标的位置和运动状态可能发生较大变化，致使交叉相关法跟踪目标的位置和轨迹错误。质心跟踪法是将雷暴视为三维单体进行识别、分析、追踪，适用于对强雷暴单体进行拟合外推来做临近预报，但在雷达回波目标较多时，质心跟踪可能会受到困扰，预报准确度会显著下降。光流法利用图像序列中像素在时间域上的变化以及相邻时间之间的相关性来找到上一时间跟当前时间之间存在的对应关系。然后通过光流场外推最近的降水场。然而，光流法在大雨和雷暴天气这些复杂的天气条件下，场景的光度变化过大，会导致光流法无法准确地检测到物体的运动轨迹。上述三种方法无法在海量的雷达数据中学习规律，因而它们的预测准确率偏低。

随着计算机技术的发展，时空序列预测的研究已经广泛应用在交通流预测[4-7]、视频预测[8-11]和雷达回波外推[12-18]等领域。深度学习方法具备建模高度非线性复杂系统的能力，越来越多的人尝试将深度学习应用于解决时空序列的问题。将深度学习与雷达回波外推相结合，能够从海量的雷达数据中找出潜在规律，进而提高对指定地区未来一段时间内的天气状况预测准确度。Shi 等[19]将卷积神经网络(CNN)和长短期记忆网络(LSTM)相结合，提出卷积长短期记忆网络(ConvLSTM)的方法，它可以很好地从CNN和RNN的输入分别学习和建模空间和时间表示。由于ConvLSTM 在雷达回波外推上的良好表现，大量研究在其基础上进一步开展，这些研究往往只关注了时间的传递，而忽视了堆叠的网络单元层与层之间的空间关系。因而Wang 等[20-21]通过在原有的ConvLSTM中引入时空记忆单元M，提出了PredRNN 和PredRNN++算法，这是一种空间记忆可以保存从底层到顶层的空间信息。Tran 等[22]的研究表明，该算法可以应用于雷达回波外推，具有比ConvLSTM 更好的性能。然而，新增的时空记忆单元M在网络中以“之”字型传递，叠加的网络单元每一层每一时间步都通过它串联起来，信息传递过长就容易导致梯度爆炸，使得预测结果不准确。为了保持长期的时空相关性，Eidetic 3D LSTM[23]和SA-ConvLSTM[17]利用了自注意力机制(self-attention)[24]。注意力机制可以从历史记忆中找寻信息，能保存更多的时空表征。然而，它们只是利用单一的注意力机制来回忆先前的时间记忆，信息获取和特征表达能力都较为有限。

为了克服现有模型的局限性，本文针对时空记忆单元M的时空信息传递过程长，随着传递次数增加，信息的传递会受到干扰，造成预测结果不准确的问题，提出了一种注意力融合模块(Attention Fusion)。利用注意力模块将通道信息和时空信息相互融合来获得更好的长期时空表示，以替代遗忘门的时空记忆更新，从而关联更多的时空历史信息，减少信息在传递过程中丢失，形成更好的时空表征。同时在编码过程中随着堆叠的网络单元次数的增加，当前时间输入的信息保留的越来越少，信息丢失严重，是一个不可忽视的问题。采用在编码器和解码器之间添加信息回忆(Recall)模块，让解码器的结果与编码器的输入进行信息的融合，从而回忆起堆叠的多级编码器信息，进一步保存预测的细节。最后，将两部分结合起来构建起新的网络模型 AFR-LSTM(Spatiotemporal LSTM Model with Attention Fusion and Recall)。

2 提出的方法

在本节中，首先介绍了引入注意力融合机制的网络单元AF-LSTM，再详细介绍了时空和通道的注意力融合机制。然后，介绍信息回忆模块（Recall）。最后，提出了结合注意力融合机制和信息回忆模块的AFR-LSTM网络模型。

2.1 网络单元AF-LSTM

在本节中，介绍了如何将时空和通道的注意力融合机制嵌入到ST-LSTM 单元中，形成网络单元AF-LSTM，如图1所示。

图1 注意力融合的时空长短期记忆网络单元AF-LSTM

AF-LSTM 网络单元的输入包含当前输入Xt、前一单元层输出的时空记忆单元M l-1、前τ层连续历史时空记忆单元的集合M l-τ:l-1、前一时刻相同层的隐藏状态H lt-1和时间记忆单元Clt-1。当前输入Xt和隐藏状态H lt-1和时间记忆单元Clt-1保持和ST-LSTM 网络单元相同，不同的是将前一层输出的时空记忆单元M l-1和前τ层连续历史时空记忆单元的集合M l-τ:l-1作为时空和通道注意力融合机制的输入，以此帮助时空记忆单元M l-1回忆遗忘的信息，从而达到保留信息的目的。改进后的更新M l计算方式如公式(1)所示。

其中⊙是矩阵乘积，τ是连续历史的时空记忆单元的数量，i't和g't分别代表的是输入门和输入调制门。公式(1)中的AttFusion 表示2.2 节中的时空和通道注意力融合计算公式。视时空记忆单元的遗忘门ft'为查询矩阵，前τ层连续历史时空记忆单元的集合Ml-τ:l-1表示键矩阵和值矩阵。这一模块的主要作用是通过注意力融合机制控制先前τ个时空记忆单元中强调哪些信息，从而使得网络产生更加准确的预测结果。该注意融合机制可以很好地控制长期的信息，从而提高网络的记忆能力。

2.2 时空和通道的注意力融合机制

尽管时空记忆单元M能够存储历史信息，但它无法直接帮助输入或隐藏状态选择所需的特征。相比之下，注意力机制能够从历史记忆中查找并选择信息，从而可以保存更多的时空表征。为了进一步提高时空记忆单元M时空信息保留能力，本文提出了一种时空和通道的注意力融合机制，如图2所示。

图2 时空和通道的注意力融合模块

本文将给定的时空特征遗忘门f t'∈RB×C×H×W视为查询矩阵Ql，这里的B，C，H，W 分别代表的是特征图像批量大小、通道数量、图像高度和图像宽度。首先直接将其重塑为Ql∈RN×(H×W)×C以匹配后续操作。然后将对应的前τ层连续历史时空记忆单元的集合M l-τ:l-1∈RB×C×τ×H×W视为键矩阵Kl和值矩阵Vl，其中τ指的是时间序列的长度。它们分别被重塑为Kl∈RB×(τ×H×W)×C和Vl∈RB×(τ×H×W)×C。最后，通过公式(2)进行计算，可以得到时空注意力模块的输出ST_ATT：

如图2 中的蓝色部分所示，先使用softmax 函数对查询矩阵Ql和键矩阵Kl转置的矩阵乘积进行了归一化处理，以表示查询矩阵Ql和键矩阵Kl之间的位置相似度。这个位置相似度代表了给定的时空特征f 't和前τ层连续历史时空记忆单元的集合M l-τ:l-1之间的相关程度。接着，利用值矩阵Vl计算矩阵乘积作为更新信息的权重，有选择地将M l-τ:l-1的时空信息集合起来，并将其重塑为原始形状。最后将它们与上一层的时空记忆单元M l-1相加，并通过一个layernorm 层来得到最终的时空注意力模块输出ST_ATT。

通道注意力模块旨在对通道之间的相关性进行建模。与时空注意力模块不同的是，它将给定的时空特征f 't∈RB×C×H×W重塑为查询矩阵Qc，而将前τ层连续历史时空记忆单元的集合M l-τ:l-1∈RB×C×τ×H×W视为键矩阵Kc和值矩阵Vc，并将它们分别重塑为Kc∈RB×(τ×C)×(H×W)和Vc∈RB×(τ×C)×(H×W)。然后，根据公式（3），可以计算出通道注意力模块的输出C_ATT：

如图2 中的橙色部分所示，使用softmax(Qc·K cT)∈RB×C×(τ×C)来表示查询矩阵Qc对键矩阵Kc在通道上的影响程度。然后使用值矩阵Vc计算矩阵乘积作为更新信息的权重，有选择地将M l-τ:l-1通道信息集合起来，并将其重塑为原始形状。最后将它们与上一层的时空记忆单元M l-1相加，并通过一个layernorm 层来得到最终的通道注意力模块输出C_ATT。

相关资料研究表明[14]，对患者肿瘤复发的因素较多，其中包括复发时间、分期、肿瘤分级以及肿瘤大小等，这些因素都对肿瘤的复发将造成影响，针对于满足手术指征的患者应当尽早实施手术治疗。同时吉西他滨与其他灌注化疗药联合使用较单一用药效果更好。目前无论是表柔比星还是吉西他滨在治疗中高危非浸润性膀胱尿路上皮癌方面都有着较令人满意的效果，这与王晓天等研究结果相似[1]。

求得时空注意力模块的输出ST_ATT 和通道注意力模块的输出C_ATT 后，再进行最后的操作将它们进行集成，如图2的绿色部分所示。具体而言，将ST_ATT 和C_ATT 先分别经过一个卷积核大小为三的卷积层、一个layernorm 的归一化层、一个ReLU的激活函数层、一个卷积核大小为一的卷积层，然后对两个结果执行元素求和，最后利用卷积层生成最后的结果AttFusion，具体计算过程如公式(4)所示。

因为融合注意力模块的输出同时包含了时空和通道信息，而这些信息在连续时间序列中的位置是对应的，所以最终的输出比单个模块的输出更具有效性。

2.3 信息回忆模块(Recall)

在编码过程中，随着网络单元的堆叠，当前时间输入的信息被逐渐遗忘，导致信息丢失的问题。因此，本文在编码器和解码器之间添加了信息回忆模块，如图3所示。该模块能够将解码器的输出与编码器的输入进行对应融合，回忆起多级编码器中的信息，从而更好地保留预测细节，避免预测位置偏差过大。该过程可以用公式(5)表示。

图3 信息回忆模块

其中，Enc-1表示用于从数据集中提取深度特征的编码器输出，Decl-1表示经过堆叠网络的解码器输出，Decl表示经过将二者的结果相加得到的最终的编码器结果，l表示层数。

2.4 堆叠融合结构

本文所提出的模型在以往的堆叠结构基础上加入了信息回忆模块，具体结构如图4所示。一次预测过程是由编码器、四层网络单元、解码器和融合模块组成。时间记忆单元沿着水平方向传递，隐藏状态沿着水平和垂直方向传递。时空记忆单元Ml-1以“之”字形方式传递，表示为橙色线。前τ层连续历史时空记忆单元的集合Ml-τ:l-1表示为灰色立方体，作为每个单元的输入存在。在解码输出部分，采用信息回忆模块将解码器的结果与编码器的输入进行融合，以输出最终的预测结果X̂t。

图4 堆叠融合结构

3 数据集介绍

3.1 Moving MNIST数据集

Moving MNIST 数据集[25]是预测任务中最常用的数据集之一，每个序列由20 个连续帧的灰度图片组成，这些图像中的两个数字会按照一定的速度和方向在连续时间中变化。在本文的实验中，每帧图像的尺寸为64 × 64 像素，数据集的容量是确定的，包括10 000 个序列的训练集、2 000个序列的验证集和3 000 个序列的测试集。在本文的实验中，前十帧将会作为输入，后十帧作为测试。

3.2 雷达数据集

本文使用2022 江苏气象AI算法挑战赛-AI助力强对流天气预报中的雷达数据集（https://tianchi.aliyun.com/competition/entrance/531962/information）来评估模型性能。该数据集是江苏省气象台在2019—2021 年4—9 月期间收集的雷达回波数据组成，覆盖了整个江苏省区域面积。每张图像大小为480×560 像素，数据的取值范围为0～70 dBZ，水平分辨率为0.01 °×0.01 °。数据集包含训练集、验证集和测试集，共涵盖2 万+次的天气样本。在训练集中，一个序列样本由20 张间隔为6 分钟的CAPPI 雷达图像组成。每个样本中，前10 张图像用作输入，后10 张图像用于预测输出，即利用过去一小时的数据来预测未来一小时的数据。从训练集中随机选取2 000 个样本作为验证集，测试集也包含2 000个样本。

4 实验与分析

本章将在两个数据集上进行实验，一个是标准的Moving MNIST 数据集，另一个是2019—2021 年4—9 月真实的江苏省气象雷达回波数据集，并详细介绍了实验的参数设置、评价指标、对比实验和结果分析。

4.1 参数设置

4.2 Moving MNIST实验结果

本实验选用均方误差(Mean Square Error,MSE)和结构相似性[26](Structural Similarity Index,SSIM) 两个指标来衡量预测的图片质量。其中，MSE 是一种常用的衡量数据误差的方法，它能够评估数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度，具体的计算过程如公式（6）所示。而SSIM 是一种更加细致的图像相似性度量方法，可以衡量两幅图像在结构上的相似度。当MSE 越低，SSIM 越高时，表示预测效果越好，因为此时预测结果更加精确，同时在结构上与原始图像更加相似。

通过对比Moving MNIST 数据集的可视化结果，可以清晰地看出本文提出的AFR-LSTM 方法相比其他深度神经网络方法表现更优，具体如图5所示。

图5 Moving MNIST数据集上不同方法的运行结果

实验分别计算了不同深度学习预测算法的MSE 和SSIM 指标，结果如表1 所示。相比与其他算法，AFR-LSTM 方法在均方误差和结构相似性方面表现更为出色，这说明AFR-LSTM 方法在预测图像质量方面具有较大的优势。

表1 不同方法在Moving MNIST数据集上的实验结果(前10帧预测后10帧)

4.3 在雷达数据集上的实验结果

4.3.1 评估指标

采用临界成功指数（Critical Success Index，CSI）和Heidke技能评分（Heidke Skill Score，HSS）这两种常见的气象评分函数来评价模型在临近预报方面的性能。采用阈值化方法将预测结果和实际情况进行转换，如果该值大于给定的阈值，则相应的值设为1，否则设置为0。然后计算真阳性TP(实际为1，预测为1)、假阳性FP (实际为0，预测为1)、真阴性TN(实际为0，预测为0)和假阴性FN(实际为1，预测为0) 的数量。根据这些分类结果，可以使用公式（6）和公式（7）来计算CSI 和HSS。这些评分函数能够更准确地衡量预测结果和实际情况之间的匹配程度，从而验证本文提出的模型在临近预报方面的优越性能。

具体实施时选用了10 dBZ、20 dBZ和40 dBZ三个不同的分类阈值标准，将预测结果和地面真实情况进行转换后，通过计算CSI 和HSS 指标来评价模型的性能，数值结果越大则说明模型表现越好。

4.3.2 实验结果

分别计算了不同深度学习预测算法的CSI 和HSS 评分，并对其结果进行了对比分析。实验结果如表2 所示，AFR-LSTM 模型在所有阈值下均表现出色，CSI 和HSS 评价指标均取得较好结果，表明其在临近预报方面具有显著优势。

表2 不同方法在雷达数据集上的CSI和HSS评分结果（前10帧预测后10帧）

在阈值设置为40 dBZ 时，使用本文提出的AFR-LSTM 模型得到的CSI 和HSS 指标分别为0.273 5和0.299 5，相比于使用MotionGRU模型得到的结果分别提高了26.79%和5.76%，结果更为理想。此外，与基础PredRNN 模型相比，CSI 指标提高了53.13%，HSS 指标提高了28.1%，表明了本文提出的时空和通道的注意力融合机制以及信息回忆模块的有效性。此外，添加这两个模块后，相较于其他网络，该模型在实验中获得了显著的提升，这表明了时空和通道的注意力融合机制和信息回忆模块可以获得更好的图像准确度，从而提高预测结果的准确度。最后，SA-ConvLSTM 和E3D-LSTM 的结果优于PredRNN 和PredRNN++，ConvLSTM在所有方法中的性能最差。

为进一步地说明结果，本研究在不同的阈值条件下对比了各个网络模型随时间而变的CSI 和HSS 结果曲线。通过图6 可以直观地看出，AFRLSTM 模型始终保持着更优秀的预测结果，在所有时间点和所有阈值条件下均表现出较好的性能。因此，证明了本文提出的AFR-LSTM 模型在雷达数据集预测中是一种非常有效的方法。

图6 不同阈值条件下不同网络模型所有预测结果的CSI和HSS曲线

为更好地比较和理解结果，本文通过展示不同方法的预测示例来比较不同模型的预测效果，如图7 所示。从图中可以看出，随着时间的增加，ConvLSTM、PredRNN 和PredRNN++模型的预测效果逐渐变差，在最后的预测图像中，强回波区域明显消失，只有AFR-LSTM 模型和MotionGRU 模型保存了很好的强回波区域。其他模型预测的强回波区域随着时间的推移也渐渐弱于AFR-LSTM模型。相较于MotionGRU模型，本文提出的AFRLSTM 模型不仅在强回波区域的预测更加优越，在位置上也更加准确。这是因为，AFR-LSTM 模型同时采用了时空和通道的注意力融合机制和信息回忆模块。两种注意力机制融合起来能够更好地捕捉时空相关性和通道相关性，帮助神经网络挖掘更多的时空信息，以模拟长期依赖，在雷达回波预报可以保留更多的强回波信息。信息回忆模块的主要作用是通过引入历史雷达图像信息来帮助提升预测的准确性，从历史雷达图像中提取信息，并将其融合到当前的预测中，进一步保存预测的细节，较好地避免预测位置偏差过大。

图7 雷达数据集上不同方法的运行结果

4.3.3 消融实验

在本研究中，为了证明时空注意力模块和通道注意力模块的有效性，进行了消融实验。具体地，单独将时空注意力模块和通道注意力模块加入到基础网络进行实验，并将实验结果与融合的AF-LSTM 模型的结果进行比较。同时，为探究信息回忆模块的有效性，本文单独将信息回忆模块加入到基础网络和基础网络进行对比实验。所有的实验结果如表3 所示，其中，Baseline+SP 为基础网络加时空注意力模块，Baseline+CH 为基础网络加通道注意力模块，Baseline+AF 为基础网络加注意力融合模块，Baseline+Recall为基础网络加信息回忆模块。

表3 雷达数据集上添加不同模块的CSI、HSS和SSIM评分

实验结果表明，单独的时空注意力模块和通道注意力模块都可以提高预测性能，但是最好的性能是通过融合这两种注意力模块来实现的。单独的时空注意力模块可以提高CSI 和HSS 指标分别高达7.4%和4.8%，说明时空注意力模块有助于捕捉时序信息和空间相关性。而单独的通道注意力模块对性能提升较小。但是，将两种注意力机制进行融合可以进一步提高性能，CSI和HSS指标分别提高了9.2%和6.8%。因此，结果表明将两种注意力机制融合起来能够更好地捕捉时空相关性和通道相关性，从而提高预测性能。加入了信息回忆机制的基础网络在SSIM 指标上表现更好，这表明信息回忆机制有助于更好地保持预测图片的位置相似度。虽然信息回忆机制在CSI 和HSS 指标上并没有很明显的提升，但其更重要的功能是很好地避免了预测位置偏差过大的问题，保证模型在位置准确度上的良好表现。

5 结论

随着计算机技术和人工智能的不断进步，深度学习技术在气象预测领域中的应用已经越来越广泛。在这个背景下，本文提出了一种新的雷达回波图外推方法—AFR-LSTM。通过结合通道和时空的注意力融合机制，更好地捕捉时空相关性和通道相关性，有效帮助卷积神经网络挖掘更多的时空信息。此外，信息回忆模块的应用进一步增强模型对预测位置的保存，从历史雷达图像中提取信息，并将其融合到当前的预测中，避免了预测位置偏差过大的问题。实验结果表明，AFRLSTM 网络模型相比于其他算法能够获得更好的图像准确度，提高了预报的准确度。然而，AFRLSTM 网络模型结构相较于原始网络更加复杂，引入了更多的参数量，导致计算复杂度增加，从而增加了训练的时间，预测速度也有所下降，因此需要在计算资源和时间成本之间进行权衡。在进一步的研究中，可以将考虑如何优化网络结构和参数设置，以提高计算效率和预测速度。此外也可以考虑将该模型应用于其他气象场景的预测，如温度、湿度、风速等方面，以拓展其应用范围。