APP下载

基于人工智能的台风强度突变判别技术的应用

2024-01-06周冠博钱奇峰许映龙

自然灾害学报 2023年6期
关键词:云图台风时刻

周冠博,钱奇峰, 许映龙

(1. 国家气象中心, 北京 100081; 2. 中国气象局上海台风研究所, 上海 200030)

0 引言

众所周知,目前我国的台风路径预报水平已取得了明显的提高,这主要得益于科技的进步和模式的发展,但目前台风强度预报的发展还很缓慢,近5 a来强度预报误差一直维持在4 m/s左右[1]。而近年来又连续出现了多个快速增强的台风个例,如2020年基本上所有的登陆台风都经历了快速加强过程,2021—2022年的“舒力基”“灿都”“暹芭”“梅花”等台风也相继出现了强度的快速增强过程。快速增强是指热带气旋(tropical cyclones, TC)的强度在短时间内迅速增加,一般指24 h内TC强度增加15 m/s[2-3]。尽管深度学习在气象学界已经大大改善了TC强度的估计[4],但作为一个多尺度相互作用的过程[5],TC快速增强的预测仍然是一项世界级难题。传统的客观预报方法主要是以统计预报和统计-动力模式为主,并且大多采用回归等统计方法,对台风强度的快速变化刻画能力较弱[3],这使得实时预测TC快速增强非常困难,也给台风的预报预警和防台减灾工作带来了极大的挑战[6-9]。

随着人工智能技术的飞速发展,机器学习、深度学习等技术已经在气象领域得到了广泛应用并产生了很多应用成果,我国的热带气旋智能监测和预报也开始尝试基于气象卫星云图大数据和人工智能算法展开[10-12]。依靠我国气象卫星事业的不断发展,使得我们不仅可以获取到更高时空分辨率的气象卫星云图大数据,同时利用卫星云图也可以得到更加精细的台风垂直探测结构,那么基于气象卫星云图大数据,并结合人工智能领域的新技术来应对台风强度的突变问题将是未来的发展趋势之一。

研究表明,人工智能技术在台风强度预报方面有很好的发展前景[13-15]。PRADHAN等[16]使用基于卷积神经网络(convolutional neural network, CNN)对台风等级进行估计。ZAHERA等[17]使用LSTM(long short-term memory)和DNN(deep neural network)网络对台风强度进行估计。CHEN等[18]发布了一个开放数据集,提出了基于CNN强度回归的多模型融合方法。最近的研究探讨了应用深度学习来解决台风快速增强这一任务的潜力,指出普通的Brier技巧评分不适用于类不平衡的数据集,而改用Heidke技巧评分(HSS)来代替它[19]。并且他们提出了一个基于ConvLSTM的模型,该模型带有注意力,但没有类再平衡策略。具体来说,与非RI事件相比,RI事件是罕见的,这就表现出数据集的极不平衡问题,使训练变得困难。大多数现有的方法通过重新采样和重新加权的再平衡策略来解决数据不平衡问题[20],这些方法增加了少数类的权重,但损害了代表能力的学习。还有一些研究提出了两阶段学习与再平衡方法,以全面考虑代表能力学习和分类器学习[21-22]。然而,这些方法假设测试类分布是均匀的,而RI测试类的分布是不平衡的,具有不同的分布。当面临不平衡的数据集的时候,机器学习算法倾向于产生不太令人满意的分类器,针对样本数据不平衡的问题,本文采取了重采样、重加权、冷启动、样本补齐等数据预处理工作。同时采用联合时空关联的深度学习模型为基础,通过标注和学习卫星云图大数据中的关键信息,并引入了生命周期指示,提出了一种自动化、客观化的台风快速增强趋势判别技术来解决台风强度快速增强的趋势判别问题。

1 数据和方法

1.1 数据来源

本文使用的TC资料,包括中国气象局(上海台风研究所)整编的2005—2018年的最佳路径数据集(http://tcdata.typhoon.org.cn/zjljsjj_sm.html),包含6h一次的TC位置、中心最低气压及中心附近最大风速等;2019—2022年中央气象台台风路径强度的实时预报产品;选取2005—2017年的葵花8卫星数据作为该模型的训练集,2018年的卫星数据作为验证集,2019—2021年的FY4A卫星数据作为测试集,数据集的样本分布如图1所示。

图1 数据集的样本分布Fig. 1 Sample distribution of data sets

从模型训练集的样本中可以看到,台风的强度突变样本占各个级别的总样本数量的比例都较小,台风的强度突变样本是小概率事件,如图2所示。当面临不平衡的数据集时,机器学习算法倾向于产生不太令人满意的分类器。对于任何一个不平衡的数据集,如果要预测的事件属于少数类别,并且事件比例小于10%, 就通常将其称为极不均衡数据。在预测过程中,采用的标准是12h内风速增加超过 7m/s的数据定义为突变样本。整个数据集样本(以突变样本为正样本,不突变样本为负样本)的正样本和负样本之比约为1∶11,分布是极不均衡的。

图2 样本集中各个台风等级的样本数以及其中的快速增强RI数目Fig. 2 Sample and RI numbers of each typhoon level in the sample set

对于极不均衡数据,采用采样和加权的方法进行处理。

1)数据层面的处理方法:重采样。数据输入为4个台风一组,比如[10,10,15,15]、[15,15,18,23]、[15,18,23,23]等。平衡分类的主要目标不是增加少数类的样本数,而是降低多数类的样本数。采用权重随机采样,根据给样本权重进行采样,召回率(recall)为80%的情况下精度(precision)可以达到24%。

2)训练层面的处理方法:重加权。对不平衡的类别给予不同的惩罚。直接给样本倒数重新加权损失的结果不一定很好。尝试方法包括:交叉熵权重超参、Focal loss、LOCE。

3)对于不均衡数据的再平衡,仅对分类器进行再平衡效果较好。即原始数据训练一个backbone之后,固定特征相关层参数(CNN和LSTM),再用re-balance的方法对分类器进行训练,可以达到理想的效果。

另外,当遇到冷启动,即当台风刚刚开始,历史数据不足4个台风样本时,如何预测快速增强判别?这也是序列预测或序列判别问题中的一个难点问题。针对冷启动:初始数据输入为4个台风一组,只有1个历史数据且风速=10m/s,则令[10,10,10,10];只有2个历史数据且风速=10m/s和12m/s ,则令[10,10,10,12];只有3个历史数据且风速=10、12、15m/s,则令[10,10,12,15]。当遇到样本缺失,就是在台风整个历史序列中,不可避免的会发现有一些时刻数据丢失,造成的样本序列不连续,给模型预测带来风险。针对样本缺失问题:若数据缺失第i个台风,则使用最近的前一个时刻台风样本替代。比如:[10,12,?,18],则按照[10,12,12,18]处理。

1.2 模型简介

在卫星数据解析后的像素为1800×1800的区域图像中,根据中央气象台业务预报的台风报文babj文件标记每隔6h的台风生命周期,并裁剪出400×400的涡旋图像序列。之后将图像序列和标记的生命周期送入模型进行12h后台风是否快速增强的趋势判别。

模型主要采用人工智能领域的深度残差网络Resnet模型和基于时空关联深度学习模型LSTM为技术基础,通过标注、学习、预测已有卫星云图数据中的关键信息来解决台风强度快速增强趋势预测和判别问题。首先基于深度残差网络Resnet模型提取台风强度特征,再进一步根据时空关联深度学习模型LSTM提取台风强度变化特征,根据台风强度趋势周期和台风强度突变检测进行策略融合,最后输出台风强度突变趋势判别结果如图3所示。该模型提出了一种自动、客观的台风快速增强趋势判别技术,提升台风强度快速增强趋势预测和判别的准确性。

图3 模型流程图Fig. 3 Model diagram

2 快速增强趋势判别模型的构建

基于人工智能(artificial intelligence, AI)的台风快速增强趋势判别模型采用连续4个历史时刻(相邻间隔6h)的台风图片进行预测,采用预训练的CNN模块提取出卫星云图特征和连续4个时刻的台风强度(强度范围是10~75m/s)在映射后嵌入,连在一起送入LSTM,此时根据台风强度变化获取生命周期指示(上升期和下降期),经过编码后与LSTM的输出concat,最后经过全连接层,得到台风强度是否会出现快速增强的判别概率。

1)台风强度变化特征提取

特征提取是强度趋势预测和突变检测的基础。该技术基于历史台风时间序列数据进行学习,包括时序云图序列数据、位置序列和其他相关数值数据,比如气压、降水等序列的学习,属于有监督的多模态序列学习问题,这也是对传统序列学习的一个挑战。本文采用PIPELINE架构的3D卷积神经网络CNN结合长短期记忆LSTM网络构成的3D_LSTM模型,同时对初始时刻到任意t时刻的时序云图序列的时间和空间特征进行序列学习,并结合其他时序位置数据、数值数据进行关联和特征融合,预测台风强度在下一时刻即t+1时刻的变化特征向量。

2)台风强度趋势预测

台风强度趋势预测是基于台风强度变化的通用特征,即大样本特征进行预测的技术,因此,在3D_LSTM模型得到的时序多模态下一时刻时空特征的基础上,进一步构造回归损失函数为基础的预测模型,训练并计算台风强度变化的通用特征权重,从而预测台风在下一时刻的强度。

3)台风强度突变检测

台风强度突变检测是基于台风强度变化特征中突变特征,即需要在所有强度变化特征中学习出与强度突变影响相关的特征,因此,在3D_LSTM模型得到的时序多模态下时空特征的基础上,进一步构造基于注意力机制的分类模型,计算不同时刻、不同特征的权重,从而预测台风在t+1时刻的强度突变的级别和概率。最后,将2)和3)的结果分别作为进行交叉融合学习,得到最终的台风强度趋势判别结果。

4)台风生命周期预测改进

台风序列的生命周期分为:上升期、下降期和平稳期。上升期是指处于台风风速增强的阶段,需要预测是否发生快速增强;下降期是指处理台风风速下降的阶段,不会发生快速增强;平稳期是指台风序列风速相同的阶段。为了方便在平稳期预判是否会发生快速增强,需要根据前一个时刻是上升期还是下降期来标注平稳期处于哪个阶段,从而减小平稳期的预测误差。

3 检验分析

3.1 模型检验指标

基于AI的台风快速增强趋势判别模型的准确指标通过TS评分和综合准确率来检验,其中TP代表实际突变预测为突变,TN代表实际非突变预测为非突变,FN代表实际突变预测为非突变,FP代表实际非突变预测为突变。则检验指标可以用式(1)~式(2)表示:

综合准确率:

(1)

TS评分:

(2)

综合准确率ACC1代表正确预测的突变和非突变时刻占总样本数的比例;TS评分代表将非突变时刻正确预测排除后的突变时刻预测正确的比例。

3.2 模型测试结果分析

为了检验模型效果,分别选取了美国国家环境预报中心(National Centers for Environmental Prediction, NCEP)模式、中国中央气象台的预测结果、美国联合台风警报中心预测结果以及基于AI模型的预测结果进行了比较,如表1所示,NCEP的总样本数为577,预测出74个突变时刻中的51个正确样本;美国联合台风警报中心预测结果的总样本数为609,预测出88个突变时刻中的28个正确样本;中国中央气象台预测结果的总样本数为1088,预测出95个突变时刻中的31个正确样本;而基于AI模型对2019年28个台风的业务云图进行了综合测试,总样本数为472个,2019年28个台风中有16个台风经历过台风强度快速增强,共有46个突变时刻,本文模型的测试结果显示成功预测出38个突变时刻,15个台风的强度快速增强被预测到,TS评分达到了0.24。

表1 主、客观预报对台风快速增强的预测结果样本数Table 1 Sample numbers of subiective and objective RI predictions

根据2019全年的测试样本进一步统计比较,可以发现NCEP模式的TS评分为0.21,综合准确率ACC1为70%,美国联合台风警报中心预测的TS评分为0.19,综合准确率ACC1为34%,中国中央气象台预测的TS评分为0.15,综合准确率ACC1为36%,而AI算法的TS评分为0.24,综合准确率ACC1为82%,如图4所示。由此可见,AI判别模型是以牺牲一定的错误率为代价,大大降低了漏报率,对实际RI样本具有较高的预测精度。结果也表明,基于人工智能的RI判别技术的确是明显优于传统的主客观强度预测方法。

图4 主、客观预报对台风快速增强预测的综合准确率Fig. 4 Comprehensive accuracy of subjective and objective RI predictions

3.3 AI模型在台风“暹芭”预报中的应用检验

2022年3号台风“暹芭”是2022年首个登陆我国的台风,台风 “暹芭” 2022年6月30日在我国南海中部海域生成,7月2日8时加强为台风级,当日15时前后在广东电白登陆(常年首台登陆平均时间6月28日,首台登陆平均强度30.8m/s),登陆时中心附近最大风力有12级(台风级,35m/s),2日夜间以强热带风暴级的强度移入广西境内,3日下午在广西北部减弱为热带低压,4日8时前后进入湖南并停止编号。“暹芭”及其残余环流先后从华南到东北影响我国16个省(市、区)。具有首个登陆台风时间偏晚和强度偏强、深入内陆影响范围广、累计雨量大和出现多个龙卷风等特点。另外,“暹芭”属于近海加强台风,在距离登陆点110 km时加强为台风,并以峰值强度登陆广东电白沿海,是近20 a来登陆广东省最强的南海“土”台风(指在我国南海生成的台风)。

2203号台风“暹芭”的分析结果如图5所示,针对4个连续时刻的卫星云图的特征提取,台风强度突变的预测结果分析如下:中央气象台业务预报的台风报文babj信息条数为94条,由于模型输入的是序列数据,在预测时,以4条连续数据信息(间隔为6h)作为一个输入,以此共得到81条有效信息,通过对81条信息进行标注,共标记了3条突变时刻(对于T时刻的标注为1意味着在T~T+12h内,台风风速会增强≥7 m/s)。阈值超过0.55判定为出现快速增强,反之判定为没有出现快速增强。样例2203号台风“暹芭”的结果综合准确率是90.1%,漏报率是0,误报率是10.2%,TS评分达到0.27。

图5 2203号台风“暹芭”的4个连续时刻的卫星云图Fig. 5 Satellite cloud images of four consecutive moments of typhoon Chaba No.2203

通过对2203号台风“暹芭”的全生命史进行测试,如图6所示,可以发现该强度突变趋势预测模型在2022年6月30日早晨快速增强RI概率有一个快速的升高,概率值超过了55%,接近65%,因此表明该模型对于台风强度出现快速增强的初始时刻预测效果良好,这为台风“暹芭”的气象服务保障工作提供了很好的客观产品的支撑,并且漏报率为0,而误报主要出现在强度保持在较强的平稳期的情况下,这将是该AI模型需要继续改进的地方。

图6 针对2203号台风“暹芭”模型估计与实况突变概率的比较Fig. 6 Comparison of the intensity estimated by the model and the intensity of best track for 2203 typhoon Chaba

选取2022年的另外4个强度突变的台风,即2211号台风“轩岚诺”、2212号台风“梅花”、2214号台风“南玛都”、2216号台风“奥鹿”进行个例测试检验。

2211号台风“轩岚诺”的分析结果如图7(a)所示,通过对126条信息进行标注,共标记了9条突变时刻,该样例的漏报率是66.7%,误报率是0.8%,TS评分达到了0.30。2212号台风“梅花”的分析结果如图7(b)所示,通过对149条信息进行标注,共标记了8条突变时刻,该样例的漏报率是12.5%,误报率是9.2%,TS评分达到了0.33。2214号台风“南玛都”的分析结果如图7(c)所示,通过对30条信息进行标注,共标记了5条突变时刻,该样例的漏报率是12.0%,误报率是40.0%,TS评分达到了0.45。2216号台风“奥鹿”的分析结果如图7(d)所示,通过对61条信息进行标注,共标记了10条突变时刻,该样例的漏报率是40.0%,误报率是7.8%,TS评分达到了0.43。通过对2022年的4个强度突变台风个例进行测试,可以发现该强度突变趋势预测模型的TS评分均超过了0.37,结果显示基于人工智能的台风快速增强趋势判别技术优于传统主观的强度预报方法,具有一定的业务应用价值。

图7 AI快速增强判别模型的突变概率与实况台风的突变概率比较Fig. 7 Comparison between RI probability predicted by AI model and the actural RI probability

综上所述,通过对测试集2019—2021年强度突变的台风样本以及2022年多个快速增强台风个例进行测试,可以发现该强度突变趋势预测模型的综合准确率均超过84.6%,而误报和漏报主要出现在上升期出现下降或保持平稳的情况下,这也是未来将要继续改进该AI模型的地方。

4 结论与讨论

本文采用人工智能领域的深度残差网络Resnet模型和基于时空关联深度学习模型LSTM为技术基础,通过标注、学习西北太平洋及南海台风的卫星云图数据中的关键信息,提出了一种时序预测的台风快速增强趋势判别框架,包括以PIPELINE方式将Resnet模型和双层LSTM网络进行融合的方式,根据台风风速变化提出了台风生命周期指示这个新指标,以提取更准确的台风时空联合演化特征,提出了一种自动、客观的台风快速增强趋势判别技术,可以有效地解决台风强度快速增强趋势预测和判别问题。

对比目前传统的台风强度快速增强趋势判别的方法,人工智能新技术避免了预报人员的主观性,可以持续稳定高效地工作,从而减少预报人员繁琐的预报工作,同时也提升了台风强度快速增强趋势判别的效率。相比于现有技术,在考虑了数据缺失和数据分布不平衡的基础上,本文提出的新方法能够更快速准确地提取出台风快速增强的特征,从而提升了台风快速增强趋势判别的准确率,也进一步推进了台风强度预报业务的智能化。

但是目前本文仅是基于人工智能技术来解决西北太平洋和南海台风RI趋势判别的问题,在有其他海域台风历史资料的前提下,未来可以拓展对全球其他海域的台风RI趋势判别业务,更好地支撑业务人员在全球更广阔的海域展开台风强度的预报预警工作。

猜你喜欢

云图台风时刻
台风过韩
冬“傲”时刻
捕猎时刻
台风来了
成都云图控股股份有限公司
台风爱捣乱
黄强先生作品《雨后松云图》
基于TV-L1分解的红外云图超分辨率算法
云图青石板
一天的时刻