机器学习在广西台风极大风速预报中的应用
2022-01-19吴玉霜黄小燕陈家正赵华生
吴玉霜,黄小燕,陈家正,赵华生
(1.广西壮族自治区气象台,南宁 530022;2.广西壮族自治区气象灾害防御技术中心,南宁 530022;3.广西壮族自治区气象科学研究所,南宁 530022;4.广西民族大学,南宁 530006)
引言
近年来,许多专家学者采用机器学习方法对台风大风进行预报建模研究,尝试从具有随机波动性、不确定性和非线性的风速数据间挖掘出变化规律,提高风速预报的精度[1-5]。杨晓君等[6]利用了天津中尺度天气预报模式产品和EC 数值模式产品,建立了渤海海风的BP 神经网络两级海风预报模型,对于灾害大风的预报取得了较好的效果。朱智慧等[7]利用2011—2012 年台风影响期间上海沿海的5 个浮标站的2min 平均风速和极大风速,运用回归分析方法得到了台风期间沿海极大风速的客观方程,并将客观方程带入WRF 模式进行极大风速预报,结果较为理想。钱燕珍等[8]将支持向量机方法应用于台风影响下的站点风速预报,表明在适当的样本截取和预报因子选取后,风速预报48h 内效果较好。
目前对于台风影响广西期间的地面站点极大风速的预报研究相对较少,客观定量预报方法缺乏,主要还是根据预报员的主观分析进行实际业务预报[9-11]。陈润珍等[12]利用线 性回归方法和旋衡风方程,建立了广西沿海台风大风预报模型,预报效果较好。董彦等[13]采用遗传-神经网络集合预报方法预报广西台风大风,模型对≥10m·s-1的强风有较好的预报性能。本研究尝试以台风影响广西期间部分地面站点的日极大风速作为预报对象,采用多元线性回归(Multiple Regression,MR)、支持向量机(Support Vector Machine,SVM)、模糊神经网络(Fuzzy Neural Network,FNN)等三种较为常用的线性和非线性机器学习方法分别进行预报建模研究,讨论分析和对比三种不同的机器学习算法对广西台风极大风速的预报效果,为台风影响广西期间的地面极大风速预报工作提供预报参考。
1 研究方法
1.1 多元线性回归
本文将多元线性回归(MR)模型设定如下,设预报量Y:
式中β0,β1,...,βm均为对应特征向量x1,x2,...,xm的回归系数,ε 为随机残差。
1.2 支持向量机方法
支持向量机(SVM)以结构风险最小化原则为理论基础,首先在低维空间进行计算,通过核函数将低维的原始数据非线性映射到高维的新特征空间,最终在高维特征空间中转换为线性学习构造出最优分离超平面。在实际问题中,大量风速样本数据为非线性集合,SVM 对非线性数据有较好的处理能力[14-15]。对SVM 非线性回归模型,预报量与指标量的一般形式为:
式中:w 是法向量,b 是位移项,φ(x)是非线性映射函数。
引入拉格朗日因子和核函数K(xi·xj),本文主要选取的是多项式核函数作为模型的核函数,可以得到SVM 非线性回归形式如下:
式中:ai为最大化目标函数。
1.3 模糊神经网络
模糊神经网络(FNN)主要以模糊控制理论为基础,融合了模糊系统的非线性处理能力以及人工神经网络的自学能力等优点[16]。这里采用的是一种结论为数值型的模糊神经网络,由输入层、隶属函数层、推理层和反模糊化输出层四个环节组成:
隶属函数层:通过采用高斯函数可以得到状态变量x1的隶属度μij,其基本表达式为:
其中1≤i≤n;1≤j≤m,μij,aij,σij与隶属度函数层的各节点相对应,输出μij的下标依次为μ11,μ12,…,μ1m;μ21,μ22,…,μ2m;…;μn1,μn2,…,μnm。
推理层:包含了模糊规则和模糊推理两个部分,在模糊逻辑中,模糊推理是根据建立的模糊规则进行输出,本文按照“and”运算和IF-THEN 的判断形式构建模糊规则形式:
运用相乘的方式计算模糊规则中各节点的输出值,分别是该节点所有输入的代数乘积∏:
输出层:使用反模糊化网络进行输出:
其中ωj(j=1,2,…,m)为连接权。
2 台风极大风速预报试验
2.1 预报资料
本文主要是为了对比评估3 种预报方法对台风极大风速的预报效果,因此选取预报对象为台风进入广西影响范围时(19°N 以北,112°E 以西)的地面日极大风速值。由于统计预报方法需要较大样本的数据才能进行更好地建模预报,为此,挑选了广西站点日极大风速记录中有较长时间序列并且资料较为完善的站点,从而得到1980—2020 年位于广西东部的梧州、东南部的玉林、中南部的南宁、北部的桂林和西南部的龙州5 个气象观测站的地面日极大风速实测值,资料来自广西气象局气象信息中心。
台风资料选取1980—2020 年共41a 影响广西的台风路径、中心风速、最大风速等数据集资料,来自CMA 最优台风路径数据集(https://tcdata.typhoon.org.cn/)。物理量风速预报资料选自欧洲中期天气预报中心(ECMWF)ERA5 再分析数据的各层各要素场的数据资料。时间分辨率是6h(02∶00,08∶00,14∶00 和20∶00),格距:0.25×0.25;纬度:9.75°N~40.5°N;经度为79.5°E~120°E,共计61364 个格点。为了对预报方法进行客观比较与检验,统一选取1980—2010 年数据作为建模样本,2011—2020 年的样本作为独立测试样本进行预报测试,其中需对缺失样本进行剔除处理。表1 为各个气象站用于预报试验的样本数。
表1 广西台风地面日极大风速预报建模样本(d)
2.2 预报因子初选
2.2.1 物理量预报因子
将18.25°N~29.75°N,100.25°E~114.75°E 范 围ERA5 再分析的各层要素场和物理量场格点数据(共计15342 个格点,图2)作为待选预报因子,通过相关分析和显著性检验,桂林站入选预报因子数量为70 个,梧州站入选81 个,龙州站入选59 个,南宁站入选81 个,玉林站入选76 个。
图1 原物理量场选择范围(短断线方框)以及裁剪后预报因子场区域(实线方框)图
2.2.2 台风预报因子
由于研究对象是台风造成的极大风速,因此台风本身所处的经纬度、气压、中心风速等特征量也是预报地面极大风速的重要因素。这里选取了起报时刻台风所处的经度和纬度、中心最低气压、中心附近最大风速、地面极大风速、过去24h 变压、前24h 中心附近最大风速增量等7 个台风气候持续预报因子作为极大风速预报的待选因子。分析发现,入选的台风预报因子与风速的相关有地域性的差异,相关率呈现为玉林、南宁、梧州、龙州到桂林的逐渐递减。究其原因,可能影响广西的台风大多数是从东南部的玉林市进入的,相关高(≥0.04);相邻的南宁和梧州影响次之;北部的桂林和西南部的龙州一般处于台风影响后期,因而相关性偏小。
2.3 构建预报模型
本文以1980—2010 年的数据作为基础建模样本,对2011—2020 年共10a 台风影响广西期间5 个气象站的地面日极大风速样本作为独立预报样本进行预报试验,选择机器学习中的MR、SVM、FNN 三种方法分别构建不同站点的台风极大风速预报模型。模型构建思路如下:
(1)建立MR 台风极大风速预报模型:经过多次试验,当设定多元线性回归中的统计量F 值=3 的入选因子数的结构较为适宜,得到的预报值也是最优,各站点分别入选的预报方程因子数量,桂林站为6 个,梧州站入选5 个,龙州站8 个,南宁站8个,玉林站8 个。利用确定的预报因子,分别建立了5个站点的台风极大风速预报方程,由于每个站点的建模样本量不同,回归方程的系数也不同,得到方程如下:
式(10)—(14)中Y桂林、Y梧州、Y龙州、Y南宁、Y玉林表示极大风速的预报值,X 表示通过多元线性回归方案设定F 值为3 时自动筛选得到的预报因子,下标为预报因子在所有初选预报因子集合排序中所在的序号。
(2)建立SVM 台风极大风速预报模型:为了进行客观对比,在建立SVM 台风极大风速预报模型时,同样以多元线性回归方案筛选出来的预报因子集作为预报模型的因子输入,实际观测的极大风速值作为训练目标样本。本方案设置拉格朗日乘子上界为200,并构造核函数K(x,xi)=[(x·xi)+1]q,其中q 是多项式的阶次,所得到的是q 阶多项式分类器。最后利用三次多项式求解线性方程得到ai和b,建立SVM 非线性回归模型对台风极大风速进行预报。
(3)建立FNN 台风极大风速预报模型:采用模糊神经网络预报模型对广西台风期间地面日极大风速进行预报试验时,因子输入和上述2 个模型一致,这里的模型参数统一设置为:网络的输入节点为筛选出的各站点的预报因子数量,网络的输出节点为1,设置3 个推理层节,网络训练次数设定为300 次,学习因子取0.9,总体误差定为0.0001。
3 三种机器学习方法预报结果对比分析
按照2.3 节构建的预报建模试验思路,三种机器学习方法对广西5 个气象站点台风期间地面日极大风速的预报结果见表2。平均绝对误差(MAE)可以很好地反映预报模型的总体预报精度情况,因此本文主要采用该评估指标对三种机器学习方法的独立样本预报结果进行分析评估。分析表2 可知,三种预报模型的平均绝对误差在1.7~3.3m·s-1之间,三种方案对桂林站的预报效果最理想,其次为龙州站,误差最大均为玉林站。进一步分析可知,MR 预报模型5 个站点的预报平均绝对误差为2.53m·s-1,其中预报误差最小为桂林站2.25m·s-1,误差最大为玉林站的2.96m·s-1。SVM 预报模型5 个站点的预报平均绝对误差为2.76m·s-1,其中预报误差最小为桂林站2.28m·s-1,误差最大为玉林站的3.29m·s-1。FNN 预报模型5 个站点的预报平均绝对误差为2.38m·s-1,其中预报误差最小为桂林站1.74m·s-1,误差最大为玉林站的2.92m·s-1。对比分析可知,FNN 预报模型对桂林站、梧州站、龙州站、玉林站共4 个站点预报的平均绝对误差最小,总体预报精度最好;而MR 预报模型对南宁站预报的平均绝对误差最小,该方法对南宁站有较好的预报能力。
表2 三种机器学习预报模型平均绝对误差统计(单位:m·s-1)
其中FNN 预报模型的平均绝对误差比MR 预报模型减少了1%~29%(除南宁站外)。FNN 预报模型的平均绝对误差比SVM 预报模型减少了6%~29%。MR 预报模型的平均绝对误差比SVM 预报模型减少了5%~13%(除桂林站外)。
本文把预报绝对误差≤2m·s-1的样本视为预报效果较好,表3 是三种机器学习预报模型对5 个站点的独立预报样本预报较好的样本个数情况。分析可知,对于桂林、龙州和玉林等3 个站点的预报,FNN 预报模型预报效果好的样本个数最多;MR和SVM 预报模型预报对梧州站预报效果好的样本个数一样多;对南宁站的预报,MR 预报模型表现最优。
表3 三种机器学习预报模型平均绝对误差个数对比
总体上,通过MAE 检验统计的分析表明,FNN预报模型的预报精度最高,MR 模型低于FNN 预报模型但优于SVM 预报模型。
在实际的业务预报中,更关注的是6 级(10.8m·s-1)以上风速的预报,为了分析三种机器学习模型对广西台风期间地面6 级以上日极大风速的预报能力,这里重点分析了2011—2020 年10a 期间各个站点的实际6 级以上风速的风速预报情况。主要采用TS评分、命中率、空报率和预报偏差等4 种检验方法进行对比检验。
从为三种预报模型6 级以上风速预报的TS 评分(图2a)的对比分析可知,5 个站点(桂林、梧州、龙州、南宁、玉林)的MR 预报模型的TS 评分为:0.22、0.32、0.09、0.30、0.36;SVM 预报模型的TS 评分 为:0.24、0.28、0.11、0.26、0.32;FNN 报模型FNN 的TS评分为:0.29、0.33、0.06、0.21、0.45。对于桂林、梧州和玉林3 个站点,FNN 预报模型的评分均高于MR预报模型和SVM 预报模型,分别提高了22.5%、2.04%、19.7%和17.2%、13.4%、27.7%。分析发现,对龙州站的预报中,FNN 预报模型和MR 预报模型的预报效果非常差,而SVM 预报模型相对最理想。在MR 预报模型的评分略高于SVM 预报模型,除了桂林和龙州站,其余站点提高了11.6%、12.1%和10%。
命中率结果显示(图2b),总体上FNN 预报模型的命中率更高。具体分析可知,三种机器学习模型对桂林站的命中率基本都较高;对于梧州和玉林站,FNN 预报模型相比MR 预报模型和SVM 预报模型,分别提高了5.88%、10%和11.7%、26.6%;三种方案对龙州站的命中率都偏低。
图2c 为三种预报模型地面日极大风速预报FAR 评分的对比,从总体上看,FNN 预报模型的空报率低于其它两个机器学习模型。具体分析可知,FNN 预报模型在桂林、龙州、南宁、玉林站的空报率比MR 预报模型降低了19.1%、42.8%、10.3%、68.4%;,FNN 预报模型在桂林、梧州、龙州、玉林站的空报率比SVM 预报模型降低了14.5%、14.4%、25%、9.45%。
对预报偏差进行分析对比(图2d),FNN 预报模型的预报偏差最小,SVM 报模型次之,MR 预报模型的预报偏差最大。FNN 预报模型比MR 预报模型分别减少了35%、100%、31.5%、12.8%(除梧州站外),SVM 预报模型比MR 预报模型分别减少了8%、27.2%、38.8%、37.5%(除梧州站外)。
图2 MR、SVM 和FNN 预报模型对2011—2020 年独立样本预报的地面日极大风(>10.8m·s-1)的TS 评分(a)、命中率(b)、空报率(c)和预报偏差(d)
以上分析结果表明,FNN 预报模型的预报性能优于MR 预报模型和SVM 预报模型,对广西台风期间地面日极大风速有较好的预报能力。
4 结论与讨论
采用多元线性回归、支持向量机、模糊神经网络三种不同的机器学习方法进行广西台风期间的5 个气象观测站桂林、梧州、龙州、南宁、玉林的地面日极大风速进行预报建模试验,全部独立预报样本的绝对误差以及6 级以上风速的TS 评分、命中率、空报率和预报偏差的结果都表明,模糊神经网络预报模型的预测精度最高且相对稳定,多元线性回归方案次之,支持向量机在三种方案中预报效果最差。模糊神经网络对极大风速预报具有一定的适用性,可对广西台风期间地面日极大风速的预报有较好的参考作用,并可为后期进行广西的大风灾害预测研究的开展提供理论参考和实证基础。
另外,需要说明的是,本文只选取了广西5 个具有区域代表性的气象站点对预报模型的预报能力进行对比说明,后续可进一步将预报范围辐射至整个广西区域的所有站点进行预报试验。在试验中的某些指标上,我们发现模糊神经网络方法并非最优,其他机器学习方法也有很好的表现,可据此深入分析,考虑用将预报性能较好的机器学习算法进行有效集合,应该可以更好地提高风速的预报精度,为广西的大风灾害预报提供参考。