APP下载

因子智能选取方法在年度台风频数气候预测中的应用

2022-12-08覃卫坚韦文山沈梦燕

现代计算机 2022年18期
关键词:频数台风向量

荣 新,覃卫坚,韦文山,沈梦燕

(1.广西民族大学电子信息学院,南宁 530006;2.广西气候中心,南宁 530022)

0 引言

台风作为一种极具破坏性的气象灾害,威胁着沿海城市的经济发展,因此对台风的预报越来越受到重视。近年来,国内外的一些预报方法如一般线性回归、多元线性回归、动态统计混合模式以及各种神经网络算法等在预测各海盆地的热带气旋活动中取得了巨大的成功[1-10]。本文运用的预报方法支持向量回归,以其较强的范化和有效捕捉信息能力被广泛应用于各个领域,童亮等[11]建立基于模糊信息粒化和支持向量回归组合的模型,预测内核船舶的耗油量,其结果要优于BP模型和ELM模型;吴晓姣等[12]构造支持向量回归算法预测血压模型,可以有效地预测人的血压值;闫水保等[13]通过优化支持向量的选择策略来提高算法的预测能力,建立约束的支持向量回归模型应用于电站锅炉燃烧。在处理天气问题方面,Nong等[14]运用支持向量机对降水进行“客观预报”,其预测精确度高于基于BP网络的预测模型;罗芳琼[15]等结合线性方法和神经网络方法提取降水的线性和非线性特征,最后使用最小二乘支持向量机集成预测,稳定性较好。另外,在机器学习方法中因子的选择对预报的精度有很大的影响,丰富和筛选合适的特征因子,是提高台风频数预报精度的有效途径之一。

特征选取是从原始集合中选择冗余最小,并与预测对象相关性最大的特征集,随机森林算法是一种准确的集成学习算法,对大数据集具有高效的运行和处理能力。崔兆亿等[16]、林娜等[17]、林开春等[18]利用随机森林筛选最优特征子集,获取较高的数据精度;熊怡等[19]基于随机森林算法选择遥相关因子,提高了月径流预报模型的泛化性能。

本文结合了随机森林方法和逐步回归方法来选择特征因子,找出最优特征集建立基于支持向量回归的模型预测年度台风频数,验证融合随机森林和逐步回归方法筛选特征因子在支持向量模型预报年度台风频数中的有效性和适用性。

1 数据来源与方法

1.1 数据来源

由中国气象局上海台风研究所提供1951—2020年共70年台风样本数据,国家气候中心提供1951—2020年142项大气环流特征量和海温指数资料。

1.2 支持向量回归方法

支持向量回归(support vector regression,SVR)是基于统计学习理论的监督学习算法,它保留了支持向量机最大边缘算法的对偶性、稀疏性、核性和凸性等特性[20]。主要思想是利用核函数将输入数据映射到高维空间,并对变换后的空间进行回归处理,利用结构风险最小化和经验风险最小化原则,解决各种非线性回归估计问题。给定一组训练数据集构造超平面,公式表示为

w表示加权矩阵,b为偏置项。当且仅当训练样本落入超平面外,计算损失,将回归风险最小化为

B为正则化常数,g(xk)为第k个样本的预测值,yk为第k个真实值,lθ为不敏感损失函数:

引入松弛因子重写式(1):

引入拉格朗日乘子,得到拉格朗日函数,将式(1)代入,再利用拉格朗日函数分别对w,b,ηk,η̂k求偏导,将其代入拉格朗日函数即可得到支持向量回归的对偶问题,经过进一步求解最后得到SVR的解为

引入高斯核G(x,xk),将样本从原始空间映射到一个更高维的特征空间,则SVR为

2 选取特征因子

2.1 频数与预测因子之间的相关性分析

相关系数是研究两个定量变量之间线性相关程度的量,量化了两个变量之间的标准化关系,取值范围一般为[-1,1]。给定一组数据D=设相关系数为r,公式表示为

为了解释某些特征共线性的可能,本文结合1951—2015年共65年的样本,计算广西台风频数时间序列与同年或前一年各月142项大气环流特征量和海温指数的相关系数,从中筛选出绝对相关系数值达到0.4的因子,共得到24个高相关因子。

2.2 逐步回归方法筛选预报因子

逐步回归是通过每次添加或删除一个独立预测因子构建多元回归方程。主要分为正向选择、逆向消除和双向消除[21]。本实验为了更好地优化模型,选用双向消除,将正向选择和逆向消除相结合建立逐步回归模型选择重要因子,在未引入的因子集中寻找方差贡献最大者做检验,在引入的因子集中对方差贡献较小者做剔除检验。最后输出逐步回归方程:

经过计算,复相关系数为0.619,剩余标准差为1.689。方程式从24个因子中选择x1、x8、x11作为预报因子,其中x1为前一年9月欧亚纬向环流指数(IZ,0-150E);x8为同一年1月Nino12区海温,表示为90°W—80°W,赤道—10°S的太平洋海温;x11为同一年2月Nino4区海温,表示150°W—160°E,5°N—5°S的太平洋海温。其相关系数值见表1。

表1 逐步回归方法筛选的特征因子

2.3 随机森林方法筛选预报因子

随机森林是一种集成和最精确的算法,融合了套袋法和随机特征选择法,具有高效处理高维数据和高相关数据的能力。本文使用随机森林算法计算变量的重要性评分,确定随机子集中的最佳特征。针对特征的重要性,在训练过程中有两种方法MDI和MDA计算各特征的显著性。本文使用MDI,也就是基尼指数(Gini)重要性计算特征重要性。工作原理如下:

定义原始数据D(xk,k∈1,2,3…n),

(1)在原始数据集D中有放回的多次随机采样,生成n个子集。

(2)每次重采样时,选择一种随机特征,不剪枝,构造决策树。

(3)投票选择效果最好的决策树,计算决策树每个特征的Gini。

公式表示特征pi在节点m中重要性。

(4)对每个节点先求出Gini,之后降序排列输出。

本文利用随机森林对经过相关性分析得出的24个特征因子二次筛选,计算每个特征因子的基尼指数,选出排列前三的特征因子(因子重要性值见表2),分别为前一年6月AMM(Atlantic Meridional Mode)风指数,前一年9月欧亚纬向环流指数(IZ,0-150E)以及同一年1月Nino12区(150°W—160°E,5°N—5°S)海温。

表2 随机森林方法筛选的特征因子

3 模型建立与分析

本文结合逐步回归和随机森林筛选出特征因子,分别是前一年6月AMM(Atlantic Meridional Mode)风指数,前一年9月欧亚纬向环流指数(IZ,0-150E),同一年2月Nino4区(150°W—160°E,5°N—5°S)海温以及同一年1月Nino12区海温(90°W—80°W,赤道—10°S)共四个特征因子,并结合1952-2015年共64年的训练样本,2016—2020年共5年预测,分别使用逐步回归筛选的因子、随机森林筛选的因子以及融合两种方法筛选的因子,建立基于支持向量回归的模型预测年度热带气旋频数(分别建立模型1、模型2、模型3)。上述步骤的流程图如图1所示。

模型选择不敏感损失函数为squared_epsilon_insensitive,epsilon范围设置为(0-10),惩罚函数参数范围为(0-1),经过调节模型参数最后确定不敏感损失函数的epsilon参数为2.64,惩罚函数C=0.3,最大迭代次数为10000次。预测结果见表3。模型1使用逐步回归方法选择的特征因子,建立支持向量回归模型预报,损失函数值loss=0.82,平均绝对误差为14.48%,均方根误差为0.91,绝对平均误差为0.69;模型2使用随机森林选择特征因子,建立支持向量回归模型预报,损失函数值loss=0.64,均方根误差为0.80,平均绝对误差为14.15%,绝对平均误差为0.65;模型3融合以上两种方法选择的特征,建立支持向量回归预报模型,损失函数值loss=0.44,平均绝对误差为9.58%,绝对平均误差为0.42,均方根误差为0.66。预测结果表明,基于随机森林方法选取特征因子建模预测效果要高于逐步回归方法,同时融合两种方法选择的因子,预测结果均高于以上两种方法。

表3 基于支持向量回归方法2016—2020年度台风频数预报结果对比

4 结语

本文以上海台风研究所提供的台风样本数据和国家气候中心提供的大气环流特征量和海温指数资料为基础,针对台风频数非线性变化的特征使用支持向量方法,建立模型预测。研究使用相关分析方法,去除冗余和不相关的特征,初步筛选出绝对相关系数值达到0.4的特征因子。为提高数据的线性度,分别使用逐步回归方法建立回归方程和随机森林方法进一步提取因子的非线性特征。在相同的数据样本下,建立基于支持向量回归的模型,预测2016-2020年共5年的台风频数。研究表明,融合两种方法筛选因子预测结果最好,相比直接使用随机森林方法和逐步回归方法筛选的数据预测结果分别提高4.57%和4.90%。这主要是因为逐步回归方法在选择因子、建立方程时,不仅保证了所选变量的有效性和重要性,而且减少了冗余变量带来的额外误差,随机森林具有平衡不稳定数据集的误差的类,可以产生高度精确的分类器。

目前年度的台风预报工作相对较少,本文提出的融合人工智能方法和线性方法选择因子建立的机器学习模型预报台风频数为年度台风预报提供了一种新方法和思路,这种因子选择方法将来也可应用于其他的领域。此外,本文在建立支持向量回归模型过程中所采用的调参方法仍可以改进,进一步提高预报的精确度。

猜你喜欢

频数台风向量
台风过韩
向量的分解
聚焦“向量与三角”创新题
台风来了
频数与频率:“统计学”的两个重要指标
中考频数分布直方图题型展示
学习制作频数分布直方图三部曲
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
频数和频率