基于均生函数的极限学习机降水预测模型研究与应用
2023-01-13◎周慧
◎周 慧
(广西科技大学理学院,广西 柳州 545006)
1 引 言
广西柳州每年在4—5月份前汛期,由于区域的暴雨等灾害性天气,造成严重的洪涝灾害.提高前汛期月降水量的预测可以有效减轻这种严重气象灾害对社会造成的损失.国内有关长期降水量业务应用的多数统计和动力统计客观预测方法中,无法有效选择建模因子导致预测模型稳定性较差.20世纪90年代以来,国内外在大气学科中开展了很多有关神经网络预测建模和气候分析等应用研究.
机器学习方法在实际应用中虽处理非线性问题能力较强,但存在训练速度慢、容易陷入局部极小点等缺点.近年来提出的极限学习机(Extreme Learning Machine,ELM)应用的是一种针对单隐含层的前馈神经网络算法,只需设置隐含层神经元数以及激活函数,便可获得最优解,不受学习率选择敏感的影响,具有良好的泛化性能以及极快的学习能力等优点.ELM目前被广泛应用到了各个领域.
由于降水数据具有较强的不确定性和显著的非线性变化特征,因此用单个方法建立长期数值预测模式研究还难以应用在预测业务中.为此,本文首先采用均生函数(Mean Generating Function,MGF)对降水序列进行延拓,通过变换极限学习机模型的不同参数建立柳州月降水量预测模型,然后用等权平均法组合不同预测结果建立集成降水预测模型(Extreme Learning Machine Based on Mean Generating Function,MGF-ELM).
2 基于均生函数的极限学习机模型
2.1 均生函数
90年代初,魏凤英等拓展了数理统计中算术平均值的概念,提出了均生函数算法.
设降水数据序列为{yt,t=1,2,…,N},MGF计算方法如下:
(1)
对其作周期延拓计算,得到周期延拓序列
(2)
其中P为预报步数,则外延均生函数序列矩阵为
(3)
2.2 极限学习机
2004年,南洋理工大学的Huang提出了ELM算法,将均生函数的延拓矩阵作为自变量,原始降水序列作为因变量.
ELM网络结构如图1所示,由输入层、隐含层和输出层组成,设输入层有n个神经元,隐含层有r个神经元,输出层有m个神经元.
图1 ELM网络结构图
在ELM模型中,设该连接权值A为
(4)
aij表示隐含层第i个神经元和输入层第j个神经元间的连接权值.设隐含层和输出层之间的连接权值B为
(5)
bjk表示隐含层第j个神经元与输出层第k个神经元间的连接权值.设隐藏节点的偏差为c,则有:
(6)
设隐含层神经元激活函数为g(x),则网络的输出S为
(7)
HB=S′
(8)
其中H为ELM的隐含层输出矩阵.可通过求以下式子的最小二乘解,得到隐含层与输出层间的连接权值
(9)
2.3 等权平均组合预测法
60年代,Bate提出组合预测方法,通过将不同的单项预测模型进行组合,对各种单项预测方法提供的信息进行综合利用,来提高模型的预测精度.等权平均法即算术平均法,不同单项预测模型的权重相同,可避免精度与权重大小不匹配的现象.
3 实例分析
本文以柳州市1951~2020年每年的4月份70个降水量实测数据为实例分析,其中1951~2010年60个数据作为训练样本建立MGF-ELM模型,其余2011~2020年10个数据作为测试样本用于检验模型预测效果.
3.1 采用MGF对数据进行预处理
为了更精确了解柳州4月份降水量的有关统计特征,根据1951~2020年降水预报资料可知,降水量的最大值为420.3 mm,最小值为33 mm,极差为387.3 mm,标准差为77.434 mm.以上数据表明柳州市4月平均降水量年际变化较大的气候特征.因此,本文采用均生函数方法对柳州市1951~2020年4月份月降水序列进行延拓,得到70×35的均生函数延拓矩阵.
3.2 模型的评定
本文建立了参数优化后ELM模型和等权平均法组合两种模型,采用以下四种统计指标定量对比模型预测精度.
3.3 结果分析
对比单一MGF-ELM和集成MGF-ELM模型.
分别改变MGF-ELM模型的激活函数和隐含层神经元的个数,得到15个参数不同的MGF-ELM模型.采用等权平均组合法,建立15个ELM模型的等权法集成模型.
一方面,由表1可以看出与15个单一模型相比,集成模型的RMSE和MAPE值较小,PCC的值大,说明集成模型的拟合精度高于单一模型.同时,选择激活函数为sine,设置隐藏节点个数为30时,单一模型的拟合效果最好.由图2可看出,集成模型的拟合情况明显优于单一模型.
表1 单一MGF-ELM模型和集成MGF-ELM模型的拟合效果统计指标
另一方面,表2是两个模型对柳州2011~2020年4月份10年月降水量的预测结果.集成模型预测降水平均绝对误差和平均相对误差分别为109.62和22%,而单一MGF-ELM模型预测降水的平均绝对误差和平均相对误差分别为362.44和38%.由此我们可以看出,集成MGF-ELM 模型预测能力优于单一MGF-ELM模型.
图2 两个模型数据拟合效果
表2 两个模型月降水量的预测结果
4 结 论
本文利用MGF对降水序列进行延拓,以延拓矩阵作为自变量,原始降水序列作为因变量,利用不同ELM激活函数和不同参数建立降水预测模型并把结果等权平均组合.该方法具有以下特点:
(1)采用均生函数方法对降水序列进行延拓,以延拓矩阵作为自变量,原始降水序列作为因变量,建立ELM降水预测模型.此模型泛化能力好,更适用于非线性数据,拟合和预测精度均明显高于时间序列模型.
(2)通过调整ELM算法参数得到不同输出结果,最后采用等权平均组合预测法建立降水预测模型.集成模型对各种单一ELM模型提供的信息进行综合利用,不仅提高了预测模型精度,也增强了网络的稳定性.