APP下载

LSTM-WBLS模型在日降水量预测中的应用

2023-06-14韩莹管健曹允重罗嘉

南京信息工程大学学报 2023年2期

韩莹 管健 曹允重 罗嘉

摘要基于长短时记忆网络(Long Short-Term Memory,LSTM)降水量预测模型存在过拟合、时滞现象,而宽度学习系统(Broad Learning System,BLS) 无需多次迭代的特点有助于解决LSTM的上述缺点.加权宽度学习系统(Weighted Broad Learning System,WBLS)通过在BLS中引入加权惩罚因子约束分配样本权重,降低噪声和异常值对降水量预测精度的影响.本文提出一种LSTM-WBLS日降水量预测模型,选取湖北省巴东站日降水量进行实证研究,并考虑气压、气温、湿度、风速和日照等因素对降水量的影响.实验结果表明,与现有的预测模型相比,LSTM-BLS模型在RMSE、MAE和R2等评价指标上均有显著提升.不同时间步长下,本文模型预测精度均优于现有模型,验证了其稳定性.与LSTM相比,WBLS直接计算权重的特点使得LSTM-WBLS的运算效率并未降低.

关键词降水量预测;长短时记忆网络;宽度学习系统;加权宽度学习系统;多因素预测

中图分类号

TP183

文献标志码

A

收稿日期

2021-10-18

资助项目

南方海洋科学与工程广东省实验室(珠海)基金(SML2020SP007);国家自然科学基金(62076136)

作者简介

韩莹,女,博士,副教授,研究方向为大数据处理方法及其应用.hanyingcs@163.com

罗嘉(通信作者),女,硕士,研究方向为灾害应急建模与分析、气象数据分析.jeeaaan@qq.com

0 引言

短时强降水会造成暴雨洪涝,继而引发山洪、泥石流等次生灾害,严重威胁人们生命财产安全.因此,熟练掌握降水规律、精准预测日降水量,对洪涝灾害的研究和控制具有重要指导意义[1].

降水量预测的方法基本分为两类:基于过程的方法和数据驱动方法.基于过程的降水量预测方法的优点是对降水物理过程解释清晰,但物理过程的复杂性增加了建模难度,需要给出一系列假设才能够对模型求解.数据驱动的方法是经验型的,不需要对降水物理过程进行分析,只根据降水量的历史数据进行预测,模型简单易操作.

统计方法和机器学习是目前最常见的数据驱动的降水量预测方法.统计方法方面,近年来最为流行的是基于差分自回归移动平均(AutoRegressive Integrated Moving Average,ARIMA)模型的预测方法[2-3].研究表明,当降水量时间序列是线性或接近线性时,统计模型能产生令人满意的预测结果,但当时间序列呈现非线性时,其预测结果往往差强人意.有鉴于此,適合复杂非线性过程建模的机器学习方法广泛应用于降水预测中.Hartigan等[4]使用随机森林(Random Forest,RF)和支持向量回归(Support Vector Regression,SVR)对悉尼流域内降水和气温进行预测;Xiang等[5]利用决策树和FR的双系统协同影响模型对重庆市34个气象观测站的数据进行预测;Peng等[6]基于极限学习机和基因表达式构建了日降水量预测混合模型;勾志竟等[7]结合遗传算法和BP神经网络的优势研究了天津市日降水等级的预测方法;Rostam等[8]采用多种优化算法对多层感知器算法进行优化,以探索伊朗首都大尺度气候指数与降水之间的任何有意义的联系.

然而,传统机器学习方法无法捕获输入序列的长期记忆[9],从而影响预测精度.长短时记忆网络(Long Short-Term Memory,LSTM)克服了上述缺点.王子岳等[10]采用句子状态LSTM模型对说话人意图进行识别;王朋等[11]基于小波长短期记忆网络对风电功率超短期概率进行预测;罗嘉等[12]等融合LSTM与BLS对突发气象灾害事件中公众情感倾向分析.在降水预测方面:Nguyen等[13]利用LSTM改进基于雷达的降雨预报;沈皓俊等[14]利用LSTM研究了中国夏季降水情况;Ni等[15]给出了两类改进的LSTM模型 (WD-LSTM和CNN-LSTM),并分别探讨了其在径流和降雨预测的应用;Kang等[16]选定多输入变量的LSTM模型对江西景德镇日降水量进行预测.

虽然基于LSTM的降水预测模型已经显示出强大的优势,但现有模型都未解决在预测中存在时滞的问题.这主要是由于LSTM训练中需要循环调整权重造成的.注意到新提出的宽度学习系统(Broad Learning System,BLS)具有直接计算权重,运算简单、快捷的优点,可以用来改进LSTM.但是噪声和异常值对模型会产生不良影响,所以将加权惩罚因子应用于BLS,提出了加权宽度学习系统(Weighted Broad Learning System,WBLS).通过自动为每个样本分配适当的权重,给高可靠性的样本更高的权重,而可疑的异常值获得较低的权重.因此,减少了异常样本对建模的影响.结合两种算法的优势,本文提出LSTM-WBLS日降水量预测模型.

为了有效地验证新模型,本文选取湖北省巴东站进行日降水量预测的实证研究.在预测精度上,与现有降水预测模型相比较,本文模型在均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)三个评价指标上均表现最佳.在稳定性上,通过分析时间步长分别为1、3和5 d对各模型预测精度的影响,证明了虽然所有模型的预测精度会随着时间步长增加而降低,但在不同的时间步长下,本文模型在RMSE、MAE和R2三个评价指标方面仍然表现最佳.在运算效率上,因为WBLS计算方便、快捷的特点,加入了WBLS的LSTM-WBLS模型与LSTM模型相比,运算效率并未下降.

2 实例分析

2.1 研究地区以及数据集描述

巴东县,隶属湖北省恩施土家族苗族自治州,位于湖北省西南部,属于亚热带季风气候,温暖多雨,湿热多雾,四季分明.最热月平均气温一般高于22 ℃,最冷月气温在0~15 ℃之间;年降水量多在800~1 600 mm.巴东天气的非周期性变化和降水季节变化都很显著,所以对其日降水预测比较困难.

本文数据在国家气象中心网站获取.数据的范围为2000—2020年巴东地区气象观测站实测降水量观测数据.将共7 671 d的数据以7∶2∶1的比例设为训练集、验证集和测试集,测试集为最近几年的降水量数据.

2.2 参数设置与评价指标

将日降水量映射为S×τ×D个张量数据作为模型的输入.其中,S为样本数量(samples),τ为时间步长(time steps),D为特征个数(features),本文模型为气压、气温、湿度、风速、日照以及降水量六个维度的输入和降水量一个维度的输出.所以D为6.

采用Dropout退出部分神经元来防止过拟合,确定随机丢弃比例P值.再通过全连接层,将其输出作为WBLS层的映射特征,与输入X一起构成隐藏层H,最后算出输出权重W.N 1为每个映射特征节点个数,N 2为映射特征个数,C为L 2正则化参数.本文利用验证集对本文模型的超参数进行实验,取值为多次实验后选取的最优值.本文所用的参数如表1所示.

选取RMSE、MAE和R2对算法的精确度进行评估.RMSE对预测值误差十分敏感,能够体现预测的精准度.MAE可以避免误差相互抵消的问题,可以准确反映实际预测误差.R2常用于判断回归方程的拟合程度,数值在0到1之间,越大表示模型的预测性能越好.

E RMSE=1n∑ni=1((i)-y(i))2,(15)

E MAE=∑ni=1|((i)-y(i))|,  (16)

R2=1-∑ni=1((i)-y(i))2∑ni=1((i)-y(i))2,  (17)

其中,y i表示真实月降水量,表示预测月降水量,表示平均月降水量.

2.3 与现有模型对比分析

将现有模型与本文模型进行对比分析,以预测长度1 d为例,对比结果如表2所示.本文模型與现有的SVM[4]、EEMD-ARIMA[3]、LSTM[13]、CNN-LSTM[15]和LSTM-BLS模型相比:RMSE值分别减少了50.20%、47.58%、37.00%、34.80%和17.54%;MAE值分别减少了55.29%、53.19%、49.20%、48.00%和22.72%;R2值分别增加了0.209、0.189、0.078、0.058和0.015.显然,本文模型表现在三个指标上都是最优的,证明了本文模型的有效性和准确性.

为进一步验证本文模型有效性,对LSTM系列相关模型预测进行可视化.将测试集的降水序列和各个模型的预测值进行拟合,对比可视化如图4所示.为了方便作图,其中第1天对应2018年11月26日的降水真实值与预测值,一直到2020年12月31日共767 d.

从图4可以看出,在降水量突变的日期本文模型的预测结果要明显优于现有的所有模型.注意到,现有的基于LSTM模型(图4a、4b)在预测上都不可避免地存在滞后性,因此无法精准预测.图4c因加入BLS基本解决了滞后性问题,但是噪声和异常值对预测的不良影响依然存在.本文模型在图4c基础上加入了加权惩罚因子,预测结果最优(图4d).

2.4 与单因素模型对比

为进一步验证本文模型的有效性,与单因素降水量输入的模型进行对比,结果如表3所示.可以看出多因素输入的预测要远远高于单因素输入模型.原因是数据中零值过多,单输入模型无法准确预测.部分数据集如表4所示.综合考虑各种气象因素的影响,本文模型可以准确地对降水量进行预测.

2.5 稳定性分析

不改变模型中的参数,将预测长度分别设置为3 d和5 d,对日降水量进行预测,结果如表5所示.结合预测长度为1 d的预测结果,可以看出随着预测长度的增加,所有预测模型的预测精度都有所下降.但是,LSTM-WBLS模型在不同预测长度下,预测精  度依然优于其他模型.这一结果验证了本文模型的稳定性.

2.6 运算效率分析

运算效率也是算法的主要评价指标.在保证LSTM-WBLS与LSTM训练都达到最优结果的情况下,运算效率对比如表6所示.由表6可以看出,LSTM-WBLS训练时间只比LSTM长2 s左右,效率未明显下降.其原因是WBLS不需大量运算、直接计算权重的特点使得LSTM-WBLS相比LSTM,在运算效率上不会有太大的下降.

3 结论

鉴于现有日降水预测模型的缺点,本文提出一种LSTM-WBLS日降水预测模型.通过实证研究,本文模型借助WBLS不用大量训练、直接通过伪逆计算权重的特点解决了LSTM预测中存在的滞后问题,且运算效率没有下降.通过自动为每个样本分配适当的权重,给高可靠性的样本更高的权重,而可疑的异常值获得较低的权重,减少了异常样本的影响,提高了预测精度与稳定性.本文探讨了在降水量预测中,同时融合深度学习与宽度学习优势的可能性,为降水量预测研究提供了新的思路.本文模型仅考虑历史气象数据和具体日降水数据,以后将加入地理、地貌等特征,进一步提高日降水预测精度.

参考文献

References

[1] 王海鹏,张斌,刘祖涵,等.基于混沌理论的武汉、宜昌近60年来月降水特征的对比研究[J].自然灾害学报,2012,21(6):111-118

WANG Haipeng,ZHANG Bin,LIU Zuhan,et al.Chaos theory-based comparative study on monthly rainfall characteristics in Wuhan and Yichang during recent 60 years[J].Journal of Natural Disasters,2012,21(6):111-118

[2] 张改红.基于ARIMA模型的渭南市降水量趋势分析与预测[J].价值工程,2019,38(34):197-199

ZHANG Gaihong.Analysis and prediction of precipitation trend in Weinan city based on ARIMA model[J].Value Engineering,2019,38(34):197-199

[3] 胡盈,吴静.基于ARIMA模型的降水空间特征分析及预测[J].江西科学,2021,39(1):99-104

HU Ying,WU Jing.Analysis and prediction of precipitation spatial characteristics based on ARIMA model[J].Jiangxi Science,2021,39(1):99-104

[4] Hartigan J,MacNamara S,Leslie L M,et al.Attribution and prediction of precipitation and temperature trends within the Sydney catchment using machine learning[J].Climate,2020,8(10):120

[5] Xiang B,Zeng C F,Dong X N,et al.The application of a decision tree and stochastic forest model in summer precipitation prediction in Chongqing[J].Atmosphere,2020,11(5):508

[6] Peng Y Z,Zhao H S,Zhang H,et al.An extreme learning machine and gene expression programming-based hybrid model for daily precipitation prediction[J].International Journal of Computational Intelligence Systems,2019,12(2):1512-1525

[7] 勾志竟,任建玲,徐梅,等.基于Hadoop的GA-BP算法在降水预测中的应用[J].计算机系统应用,2019,28(9):140-146

GOU Zhijing,REN Jianling,XU Mei,et al.Application of GA-BP algorithm based on Hadoop in precipitation forecast[J].Computer Systems & Applications,2019,28(9):140-146

[8] Rostam M G,Sadatinejad S J,Malekian A.Precipitation forecasting by large-scale climate indices and machine learning techniques[J].Journal of Arid Land,2020,12(5):854-864

[9] Shen C P.A trans-disciplinary review of deep learning research for water resources scientists [J].Water Resources Research,2018,54(11):8558-8593

[10] 王子岳,邵曦.基于S-LSTM模型利用‘槽值門机制的说话人意图识别[J].南京信息工程大学学报(自然科学版),2019,11(6):751-756

WANG Ziyue,SHAO Xi.Speaker intention recognition based on S-LSTM model and slot-gate[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2019,11(6):751-756

[11] 王朋,孙永辉,翟苏巍,等.基于小波长短期记忆网络的风电功率超短期概率预测[J].南京信息工程大学学报(自然科学版),2019,11(4):460-466

WANG Peng,SUN Yonghui,ZHAI Suwei,et al.Ultra-short-term probability prediction of wind power based on wavelet decomposition and long short-term memory network[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2019,11(4):460-466

[12] 罗嘉,王乐豪,涂姗姗,等.基于LSTM-BLS的突发气象灾害事件中公众情感倾向分析[J].南京信息工程大学学报(自然科学版),2021,13(4):477-483

LUO Jia,WANG Lehao,TU Shanshan,et al.Analysis of public sentiment tendency in sudden meteorological disasters based on LSTM-BLS[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2021,13(4):477-483

[13] Nguyen D H,Kim J B,Bae D H.Improving radar-based rainfall forecasts by long short-term memory network in urban basins[J].Water,2021,13(6):776

[14] 沈皓俊,羅勇,赵宗慈,等.基于LSTM网络的中国夏季降水预测研究[J].气候变化研究进展,2020,16(3):263-275

SHEN Haojun,LUO Yong,ZHAO Zongci,et al.Prediction of summer precipitation in China based on LSTM network[J].Climate Change Research,2020,16(3):263-275

[15] Ni L L,Wang D,Singh V P,et al.Streamflow and rainfall forecasting by two long short-term memory-based models[J].Journal of Hydrology,2020,583:124296

[16] Kang J L,Wang H M,Yuan F F,et al.Prediction of precipitation based on recurrent neural networks in Jingdezhen,Jiangxi province,China[J].Atmosphere,2020,11(3):246

[17] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780

[18] Chen C L P,Liu Z L,Feng S.Universal approximation capability of broad learning system and its structural variations[J].IEEE Transactions on Neural Networks and Learning Systems,2019,30(4):1191-1204

[19] Chu F,Liang T,Chen C L P,et al.Weighted broad learning system and its application in nonlinear industrial process modeling[J].IEEE Transactions on Neural Networks and Learning Systems,2020,31(8):3017-3031

Application of improved LSTM-WBLS model in daily precipitation forecast

HAN Ying1 GUAN Jian1 CAO Yunzhong1 LUO Jia2

1School of Automation,Nanjing University of Information Science & Technology,Nanjing 210044

2Hubei Public Meteorological Service Center,Wuhan 430074

Abstract The popular Long Short-Term Memory (LSTM) based precipitation prediction models suffer from overfitting and time lag.Broad Learning System (BLS),which does not require multiple iterations,helps to solve the above disadvantages of LSTM.Weighted Broad Learning System (WBLS) reduces the impact of noise and outliers on precipitation prediction accuracy by introducing a weighted penalty factor constraint to assign sample weights in the BLS.Thus a LSTM-WBLS daily precipitation prediction model is proposed in this paper.The daily precipitation at Badong station in Hubei province is selected for empirical study.And the influence of air pressure,temperature,humidity,wind speed and sunshine on precipitation is considered.The experimental results demonstrate that the LSTM-BLS model has significantly improved the prediction accuracy in the evaluation indexes of RMSE,MAE and R2 compared with existing prediction models.The prediction accuracy of the new model outperforms existing models at different time steps,proving its stability.In particular,the direct calculation of weights by WBLS does not make any reduction in operational efficiency of LSTM-WBLS.

Key words precipitation forecast;long short-term memory (LSTM) network;broad learning system (BLS);weighted broad learning system (WBLS);multi-factor predication