基于注意力机制与LSTM-CCN的月降水量预测
2024-07-04周祥张世明苏林鹏张守平
周祥 张世明 苏林鹏 张守平
收稿日期:2023-12-13;接受日期:2024-04-01
基金项目:重庆市技术创新与应用发展专项重点项目(CSTB2022TIAD-KPX0132)
作者简介:周 祥,男,副教授,研究方向为水利工程、水文与水资源。E-mail:30364899@qq.com
Editorial Office of Yangtze River. This is an open access article under the CC BY-NC-ND 4.0 license.
文章编号:1001-4179(2024) 06-0129-07
引用本文:周祥,张世明,苏林鹏,等.
基于注意力机制与LSTM-CCN的月降水量预测
[J].人民长江,2024,55(6):129-135.
摘要:针对现有月降水量预测方法预测准确性不高的问题,提出一种基于注意力机制与LSTM-CCN的月降水量预测方法。首先,利用长短时记忆神经网络(long short-term memory neural network,LSTM)提取气象数据在时间维度的特征分布,从时间相关性方面捕获相邻时间段或长距离气象数据段中的统计分布;其次,利用因果卷积神经网络(causal convolutional network,CCN)将气象数据映射到空间维度,深层次地从空间维度捕获气象数据在空间中的特征统计分布;再次,以并联的方式将时间和空间特征作为交叉注意力网络的输入,构造融合的时空特征;最后,以长短时记忆神经网络构造解码器,并将融合的时空特征作为解码器的输入,预测的月降水量作为输出。选取河南省新乡市2001~2017年数据集进行测试,结果表明:所提出方法的均方根误差仅为13.08 mm,相比主流方法具有更低的预测误差。研究成果可为提高气象预测的准确性和实用性提供参考。
关 键 词:月降水量预测; 多层注意力机制; 因果卷积神经网络; 长短时记忆神经网络
中图法分类号: TV124
文献标志码: A
DOI:10.16232/j.cnki.1001-4179.2024.06.018
0 引 言
在全球范围内,气候变化引发了极端天气事件的增加,其中降水模式的变化对社会和环境造成了严重影响。月降水量作为气象现象的关键指标之一,对于农业、水资源管理、城市规划等领域的决策具有重要意义[1-2]。在这个背景下,准确预测月降水量不仅有助于优化资源分配,提高农作物产量,还能在一定程度上预防和应对灾害事件。
传统降水量预测中,人们在面临降水量突变或异常变化时,常常依赖经验和统计方法来做出应对决策[3-5]。然而,随着科技的进步和人工智能技术的快速发展,基于数据驱动的预测方法日益受到关注。通过分析历史气象数据、海洋温度、大气压力等多种因素,结合先进的机器学习和深度学习技术,研究人员能够建立更为精确的月降水量预测模型[6-8]。这些模型能够捕捉复杂的时空关系,从而提高预测的准确性和稳定性。如张丽婷等[9]提出了一种基于深度学习方法的降水量预测模型,通过建立季节性回归统计方法和长短时记忆神经网络模型,在扬州市区59 a的历史数据集中挖掘降水量的统计特征分布,通过比较两种模型的预测精度,建立回归特征模型。韩莹等[10]提出了一种改进长短时记忆神经网络的月降水量预测模型,通过在湖北省5个县级基站历史数据集上进行训练与测试,验证了利用平行学习结构和宽带学习系统改进的长短时记忆神经网络可以有效提高月降水量的精度。程桂芳等[11]以郑州市近30 a的历史数据为训练数据集,通过构造差分自回归模型、长短时记忆神经网络模型和时间序列可分解模型的多个模型组合模型来提高月降水量的预测精度,通过预测2022年4~12月郑州市当地月降水量来验证所设计模型的可靠性。王文川等[12]提出了小波变换和长短时记忆神经网络的组合模型,通过小波分解对时间序列数据进行预处理,得到多个低频和高频序列数据,并基于分解后的数据进行神经网络模型的训练与参数的优化。
现有月降水量模型大多依赖长短时记忆神经网络提取时间序列的特征,并且取得了令人印象深刻的预测性能;然而,很少有研究将时间序列和空间维度特征进行关联来挖掘不同维度的特征语义信息。为此,本文利用长短时记忆神经网络LSTM和因果卷积神经网络CCN分别提取时间序列和空间维度的特征统计分布,并利用交叉注意力融合网络建立时序和空间维度特征的上下文语义关联,通过挖掘不同维度之间的特征来弥补单一维度特征的不足。此外,本文研究的月降水量预测模型不仅是为了满足气象学的研究需求,更是为了应对日益频发的极端降水事件。通过提前预测月降水量的变化,可以采取预防性措施,如加强防洪工程、调整农业生产计划、做好城市排水系统的维护等,从而最大程度地减轻灾害的影响。
1 月降水量预测方法
传统月降水量预测方法主要借助长短时记忆神经网络、门控循环神经网络和循环神经网络等时间序列神经网络提取历史降水量在时序维度的特征[13-15]。很少有研究从多个维度挖掘特征在深度空间中的语义关联。为此,本文为探究月降水量历史数据在时间和空间维度的特征分布,提出一种基于LSTM-CCN并行网络的月降水量预测方法,分别借助长短时记忆神经网络和因果卷积神经网络提取历史月降水量数据在时间和空间维度的特征,其次利用设计的交叉注意力网络挖掘不同维度特征间的关联,以此增强特征表达的鲁棒性和可靠性。
1.1 时间序列特征提取
气象数据中的降水量分析在气候研究、水资源管理等领域具有重要意义。然而,由于降水量数据的复杂性,传统的分析方法难以充分捕捉数据中的季节性、周期性和长期依赖性等特征[16]。受长短时记忆神经网络在时间序列数据中良好表现的启发,本文利用长短时记忆神经网络提取月降水量数据集在时间维度的特征,旨在有效地揭示降水量变化的潜在规律。
在使用LSTM网络进行特征提取前,首先通过数据归一化、序列切分等步骤将月降水量时间序列数据片段作为一个时间步,将连续的若干月组成一个输入序列,以及下个月的降水量作为输出标签。假设某一时间段的月降水量历史序列数据为X={x1,x2,…,xn},然后利用长短时记忆神经网络LSTM的输入门、遗忘门和输出门,提取月降水量历史数据在时序维度上的特征表示,长短时记忆神经网络内部结构如图1所示。其中,输入门决定当前时间步细胞状态的更新情况,遗忘门旨在决定当前时间步细胞状态中信息的遗忘情况,具体计算如公式(1)和公式(2)所示。
it=σWi·[ht-1,xt]+bi(1)
ft=σWf·[ht-1,xt]+bf(2)
式中:σ表示激活函数;it表示输入门;ft表示遗忘门;ht-1表示上一时间步隐藏层状态;xt表示时间步t时刻的降水量时序片段;Wi、Wf、bi和bf分别表示输入门和遗忘门的权重矩阵和偏置,是一组可学习的参数。
将多个记忆细胞的输出进行拼接,控制当前时间步t时刻长短时记忆神经网络的输出,同时将上述t时刻不同记忆单元的输出作为输出门单元的输入,并与更新细胞单元进行点乘运算,得到最终的输出,即降水量历史数据在时序维度的特征表达,具体计算如公式(3)和公式(4)所示。
ot=σWo·[ht-1,xt]+bo(3)
Ft=ot·tanh(ft·Ct-1+it·C~t)(4)
式中:ot和Ft分别表示输出门和最终的时序特征表
达;Wo和bo是输出门的权重矩阵和偏置;Ct-1和C~t分别表示更新门和候选细胞状态。
1.2 空间序列特征提取
近年来,因果卷积神经网络在文本情感分析、语音识别、金融大数据预测和交通流预测等时间序列领域取得了显著的成效,这归因于卷积网络强大的空间特征捕获能力[17-18]。为此,本文借助因果卷积神经网络来提取月降水量在空间维度的特征,采用的因果卷积神经网络结构如图2所示。因果卷积神经网络是卷积神经网络在处理时间序列数据时的变体模型,能够捕获时间序列数据中的因果关系,从而更准确地提取月降水量在空间中的特征表达,非常适用于本文研究的月降水量预测时序任务。
在时间序列数据分析中,过去短时间或长距离信息对当前时间步和未来时间段的预测至关重要[19]。然而,传统的卷积操作并不考虑时间维度的因果性,可能会将未来的信息引入当前的预测中,导致预测性能不佳。因果卷积网络采用了一种特殊的卷积结构,以确保卷积操作只使用过去的信息,遵循时间的因果性[20-22]。在卷积核的滑动过程中,不允许从未来的时间步中获取信息,只能从当前时间步及之前的时间步获取信息,这主要是通过限制卷积核的索引范围来实现的,保证卷积操作始终是因果的。不同时间段的因果关联关系可表示为公式(5)。
Fc=f(N-1i=0wi·xt-1+b)(5)
式中:Fc表示第t个时间步的空间特征表达;xt-1表示第t-1时刻的降水量时间序列数据;wi和b表示权重矩阵和偏置,是一组可学习参数;N表示卷积核的大小;f(·)表示激活函数。值得注意的是,由于xt-1仅包含过去的信息,这种卷积操作能够捕获到时间序列数据的因果关系。而对于t-1<0的情况,意味着卷积核的滑动超出了序列的时间范围,这也是因果卷积的关键之处,有效防止了未来信息的泄漏。
1.3 交叉注意力融合
现有主流的月降水量预测模型大多仅采用单一的时间序列特征,转少研究融合时间序列和空间序列特征。本文利用长短时记忆神经网络提取了月降水量历史数据在时间维度上的特征,同时利用因果卷积神经网络提取了历史数据在空间维度的特征,并将两维特征集并行输入至交叉注意力融合网络,挖掘跨维度间特征的关联性。所设计的交叉注意力融合网络如图3所示。
图3中,对于给定的时间维度特征集Ft和空间维度特征集Fc,首先利用维度转换函数将跨维度间的特征统一成相同大小的特征表示;然后,分别计算Ft和Fc的相关性矩阵,并作为Ft的权重。具体计算如公式(6)所示。
Ft|c=softmax(LN(Ft,Fc)·FTcd)LN(Ft,Fc)(6)
式中:LN(Ft,Fc)表示线性转换函数,旨在将Ft转换为与Fc等维度的特征图;d表示特征维度的大小。融合后的特征既包含空间维度信息又包含时序维度信息,同时捕获了跨维度间特征的相关性[23],有效增强了特征表达的鲁棒性。
1.4 降水量预测
月降水量是连续性事件预测,因此,本文采用上述介绍的长短时记忆神经网络构造解码器,并以融合特征Ft|c为解码器的输入,t+1时刻的降水量为输出。解码器网络的结构如图4所示。
图4中,t时刻隐藏单元为H,输入为Ft|c,上一时间步的隐藏状态为ht-1,t时刻的预测输出可表示为公式(7)~(10)。
rt=σ(WirFt|ct+bir+Whrh(t-1)+bhr)(7)
zt=σ(WizFt|ct+biz+Whzh(t-1)+bhz)(8)
nt=tanh(WinFt|ct+bin+rt(Whnh(t-1)+bhn))(9)
ht=(1-zt)nt+zth(t-1)(10)
式中:Wir、Whr、Wiz、Whz、Win和Whn是可学习的参数,分别表示输入门、重置门、隐藏层和输出门之间的权重;b表示对应的偏置;nt表示输出门的激活值;ht为t时刻的隐藏层状态;Ft|ct为t时刻的输入融合特征;h(t-1)为t-1时刻的隐藏层状态;rt和zt分别表示重置门和更新门。
将一段时间内的输出拼接,得到T时间段内的降水量预测结果,即{ht-1,ht,…,ht+T}。最后,利用交叉熵损失函数验证预测值与真实降水量之间的误差,根据误差值反向迭代优化网络模型。
2 试 验
2.1 试验数据
月降水量具有明显的季节效应,为了更好地分析不同时间段内的降水量统计特征,采用多年时间段的降水量历史数据作为模型的训练集。选择河南省新乡市1960~2000年的月降水量数据集进行训练,具体包括8个气象观测站40 a的观测数据。此外,为了验证模型预测的性能,在2001~2017年数据集上进行测试。
2.2 试验环境与评价指标
试验环境采用Windows 10操作系统 13代i5-13500HX,显卡为RTX4060,显存大小为16 GB。开发语言为Python,编辑器采用Pycharm。模型训练阶段的初始学习率为0.001,batch大小为8,优化器采用 Adam。模型训练和测试阶段的误差曲线如图5所示,超参数设定的依据如图6所示。可以看出,当迭代次数为180时,曲线趋于平稳,表明模型收敛。
为了验证模型的预测性能,采用当前主流的均方根误差(root mean squared error,RMSE)来验证预测的精准度,采用R2-score来判断整体性能,其值在0~1之间,值越大表示模型的预测性能越好,具体计算如公式(11)~(12)所示。
RMSE=1mmi=1(pi-pEuclid ExtrazB@i)2(11)
R2-score=1-mi=1(pi-pEuclid ExtrazB@i)mi=1(pi-pi)(12)
式中:pi表示预测值,pEuclid ExtrazB@i表示真实值,m表示数据集中的样本总数,pi表示平均降水量。
2.3 消融试验
为了探究空间和时序特征在模型整体预测性能方面的角色,设计了表1所列的消融试验。此处,选择单一的时间序列模型为基准模型。
可以看出,仅利用单一时序特征预测的降水量和真实降水量相差18.37 mm。仅利用空间维度的特征预测月降水量与真实降水量相差24.15 mm。然而,结合时序特征和空间维度特征,模型预测的月降水量与真实降水量相差13.08 mm,相比单一使用时序和空间维度特征预测降水量,误差下降了5.29 mm和11.07 mm。此外,时序特征和空间维度特征融合模型的R2-score达到了0.89,相比单一时序特征,提升了0.21。上述结果也验证了传统利用时序维度的特征预测降水量的有效性,这也是当前主流模型采用时间序列网络的主要原因;其次,利用因果卷积提取的空间特征,有助于弥补时序特征在空间维度特征表达的不足。总之,同时利用上述时序特征和空间维度特征,可以有效降低预测月降水量和真实降水量之间的误差。
2.4 试验结果与分析
为了验证所设计模型的有效性,在相同的数据集和评价指标下进行对比试验。此处,选择时间序列任务中经典的模型,包括长短时记忆神经网络(LSTM)、循环神经网络(RNN)、门控循环神经网络(GRU)、卷积神经网络(CNN)、因果卷积神经网络(CCN)以及组合模型LSTM-CNN、RNN-CNN、GRU-CNN。具体预测结果如表2所列。
通过分析表2中结果,可以发现:① 在单一时序神经网络中,LSTM网络表现最佳,可以实现18.37 mm的预测误差;② 虽然结合空间维度特征可以有效缓解预测误差大的问题,但卷积网络仅从空间提取特征,不保留时序关联;③ 相比RNN、GRU等时序神经网络,融合LSTM网络和因果卷积的混合模型可以实现最低的预测误差,这归因于因果卷积既保留空间维度特征又保留了空间位置信息;④ 本文设计的长短时记忆神经网络模型和因果卷积的融合模型(LSTM-CCN)相比其他模型中表现最好的GRU-CCN,预测误差降低了0.43 mm。
此外,为了直观展示所设计模型在不同时间节点上的预测结果,给出了河南省新乡市1 a的预测结果与真实结果的误差曲线,并与当前主流的降水量预测模型LSTM-CNN、RNN-CNN、GRU-CNN模型进行对比,误差曲线如图7所示。可以看出,虽然所设计模型在单一节点上有所波动,但整体曲线较平稳,这表明本文模型具有较好的稳定性,符合实际应用。此外,为了探究测试集20 a的降水量预测与真实降水量值间的误差曲线变化,以年为时间节点,绘制了20 a内不同模型的预测变化曲线(图8),可以看出,所提出模型仍然保持一定的竞争力。
3 结 论
本文探讨了基于时间维度和空间维度特征对神经网络预测月降水量性能的影响,主要借助长短时记忆神经网络提取月降水量历史数据在时序维度的特征,利用因果卷积神经网络提取历史数据在空间维度的特征,并以并行的方式构造交叉注意力融合网络,挖掘时序特征和空间特征在深度空间中的关联信息,旨在强化特征表达的鲁棒性和可靠性。通过在河南省新乡市近20 a的数据集上进行测试可知,所提出方法的均方根误差仅为13.08 mm,优于当前主流的降水量预测方法,验证了所设计模型的优越性。
所设计的模型在预防灾害、优化资源配置和保障社会稳定方面具有重要的实际应用价值,该方法的实现有望为未来的气象预测和灾害预防提供更为准确和可靠的支持,以适应不断变化的气候环境。
参考文献:[1] KUMAR D,SINGH A,SAMUI P,et al.Forecasting monthly precipitation using sequential modelling[J].Hydrological Sciences Journal,2019,64(6):690-700.
[2] ESTVEZ J,BELLIDO-JIMNEZ J A,LIU X,et al.Monthly precipitation forecasts using wavelet neural networks models in a semiarid environment[J].Water,2020,12(7):1909.
[3] 郭诗君,尹泰来,吴冬雨,等.1951~2019年丹江口库区降水量时空变化研究[J].人民长江,2020,51(增2):57-62.
[4] TAO L,HE X,LI J,et al.A multiscale long short-term memory model with attention mechanism for improving monthly precipitation prediction[J].Journal of Hydrology,2021,602:126815.
[5] 贺玉琪,王栋,王远坤.BRR-SVR月降水量预测优化模型[J].水利学报,2019,50(12):1529-1537.
[6] PAKDAMAN M,FALAMARZI Y,BABAEIAN I,et al.Post-processing of the North American multi-model ensemble for monthly forecast of precipitation based on neural network models[J].Theoretical and Applied Climatology,2020,141(1/2):405-417.
[7] 丁光旭,郭家力,汤正阳,等.多种降水再分析数据在长江流域的适用性对比[J].人民长江,2022,53(9):72-79.
[8] BANADKOOKI F B,EHTERAM M,AHMED A N,et al.Precipitation forecasting using multilayer neural network and support vector machine optimization based on flow regime algorithm taking into account uncertainties of soft computing models[J].Sustainability,2019,11(23):6681.
[9] 张丽婷,李鹏飞,庞文静,等.基于季节性自回归积分滑动平均与深度学习长短期记忆神经网络的降水量预测[J].科学技术与工程,2022,22(9):3453-3463.
[10]韩莹,谈昊然,王乐豪,等.改进的LSTM模型在月降水量预测中的应用[J].计算机仿真,2023,40(5):535-540.
[11]程桂芳,王雪敏.基于组合模型的月降水量预测研究[J].水电能源科学,2023,41(4):13-16.
[12]王文川,杨静欣,臧红飞.基于WD-COA-LSTM模型的月降水量预测[J].水资源与水工程学报,2022,33(4):8-13,23.
[13]NOURANI V,MOLAJOU A,UZELALTINBULAT S,et al.Emotional artificial neural networks (EANNs) for multi-step ahead prediction of monthly precipitation;case study:northern Cyprus[J].Theoretical and Applied Climatology,2019,138(3/4):1419-1434.
[14]TANG T,JIAO D,CHEN T,et al.Medium-and long-term precipitation forecasting method based on data augmentation and machine learning algorithms[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15:1000-1011.
[15]BOUAZIZ M,MEDHIOUB E,CSAPLOVISC E.A machine learning model for drought tracking and forecasting using remote precipitation data and a standardized precipitation index from arid regions[J].Journal of Arid Environments,2021,189:104478.
[16]ZHANG T,LIANG Z,LI W,et al.Statistical post-processing of precipitation forecasts using circulation classifications and spatiotemporal deep neural networks[J].Hydrology and Earth System Sciences,2023,27(10):1945-1960.
[17]SHANG Z,CHEN Y,CHEN Y,et al.Decomposition-based wind speed forecasting model using causal convolutional network and attention mechanism[J].Expert Systems with Applications,2023,223:119878.
[18]SHENG Y,WANG H,YAN J,et al.Short-term wind power prediction method based on deep clustering-improved Temporal Convolutional Network[J].Energy Reports,2023,9:2118-2129.
[19]WANG Y,SONG X,YE R,et al.A short-term load forecasting method based on attention mechanism of time convolution network[C]∥2022 IEEE 6th Advanced Information Technology,Electronic and Automation Control Conference (IAEAC).IEEE,2022:891-896.
[20]LIMOUNI T,YAAGOUBI R,BOUZIANE K,et al.Accurate one step and multistep forecasting of very short-term PV power using LSTM-TCN model[J].Renewable Energy,2023,205:1010-1024.
[21]JAVED U,IJAZ K,JAWAD M,et al.A novel short receptive field based dilated causal convolutional network integrated with Bidirectional LSTM for short-term load forecasting[J].Expert Systems with Applications,2022,205:117689.
[22]陈帅宇,赵龑骧,蒋磊.基于ARIMA-CNN-LSTM模型的黄河开封段水位预测研究[J].水利水电快报,2023,44(1):15-22.
[23]LI J,YUAN X.Daily streamflow forecasts based on cascade long short-term memory (LSTM) model over the Yangtze River Basin[J].Water,2023,15(6):1019.
(编辑:谢玲娴)
Monthly precipitation prediction based on attention mechanism and LSTM-CCN
ZHOU Xiang1,2,ZHANG Shiming3,SU Linpeng4,ZHANG Shouping1,2
(1.Chongqing Water Resources and Electric Engineering College,Chongqing 402160,China;
2.Reservoir Safety and Water Environment Big Data Chongqing University Engineering Center,Chongqing 402160,China;
3.Upper Changjiang Rive Bureau of Hydrological and Water Resources Survey,Hydrology Bureau of Changjiang Water Resources Commission,Chongqing 400020,China;
4.Chongqing Yuxi Water Conservancy and Electric Power Survey and Design Institute Co.,Ltd.,Chongqing 402160,China)
Abstract:
To address the issue of low accuracy in existing monthly precipitation prediction methods,an attention mechanism and LSTM-CCN for the monthly precipitation prediction method were proposed.Firstly,the long short-term memory neural network (LSTM) was used to extract the temporal feature distribution of meteorological data,capturing the statistical distribution in adjacent or long-distance meteorological data segments from a temporal correlation perspective.Secondly,the causal convolutional network (CCN) projected meteorological data to the spatial dimension,deeply capturing the statistical distribution of spatial features of meteorological data.Thirdly,the time and space features were input into the cross-attention network in parallel,constructing a fused spatiotemporal feature.Finally,a decoder constructed with the long short-term memory neural network took the fused spatiotemporal feature as input,and the predicted monthly precipitation served as the output.The test was carried out on the data set from Xinxiang City,Henan Province from 2001 to 2017.The results showed that the proposed method′s root mean square error was only 13.08 mm,demonstrating lower prediction errors compared to mainstream methods.The introduction of this work contributes to enhancing the accuracy and practicality of meteorological predictions.
Key words:
monthly precipitation prediction; multi-layer attention mechanism; causal convolutional neural network; long short-term memory neural network