联合MOD11A1和地面气象站点数据的多站点温度预测深度学习模型
2023-02-03吴朋莉石陆魁
张 军,吴朋莉,石陆魁,史 进,潘 斌
(1.河北工业大学 人工智能与数据科学学院,天津 300401;2.河北省大数据计算重点实验室(河北工业大学),天津 300401;3.南开大学 统计与数据科学学院,天津 300071)
0 引言
温度是气候与生态研究的重要气象要素,并且可以评估多种气象灾害[1]。如今,随着气象设备的完善,气象观测站点数量逐渐增加,对各个气象观测站点间的气温资料进行联合分析有助于改进温度预测,但是,如何构建站点间的联系是一个巨大的挑战。
目前,温度的预测方法主要分为数值方法和数据驱动方法。数值方法根据物理条件和过程,利用数学模型描述温度的变化,例如,高峰等[2]利用由北京气候中心研发的气候系统模式BCC-CSM1.1(Beijing Climate Center Climate System Model 1.1)进行温度预测;数据驱动方法则以海量数据为基础,经过训练生成最终的模型,例如,支持向量算法[3]、随机森林算法[4-5]、决策树[6]和不同机器学习结合算法[7-9]已经在全球温度预测中得到广泛的应用。
最近,基于机器学习和人工智能技术的数据驱动方法在气象预测方面表现出巨大潜力,尤其是处理时间序列的经典网络——循环神经网络也已被应用于温度预测并且预测结果得到了改善。Liu 等[10]分析了多深度海洋温度变化的时间依赖性,基于历史观测数据的时间依赖性,进行参数矩阵融合,提出一种海洋温度时间序列预测方法;Xiao 等[11]提出长短记忆与自适应提升集成网络LSTM-AdaBoost(Long Short-Term Memory and AdaBoost),利用自适应提升算法预测能力强、不易过拟合的特点,将它与长短期记忆(Long Short-Term Memory,LSTM)网络结合进行温度预测;Jia 等[12]构建基于卷积和LSTM 的深度学习预测网络,以预测下一个观测日期的地表温度空间分布;Zhang 等[13]提出一个多层卷积LSTM 模型来预测海洋温度;Karevan 等[14]在天气预报应用中部署了堆叠LSTM 模型;NEC 实验室[15]提出基于两阶段注意机制的递归神经网络,使温度预测有效且易于解释;Mtibaa 等[16]利用LSTM,使用序列到序列方法直接多步预测温度。鉴于循环神经网络能有效处理温度时间序列,本文使用LSTM 与门控循环单元(Gated Recurrent Unit,GRU)构建温度时序关系。
然而,在多站点温度预测中,不仅需要对时间关系建模还需要分析空间关系。学者通常利用卷积神经网络(Convolutional Neural Network,CNN)处理空间关系[17-19]。但是CNN 不适合处理离散的气象观测站点间关系,而适用于提取图像的语义信息。最近,在其他研究领域中,有许多学者通过图神经网络(Graph Neural Network,GNN)建立实体之间的联系[20-25],其中,动态神经关联推测模型进行了人体关节的轨迹预测,它在每个时间点推理显式实体交互关系并使用潜在变量表示实体的关系强度,最后使用估计的关系强度,尽可能准确地重构观察到的轨迹。受以上研究的启发,本文将每个站点视为一个实体并且利用GNN 建模观测站点间的关系;此外,由于地面气象站点的分布比较稀疏且无规则,站点间的距离对站点间关系也会有影响,因此仅使用站点温度进行温度预测会忽略站点本身位置的差异而产生的影响。而遥感图像数据具有详细的地面空间信息的优势,因此本文利用遥感图像的相邻像素空间属性的相似性和相互依赖性,可以缩小由站点分布稀疏而产生的预测误差。
本文提出基于联合MOD11A1[26]和地面气象站点数据的多站点温度预测深度学习模型(Deep learning Model for multistation temperature prediction combined with MOD11A1 and surface meteorological stations data,GDM),设计了时空注意力(Spatio-Temporal Attention,TSA)模块将MOD11A1 数据转变为多虚拟站点数据;同时,GDM 采用编码解码结构,提出双向图神经长短期记忆网络(Double Graph neural Long Short-Term Memory,DG-LSTM)编码模块,采用双向的两层LSTM 对温度时间序列数据进行编码,并将GNN 用于多站点关系编码,成功地捕捉了多站点温度时间序列的空间相关性;最后应用边-点转换双向门控循环网络解码模块EN-GRU(Edge-Node transform Gated Recurrent Unit)对编码的空间关系解码,获得了未来时间段温度的双向的特征。
1 GDM
1.1 GDM整体框架
GDM 通过DG-LSTM、EN-GRU 进行编码、解码以构建温度预测模型,如图1 所示。GDM 通过TSA 模块将MOD11A1信息转化为与地面气象观测站点对应的虚拟站点温度信息;然后,利用GNN 建模多个观测站点以及从MOD11A1 提取的多个虚拟站点之间的联系,并使用LSTM 编码温度时间序列变化,GRU 解码时间序列。给定N个站点,T个时刻的观测温度时间序列X,以及包含上述N个站点,T′个时刻的MOD11A1 时间序列数据M。遥感数据与站点数存在时空维度的差异,GDM 采用一个TSA 模块将遥感数据M构造成虚拟的多站点数据M1。M1与X拥有一致的时空分辨率,一同被输入DG-LSTM 以编码站点间的关系特征,随后,将对应时刻的关系特征输入EN-GRU 以提高多站点温度预测的精度。
1.2 TSA模块
为了使MOD11A1 数据M的时空分辨率与地面气象站点保持一致,提出TSA 模块,如图2 所示。在遥感数据时间序列中,不同时刻的相同要素之间以及相同时刻的不同要素之间都紧密关联。M包含所有观测时间的全部要素,每个通道代表区域内某一时刻的某个要素。因此,利用通道间的相互依赖性,建立了时间注意力模块,将M的时间分辨率与相同时刻要素特征和观测站点保持一致;同时,在TSA 模块中使用卷积操作从遥感数据中提取丰富的上下文信息,作为与地面观测站对应的虚拟站点的特征。给定一个遥感数据M∈RC′×H′×W′,C′=T′×E,其中:T′是遥感数据观测时间长度;E是每个时刻的要素数量;T′×E代表通道数C′;H′、W′分别是每个通道图的高和宽。M首先经过三个卷积层分别提取查询特征图MQ、键特征图MK和值特征图MV,{MQ,MK,MV}∈RC×H×W,其中:C=T×N,T是地面观测站的时间长度,N是站点数量,H、W分别是特征图的高和宽。三个特征图被转换为RC×P,其中:P=H×W。将MQ的转置与MK相乘,采用Softmax 层计算出注意力图AT∈RC×C,如式(1)所示:
图2 TSA模块Fig.2 TSA module
然后,将AT的转置与MV相乘,并将结果通过一个线性层转换得到虚拟多站点数据M1。
1.3 DG-LSTM模块
编码器DG-LSTM 模块设置前向与后向LSTM 提取观测站点与虚拟站点时间序列的特征。在每个时刻,使用GNN依据提取的特征推理出站点间的交互关系特征,如图3 所示。将地面观测多站点数据X与虚拟多站点数据M1分别输入参数共享的前向LSTMf和后向LSTMb,如式(2)所示:
图3 DG-LSTM模块Fig.3 DG-LSTM module
其中:hf1、hf2、hb1、hb2分别是观测站点与虚拟站点前向传播、观测站点与虚拟站点后向传播的隐藏状态。将4 个隐藏状态均传入GNN 以构建站点i、j之间在t时刻的关系特征:
其中:FC1与FC3是点到边转换的线性层;FC2是边到点转换的线性层;h0 代表hf1、hf2、hb1、hb2得到的h分别对应观测站点前向传播、虚拟站点前向传播、观测站点后向传播和虚拟站点后向传播的关系特征hfg1、hfg2、hbg1、hbg2。
为了权衡前后时序传播方向提取的有效关系,分别结合hfg1、hbg1以及hfg2、hbg2,并通过线性层对整合的结果降维,提取低维关系特征f1和f2,如式(4)所示:
最后,连接f1和f2以结合观测站点间与虚拟站点间构建的关系特征,并采用Softmax 激活函数计算出最终的关系强度hg,如式(5)所示:
1.4 EN-GRU模块
设计EN-GRU 模块作为解码器,使用向前、向后两个传播方向分别捕获前向和后向的温度时间序列变化。按照DG-LSTM 生成的站点间关系强度,在每个时刻关联各个站点由GRU 产生的隐藏状态,如图4 所示。在每个时刻,c2 作为关联的最终状态与地面观测多站点X一起输入EN-GRU,产生下一时刻的隐藏状态,如式(6)所示:
图4 EN-GRU模块Fig.4 EN-GRU module
其中:FCne是点到边转换的线性层,FCen是边到点转换的线性层。EN-GRU 在向前向后传播使用的GRU 分别是GRUf和GRUb,生成的最终隐藏状态ct分别是cft和cbt。
最后,结合最终的隐藏状态cf和cb,并通过线性层将其转换为与标签相同维度的预测结果,如式(7)所示:
1.5 损失函数
GDM 通过最小化真实温度值与预测值之间的均方误差(Mean-Square Error,MSE)来训练模型,如式(8)所示:
其中:Yi与分别是第i个站点的真实温度与预测温度。
2 实验与结果分析
2.1 数据集
实验使用了河北省气象局提供的地面气象站点数据集以及公开数据集MOD11A1。地面气象站点数据是从2017 年1 月1 日0 时到2020 年4 月3 日24 时的10 个气象站点的气象数据,在地图上使用圆点标记10 个观测站点,如图5 所示。MOD11A1 以1 km 的空间分辨率提供每日每像素地表温度和发射率,如图6 所示。从MOD11A1 数据集提取出如下要素:1 km 分辨率的白天与夜晚的地表温度;白天与夜晚地表温度和发射率的质量控制;白天与夜晚的地面温度观测;白天与夜晚的角度观天顶的地表温度;波段31 发射率,波段32 发射率,白天和夜间晴空覆盖,如图7 所示。选择对应地面气象站点数据的时间和空间范围提取MOD11A1 作为辅助数据M。在实验前,对数据进行了Z-SCORE 标准化的预处理,按6∶2∶2 的比例将数据集划分为训练集、验证集和测试集。
图5 站点分布Fig.5 Station distribution
图6 MOD11A1数据Fig.6 MOD11A1 data
图7 多要素图Fig.7 Multi-element diagram
2.2 实验设置
GDM 训练采用RMSprop 优化器进行参数优化,初始学习率设为0.001,使用early stopping 训练策略防止过拟合,代码基于Pytorch 架构实现。为了评估GDM 效果,使用平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Squared Error,RMSE)、决定系数(R-Square,R2)作为评价指标。MAE 是实际观测值与预测值之间差值的平均值,可以更好地反映预测值误差的实际情况;RMSE 测量观测值和真实值之间的偏差;R2反映训练模型的拟合效果。MAE 和RMSE 值越低,预测结果越好;R2越大,模型拟合效果越好。为了保证对比实验与消融实验的有效性,所有的实验参数尽量保持一致。实验中输入的序列长度均被设置为72 h。
与GDM 对比的模型如下:二维卷积神经网络(2-Dimensional Convolutional Neural Network,2D-CNN)利用卷积神经网络对气象站点历史数据进行建模;长短期记忆全连接(Long Short-Term Memory-Fully Connected,LSTM-FC)网络[27]使用LSTM 捕获时间序列依赖性,并使用神经网络获取相邻站之间的空间依赖关系;长短期记忆神经网络扩展(Long Short-Term Memory neural network Extended,LSTME)网络[28]利用LSTM 从历史数据中自动提取固有的有用特征,并将气象数据和时间戳数据等辅助数据合并到模型中;LSTMAdaBoost 结合了异构的LSTM 网络模型和AdaBoost 模型。为了评估GNN 与遥感数据的有效性,进行如下的消融实验:前馈后馈门控单元(Feedforward and feedBack Gated Recurrent Unit,FBGRU)是双向GRU 模型;前馈后馈解码编码器(Feedforward and feedBack Encoder and Decoder,FBED)采用双向LSTM 与GNN 编码地面气象站点间关系,双向GRU 解码出预测结果;GDM 在FBED 的编码器中加入GNN 编码的遥感数据产生的虚拟站点间关系。
2.3 实验结果
在实验中,综合评估了GDM 和四种对比实验模型和两个消融实验模型。实验对10 个站点进行了未来1~24 h 的温度预测。每个站点的所有实验结果如表1~6 所示,其中最好的结果加粗表示。图8~13 展示了不同模型在每个时间点的预测误差的对比情况。
2.3.1 对比实验结果与分析
使用MAE、R2和RMSE 评估GDM 与四种对比模型的24 h 预测性能,如表1~3 所示,GDM 在任意一个站点都具有最优秀结果。图8~10 展现了GDM 在24 h 内与其他模型的对比情况。结果表明,相较于LSTM-AdaBoost 模型,GDM 的三个评价指标的结果仅在第1 小时较差;相较于另外三个对比模型,GDM 的三个评价指标结果在任何时刻均是最优。
表1 24 h内温度预测MAE 单位:℃Tab.1 MAE of temperature prediction within 24 hours unit:℃
表2 24 h内温度预测R2 单位:%Tab.2 R2 of temperature prediction within 24 hours unit:%
表3 24 h内温度预测RMSE 单位:℃Tab.3 RMSE of temperature prediction within 24 hours unit:℃
图8 对比实验24 h MAEFig.8 MAE of comparison results in 24 hours
图9 对比实验24 h R2Fig.9 R2 of comparison results in 24 hours
GDM 表现较好的主要原因有两点:1)相较于4 种对比模型,针对地面气象观测站点分布较为稀疏的特点,本文采用时空注意力模块将空间信息较为详细的MOD11A1 数据转换为虚拟观测站点来辅助温度预测;2)本文采用图神经网络构建出站点间的关系强度,在每个时刻都对长短期记忆单元输出的短期记忆构建潜在的联系形成观测站点间的关系强度。
2.3.2 消融实验结果与分析
如表4~6 所示,对于未来24 h 温度预测,GDM 优于FBGRU 与FBED。从图11 和13 中可以看到,FBED 的MAE和RMSE 仅仅在前8 个小时较差于FBGRU。图12 展现了除前7 个小时外,FBED 的R2均优于FBGRU。因此,在较长时间序列预测中,GNN 构建站点间的联系是有效的。而在前8个时刻的效果较差是由于在较短的时间内站点本身温度序列的时间依赖性比较强,而加入了相邻站点信息的模型削弱了站点本身历史观测温度信息的强度。图11~13 显示GDM的评价指标除第1 个小时均优于FBGRU,因为相对于仅采用站点数据进行站点间关系的构建,使用构建的虚拟站点进行辅助,可缓解地面站点分布稀疏对站点间关系的影响。
图10 对比实验24 h RMSEFig.10 RMSE of comparison results in 24 hours
图11 消融实验24h MAEFig.11 MAE of ablation results in 24 hours
图12 消融实验24h R2Fig.12 R2 of ablation results in 24 hours
图13 消融实验24 h RMSEFig.13 RMSE of ablation results in 24 hours
表4 消融模型24 h内温度预测MAE 单位:℃Tab.4 MAE of temperature prediction within 24 hours for ablation models unit:℃
表5 消融模型24 h内温度预测R2 单位:%Tab.5 R2 of temperature prediction within 24 hours for ablation models unit:%
表6 消融模型24 h内温度预测RMSE 单位:℃Tab.6 RMSE of temperature prediction within 24 hours for ablation models unit:℃
3 结语
本文提出一种基于联合MOD11A1 和地面气象站点数据的多站点温度预测深度学习模型,通过注意力将遥感数据转换为虚拟多站点数据,然后使用双向的两层LSTM 对温度时间序列数据进行编码,并且将GNN 用于多站点关系编码,成功地捕捉了多站点温度时间序列的空间相关性,最后应用两层EN-GRU 对编码的空间关系解码出预测结果。对GDM 进行了消融实验与对比实验,实验结果表明GDM 相较于其他模型预测结果提升显著。由于本文仅利用了地面气象站点的温度资料与深度学习模型,在未来的研究工作中,将探索多元气象要素与温度的潜在关系,并把物理模型融入深度学习模型。