APP下载

基于注意力机制LSTM的电离层TEC预测

2024-02-04刘海军雷东兴袁静乐会军单维锋李良超王浩然李忠袁国铭

地球物理学报 2024年2期
关键词:电离层差分注意力

刘海军,雷东兴,袁静*,乐会军,单维锋,李良超,王浩然,李忠,袁国铭

1 防灾科技学院,河北廊坊 065201 2 中国科学院地质与地球物理研究所中国科学院地球与行星物理重点实验室,北京 100029

0 引言

电离层是地球空间的一个重要区域,向上与磁层耦合,向下受低层大气的影响(Li et al.,2022).电离层还受到太阳活动和地磁活动的影响,因此电离层具有非常复杂的时空变化(Sivavaraprasad et al.,2020).电离层中有许多带电粒子,它们对无线电波的传播有着重要的影响(Kaselimi et al.,2020).电离层影响短波通信、导航和定位(谭述森等,2011).总电子含量(TEC)是电离层的一个重要参数(Sharma et al.,2017).TEC越大,无线电波通过它的延迟就越大(Tang et al.,2022).因此,对总电子含量的监测和预测是空间天气的重要研究内容(Karpov et al.,2019;Jiang et al.,2019).

电离层短期预报主要有两大类方法:第一类方法是将观测数据与电离层理论模型相结合的方法(孔庆颜等,2010; 乐新安等,2010),另一类是基于大量观测数据的神经网络方法(Yue et al.,2008; Habarulema et al.,2009; 刘先冬等,2010; Ratnam et al.,2012; 翁利斌等,2012;Qiao et al.,2021).其中神经网络方法以其强大的非线性表示能力,已成为电离层TEC建模和预测中的热门工具(Akhoondzadeh,2013; 熊波等,2022;Wen et al.,2022; Hu et al.,2024).目前应用于电离层TEC预测的神经网络主要包括浅层神经网络和深层神经网络两大类,其中浅层神经网络包括人工神经网络(Artificial Neural Network,ANN)、径向基函数神经网络(Radial Basis Function Neural Network,RBF-NN)等(Cander,1998; Tulunay et al.,2006).如Unnikrishnan等(2018)采用ANN模型预测印度赤道站上TEC的日效应和季节效应.Watthanasangmechai等(2012)提出了一个神经网络模型来预测泰国的TEC.然而,TEC数据为时间序列数据,其前后数据具有很强的时间相关性,基于浅层人工神经网络类的TEC预测方法只考虑数据的空间位置,无法表征数据前后的时间相关特性,这将导致较大的预测误差.Inyurt和Sekertekin(2019)表明,ANN模型不能反映数据的时间序列特征,导致不同季节的预测误差较大,预测精度较低;Huang和Yuan(2014)的研究表明,RBF神经网络对TEC的日变化不敏感,导致模型在夜间的TEC预测误差较大;Habarulema等(2007)的研究表明,ANN模型容易受到太阳活动的干扰,TEC预测误差在太阳活动高年和低年变化较大,模型对TEC的季节变化不敏感,导致预测精度较低.深层神经网络包括循环神经网络(Recurrent Neural Network,RNN)、长短期记忆神经网络(Long Short-Term Memory,LSTM)等(Hochreiter and Schmidhuber,1997; Sun et al.,2017).RNN模型是一种以序列数据作为输入,在序列的演进方向不断进行递归(recursion)的链式连接的神经网络,是一种既能表征数据的空间特征又能表征数据的时间特征的深度学习模型,是目前时间序列建模的主流算法(Ruwali et al.,2021).袁天娇等(2018)表明RNN可以预测TEC,但在长时间序列预测时,RNN会出现梯度消失现象,导致其无法表示长时间跨度的非线性关系,即无法解决数据的长期依赖问题.为了解决数据长期依赖问题,LSTM通过精心设置的三种门控结构,来记住长时间序列中的信息(Tang et al.,2020).Galassi等(2021)使用LSTM模型来预测TEC,但是由于LSTM建模时对历史时间序列同等对待,不能自适应关注重要特征,其预测精度有限;为了解决LSTM不能自适应精细化关注特征问题,本文在LSTM中添加了注意力机制.注意机制可以重新分配输入到网络中的多个特征向量的权重,提高重要信息的权重(Ren et al.,2021),并在自然语言处理和其他领域取得了巨大成功(Li et al.,2021;Liu et al.,2022).本文在经典的LSTM中添加注意力机制,对电离层TEC数据进行建模,称之为注意力机制LSTM模型(Attentional LSTM,Att-LSTM).为了验证模型性能,论文在北半球100°E线上,从0°到北纬87.5°,每2.5°选择一个位置,共计36个位置进行了未来2小时的TEC预测实验,并与常见的时间序列预测模型如DNN、RNN、LSTM进行了对比.论文还讨论了纬度对模型预测性能的影响、磁静期和磁暴期对预测性能的影响及对未来多个时间点的预测效果.

1 基于注意力机制的长短期记忆网络模型

1.1 长短期记忆网络(LSTM)

电离层TEC是典型的时间序列数据,其预测属于典型的seq2seq问题.LSTM就是解决该类问题的经典模型.LSTM(Graves,2012)是一种循环神经网络,由若干LSTM单元构成,一个LSTM单元包括三种门结构,如图1所示,分别为输入门it,遗忘门ft和输出门ot,这三种门结构通过记忆细胞单元状态ct连接起来,实现对网络中的特征进行有目的性的选择.LSTM单元种各个模块的计算公式如下:

it=σ(Wi×[ht-1,xt]+bi),

(1)

ft=ot(Wf×[ht-1,xt]+bf),

(2)

(3)

ot=σ(Wo×[ht-1,xt]+bo),

(4)

(5)

ht=ot*tanh(ct),

(6)

1.2 基于注意力机制的LSTM模型

采用LSTM模型对TEC数据建模时,历史序列中任意位置的数据对未来数据的预测权重都相等,无法自适应精确建模.为解决该问题,本文添加了在自然语言处理领域广泛使用的注意力机制(Wang et al.,2020),为各个输入序列重新自适应分配权值,使模型有选择地关注历史序列,降低模型的预测误差.Att-LSTM的TEC预测模型如图2所示.

图2 Att-LSTM网络结构图

该模型共包括五个层:输入层、网络层、注意力层、回归层和输出层.

输入层接收样本的特征.每个样本包含特征和回归值两部分,其中第n个样本的特征用xn表示,回归值用yn表示.本文采用连续24小时数据去预测未来2个小时,即用连续的13个TEC值去预测第14个TEC值,因此xn为含有13个连续观测值的TEC序列,yn是该序列对应的回归值(即第14个TEC值).样本的详细制作过程见2.2.4.[xn,yn]的表达公式如下:

[xn,yn]=[xn,xn+1,xn+2,…,xn+12,yn=xn+13],

(7)

网络层用于对数据进行建模,包括两个独立的LSTM神经元层,分别处理输入层输出的TEC序列,通过拼接函数(concat)将两个LSTM层输出的TEC特征向量进行拼接,作为网络层的输出hn,计算公式如下:

kn=LSTM([xn,yn]),

(8)

mn=LSTM([xn,yn]),

(9)

hn=concat([kn,mn]),

(10)

其中kn表示第一个LSTM层的输出,mn表示第二个LSTM层的输出,hn表示将kn和mn拼接后的向量.

注意力层:注意力层用来依据输入信息的重要程度分配不同的权重参数,即注意力值.网络层的输出[h0,h1,…,hn]作为注意力层的输入,首先通过注意力函数来计算输入向量中每个特征与回归值之间的相似度,本文中所选用的注意力函数计算公式如下:

score(hn,yn)=VTtanh[Whn+Uyn],

(11)

其中W,V,U神经网络训练过程中可学习的参数.得到注意力函数之后,接着采用softmax函数对注意力进行归一化处理,得到注意力的概率分布,具体计算公式如下:

an=softmax(score(hn,yn)),

(12)

其中an是注意力分布值.最后将an与hn进行矩阵点乘运算,得注意力值为

tn=hn×an.

(13)

回归层包含4个全连接层(Dense层),用于将前面输入的结果映射成预测值,为了防止过拟合,每个全连接层后添加了Dropout层.

输出层:输出输入序列对应的预测值.

2 实验设置

2.1 数据集介绍

本文中使用的电离层数据来自欧洲轨道确定中心(Center for Orbit Determination of Europe,CODE)TEC网格数据,该数据时间分辨率为2 h.为了研究中国不同经纬度地区的预测性能,选择北半球100°E,北纬0°到北纬87.5°之间,每2.5°选择一个位置,累计36个位置作为研究对象.每个位置上,选择实验数据的时间范围为2002年1月1日0∶00—2014年12月30日24∶00,累计13年的TEC观测数据.

所选位置经纬度描述如表1所示.其中部分位置(A11)2002年1月1日0∶00—2014年12月30日24∶00的TEC值如图3所示.

表1 本文实验选取的所有地区

图3 表1中A11地区2002—2014年的TEC值

2.2 数据预处理

某一确定位置的TEC数据是一种典型的时间序列数据,只有平稳的非随机时间序列方可预测,因此在对TEC数据预测之前,需要进行一系列预处理.本文对所选电离层TEC数据的预处理包括TEC数据平稳性检验、差分处理、纯随机平稳性检验、TEC数据归一化等过程.这些预处理完成之后,再进行样本制作.

2.2.1 TEC数据平稳性检验和差分处理

时间序列平稳性是时间序列分析的基本假设,平稳时间序列是指时间序列的均值和方差不随时间改变.因此,在进行TEC预测之前,首先需要检验时间序列的平稳性.本文采用单位根检验(Augmented Dickey-Fuller,ADF)方法对TEC序列进行平稳性性检验.36个地区的平稳性检验结果均为非平稳时间序列,因此需要对其进行一阶差分处理.将其转化为平稳序列.一阶差值的计算公式如下:

Δxt=xt-xt-1,

(14)

其中,Δ为一阶差分算子,xt为t时刻的观测数据.图4为图3中A11区域的TEC数据的一阶差分的结果.一阶差分处理后,再对36个地区差分后的TEC数据进行ADF检验,36个地区均通过检验,即36个地区的一阶差分数据为平稳时间序列.

图4 表1中A11区域一阶差分后的TEC值

2.2.2 纯随机平稳性检验

平稳时间序列并非一定可以预测,纯随机平稳时间序列就是不可预测的.因此还需要检验差分后的TEC序列的纯随机性.本文采用LB(Ljung-Box)方法来检测时间序列的纯随机性.LB检验结果表明,经过一阶差分处理后的TEC数据不是纯随机数据,可以进行预测.

2.2.3 TEC数据归一化

经过一阶差分处理后,原始TEC数据变成平稳的非随机时间序列,可以进行预测.但是,整个数据空间的数据仍然有很大的变化,这将影响数据预测的结果,需要将该数据进行归一化.本文使用Min-Max归一化将一阶差分后的TEC数据映射在0和1之间.该计算公式如下:

(15)

其中xi为某一位置时刻i的TEC观测值,yi为该位置时刻i归一化后的TEC值,x为某一位置所有TEC观测值.

2.2.4 样本制作

经过前面的平稳性检验、差分处理、纯随机性检验和TEC数据归一化处理后,接下来制作实验样本.本文选取36个中国地区2002年1月1日0∶00—2014年12月30日24∶00之间的TEC观测数据,每个位置观测点总数为61711个.经过一阶差分处理后,变成61710个数据点.采用滑动窗口为14的分割方法,将归一化后数据制成样本.其中第i个滑动窗口中前13个点是样本的输入xi,第14个点是该样本的输出yi.依次制作滑动窗口,共计61697个滑动窗口样本,其中前90%TEC数据作为训练样本(55527个训练样本),剩余10%TEC数据作为测试样本(6170个测试样本).样本制作过程如图5所示.

图5 样本制作过程

样本制作完成后,利用训练样本对本文所提出的模型进行训练,然后利用测试样本进行预测,对预测结果进行反归一化和反一阶差分处理,得到最终的结果作为预测值.整个实验流程如图6所示.

图6 实验流程图

2.3 实验环境

基于python 3.6使用keras机器学习库构建Att-LSTM模型.实验设备配置为:Intel i5-7200u CPU、8G内存、500G固态硬盘,GPU卡为NVIDIA Geforce 940MX.

2.4 评价指标

为了检验各种模型预测电离层TEC的性能,使用两个评价指标来评价模型:均方根误差(Root Mean Square Error,RMSE)和R-Square,其计算公式如式(16)和式(17)所示:

(16)

(17)

其中,n为测试样本的数量,ytruei为测试样本的真实值,yprei为测试样本的预测值,ymean为测试样本的平均值.RMSE用于描述预测的误差,其值越小,模型预测性能越好;R-Square用于描述预测值与真实值的拟合程度,其越接近1,则该模型对TEC观测数据的拟合能力越好.

3 实验结果与讨论

3.1 模型的参数选择

使用Att-LSTM进行TEC建模时,首先需要确定模型的最优参数,论文采用网格搜索法(Grid-Search),搜索到本文模型最优超参数设置如表2所示.

表2 Att-LSTM参数设置

3.2 不同模型对未来2小时TEC的预测

首先采用Att-LSTM模型对TEC数据建模,采用过去24小时TEC观测序列来预测未来两小时TEC值,并与经典的时间序列模型DNN、RNN、LSTM进行了对比实验.四种模型分别按照2.2小节处理后的数据集上进行训练,再进行预测.预测数据选取2013年9月12日8∶00—2014年12月30日24∶00共6170个TEC观测值,占总样本个数的10%.DNN、RNN、LSTM以及本文所提出的Att-LSTM在表1中所有地区TEC预测的RMSE和R-Square预测结果如图7所示.该四种模型在表1中所有地区TEC预测的RMSE和R-Square的均值、最小值及最大值如表3所示的数据(加黑的数据为最优结果).

表3 四种模型在表1所有地区TEC预测性能对比

图7 不同模型在表1的A1—A36地区预测性能对比

从表3可以看出,在本文所选择的36个地区,Att-LSTM模型的预测误差RMSE的均值、最小值、最大值均远远低于对比模型,其预测误差最小仅为0.0495 TECU,最大为4.7105 TECU,在所有所选地区预测误差RMSE的均值为1.4007,与DNN、RNN、LSTM三个模型相比,本文所提出的Att-LSTM平均预测误差RMSE分别降低4.017 TECU,3.1984 TECU,0.6218 TECU;Att-LSTM预测拟合度R-Square在所有地区中最低为0.9493,最高为0.9999,平均值为0.9869,与DNN、RNN、LSTM三个模型相比,平均拟合度分别提高0.3467、0.1772、0.0167.图7以柱状图的形式直观展示了本文模型与3个对比模型在所选的36个地区预测误差RMSE与拟合度R-Square的情况.可以看出,无论是在哪个地区,本文所提出的模型预测误差及模型拟合度均明显优于对比模型.

本文所提出的Att-LSTM模型预测性能超过DNN、RNN、LSTM,主要原因在于本文模型中添加了注意力机制.将注意力机制添加到LSTM层和回归层之间,这样输入序列中不同的数据经过LSTM层处理之后,进入到注意力层.该层中的注意力机制能自适应的为LSTM处理后的各个数据分配不同的权值,使模型有选择地关注历史序列,从而提高模型的预测精度.而其他对比模型如DNN、RNN和LSTM,将所有输入序列中所有的观测数据同等处理,因而精度有限.

图8给出了Att-LSTM模型在36个地区的绝对误差分布图(绝对误差=预测值-真实值),可以看出,本文的Att-LSTM模型在6170个训练样本上,绝对误差主要分布在0.00~0.80 TECU之间.

图8 在0°—87.5°N纬度区域的Att-LSTM模型的TEC预测值与TEC真实值的绝对误差分布图

图9给出了Att-LSTM预测性能随纬度的变化情况.可以看出,在北纬60°之前,随着纬度的增加,Att-LSTM模型预测的误差RMSE缓慢增加,但始终保持在1TECU以内,预测值与真实值的拟合度也比较高,均在0.99以上.在北纬62.5°到87.5°地区,模型的预测性能出了扰动,预测误差增加到了3~5 TECU,预测拟合度在0.95~0.98之间,预测效果比0~60°稍差,引起预测性能扰动的原因不详.

图9 Att-LSTM模型对未来2小时TEC预测效果

3.3 Att-LSTM模型在磁静期和磁暴期TEC的预测性能

为了进一步验证Att-LSTM模型的预测性能,在100°E,30°N地区的TEC观测数据为例,对比了该模型在磁暴期和磁静期的预测效果.训练数据选取2002年1月1日0∶00—2012年9月14日16∶00,共50826个TEC观测值,测试数据选取2012年9月14日18∶00—2013年11月22日24∶00,共5646个TEC观测值,在此期间,将地磁指标Kp>3以及-100

图10 磁静期和磁暴期绝对误差分布直方图

图11展示了一个磁静日(2012年10月11日0∶00—2012年10月11日24∶00)和一个磁暴日(2012年10月12日0∶00—2012年10月12日24∶00)的预测效果,可以看出,无论是在在磁静期还是磁暴期,Att-LSTM预测值与TEC真实观测值拟合程度均较好.分析其原因,主要在于本文对原始的TEC数据进行了预处理,经过差分处理和规范化处理之后,无论是磁静期还是磁暴期的TEC数据,均变成了平稳的时间序列数据,本文的Att-LSTM模型对处理后的平稳TEC数据进行建模,预测,再将预测的结果进行反规范化和反差分,得到最终的预测值.这种预处理方法可以消除原始数据不平稳所带来的预测误差波动大问题.

图11 磁静期(a)和磁暴期(b)Att-LSTM模型的TEC预测性能对比(Att-LSTM代表Att-LSTM模型的TEC预测值,CODE代表原始TEC观测值)

3.4 Att-LSTM模型对未来多时间段TEC的预测

论文还选择了100°E,25°N—100°E,45°N之间9个地区(A11—A19)进行未来多点预测实验(本文分别选择预测未来第4、6、8、10时),即预测未来第2、3、4、5个点.训练数据选取各地区2002年1月1日0∶00—2013年9月12日6∶00共55539个TEC观测值,预测数据选取该9个地区2013年9月12日8∶00—2014年12月30日24∶00共6171个TEC观测值,样本制作方法与图5类似,不同的是多时间点预测时采用13+num的滑动窗口(num为未来预测样本点数),第i个滑动窗口中前13个做为第i个样本的输入向量xi,后面的num个数据作为该样本的输出向量yi.各个地区未来多个时间段TEC预测效果如图12所示.

图12 Att-LSTM模型对A11—A19地区未来多个时间段TEC的预测效果

从图12可以看出,随着预测时间点的增加,Att-LSTM模型在各个地区的预测误差RMSE逐渐升高,而R-Square逐渐降低.即随着预测时间的增加,模型预测性能下降,预测未来4个小时的时候,预测拟合度R-Square在0.95以上,预测6个小时的时候,R-Square降低到0.75~0.8之间,而预测未来10个小时的时候,R-Square下降到0.7左右,可见本文所提出的Att-LSTM模型在预测未来2、4小时的TEC值十分可靠,预测未来6、8、10个小预测结果不可靠.

未来多点预测的具体实验结果如表4所示.从表4可以看出,模型的预测误差随着预测时间的增加而逐渐增加,模型拟合度逐渐降低,预测未来4个小时,模型预测误差较小,在9个地区中,最高为A14地区,为1.5852 TECU,最低为A18地区,仅为0.9083 TECU.未来4小时预测拟合度较高,在所选择的9个地区,该模型预测拟合度最低为0.9545,最高为0.9850.在预测未来6个小时,R-Square明显下降,以A13地区为例,未来6小时预测拟合度降低至0.7667,与预测未来4小时相比,R-Square降幅为20.82%;而预测误差RMSE升高至3.8501 TECU,与第4小时预测RMSE相比,RMSE增幅为200.3%.

表4 Att-LSTM模型对A11—A19地区未来多个时间段TEC的预测性能(加黑部分为最优结果)

图13给出了未来多点预测的绝对误差分布图.其中图13(a、b、c、d)分别表示预测未来4、6、8、10时的绝对误差分布.从图13中可以直观的看出,预测未来4小时的时候,绝对误差分布比较集中,主要集中在-1 TECU到1 TECU之间,而预测未来第6、8、10小时,绝对误差甚至有相当一部分比例达到了±4 TECU及以上.这说明应用Att-LSTM模型,采用过去24小时预测未来2、4小时基本可靠,而预测更久的时间,则结果不可靠.

图13 Att-LSTM模型对A11—A19地区未来多个时间段TEC真实值与观测值的绝对误差分布直方图

4 结论

本文将注意力机制引入到 LSTM 神经网络,构建了基于注意力机制的LSTM电离层 TEC 预测模型(Att-LSTM),并应用该模型在36个所选地区中,采用过去24小时TEC观测数据预测未来2小时TEC值,并与经典时间序列模型DNN、RNN,LSTM模型进行了对比实验.结果表明,本文所提出的Att-LSTM模型性能明显优于对比模型.论文讨论了纬度对TEC预测的影响,发现在0°到北纬60°之间,随着纬度的增加,Att-LSTM模型预测的误差RMSE缓慢增加,但始终保持在1 TECU以内,在该范围内模型预测值与真实值的拟合度比较高,均在0.99以上.在北纬62.5°到87.5°地区,模型的预测性能出了扰动,预测误差增加到了3~5 TECU,预测拟合度在0.95~0.98之间,预测效果比0~60°稍差.进一步讨论了Att-LSTM模型在磁静期及磁暴期的预测效果,结果表明,无论是磁静期还是磁暴期,采用过去24 h预测未来2 h的时候,Att-LSTM模型预测RMSE均较小,不足1 TECU,模型预测效果均很好.还采用Att-LSTM模型对未来多点的TEC进行预测,预测结果表明,本文所提出的Att-LSTM模型对未来2、4个小时的预测拟合度均超过0.95,十分可靠,而对未来第6、8、10个小时的预测最高为0.7934,预测拟合度迅速下降,预测结果不可信.

未来将研究采用更长的历史TEC观测序列,添加混合注意力机制,来对未来多点TEC值进行更精准的预测.

猜你喜欢

电离层差分注意力
让注意力“飞”回来
一种电离层TEC格点预测模型
数列与差分
Kalman滤波估算电离层延迟的一种优化方法
“扬眼”APP:让注意力“变现”
电离层对中高轨SAR影响机理研究
A Beautiful Way Of Looking At Things
Linux Shell语言在电离层解算中的应用
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR