APP下载

样本输入方式对极端学习机预报日长变化的影响*

2015-03-24蔡宏兵赵丹宁

天文研究与技术 2015年3期
关键词:学习机跨度神经网络

雷 雨,蔡宏兵,赵丹宁

(1. 中国科学院国家授时中心,陕西 西安 710600;2. 中国科学院时间频率基准重点实验室,陕西 西安 710600;3. 中国科学院大学,北京 100049)

CN 53-1189/P ISSN 1672-7673

样本输入方式对极端学习机预报日长变化的影响*

雷 雨1,2,3,蔡宏兵1,2,赵丹宁1,3

(1. 中国科学院国家授时中心,陕西 西安 710600;2. 中国科学院时间频率基准重点实验室,陕西 西安 710600;3. 中国科学院大学,北京 100049)

针对极端学习机(Extreme Learning Machine, ELM)用于日长(Length-Of-Day, LOD)变化预报过程中,样本输入方式对预报结果的影响进行了研究。采用跨度、连续和迭代3种样本输入方式对日长变化进行预报。结果表明,不同的样本输入方式对预报结果有很大影响,样本按跨度输入的预报精度最低;样本采用连续输入方式在短期和中长期预报中预报精度较高,但计算速度较慢,较适合中长期预报;样本按迭代输入方式的短期预报精度稍优于连续输入方式,而中长期预报精度则不如连续输入方式,但具有较高的预报效率。这对于日长变化的实时快速预报有着较高的现实意义。

地球自转参数;日长变化;预报模型;极端学习机;输入方式

日长(Length-Of-Day, LOD)变化是表征地球自转运动的一个重要参量,它是指天文意义上的1天和原子时日长86 400 s之间的差异,反映了地球自转速率的变化。日长变化和极移(Polar Motion, PM)统称为地球自转参数(Earth-Rotation Parameters, ERP)。地球自转参数是天球参考系和地球参考系之间的转换参数,在深空探测、卫星精密定轨和天文地球动力学研究等领域有重要应用[1]。现代空间测地技术如甚长基线干涉测量(Very Long Baseline Interferometry, VLBI)、全球卫星导航系统(Global Navigation Satellite System, GNSS)和卫星激光测距(Satellite Laser Ranging, SLR)等是获取地球自转参数的主要手段,然而,复杂的数据处理过程使得地球自转参数的获取存在一定的时间延迟,所以高精度的地球自转参数预报有重要需求。

受大气和海洋等多种激发因素的影响,日长变化呈现非常复杂的非线性不规则变化特征, 因此采用非线性的预报方法对其进行预报在理论上更为合理[2-3]。神经网络(Neural Networks, NN)是逼近复杂非线性函数的一种有效工具,所以许多学者将其用于地球自转参数预报。文[4]作者将反向传播神经网络(Backpropagation Neural Networks, BPNN)用于地球自转参数中长期预报,并与线性模型的预报结果进行了对比,验证了反向传播神经网络用于地球自转参数预报的可行性;文[5-6]作者在反向传播神经网络模型中引入大气角动量的预报值对日长变化进行了1~5 d的实时快速预报,取得了显著的预报效果,随后文[7]又研究了日长变化预报中反向传播神经网络拓扑结构的选择方法;文[2-3]作者应用广义回归神经网络(General Regression Neural Networks, GRNN)对日长变化做了中长期预测,并与反向传播神经网络模型的预报结果进行了比较,验证了广义回归神经网络用于日长变化预报的可行性和优越性;文[8]作者针对反向传播神经网络的不足,利用小波基替代反向传播神经网络的激活函数,研究了日长变化预报的小波神经网络(Wavelet Neural Networks, WNN)算法,取得了良好的预报效果;文[9-10]作者对神经网络模型预报地球自转参数的性能进行了深入而细致的分析。

虽然神经网络在地球自转参数预报中取得了良好的预报效果和广泛的应用,但是传统的神经网络算法如反向传播神经网络和小波神经网络等存在一些缺点,如网络拓扑结构难以确定,易陷入局部极小值,收敛速度慢和泛化能力不强等[2-3]。随着神经网络技术的发展,新的神经网络模型逐渐建立,其中极端学习机(Extreme Learning Machine, ELM)是近年来发展起来的一种新型神经网络算法[11-12],包含1个输入层、1个隐含层和1个输出层。极端学习机在训练初始阶段随机产生输入权值和偏置,并在训练过程中保持不变,网络的输出权值是唯一需要确定的参数,具有结构简单、学习速度快和泛化能力好等优点,特别适合解决对实时性要求较高的问题,这是采用极端学习机预报日长变化的主要原因。

神经网络用于日长变化预报过程中,样本的输入方式通常有2种,一种是按跨度方式输入[5-6],另一种是按连续方式输入[13]。本文在此基础上提出了一种迭代输入方式,并同另外2种输入方式进行对比,分析样本输入方式对日长变化预报结果的影响。

1 极端学习机算法

给定N个训练样本(xi,yi),其中输入向量xi=[xi1,xi2, …,xim]T∈Rm,输出向量yi=[yi1,yi2,

…,yin]T∈Rn,m和n分别为输入向量维数和输出向量维数,则具有h个隐含层节点的单隐层前馈神经网络能够以零误差逼近这N个样本,即使得

(1)

式中,wj=[wj1, wj2, …, wjm]T为第j个隐含层节点与输入节点之间的连接权值;βj=[βj1, βj2, …, βjn]T

为第j个隐含层节点与输出节点之间的连接权值;bj为第j个隐含层节点的偏置;g(x)是激活函数。将(1)式表示为矩阵相乘的形式:

(2)

其中H为隐含层输出矩阵,H(w1, w2, …, wh, b1, b2, …, bh, x1, x2, …, xN)=

极端学习机训练过程如下:

(1)随机产生输入层权值wj和偏置bj,j=1,2,…,h;

(2)计算隐含层输出矩阵H;

(3)计算输出层权值β,β=H†Y,其中H†为矩阵H的Moore-Penrose广义逆矩阵。

2 极端学习机用于日长变化预报

2.1 数据预处理

本文所用日长变化数据来自国际地球自转和参考系服务(InternationalEarthRotationandReferenceSystemsService,IERS)发布的EOP05C04序列,采样间隔为1d。首先根据IERS协议给出的经验模型扣除日长变化序列中周期为5d~18.6yr的固体地球带谐潮汐项[14],其次通过下述线性模型确定日长变化序列中的线性趋势项、季节性变化的周年项和半年项:

(3)

式中,LODR表示扣除固体地球潮汐项后的日长变化序列;ω1和ω2分别表示周年项和半年项的角频率,本文取ω1=2π/365.24、ω2=2π/182.62;a、b表示长期趋势项的参数;c1,1、c1,2表示周年项的参数;c2,1、c2,2表示半年项的参数,这6个未知参数通过最小二乘法求得。

经过上述数据预处理后的剩余部分为含有非线性成分的残差序列,包括海洋周日、半日潮项以及不规则的短周期成分,图1从上至下依次绘出了1990-2010年期间日长变化的原始序列、带谐潮序列、线性模型拟合序列和残差序列。本文采用极端学习机对残差序列进行建模和预测,然后将线性模型的预报结果和非线性模型的预报结果相加可以得到LODR的预测值,最后再恢复固体地球带谐潮汐项即可获得最终的日长变化预报值。

图1(a) 日长变化原始序列;(b) 带谐潮项; (c) 线性趋势项和季节项; (d) 残差项

Fig.1(a) The raw data of the LOD variation series from 1990 to 2010; (b) The harmonic components of the zonal tides in the series; (c) The linear trends plus the seasonal terms in the series; (d) The residuals of the series after the subtraction of the terms in (b) and (c)

2.2 建模和预报

利用神经网络进行时间序列预测时,首先需要构造训练样本,为了研究不同样本输入方式对预报结果的影响,按以下3种方式构造训练样本:

(1)跨度输入

在训练阶段,样本的输入和输出方式为

(4)

而在预测阶段,样本的输入和输出方式为

(5)

其中{ξ(t),t=1, 2, …,L}表示日长变化序列经数据预处理后的残差序列;k表示预报跨度,k=1,2,…;ξ^(L+k)表示跨度为k时的残差预测值。对于跨度为k的预报,按跨度输入可构造L-5k组输入和输出样本。

按跨度输入的优点是对数据进行抽样处理,减少了计算量,提高了计算速度,在数据量庞大的情况下,可以快速实现预报,但是间隔预报要求较长的数据序列,在数据序列较短的情况下,随着预报跨度的增大,数据利用率大为降低。此外,由于跨度较大时,相隔很远的日长变化值之间的相关性较小,并且容易忽略中间短周期振荡对日长变化的影响,以跨度为100 d的日长变化为例,输入样本的取样间隔为100 d,那么这100 d内的大气、海洋等非线性变化信息并未参与网络的训练,采用这样的样本作为训练数据,神经网络很可能忽略一些重要的先验信息,记下的可能只是很微弱的相关性,并不能获得相近数据之间的全面信息,这势必影响网络的泛化能力。

(2)连续输入

在训练阶段,样本的输入和输出方式为

(6)

而在预测阶段,样本的输入和输出方式为

(7)

对于跨度为k的预报,按连续输入可构造L-k-4组输入和输出样本。

连续输入方式与跨度输入方式类似,都是数据利用率随着预报跨度的增大而降低,区别是前者的取样间隔为1,而后者的取样间隔为k。连续输入方式相对于跨度输入方式的优点在于,一是在建模序列长度相同的情况下,对于同样的预报跨度,前者的数据利用率比后者高, 二是连续输入方式顾及了中间短周期振荡对日长变化的影响,这对于较长跨度的预报尤为重要。

(3)迭代输入

在训练阶段,样本的输入和输出方式为

(8)

而在预测阶段,样本的输入和输出方式为

(9)

由于这种输入方法在预报过程中需要上一步的预测值作为输入,故称为迭代输入方式,其优点是数据利用率不受预报跨度的影响,数据利用率高,按此种输入可构造L-5组输入和输出样本,而且在预报过程中只需建模1次便可实现序列的多步预报,与跨度输入和连续输入方式相比,预报效率大大提高。理论上讲,迭代输入方式对规则项不明显的时间序列预报效果应当比较好,这是因为对于这种序列而言,越靠近当前时刻的历史数据对其影响越大。

在构造完训练样本以后,需要对极端学习机网络进行训练。在训练网络之前,首先将训练样本按9∶1的比例分为训练集和测试集,然后在网络训练过程中将隐含层节点数目从2取到50,取测试误差最小时的网络模型为最终的预报模型,这里以均方根误差(Root Mean Squares Error, RMSE)作为测试误差,其计算公式为

(10)

式中,Pi、Oi分别表示预测值和实际值;l为测试集样本数。

在研究过程中发现,激活函数类型对极端学习机网络的学习和泛化性能有重要影响,本文选取Sigmoid函数作为激活函数,其表达式为

(11)

3 实验结果

将1990年1月1日至1999年12月31日的日长变化序列作为基础序列,根据上述建模方式,采用3种不同的输入方式对2000-2001年的日长变化序列进行1~360 d的预报,以平均绝对误差(Mean Absolute Error, MAE)为精度评定标准,其计算公式见(12)式,将统计结果列于表1,限于篇幅,这里只给出部分跨度的平均绝对误差值。为了更加直观地比较3种输入方式的预报精度,图2绘出了不同跨度的预报精度。

(12)

式中,l为预报期数,这里l=365,其他符号意义同上。

图2 3种输入方式日长变化预报精度的比较 (a) 短期 (1~30 d) 预报;(b) 中期 (1~360 d) 预报

Fig.2 Comparison of MAE values (in units of ms) of predicted LOD data resulting from three types of training patterns. (a) Plots for short-term predictions (of 1d to 30d away); (b) Plots for medium-term predictions (of 30d to 360d away)

表1 3种输入方式日长变化预报平均绝对误差的比较 (单位:ms)

Table 1 Comparison of MAE values (in units of ms) of some predicted LOD data resulting from three types of training patterns

预报跨度/d迭代输入连续输入跨度输入精度改善百分比/%预报跨度/d迭代输入连续输入跨度输入精度改善百分比/%100210021002103501950193020112004600460047040019801870202630064006400690600209019102159400790079008609002280216034155009300950104-212002210218035416010401060124-215001980180031797011401170138-318001960191049938012401300155-5210021401780283179013201390161-5240021502000385710013901490167-7270021102050322315016801770191-53000237019503791820018201870197-3330023402260277325018901880195036002450201050218300194019401810

从图2和表1可以看出,对于1~5 d的预报,跨度输入方式的预报精度与另外2种方式相当,从第6 d开始,跨度输入方式的预报精度急剧降低,并且预报误差不稳定,跳跃较明显,这也证实了实验前的推测。对于迭代输入和连续输入方式而言,在跨度为1~30 d的短期预报中,2种输入方式的预报精度大体相当,前者略优于后者,从第35 d开始,连续输入方式的预报精度优于迭代输入方式并逐渐拉开距离,为了直观地展示改进程度,表1第5列“精度改善百分比”表示连续输入方式预报精度相对于迭代输入方式的精度改善情况,可以发现,预报精度最大改善了18%。这似乎与实验前的推测不符,因为日长变化残差序列的变化规律不明显,理论上,按迭代输入的预报效果应当好于按连续输入,但通过深入的分析可以发现,虽然按迭代输入方式所构造的样本充分顾及了相邻较近的日长变化值对当前时刻预测值的影响,但这种输入方式会受前1步预测误差的影响,具有误差累积效应,这就是迭代输入方式的短期预报精度稍优于连续输入方式,而中长期预报精度则不如连续输入方式的原因所在。

在计算速度方面,以跨度为1~360 d的日长变化预报为例,按跨度输入、连续输入和迭代输入预报日长变化分别需要4 h、6 h和10 min左右的时间,程序语言为MATLAB R2012a,软件平台为Windows XP SP3,硬件平台为CPU:Intel Core 2 Duo E7500 2.93 GHz,内存:2.00 GB。

4 结 论

本文基于极端学习机具有的学习速度快、网络拓扑结构简单和泛化性能好等优良特性,将其用于日长变化预报。根据实验结果可以发现,不同的样本输入方式对预报结果有重要影响。研究结果表明,跨度输入方式的预报精度最低,对规则性不明显的序列预报效果不好;对于1~30 d的短期预报,连续输入方式的预报精度稍逊于迭代输入方式,但在中长期预报中较迭代输入方式表现出一定的精度优势,在跨度大于35 d的日长变化预报中,精度最大改进了18%;迭代输入方式的短期预报效果好,但随着预报跨度的增大,其预报精度则不如连续输入方式,这可能与迭代输入方式的误差累积效应有关。在数据利用率和计算速度方面,跨度输入方式的数据利用率低,对资料长度要求高,计算速度比连续输入方式快;连续输入方式的数据利用率比跨度输入方式高,但计算速度较慢,较适合中长期预报;迭代输入方式不仅数据利用率高,并且预报效率较另外2种输入方式大大提高,这对于地球自转参数的实时快速预报具有非常重要的现实意义。

在实际应用中,可以将2种输入方式结合起来用于日长变化预报,即在1~30 d的短期预报中采用迭代输入方式,在大于30 d的中长期预报中采用连续输入方式。

致谢:感谢IERS提供的日长变化资料!

[1] Gambis D, Luzum B. Earth rotation monitoring, UT1 determination and prediction[J]. Metrologia, 2011, 48(4): 165-170.

[2] 张晓红, 王琪洁, 朱建军, 等. 广义回归神经网络在日长变化预报中的应用[J]. 天文学报, 2011, 52(4): 322-331. Zhang Xiaohong, Wang Qijie, Zhu Jianjun, et al. An application to the prediction of LOD change based on general regression neural network[J]. Acta Astronomica Sinica, 2011, 52(4): 322-331.

[3] Zhang Xiaohong, Wang Qijie, Zhu Jianjun, et al. Application of general regression neural network to the prediction of LOD change[J]. Chinese Astronomy and Astrophysics, 2012, 36(1): 86-96.

[4] Schuh H, Ulrich M, Egger D, et al. Prediction of Earth orientation parameters by artificial neural networks[J]. Journal of Geodesy, 2002, 76(5): 247-258.

[5] 王琪洁, 廖得春, 周永宏. 地球自转速率变化的实时快速预报[J]. 科学通报, 2007, 52(15): 1728-1731.

[6] Wang Qijie, Liao Dechun, Zhou Yonghong. Real-time rapid prediction of variations of Earth′s rotation[J]. Chinese Science Bulletin, 2008, 53(7): 969-973.

[7] 王琪洁, 廖得春, 周永宏, 等. 日长变化预报中BP神经网络拓扑结构的选择[J]. 中国科学院上海天文台年刊, 2007(28): 23-29. Wang Qijie, Liao Dechun, Zhou Yonghong, et al. Determination of the topology of the neural networks in the prediction of LOD[J]. Annals of Shanghai Astronomical Observatory Chinese Academy of Scinices, 2007(28): 23-29.

[8] 王宇谱, 吕志平. 小波神经网络日长预报算法研究[J]. 大地测量与地球动力学, 2012, 32(1): 127-131. Wang Yupu, Lü Zhiping. Research on algorithm of wavelet neural network for forecasting length of day[J]. Journal of Geodesy and Geodynamics, 2012, 32(1): 127-131.

[9] 许雪晴, 周永宏. 地球定向参数高精度预报方法研究[J]. 飞行器测控学报, 2010, 29(2): 70-76. Xu Xueqing, Zhou Yonghong. High precision prediction method of Earth orientation parameters[J]. Journal of Spacecraft TT & C Technology, 2010, 29(2): 70-76.

[10]Liao D C, Wang Q J, Zhou Y H, et al. Long-term prediction of the Earth orientation parameters by the artificial neural network technique[J]. Journal of Geodynamics, 2012, 62: 87-92.

[11]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]// Proceedings of 2004 IEEE International Joint Conference on Neural Networks. 2004: 985-990.

[12]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1-3): 489-501.

[13]Akyilmaz O, Kutterer H. Prediction of Earth rotation parameters by fuzzy inference systems[J]. Journal of Geodesy, 2004, 78(1-2): 82-93.

[14]Gérard P, Brain L. IERS conventions (2010) [R]. Germany: Verlag des Bundesamts für Kartographie und Geodasie, 2011: 123-131.

Effects of Training Patterns on Predictions of Variations of Length Of DayUsing an Extreme Learning Machine Neural Network

Lei Yu1,2,3, Cai Hongbing1,2, Zhao Danning1,3

(1. National Time Service Center, Chinese Academy of Sceinces, Xi’an 710600, China; 2. Key Laboratory of PrimaryTime and Frequency Standards, Chinese Academy of Sciences, Xi’an 710600, China; 3. University ofChinese Academy of Sciences, Beijing 100049, China, Email: leiyu@ntsc.ac.cn)

In this paper we investigate effects of training patterns on predictions of varations of Lenth Of Day (LOD) by an Extreme Learning Machine (ELM) neural network. We first discuss three types of training patterns, which are named as interval patterns, continuous patterns, and iterative patterns, respectively. We then present comparisons of the accuracies of the predictions using training patterns of the three types.We have found that results of using interval patterns are the worst; using iterative patterns can yield more accurate short-term predictions (of 1 day to 30 days away) as compared to using continuous patterns, but the situation is reversed in medium-term predictions (of 30 days to 360 days away). As for compution efficiencies, using iterative patterns is noticeably faster than using either of the other two patterns. Iterative patterns are thus suitable for real-time predictions of varations of LOD, while continuous patterns are suitable for medium-term predictions of varations of LOD. Efficiencies and accuracies are the primary concerns in these two types of predictions, respectively.

Earth-Rotation Parameters (ERP); Variations of Length-Of-Day (LOD); Prediction model; Extreme Learning Machine (ELM); Training patterns

中国科学院 “西部之光” 人才培养计划联合学者资助项目.

2014-10-10;修定日期:2014-10-28 作者简介:雷 雨,男,博士. 研究方向:地球自转变化监测与预报. Email: leiyu@ntsc.ac.cn

P227.1

A

1672-7673(2015)03-0299-07

猜你喜欢

学习机跨度神经网络
缓粘结预应力技术在大跨度梁中的应用
大跨度连续钢箱梁桥设计研究分析
大跨度连续刚构桥线形控制分析
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
基于极限学习机参数迁移的域适应算法
基于改进极限学习机的光谱定量建模方法
分层极限学习机在滚动轴承故障诊断中的应用
基于神经网络的拉矫机控制模型建立
基于支持向量机回归和RBF神经网络的PID整定