APP下载

基于R-OSELM的海洋环境数据在线预测

2023-06-14李志刚刘宇杰韩国峰程尚付多民李莹琦

南京信息工程大学学报 2023年1期

李志刚 刘宇杰 韩国峰 程尚 付多民 李莹琦

摘要为及时辨识海洋环境的变化趋势和降低长期累积的海洋环境数据对预测模型的影响,提出一种基于循环在线顺序极限学习机(Recurrent Online Sequential Extreme Learning Machine R-OSELM)的海洋环境数据在线预测模型.采用完全在线的方法初始化海洋环境数据训练集,通过在线顺序极限学习机算法对已有的海洋环境数据进行逐块输入,利用极限学习机的自动编码技术与一种归一化方法对输入权重循环处理,实现预测模型的在线更新,最后完成对海洋环境数据的在线预测.使用该模型对溶解氧、叶绿素a、浊度、蓝绿藻进行预测,结果表明R-OSELM模型的预测精度高于对比模型,确定其具备海洋环境数据在线预测能力,可为海洋水域水体富营养化与海洋环境污染预警提供参考.

关键词海洋环境数据;时间序列预测;在线预测;在线顺序极限学习机;循环神经网络

中图分类号

TP311.13;P714

文献标志码

A

收稿日期

2022-02-09

资助项目

国家重点研发计划 (2017YFE0135700);河北省高等学校科学技术研究项目 (ZD2021088);唐山市科技计划 (19150230E)

作者简介李志刚,男,博士,教授,研究方向为数据挖掘.lizhigang@ncst.edu.cn

李莹琦(通信作者),女,讲师,研究方向为机器学习理论与应用研究.liyingqi@ncst.edu.cn

0 引言

随着人类活动的加剧,海洋海域的自然生态环境遭到了严重的破坏[1].随着信息技术的发展,海洋环境数据的获取已经成为可能.通过数据分析[2]的手段,来对海洋环境数据实施监控是可行的.为保护海洋生态系统,对海洋环境污染提供预警,许多学者利用神经网络模型预测海洋环境数据.在海洋水质预测方面,现有的预测模型在训练方式上使用批量学习算法[3-5],即每当收到新数据时,批量学习过去的数据和新的数据来重新训练模型.在海洋环境工程应用中,当监测站采集到的海洋环境训练样本发生变化或者有新的海洋环境训练样本加入时必须对全部海洋环境训练样本重新进行训练,这将浪费额外的计算资源.在离线预测中,数据被输入到一个固定的公式或训练好的模型中,忽略对模型的更新,从而导致其学习效率低下,难以满足模型在线预测的要求.所以,将在线预测方法应用于海洋环境数据预测具有重要意义.

近年来,已提出许多在线预测模型和方法,如滑动时间窗方法、在线顺序极限学习机等.滑动时间窗方法是将数据以等量样本选择的方式进行在线预测,但预测模型本身没有随时间序列在线更新和动态学习的能力,导致预测精度不优秀.海洋环境数据在线预测是逐个或逐块学习已有的海洋环境数据,并对未来的海洋环境数据进行预测,从而对海洋环境实现污染监测和动态维护.在海洋环境预报中,海洋环境数据的生成是连续的,为提高学习效率,模型更新是不可避免的.但在新数据不断到来的情况下,频繁地更新模型计算成本高昂.在线顺序极限学习机(Online Sequential Extreme Learning Machine,OS-ELM)[6-8]会在新数据到达时以较低的成本自动更新(然后可以丢弃新数据)模型方程,通过使用递归最小二乘法随机初始化输入权重和更新输出权重,使网络能够逐个或逐块学习数据.同时,通过应用递归最小二乘法的遗忘因子,OS-ELM可以快速适应新的输入模式,基于后续数据和随机选择隐藏节点参数更新权重使该方法快速准确.但是OS-ELM是针对单层前馈神经网络的,并且其输入权重无法调整,而循环神经网络(Recurrent Neural Network,RNN)[9-11]则具有记忆过去事件的能力.RNN在连续序列数据建模方面不仅考虑当前的输入,而且还使用它以前学到的东西.但是RNN在学习过程中存在训练集长度过大导致的梯度消失或爆炸问题.因此,需要探索能够面对长期累积的海洋环境数据保证预测精度的在线预测方法.

面对长期累积的海洋环境数据,现有的在线预测模型自身没有随时间序列在线更新和动态学习的能力,导致模型预测精度下降.在OS-ELM的基础上,以“调整输入权重反馈更新”为原则,本文提出了基于循环在线顺序极限学习机(Recurrent Online Sequential Extreme Learning Machine,R-OSELM)的海洋环境在线预测模型.以海洋环境时间序列为例进行建模和在线预测实验验证,结果表明,R-OSELM与其他在线预测模型相比对海洋环境数据在线预测精度较好,可以满足海洋大数据观测监测服务平台对海洋环境数据在线预测的更高需求.

1 R-OSELM模型

1.1 模型结构

R-OSELM是一种改进的OS-ELM,它将两种新的方法应用于传统的OS-ELM:具有归一化的自动编码技术和RNN结构的反馈更新输入权重,如图1所示.R-OSELM模型的構造:在RNN框架中,其n维输入层通过输入权重W连接到L维隐藏层,隐藏层通过输出权重β连接到m维输出层,隐藏层通过隐藏权重V也连接到自身.

R-OSELM模型还定义了两个辅助ELM-AE(Extreme Learning Machine-Auto Encoder)网络,两个辅助ELM-AE网络的工作原理是通过调整隐藏层的节点数,将输入特征压缩,一个用于更新输入权重称为输入权重下极限学习机自动编码器,另一个用于更新隐藏权重称为隐藏权重下极限学习机自动编码器(图2).在输入权重下极限学习机自动编码器中,其输入层通过输入权重连接到隐藏层,隐藏层通过输出权重连接到输出层.输入权重下极限学习机自动编码器的输入层维数和输出层维数与R-OSELM的输入层维数相同,输入权重下极限学习机自动编码器的隐藏层维数与R-OSELM的隐藏层维数相同.隐藏权重下极限学习机自动编码器的结构同理,它的输入层、输出层和隐藏层的维数与R-OSELM的隐藏层维数相同.

每当新的海洋环境数据输入时,采用递归最小二乘法随机初始化输入权重与隐藏权重下极限学习机自动编码器.极限学习机的自动编码技术(ELM-AE)[12]调整隐藏节点数将输入特征压缩,然后通过应用递归最小二乘法的遗忘因子,使其可以快速适应新的输入模式.在OS-ELM的非线性激活层的之前加入一个归一层,通过减去特征的平均值,再除以特征的方差,简单地归一化输入特征.连接隐藏层的隐藏权重也会在新输入到达时更新,使用与更新输入权重相同的技术,这样可使模型持续更新输入与输出权重.将这种在线学习方法用于学习RNN,最后可得模型的预测输出.应用极限学习机的自动编码器和归一化方法来调整输入权重的R-OSELM模型,使预测模型随时间序列的更新能够动态调整,有利于提高海洋环境数据预测精度.R-OESELM的结构特点决定了其训练方式的特殊性.

1.2 模型算法

R-OSELM模型组成包括两个阶段:初始化阶段和在线顺序学习阶段.

1.2.1 初始化阶段

对R-OSELM使用一种全在线初始化方法,不需要初始數据集.公式如下:

β 0=0, Ρ 0=ΙC-1.  (1)

利用式(1)设定其初始输出权重β 0和初始辅助矩阵P 0.其隐藏层输出的初始值H 0是随机生成的,输入权重下极限学习机自动编码器的输入权重Wi和隐藏权重下极限学习机自动编码器的输入权重Wh也随机赋值.用式(1)对它们的输出权重βi 0,βh 0和相应的辅助矩阵Pi 0,Ph 0初始化.

当有一个新的海洋环境训练样本为Nk+1的输入数据块到达时,其中k+1表示第k+1个海洋环境训练样本输入数据块,k从0开始递增时,进行下面的学习过程.为了数学上的简单性,将海洋环境数据训练样本Nk+1的大小设置为1.

1.2.2 在线顺序学习阶段

1)更新输入权重.首先使用输入权重下极限学习机自动编码器更新R-OSELM的输入权重.输入权重下极限学习机自动编码器将第k+1个输入样本x(k+1)传送到隐藏层.输入权重下极限学习机自动编码器隐藏层的输出矩阵Hi k+1计算公式如下:

Hi k+1=g(norm(Wi k+1x(k+1))), (2)

norm(x)=x-μiσi2+ε,  (3)

μi=1L∑Lj=1x j, (4)

σi=1L∑Lj=1(x j-μi)2,  (5)

式(5)中,x j表示训练样本,具有L个隐藏节点的输出.在非线性激活层的前面加入norm函数作为归一化层,然后使用递归最小二乘法计算输入权重下极限学习机自动编码器的输出权重βi k+1:

βi k+1=βi k+Pi k+1Hi k+1T(x(k+1)-Hi k+1βi k),  (6)

Pi k+1=1λPi k-Pi kHi k+1T(λ2+λHi k+1Pi kHi k+1T)-1Hi k+1Pi k,  (7)

式(7)中λ为常数遗忘因子.用T k+1代替x(k+1)执行无监督自动编码[13],公式如下:

β k+1=β k+P k+1HT k+1(T k+1-H k+1β k).  (8)

将βi k+1的转置作为R-OSELM模型的输入权重W k+1:

W k+1=βi k+1T.  (9)

2)更新隐藏权重.同样,使用隐藏权重下极限学习机自动编码器更新R-OSELM的隐藏权重.隐藏权重下极限学习机自动编码器将R-OSELM的第k个隐藏层输出H k输送到隐藏层,隐藏权重下极限学习机自动编码器隐藏层的输出矩阵Hh k+1计算公式如下:

Hh k+1=g(norm(Wh k+1H k)).  (10)

执行无监督自动编码[13],使用递归最小二乘法计算隐藏权重下极限学习机自动编码器的输出权重βh k+1:

βh k+1=βh k+Ph k+1Hh k+1T(H k-Hh k+1βh k), (11)

Ph k+1=1λPh k-Ph kHh k+1T(λ2+λHh k+1Ph kHh k+1T)-1Hh k+1Ph k, (12)

把βh k+1的转置当作R-OSELM的隐藏权重V k+1:

V k+1=βh k+1T.  (13)

3)前馈传播.用第k+1个输入样本x(k+1)来计算R-OSELM的隐藏层输出矩阵H k+1,公式如下:

H k+1=g(norm(W k+1x(k+1)+V k+1H k)).  (14)

4)更新输出权重.利用式(8)和式(15)更新R-OSELM的输出权重β k+1:

P k+1=P k-P kHT k+1(I+H k+1P kHT k+1)-1H k+1P k. (15)

本文提出的R-OSELM不限于单个隐藏层,而是可以有m个隐藏层,此时R-OSELM有m个输入权重下极限学习机自动编码器、m个隐藏权重下极限学习机自动编码器.在此更深层次的结构中,可以学习更复杂的海洋环境数据特征.

1.3 算法流程(见下页)

2 仿真实验与性能评估

2.1 实验数据集

本文使用中国北部海湾海域某定点浮标的实测数据验证R-OSELM模型性能.数据样本选择中国某海域的海洋环境数据,样本选择周期为5 min,涵盖气象参数和水质参数两种类型.在线监控的样本特征属性由溶解氧、叶绿素a、浊度和蓝绿藻组成.选取4种因素各8 000个海洋环境数据实验样本.监测的海洋生态环境原始数据变化曲线如图3所示.

2.2 在线预测模型性能分析

为使模型在在线训练阶段效果更佳,将模型输入维数设置为100.在模型参数选择上,将遗忘因子λ=0.915,隐节点数设置为21,采用sigmoid作为激活函数.本文选用标准均方根误差(NRMSE)、平均绝对百分比误差(MAPE)和决定系数(R2)作为模型预测性能的度量标准.

R-OSELM算法流程

步骤1(初始化阶段):1)设置隐藏节点数目L,随机生成隐藏层输出的初始值H 0,输入权重下极限学习机自动编码器的输入权重Wi,隐藏权重下极限学习机自动编码器的输入权重Wh和隐藏层偏置σi(i=1,2,…,L).

2)使βi 0=βh 0=0,Pi 0=Ph 0=(I/C)-1.步骤2(在线顺序学习阶段):For k=1,2,…

① 获得第(k+1)个海洋环境数据训练样本块(x i,t i)∑k+1j=0N j

i=∑kj=0N j+1,其中N j表示第j个海洋环境数据训练样本块的数目;

② 由式(2)计算Hi k+1,由式(7)和式(8)计算Pi k+1和βi k+1;

③ 由式(10)计算Hh k+1,由式(12)和式(11)计算Ph k+1和βh k+1;

④ 把βi k+1和βh k+1转置分别得出W k+1和V k+1;

⑤ 将W k+1和V k+1代入式(14)计算出H k+1;

⑥ 由式(8)和式(15)更新R-OSELM的输出权重β k+1.

重复步骤2直到没有新数据到达.

End

NRMSE=∑Nt=1(y r(t)-y p(t))2Nσ2,  (16)

MAPE=1N∑Nt=1y r(t)-y p(t)y p(t)×100%,  (17)

R2=1-∑Nt=1(y r(t)-y p(t))2∑Nt=1 (y r(t)- r(t))2,  (18)

式中,N为海洋数据集的长度,y r(t)为t时刻的实际数据, r(t)为实际数据的平均值,y p(t)为模型在t时刻的预测数据,σ2为预测值的方差

OS-ELM仅使用ELM-AE更新输入权重,虽可获得更好的隐藏层特征,但OS-ELM的性能会下降.本实验首先验证R-OSELM在不加入归一化层前,ELM-AE对OS-ELM的影响,将OS-ELM与OS-ELM-AE的隐藏节点数分别设置为5、15、20、25,以NRMSE为度量标准.实验结果表明,OS-ELM在仅使用ELM-AE后,随着隐藏节点数量的增加,模型的性能变得更差,如图4所示.所以,需要对OS-ELM-AE再使用一种归一化方法提升模型的性能.

海洋环境数据的预测和实际对比如图5所示,可知4种海洋环境因素的预测曲线基本能拟合实际数据的变化情况,能够准确地反映出未来海洋环境的变化趋势,验证了R-OSELM在海洋环境数据在线预测任务中的可行性.

4种海洋环境数据预测结果如表1所示.其中:NRMSE的值均小于0.1;MAPE的值均小于10%,尤其是溶解氧與浊度的MAPE值小于1%;R2均大于0.99.结果表明R-OSELM模型拟合效果优秀.

2.3 与对比模型的性能比较

挑选处理在线预测任务的3种传统模型:OS-ELM、在线LSTM[14]和在线SVR[15]为对比模型,对溶解氧、叶绿素a、浊度和蓝绿藻4种海洋环境数据进行在线预测实验,验证R-OSELM在海洋环境数据在线预测任务中的可行性.为保证实验的可对比性,对比模型的输入层尺寸和输出层尺寸与R-OSELM相同.

图6给出了R-OSELM与其他3种模型对溶解氧、叶绿素a、浊度和蓝绿藻数据的NRMSE对比,可以看出R-OSELM明显优于其他3种对比模型,其NRMSE值均在0.1以下.由图6可知,在线LSTM与在线SVR预测能力明显不如R-OSELM和OS-ELM,这可能是由于OS-ELM拥有对模型在线更新的能力,而前2种在线方法只是在于对样本输入的处理上.R-OSELM在加入提出的归一化方法对输入权重不断更新后,效果优于OS-ELM,能使其性能进一步提高.

总体来说,R-OSELM在海洋环境数据在线预测任务中表现稳定,能有效实现对海洋环境数据的在线预测,提升预测的准确性.

3 结语

本文提出一种R-OSELM的海洋环境数据在线预测模型,对长期累积的海洋环境数据,随海洋环境时间序列在线更新,动态调整在线预测模型提升预测精度.该模型使用ELM-AE用于提取更好的输入特征,之后使用归一化处理并对隐藏权重进行循环输入,使其能够很好地训练循环神经网络.实验结果表明R-OSELM应用于海洋环境数据在线预测任务,预测精度有显著提升.R-OSELM的特殊结构不仅在初始学习阶段能够快速学习输入模式,而且比其他在线预测方法更能快速适应输入模式的变化,可以高效完成海洋环境数据在线预测任务,满足对海洋水质环境在线预测的需求.

参考文献

References

[1] 王利明,马蕾,杨晓飞,等.渤海环境污染的治理与保护对策[J].中国资源综合利用,2020,38(3):109-111

WANG Liming,MA Lei,YANG Xiaofei,et al.The countermeasures for the pollution control and protection in the Bohai Sea[J].China Resources Comprehensive Utilization,2020,38(3):109-111

[2] Babak V P,Babak S V,Myslovych M V,et al.Methods and models for information data analysis[M]//Diagnostic Systems for Energy Equipments.Cham:Springer International Publishing,2020:23-70

[3] 豆荆辉,夏瑞,张凯,等.非参数模型在河湖富营养化研究领域应用进展[J].环境科学研究,2021,34(8):1928-1940

DOU Jinghui,XIA Rui,ZHANG Kai,et al.Application progress of non-parametric models in the field of river and lake eutrophication research[J].Research of Environmental Sciences,2021,34(8):1928-1940

[4] 张雪薇,韩震.基于Conv GRU深度学习网络模型的海表面温度预测[J].大连海洋大学学报,2022,37(3):531-538

ZHANG Xuewei,HAN Zhen.Sea surface temperature prediction based on ConvGRU deep learning network model [J].Journal of Dalian Ocean University,2022,37(3):531-538

[5] 孙龙清,吴雨寒,孙希蓓,等.基于IBAS和LSTM網络的池塘水溶解氧含量预测[J].农业机械学报,2021,52(增刊1):252-260

SUN Longqing,WU Yuhan,SUN Xibei,et al.Dissolved oxygen prediction model in ponds based on improved beetle antennae search and LSTM network[J].Transactions of the Chinese Society for Agricultural Machinery,2021,52(sup1):252-260

[6] Cao W P,Ming Z,Xu Z W,et al.Online sequential extreme learning machine with dynamic forgetting factor[J].IEEE Access,2019,7:179746-179757

[7] Cao W W,Yang Q M.Online sequential extreme learning machine based adaptive control for wastewater treatment plant[J].Neurocomputing,2020,408:169-175

[8] Al-Dhief F T,Baki M M,Latiff N M A,et al.Voice pathology detection and classification by adopting online sequential extreme learning machine[J].IEEE Access,2021,9:77293-77306

[9] 杨丽,吴雨茜,王俊丽,等.循环神经网络研究综述[J].计算机应用,2018,38(增刊2):1-6,26

YANG Li,WU Yuxi,WANG Junli,et al.Research on recurrent neural network[J].Journal of Computer Applications,2018,38(sup2):1-6,26

[10] Li L,Jiang P,Xu H,et al.Water quality prediction based on recurrent neural network and improved evidence theory:a case study of Qiantang River,China[J].Environmental Science and Pollution Research,2019,26(19):19879-19896

[11] Ye Q Q,Yang X Q,Chen C B,et al.River water quality parameters prediction method based on LSTM-RNN model[C]//2019 Chinese Control and Decision Conference (CCDC).June 3-5,2019,Nanchang,China.IEEE,2019:3024-3028

[12] Ding S F,Zhang N,Zhang J,et al.Unsupervised extreme learning machine with representational features[J].International Journal of Machine Learning and Cybernetics,2017,8(2):587-595

[13] Liu Z,Huang S L,Jin W,et al.Broad learning system for semi-supervised learning[J].Neurocomputing,2021,444:38-47

[14] Bakhashwain N,University K F,Sagheer A,et al.Online tuning of hyperparameters in deep LSTM for time series applications[J].International Journal of Intelligent Engineering and Systems,2021,14(1):212-220

[15] Hu Z G,Kang H,Zheng M G.Stream data load prediction for resource scaling using online support vector regression[J].Algorithms,2019,12(2):37

Online prediction of marine environment data based on R-OSELM

LI Zhigang1 LIU Yujie1 HAN Guofeng2 CHENG Shang1 FU Duomin1 LI Yingqi1

1College of Artificial Intelligence/Hebei Key Laboratory of Industrial Intelligent Perception,

North China University of Science and Technology,Tangshan 063210

2Tangshan Employment Service Center,Tangshan 063000

Abstract In order to timely identify the changing trend of marine environment and reduce the influence of long-term accumulated marine environment data on prediction model,an online prediction model of marine environment data based on recurrent online sequential extreme learning machine (R-OSELM) is proposed.The marine environment data training set is initialized by an online method,the existing marine environment data is input block by block via online sequential extreme learning machine algorithm,and the input weight is cyclically processed by automatic coding technology of extreme learning machine and a normalized method,which realize the online update of the prediction model.Finally,online prediction of marine environment data is completed.The model is then used to predict dissolved oxygen,chlorophyll A,turbidity,and blue-green algae.The results show that the prediction accuracy of R-OSELM model is better than that of the comparison model.It is verified that the proposed R-OSELM model is capable of online prediction of marine environment data,which can provide support for early warning of marine eutrophication and other marine environmental pollution.

Key words marine environment data;time series prediction;online prediction;online sequential extreme learning machine;recurrent neural network