APP下载

基于MA-FOSELM-OTF的海洋养殖环境数据在线预测

2022-12-08李志刚刘宇杰

关键词:学习机海洋样本

李志刚, 刘宇杰

(1. 华北理工大学人工智能学院, 河北 唐山 063210; 2. 河北省工业智能感知重点实验室, 河北 唐山 063210)

海洋养殖主要养殖经济价值较高的鱼、虾、贝及棘皮动物(如刺参)等.海洋养殖环境能影响养殖生物的生长、繁殖以及其生理与生态平衡.随着海洋养殖规模的扩展,养殖环境的酸碱度、化学需氧量、气压、溶解氧、水温和盐度等数据的在线实时预测对于养殖产量和质量以及海洋生态环境的保护尤为关键.常用的传统经验法、仪器法、化学法或离线分析法等海洋养殖环境数据测量方法的测定周期较长且无法表征海洋养殖环境数据中的非线性关系, 难以提供实时且稳定可靠的海洋养殖环境数据信息[1].人工智能方法则擅长建模非线性关系, 其中极限学习机[2](extreme learning machine, ELM)因具有单个隐藏层, 故网络参数较少且计算效率高.许多学者利用极限学习机的算法特性对海洋环境预测进行了大量研究.例如, 宦娟等[3]将k-means聚类算法与极限学习机相结合, 完成海洋养殖中溶解氧的预测; Yaseen等[4]采用完全正交分解学习工具优化极限学习机模型内部神经元系统的隐藏层输出,提升极限学习机的预测性能.然而,上述方法中极限学习机处于离线机制,无法处理逐个或批量到达的训练数据.在实际应用中,海洋养殖环境数据的在线预测须保证持续学习,以及时处理新到达的数据,从而获得完整的数据集.Alizamir等[5]提出利用在线顺序极限学习机(online sequential extreme learning machine, OS-ELM)逐个或分块学习数据,通过水质参数预测海洋养殖环境中叶绿素a的浓度; Attar等[6]提出一种自回归条件异方差OS-ELM, 进一步提高了ELM的预测能力且满足在线预测的需求.

虽然OS-ELM能够在线连续处理分批到达的海洋养殖环境新数据且运行速度快, 但其后续学习易受过时环境数据的不良影响且模型单一缺乏稳定性, 导致学习网络的稳定性下降和输出结果欠佳[7-9].集成学习[10]则采用多个基学习器进行学习, 再整合各个基学习器的学习结果, 从而获得比单个模型更好的学习效果, 该方法能有效解决单一模型过度训练的影响和提高预测性能.Fang等[11]将模型平均化(model averaging, MA)集成方法应用于预测任务, 预测精度高于单一模型.本文拟采用MA算法, 同时引入遗忘机制[12](obsolete to forget, OTF)集成优化全在线顺序极限学习机(fully online sequential extreme learning machine, FOSELM), 提出基于MA-FOSELM-OTF的海洋养殖环境在线预测模型, 以期降低学习过程中过时数据对后续学习的不良影响和提升模型输出效果.

1 MA-FOSELM-OTF模型

MA-FOSELM-OTF模型架构由M个FOSELM网络集成形成, FOSELM网络具有输入层、隐藏层和输出层等3层结构, 每个FOSELM网络包含相同的激活函数和神经元数量. 首先单独训练各网络, 然后对所有FOSELM网络训练后的输出结果求和取平均值, 最终得到MA-FOSELM-OTF的输出结果.MA集成方式能够大幅降低由FOSELM模型输入权重初始化引起的随机性.由于训练数据仅在特定时段内有效, 而新的海洋养殖环境数据样本比旧的海洋养殖环境数据样本更具参考价值,且能更有效地反映海洋养殖环境的现阶段状态, 故引入OTF算法, 对不同时间到达的数据样本赋以不同的权重, 使得海洋养殖环境数据样本以不同的比重更新FOSELM.MA-FOSELM-OTF模型如图1所示.

图1 MA-FOSELM-OTF模型架构示意图Fig.1 Schematic diagram of MA-FOSELM-OTF model architecture

基于MA-FOSELM-OTF模型进行海洋养殖环境数据在线预测的具体流程如下: 1) 对海洋环境数据进行标准化及平滑预处理, 消除极端值和异常值对预测精度的影响; 2) 通过引入OTF算法的FOSELM网络对海洋养殖环境数据进行递推计算, 得到每个单独训练的FOSELM网络的输出结果; 3) 采用MA算法集成所有具有相同激活函数和神经元数量的FOSELM网络, 对FOSELM网络的全部输出结果求和并取平均值得到MA-FOSELM-OTF的最终输出.

2 本文算法

2.1 FOSELM非线性逼近

选择每次训练100个海洋养殖环境数据预测1个海洋养殖环境数据的模型训练方式, 在FOSELM的初始阶段采用全在线学习方式构建网络.

给定按顺序到达网络的任意海洋养殖环境数据(xi,ti),i=1,2,…,q.假设FOSELM网络含1个隐藏层和L个隐藏节点, 激活函数为g(x).如果网络输出可以零误差地逼近海洋养殖环境数据, 则FOSELM的输出函数为

(1)

其中aj为输入权重,bj为第j个隐藏节点的偏置值,βj为第j个隐藏层节点的输出权重,G(aj,bj,xi)为输入xi的第j个隐藏层节点的输出,ti为实际数据(即数据标签).

FOSELM算法分为如下2个阶段:

1) 初始化阶段.首先, 设定初始输出权重β0=0和初始辅助矩阵P0=(I/C)-1,I为单位矩阵,C为正则化常数; 其次, 随机生成隐藏层输出矩阵的初始值H0和隐藏层节点参数(aj,bj),j=1,2,…,L;

2) 在线顺序学习阶段.步骤如下:

Hβ=T,

(2)

式中隐藏层输出矩阵

(3)

实际海洋养殖环境数据

(4)

② 计算输出权重βk+1, 更新Pk+1和βk+1:

(5)

(6)

其中遗忘因子λ∈(0,1], 其作用是削弱旧的海洋养殖环境数据样本的影响, 从而间接增强新的海洋养殖环境数据样本的影响;

③ 当j=k+1时, 当数据处理完后,调入新一批数据,则程序跳转至在线顺序学习阶段的第一步, 直至新数据全部处理完毕.

2.2 MA集成

以FOSELM为基学习器, 同时对每个FOSELM单独训练,得到所有FOSELM训练后的输出结果,再将所有输出结果求和取平均值,所得平均值即最终输出.假设每个FOSELM网络的输出为fj(xi),j=1,2,…,M, MA-FOSELM-OTF的最终输出为

(7)

3 实验仿真与性能评估

3.1 实验数据

本实验所用海洋养殖环境预测的数据为中国沿海地区的真实浮标观测数据集,采集于海、陆、空、天四维立体化海洋监测网获取的海洋环境数据.根据该数据集对水质和气象两种类型中的酸碱度、化学需氧量、气压、溶解氧、水温和盐度等6种海洋环境因素进行实验仿真分析.样本选择周期为5 min, 分别从各因素角度选择4 000个样本,建立海洋养殖环境的在线集成预测模型.为了使MA-FOSELM-OTF模型的在线训练阶段效果更佳, 设置模型输入维数为100,即每组数据集的前100个数据作为输入.

3.2 预测效果评价指标

1) 平均绝对百分比误差(mean absolute percentage error, MAPE).MAPE值越小,模型预测的精度越高, 预测效果越好.MAPE计算式如下:

(8)

式中N为海洋养殖环境数据的样本数量,yr(t),yp(t)分别为模型中第t个海洋养殖环境样本的实际数据和预测数据.

2) 标准均方根误差(normalized root mean square error, NRMSE).NRMSE可度量预测输出与实际输出之间的距离.NRMSE计算式如下:

(9)

式中σ2为预测值的方差.

3.3 预测性能评估

利用五折交叉验证法选择FOSELM最佳隐藏节点数, 激活函数选用sigmoid函数.在海洋环境数据集上进行10次模拟试验,使网络提供最低的验证误差来选择最佳隐藏节点数,最终得到FOSELM的最佳隐藏节点数为20.FOSELM的参数确定后,在酸碱度和化学需氧量等数据集上验证FOSELM-OTF的性能, 分别设定遗忘因子为0.905、0.910、0.915、0.920、0.925进行对比实验, 结果如图2所示.由图2可见: 引入OTF的FOSELM在各数据集的在线预测任务中均表现出良好的预测性能; 所有评估模型在遗忘因子为0.915时的预测性能最佳,此时分配给过时样本的权重能最大程度地降低对模型后续学习的影响.

图2 FOSELM-OTF在不同遗忘因子λ下的NRMSE和MAPEFig.2 Comparison of NRMSE and MAPE of FOSELM-OTF with different forgetting factor λ

设置MA-FOSELM-OTF中每个FOSELM网络的隐藏节点数为20, 设定遗忘因子λ=0.915.为验证MA集成方法的有效性且降低偶然性对实验的影响, 对单一FOSELM模型与集成不同基学习器数目的MA-FOSELM-OTF模型分别进行10次仿真实验, 所得结果的平均值即预测结果.表1显示了利用MA-FOSELM-OTF模型进行盐度预测的结果.由表1可知: 1) MA-FOSELM-OTF模型的NRMSE和MAPE值远低于FOSELM的, 集成后的预测精度显著提高, 故MA-FOSELM-OTF适用于对输出精准性要求较高的海洋养殖领域; 2) MA-FOSELM-OTF中集成6个基学习器时的NRMSE和MAPE值最低, 其模型运行时间仅较集成3,9个基学习器时分别多3.36,4.69 s.虽然集成6个基学习器比集成3个基学习器时运行时间长3.36 s, 但是相比于样本采样周期5 min是可以接受的, 故选择MA-FOSELM-OTF的最优集成数为6个.

表1 MA-FOSELM-OTF模型的盐度预测结果Tab.1 Prediction results of salinity by MA-FOSELM-OTF model

为验证MA-FOSELM-OTF在海洋养殖环境预测任务中的可行性, 设置MA-FOSELM-OTF集成6个基学习器,对酸碱度、化学需氧量、气压、溶解氧、水温和盐度等6种海洋养殖环境因素进行在线预测, 结果如图3所示.由图3可知: MA-FOSELM-OTF有效拟合了酸碱度、化学需氧量、气压、溶解氧、水温和盐度时序数据的变化趋势,能够准确地反映出未来海洋养殖环境的变化趋势.

图3 海洋养殖环境实际数据与预测数据对比结果Fig.3 Comparison between actual data and predicted data of marine aquaculture environment

为更好地验证MA-FOSELM-OTF在海洋养殖环境在线预测任务中的优越性, 选择RandomForest模型[13]、OS-ELM模型[5]、ELM模型[2]和长短期记忆网络[14](long short-term memory, LSTM)模型等4种时间序列预测模型, 在气压数据集上进行20次对比实验, 结果如表2所示.由表2可知: MA-FOSELM-OTF的评估指数NRMSE和MAPE明显低于其他4种对比模型, 且运行时间短, 能满足在线预测的需求, 其原因是MA-FOSELM-OTF通过集成基学习器大幅提升了预测精度.

表2 MA-FOSELM-OTF与4种对比模型的气压预测结果Tab.2 Results of MA-FOSELM-OTF and four comparison models for air pressure prediction

4 结论

本文提出了基于MA-FOSELM-OTF的海洋养殖环境在线预测模型, 结合在线学习算法与集成学习算法的优势解决海洋养殖环境在线预测问题.在6种海洋养殖环境数据集上验证OTF机制的有效性,设定最佳遗忘因子, 通过选择基学习器集成数得到MA-FOSELM-OTF的最佳参数, 并对比4种时间序列预测模型验证了MA-FOSELM-OTF模型的有效性.在MA-FOSELM-OTF中, 利用FOSELM的在线顺序学习能力使得模型具备在线更新能力; 引入OTF机制,减少过时数据的影响;在MA集成框架下, 以FOSELM为基学习器,对输出结果求和取平均值,提高了预测精度.实验结果表明, 本文MA-FOSELM-OTF模型具有更高的准确性和优越性,可应用于海洋养殖环境在线预测平台.然而, MA-FOSELM-OTF的并行集成不能确保引入的每一个基础模型都对结果产生促进作用, 故未来工作将进一步考虑对基础模型输出分配权重或采用多种基础模型融合寻优等方法.

猜你喜欢

学习机海洋样本
用样本估计总体复习点拨
极限学习机综述
推动医改的“直销样本”
基于极限学习机参数迁移的域适应算法
爱的海洋
分层极限学习机在滚动轴承故障诊断中的应用
第一章 向海洋出发
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本
一种基于AdaBoost的极限学习机分类方法