APP下载

优化NARX神经网络对时间序列溶解氧的预测

2022-05-13周添一刘振鸿

关键词:实测值神经网络水质

周添一,徐 庆,刘振鸿,高 品

(1.东华大学 环境科学与工程学院,上海 201620;2.上海市环境监测中心,上海 200235)

溶解氧(dissolved oxygen,DO)是评价水体质量及水生态系统安全的关键水质指标之一,是水体自净的重要条件[1],能够反映水体受污染程度,同时也是地表水环境质量考核指标之一[2-3],因此监测并预警水体DO质量浓度对维持水生态安全,以及地表水环境质量考核和环境管理决策具有重要意义。

水体中DO质量浓度受温度、pH、耗氧污染物浓度等因素影响显著[4],具有时序性、非线性、不稳定性等特征。目前,针对水体DO质量浓度的传统预测方法主要有回归预测法[5]、时间序列法[6]、水质模型预测法等。例如:于慧等[7]采用优化后的灰色GM(1,1)模型对海河三岔口断面的DO等多项指标年度变化趋势进行预测,效果良好,预测指标的相对误差为7.5%。石子泊等[8]采用自回归差分移动平均模型结合小波变换对黑龙江黑河流域未来5星期的DO质量浓度进行预测,预测平均绝对百分误差(mean absolute percentage error,MAPE)约为0.29%,均方根误差(root mean square error,RMSE)为2.23 mg/L,但由于以7 d为单位时间对DO质量浓度进行预测,预测频率低,无法为在线水质监测提供预警依据。吴慧英等[9]结合主成分分析(principal component analysis,PCA)和支持向量机(supporting vector machine,SVM)法对养殖池塘DO质量浓度进行预测,结果表明其MAPE和RMSE值分别为3.43%和2.19 mg/L,但SVM算法难以实现大规模训练样本,对大体量的水质监测数据利用率较低。

人工神经网络具有强大的非线性建模能力、自主学习能力和容错能力,以及对非线性数据预测具有精确度高等优点[10],已被广泛应用于水质预测研究和实践[11-12]。非线性有源自回归模型(nonlinear autoregressive with exogenous inputs,NARX)是一种外部输入型的动态神经网络模型,可较好地描述动态系统特征,实现对复杂动态系统的建模。Tripura等[13]采用NARX神经网络模型对印度阿萨姆邦巴拉克河体积流量进行预测,取得了理想的预测效果。Sofiane等[14]建立的一种基于NARX神经网络的预测模型用于预测短期水流量的变化趋势,准确预测时间可达12 h。刘墨阳等[15]结合NARX神经网络模型与小波分析法对水位进行预测,结果表明其短期预测效果较好。本文以上海市某主要支流具有代表性的河流监测断面为研究对象,基于PCA和灰色关联分析(grey relation analysis,GRA)优化的NRAX神经网络模型,即PCA-NARX和GRA-NARX模型,对比分析两种模型对时间序列DO质量浓度变化的短期(48 h)预测效果,以期为地表水水质预测和监管提供方法借鉴。

1 研究方法

1.1 NARX神经网络

NARX神经网络是一种多层前馈神经网络,由于其在输入层加入了延时层与反馈层,因此输入的信息同时包含当前时刻的输入值与历史时刻的输出值,可反映系统的历史状态信息,具有更好的预测精度和自适应能力,是一种有记忆功能的神经网络[16-17],其网络结构模型如图1所示。图中,x(t),…,x(t-n)为输入,n为输入阶数,y(t)为输出,y(t-1),…,y(t-d)为历史时刻的输出,d为延迟层的阶数。

图1 NARX神经网络模型结构示意图Fig.1 Diagram of NARX neural network model structure

1.2 PCA方法

PCA是一种多元统计方法,通常被用于对原始数据进行特征提取和降维,其可将高维的多变量问题转化到低维的少变量空间中进行处理[18],不仅可以减少网络模型输入变量的个数,而且可以简化网络模型结构,计算步骤主要包括数据标准化、计算协方差矩阵、计算特征值与特征向量、计算主成分的贡献率和累计贡献率[19]。

1.3 GRA方法

GRA是一种通过判断各因素之间发展趋势的相似程度,进而衡量各因素之间关联程度的方法[20],计算过程较为简单,原理主要是通过计算与目标序列的关联度并进行排序,进而获得与其关联度较高的序列[21]。本文利用GRA法筛选与DO质量浓度关联度较高的指标以简化网络模型结构,提高预测准确度。

1.4 模型性能评价参数

选取RMSE、MAPE和Pearson相关系数r评价预测模型性能。其中:RMSE用于描述预测值与真实值之间的偏差,RMSE值越小,预测结果越准确;MAPE可反映预测值偏离真实值的百分比;r用于描述模型拟合度,其值越接近1,拟合度越好。具体计算公式如式(1)~(3)所示。

(1)

(2)

(3)

2 数据处理与模型构建

2.1 数据来源

本文以上海市某主要支流具有代表性的监测断面的枯水期水质监测结果为基础,选取2019年1月14日0时至2月19日4时的水质监测数据,包括pH、浊度、水温、DO、电导率、总氮、氨氮、总磷、水中油、水中有机物(UV254)和氧化还原电位(oxidation-reduction potential,ORP)11个指标,每4 h获取一组数据,共212组数据。其中,前200组用于模型训练,后12组用于验证模型预测结果的准确性。

2.2 数据处理

2.2.1 空白数据补全

由于监测设备故障等原因,提取原始数据时发现有数据缺失,因此在数据处理时,对缺失的数据采用前一天同一时间点与其前后时间点的平均值进行填补,如式(4)所示。

(4)

式中:xi为第i时刻的DO质量浓度。

2.2.2 异常数据判断

2.2.3 数据相关性分析

计算DO与其他水质指标之间的Pearson相关系数,如表1所示。由表1可知,DO与氨氮、电导率和总氮的相关系数分别为-0.83、-0.78和-0.73,均有p<0.01,表明DO与氨氮、电导率和总氮之间具有显著相关性。

表1 DO与其他水质指标之间的Pearson相关系数Table 1 Pearson correlation coefficients between DO and other water quality indices

2.3 模型构建

2.3.1 PCA-NARX模型外部输入变量的确定

根据PCA方法原理,对除DO外的10项水质指标进行主成分提取,分别计算主成分特征值λi、贡献率ei和累计贡献率P,结果如表2所示。

由表2可知,前3个主成分的特征值大于1,且累计贡献率为 84.62%>80%,因此可将这3个主成分作为NARX神经网络模型的输入。通过主成分提取,将原来10维的输入降至3维,可简化模型网络结构。3个主成分的成分矩阵如表3所示。

表2 主成分分析计算结果Table 2 Results of principal component analysis

表3 主成分成分矩阵Table 3 Principal component matrix

2.3.2 GRA-NARX模型外部输入变量的确定

根据GRA方法原理,确定DO与其他各水质指标之间的关联度和主次顺序,结果如表4所示。

由表4可知,pH、水中油和ORP与DO的关联度较大,分别为0.796、0.709和0.736,因此将pH、ORP和水中油作为NARX神经网络模型的外部输入。

表4 DO与其他各水质指标之间的灰色关联度Table 4 Grey relation between DO and other water quality indices

2.3.3 模型网络结构的确定

(1)数据选取及划分。在确定的200组数据样本集中,以3项主成分和3项灰色关联度较高的水质指标分别为PCA-NARX和GRA-NARX的外部输入,同时以原始数据中48 h后的DO质量浓度为输出,选取数据样本的70%作为训练集,主要用于模型数据的训练和拟合,同时各选取15%数据样本作为验证集和测试集,验证网络泛化能力和模型预测精度。此外,选用‘trainlm’作为网络的训练函数,根据Levenberg-Marquardt算法(简称L-M算法)进行优化以更新权值。

(2)隐含层神经元数量的确定。PCA-NARX和GRA-NARX神经网络模型的输入层数均为3,输出层数均为1,隐含层神经元数量可通过经验公式确定其范围,如式(5)所示。

(5)

图2 不同隐含层神经元数量下的RMSE、MAPE和r值比较Fig.2 Comparison of RMSE,MAPE and r values with different number of neurons in the hidden layer

分析图2可知,PCA-NARX和GRA-NARX神经网络模型在隐含层神经元数量分别为6和9时性能最优,模型拟合度最好。最优条件下,PCA-NARX模型的RMSE、MAPE和r值分别为0.577 mg/L、4.29%和0.876,而GRA-NARX模型的RMSE、MAPE和r值分别为0.509 mg/L、4.16%和0.881。相比之下,GRA-NARX模型整体性能更优。基于此,本研究选取隐含层神经元数量为9时的GRA-NARX模型进行后续调试。

(3)延迟层阶数的确定。目前,针对如何确定延迟层阶数暂无相应的理论指导,本研究选取延迟层阶数为4~8,通过对比GRA-NARX神经网络模型在相同隐含层神经元数量条件下整体RMSE、MAPE和r值,进而确定延迟层阶数,结果如表5所示。由表5可知,当延迟层阶数为6时,模型整体性能最好。

表5 GRA-NARX神经网络模型在不同延迟层 阶数下的RMSE、MAPE和r值Table 5 RMSE,MAPE and r values of GRA-NARX neural network model with different delay sizes

2.4 模型训练结果

基于上述确定的模型网络结构,对GRA-NARX和PCA-NARX神经网络模型进行训练。

DO质量浓度预测值和误差(预测值与真实值的差)的时间序列变化情况分别如图3和4所示。由图3和4可以看出,GRA-NARX和PCA-NARX模型对DO质量浓度的预测值均与实测值变化趋势一致,误差值在0上下波动,表明模型预测值与实测值吻合度均较好。相比PCA-NARX模型,GRA-NARX模型对DO质量浓度的预测性能更好,预测值与实测值之间的贴合度更高,误差值波动更小。由模型训练结果可知,GRA-NARX神经网络模型的预测精度优于PCA-NARX模型。

图3 GRA-NARX和PCA-NARX神经网络模型对DO质量浓度的预测结果Fig.3 Prediction results of DO mass concentration with GRA-NARX and PCA-NARX neural network models

图4 GRA-NARX和PCA-NARX神经网络模型对DO质量浓度预测误差变化情况Fig.4 Prediction errors of DO mass concentration with GRA-NARX and PCA-NARX neural network models

3 预测结果与分析

为评估并验证神经网络模型对DO质量浓度的预测效果,本文分别采用NARX、PCA-NARX和GRA-NARX神经网络模型对未来连续48 h的DO质量浓度进行预测,并将预测结果与实测值进行对比,结果如图5和表6所示。由图5可以看出,优化后的PCA-NARX和GRA-NARX模型优于单独NARX模型的预测效果。这主要是因为PCA和GRA方法可有效降低预测模型输入的维数,简化了模型系统结构,而优化选取的输入变量能够更大程度地体现其与输出DO质量浓度之间的关联性,从而提高了模型预测精度。由表6可以看出,NARX、PCA-NARX和GRA-NARX模型对未来24 h的DO质量浓度的预测RMSE值分别为0.433、0.276和0.173 mg/L,MAPE值分别为4.37%、3.13%和1.16%。由此可见,GRA-NARX的预测效果比NARX和PCA-NARX模型更好,其RMSE和MAPE值相比NARX模型分别降低60.0%和73.5%,相比PCA-NARX模型分别降低37.3%和62.9%。这是因为GRA方法可以在多变量的复杂体系中优化提取与DO关联度更高的变量作为输入,能够更好地反映和描述DO质量浓度的变化情况,可提高NARX模型的预测效果与预测精度。

图5 DO质量浓度短期(48 h)预测效果及误差分析Fig.5 Short-term (48 h)prediction of DO mass concentration and error analysis

表6 NARX、GRA-NARX、PCA-NARX神经网络模型预测性能对比Table 6 Comparison of prediction performance of NARX,GRA-NARX,and PCA-NARX neural network models

随着预测时间的延长,GRA-NARX神经网络模型对短期DO质量浓度的预测精度也出现些许下降。尽管如此,当预测时间为36 h时,DO质量浓度预测误差仍可控制在-0.5~0.5 mg/L(见图5),预测RMSE和MAPE值分别为0.261 mg/L和1.98%。需要注意的是,当预测时间从40 h延长至48 h时,DO质量浓度预测值与实测值偏差较大,这可能与DO质量浓度实测值大幅度波动有关。此时,DO质量浓度实测值相应地从10.25 mg/L降至8.52 mg/L,而与显著相关的总氮和氨氮实测值则分别从3.43和0.90 mg/L升高至4.85和2.28 mg/L。考虑到目标监测断面水质变化较为平稳,在短时间内出现大幅波动可能与水质异常情况的发生有关。由此可见,本文GRA-NARX神经网络模型可以实现水体DO质量浓度的短期预测,此外还能对与其具有显著相关性的水质指标进行关联预测,识别水质异常情况,这对地表水体水质预测及预警具有较好的实践意义。

4 结 语

分别采用NARX、PCA-NARX和GRA-NARX神经网络模型对地表水体短期(48 h)DO质量浓度进行预测,并对其预测精度和效果进行对比分析,结果表明:

(1)GRA-NARX神经网络模型对时间序列DO质量浓度的预测效果优于NARX和PCA-NARX模型,当隐含层神经元数量为9,延迟层阶数为6时,GRA-NARX模型的RMSE和MAPE值分别为0.509 mg/L和4.16%。

(2)基于已有数据的训练学习,GRA-NARX神经网络模型预测效果较好,在24 h内对DO质量浓度预测的RMSE和MAPE值分别为0.173 mg/L和1.16%。随着预测时间的延长,预测精度虽出现小幅下降,但在36 h内预测误差仍可控制在-0.5~0.5 mg/L,预测指标的RMSE和MAPE值分别为0.261 mg/L和1.98%。

本文对地表水体枯水期DO质量浓度进行模型预测并取得了较好的预测效果,后期将考虑采用数据降噪等手段提高模型预测精度,同时结合DO与其他相关性指标对总氮和氨氮等水质指标进行预测,以期为水质预测及预警提供技术支撑。

猜你喜欢

实测值神经网络水质
基于雷达数据融合与多模型组合落点坐标预测
CUACE模式对银川市区重污染天气预报效果检验
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
基于Ansys屋盖不同单元类型下的模态分析
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
浅析比重瓶法实测土粒比重
水质的年轮——读《时光的年轮》
观水色,辨水质