基于双向门控循环单元的地表水氨氮预测
2022-02-25任永琴金柱成俞真元王晓丽彭士涛
任永琴,金柱成,2,俞真元,2,王晓丽*,彭士涛,3
基于双向门控循环单元的地表水氨氮预测
任永琴1,金柱成1,2,俞真元1,2,王晓丽1*,彭士涛1,3
(1.天津理工大学环境科学与安全工程学院,天津 300384;2.理科大学数学系,平壤 999091;3.交通运输部天津水运工程科学研究院,天津 300456)
为提高水环境中NH4+-N的预测精度,提出了一种互补完全集合经验模式分解(CCEEMDAN)和双向门控循环单元(BiGRU)神经网络的混合预测模型(CCB).首先,通过CCEEMDAN将NH4+-N数据分解成一系列较为简单的模态成份;然后利用BiGRU神经网络对各成份进行预测,将所有分解成份的预测结果相加即可获得最终预测结果.以2017年6月~2020年2月鄱阳湖的NH4+-N数据进行模型性能验证.结果表明,利用CCB模型在1d后的NH4+-N预测中平均绝对百分比误差为3.38%,在7d后的NH4+-N预测中平均绝对百分比误差为6.82%,在15d后的NH4+-N预测中平均绝对百分比误差为9.41%,优于本文中参与比较的其他模型.CCB模型在NH4+-N预测方面具有良好的预测性能.
鄱阳湖;氨氮(NH4+-N);互补完全集合经验模式分解(CCEEMDAN);双向门控循环单元(BiGRU)
水质预测为水资源的管理和水体安全的评估提供可靠的依据[1-2].氨氮(NH4+-N)是评价河湖水质健康与否的关键指标之一[3],是水体中的主要耗氧污染物[4],对水体NH4+-N的准确预测可以有效地预防水体中氮含量超标带来的水体富营养化以及对水中生物健康的影响[5].
鄱阳湖作为长江重要的蓄水湖泊,其水质会直接影响长江中下游地区的用水安全[6].近年来,有很多关于鄱阳湖水质变化、生态系统服务变化、水底沉积物对底栖生物影响的研究[7-9],但是对于鄱阳湖水质参数NH4+-N的预测研究较少. NH4+-N作为水体富营养化的关键指标,其对鄱阳湖水质评价至关重要.
现有的模拟和预测方法中,机器学习模型具有非线性映射、自适应性等优势[10],因此广泛应用于水质预测.Wang等[11]运用反向传播(BP)神经网络对南京市2006~2018年的12个水质参数进行预测;Liang等[12]运用支持向量回归(SVR)算法对我国海河三岔口段2008~2013年水质参数DO进行预测;王明圆[13]运用Elman神经网络对洱海小关邑点位湖水2014年11月~2015年1月水质指标DO、COD、NH3-N进行水质预测;汤斌等[14]运用粒子群算法联合最小二乘支持向量机(PSO-LSSVM)的混合模型对水质COD进行预测.
在众多机器学习模型中,门控循环单元(GRU)神经网络能体现时间序列的相关特征,可以捕获长短期数据之间的依赖关系,所以比传统的机器学习模型能更有效地体现水质的时间序列特征[15].但是GRU神经网络只能体现从前向后一个方向的特征,无法充分体现时间序列相关性的双向性[16].另外水质参数NH4+-N具有高复杂度[17],经常会出现极值现象,所以仅使用神经网络模型无法保证预测精度的稳定性.为解决这一问题,本文提出一种新的预测模型.考虑到单一GRU神经网络的不足,将双向GRU(BiGRU)神经网络用于开发水质预测模型;为了减弱NH4+-N这样的水质参数数据的高度变化率,并降低BiGRU神经网络输入输出数据的复杂度,将互补完全集合经验模式分解(CCEEMDAN)技术[18]用于数据预处理;以鄱阳湖的NH4+-N每日监测数据为研究对象,验证所提模型预测性能.
1 材料与方法
1.1 数据来源
鄱阳湖是我国第一淡水湖,位于江西省北部,是长江流域的一个过水性、吞吐性、季节性的重要湖泊[19].选取鄱阳湖的一个水质监测站(江西省九江市濂溪区蛤蟆石监测站),从生态环境部网站(https: //www.mee.gov.cn)收集了2017年6月1日~2020年2月29日期间该站点的NH4+-N数据,然后对得到的数据(每间隔4h一次)进行异常值处理,即根据《地表水环境质量标准》[20]将高于2mg/L的值全部去除,再进行每日平均(监测值4个以上的记为有效,其他处理为缺失值),得到每日平均NH4+-N数据.其中,前29个月的数据用于模型的训练,接下来2个月的数据用于模型的检验,最后2个月的数据用于模型的测试.
1.2 模型原理
本研究将CCEEMDAN与BiGRU神经网络相结合,构建混合模型CCEEMDAN-BiGRU (CCB)对鄱阳湖水体NH4+-N进行预测,具体流程如图1所示.
1)使用CCEEMDAN将NH4+-N的原始时间序列分解成若干个模态成份D(=1,2,…,).
2)对1)获得的每个分解成份,使用偏自相关函数(PACF)来提取用于开发每个子模型(对应每个分解成份的BiGRU)的输入变量.
3)将2)中选定的输入变量传到BiGRU神经网络来得出每个分解成份的预测值.
4)通过把所有分解成份的预测结果进行重建就能得到最终水质参数NH4+-N的预测值.
图1 CCB预测模型流程
1.2.1 CCEEMDAN原理 互补完全集合经验模式分解(CCEEMDAN)是Cheng等[18]提出的一种新的时频数据分析方法,通过正、负双噪声的添加以及局部平均来实现模式混合与重建误差的最小化. CCEEMDAN作为经验模式分解(EMD)技术的最新改进版,有效的解决了模态混叠等旧版本存在的一些缺点[21].其具体步骤如下:
第1步:在水质NH4+-N的监测数据()上添加正负噪声成分,得出对带噪声信号:
第1步:在水质NH4+-N的监测数据()上添加正负噪声成分,得出对带噪声信号:
式中:n(=1,2,…,)是第个白噪声;E(.)表示产生EMD第个模式的算子,0>0.
第2步:计算局部平均得出原始信号的第一残差1以及第一模式1:
式中:(×)表示局部平均算子;<×>表示平均算子.
第3步:对于=2,3,…,,利用公式(5)、(6)计算第个残差R以及第个模式D,直到满足预定的停止条件.
式中:停止条件是R满足本征模函数(IMF)条件或R的局部极点数小于3[18].因此CCEEMDAN根据要分解的时间序列特征适当的选择分解成份和总数.
1.2.2 双向门控循环单元(BiGRU) BiGRU神经网络是基于GRU神经网络实现的,GRU结构比较简单[22],只有两个门控单元:更新门z和重置门r.
式中:为sigmoid函数;X是时间的输入;H-1是指前一状态;W、U、W、U均表示权重;b、b表示偏差.
z用于控制前一时刻的状态信息被带入到当前状态中的程度.r控制前一状态有多少信息被写入到当前的候选集h[23].即候选状态h和当前状态H在时间的计算:
式中:W,U表示权重;b表示偏差向量.
BiGRU神经网络由输入层、前向隐藏层、后向隐藏层和输出层组成[24],其中由GRU神经网络组成的前向隐藏层、后向隐藏层分别用于体现从前、后各个方向上输入的时间序列信息,因此BiGRU神经网络比一般的GRU神经网络能更有效地获取有价值的信息.BiGRU神经网络的结构如图2所示.
BiGRU神经网络的前向计算与GRU神经网络相同,但BiGRU神经网络时间序列的输入对于两个隐藏层是相反方向,而且输出层直到2个隐藏层处理完全部的输入序列才会更新[25].获得两个隐藏状态层的输出后,将两者进行拼接得到BiGRU神经网络的隐藏状态Y:
式中:Htf表示前向隐藏状态;Htb表示后向隐藏状态.
1.3 模型评估标准
采用平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE) 3个评价指标对模型的预测效果进行评价.
采用MATLAB2020b软件对数据进行处理分析,并实现模型的建立.
2 结果与分析
2.1 鄱阳湖NH4+-N数据分布特征
鄱阳湖2017年6月1日~2020年2月29日的NH4+-N分布如图3所示, NH4+-N浓度具有季节性变化,冬季(12月~2月)最高,秋季(9月~11月)最低.整体上浓度分布在0.04~0.92mg/L[(0.235± 0.111) mg/L],具有相对较高的标准偏差,该结果证实了数据的复杂性.因此本研究提出的CCB模型有望能够准确预测水质信息,为水质控制提供有力帮助.
2.2 数据分解
在原始时间序列分解过程中,分别选用1d后、7d后和15d后的NH4+-N预测来验证模型的有效性,运用训练集和验证集来确定模型的结构并优化参数.
2.2.1 NH4+-N的CCEEMDAN分解 CCEEMDAN的实现需要提前设置一些参数,即噪声总数S、噪声幅度β(=0,1,…,-1)以及信噪比因子SNRflag.本研究中S=500、β=0.2(=0,1,…,-1)、SNRflag=2,即所有分解模式的信噪比相同[18].CCEEMDAN将NH4+-N的时间序列分解为9种模态成份(1~8,=8),如图4所示.与原始数据相比(图3),分解成份的频率更小,便于训练机器学习模型.因此,根据这些分解成份建立模型,可以获得比使用原始数据建立的模型更准确的预测精度.
图3 NH4+-N的数据分布
图4 CCEEMDAN时间序列的分解
2.2.2 基于PACF分析的特征选择 使用PACF分析来确定模型的输入因子.首先计算出时间序列的PACF值,然后计算出95%显著水平置信区间的时间滞后值,从而来提取模型的重要输入变量.
表1为PACF分析得到的CCEEMDAN分解成份的时间滞后值.得到的输入以及输出数据集用于建立每个分解成份时间序列的预测模型,将所有这些子模型的输出相加即可获得混合模型的输出值.
表1 CCEEMDAN分解成份的预测模型输入的时间滞后值
2.2.3 BiGRU神经网络的优化 采用网格搜索的方法来确定单一的BiGRU模型的最佳结构和超参数,得到的超参数结果如表2所示.
表2 BiGRU模型的超参数
2.3 CCB模型的预测性能
如表3所示,1d后、7d后和15d后预测中的MAPE值分别是3.38%、6.82%和9.41%,误差较小.这一结果说明本文所提出的模型具有可靠的预测精度.
表3 CCB模型的预测性能
2.4 模型的比较
为了更好的评估CCB模型的预测性能,将单一的GRU神经网络、BiGRU神经网络以及2个数据分解技术:完全集合经验模式分解(CEEMDAN)[26]、变分模式分解(VMD)[27]和BiGRU神经网络结合组成的混合模型(CB、VB),对NH4+-N进行预测比较,参与比较模型的预测评价结果如表4所示.
从表3和表4可以看出:与GRU神经网络模型相比,BiGRU神经网络模型的预测精度更高.1d后、7d后、15d后NH4+-N预测中,BiGRU模型比GRU模型的MAPE值分别降低了0.59%、2.07%、2.71%.该结果证实了BiGRU神经网络在水质预测方面的可行性.在混合模型中,基于CCEEMDAN的混合模型CCB比其他的混合模型预测精度更高.在1d后、7d后、15d后NH4+-N预测中,CCB模型比CB模型的MAPE值分别降低了3.10%、2.15%、3.50%;CCB模型比VB模型的MAPE值分别降低了2.48%、1.35%、1.33%.与单一的GRU、BiGRU神经网络模型相比,结合数据分解的混合模型的预测精度更高.如图5所示,与单一的GRU、BiGRU神经网络模型相比,CCB模型的检测值和预测值的点更集中于回归线附近,且决定系数(2)值最高,误差最低.如图6所示,与单一的GRU、BiGRU神经网络模型相比,混合模型CCB对极端值的预测效果尤为显著,预测结果更准确.
表4 测试阶段不同模型的预测性能
图5 测试阶段检测值和预测值之间的散点图(P<0.01)
图6 测试阶段预测结果
3 结论
3.1 与GRU神经网络相比,本文采用的BiGRU神经网络能够体现出NH4+-N时间序列的时间相关性的双向特征,因此BiGRU神经网络对水质参数NH4+-N的预测具有可行性,且其预测精度高于GRU模型.在1d后、7d后、15d后NH4+-N预测中,BiGRU模型比GRU模型的MAPE值分别降低了0.59%、2.07%、2.71%.
3.2 由于NH4+-N监测数据具有高度复杂性,且有很多极值,所以只采用BiGRU神经网络不能保证足够的预测精度.因此本研究将CCEEMDAN作为预处理技术降低了原始NH4+-N监测数据的复杂度,从而降低了BiGRU神经网络的训练难度.结果表明CCEEMDAN技术可以有效的降低NH4+-N数据序列的非平稳性,提高模型的预测精度.
3.3 本研究所提出的混合模型CCB的预测精度较高.CCB模型在1d后、7d后、15d后预测的MAPE值分别为3.38%、6.82%、9.41%,均优于本文中提到的所有模型.
3.4 本文只选鄱阳湖NH4+-N作为模型验证的研究对象,但所提出的方法属于数据驱动模型,因此只要适当地训练和优化参数,对一般的水质指标的预测也能使用,尤其更适合像NH4+-N这样的变化规律复杂的水质指标.
[1] Lu H, Ma X. Hybrid decision tree-based machine learning models for short-term water quality prediction [J]. Chemosphere, 2020:126169.
[2] Chen Y Y, Song L H, Liu Y Q, et al. A review of the artificial neural network models for water quality prediction [J]. Applied Sciences- Basel, 2020,10(5776):2-49.
[3] 刘永华.测定地表水中氨氮影响因素的探讨[J].水资源开发与管理, 2021,(3):51-55,59.
Liu Y H. Discussion on influencing factors of ammonia nitrogen determination in surface water[J].Water Resources Development and Management, 2021,(3):51-55,59.
[4] 董怡华,张盛宇,陈 峰,等.植物塘-人工湿地复合系统基质与植物筛选及农田退水处理研究[J].安全与环境学报, 2021,21(2):771-779.
Dong Y H,Zhang S Y,Chen F,et al.Screening of substrates and plant in macrophyte pond-constructed wetland complex system and treatment of farmland drainage[J].Journal of Safety and Environment, 2021,21(2):771-779.
[5] 石翠翠,刘媛华,陈 昕.基于GNIPSO-SVR的水质预测模型研究[J/OL].信息与控制, 2021:https://kns.cnki.net/kcms/detail/21.1138. TP.20210617.1737.043.html.
Shi C C,Liu Y H,Chen X.Water quality prediction model based on GNIPSO-SVR[J/OL].Information and Control, 2021:https://kns.cnki.net/kcms/detail/21.1138.TP.20210617.1737.043.html.
[6] 梁 玉,卢 萍,张晓星,等.鄱阳湖湿地存在的问题及对策[J].山东林业科技, 2011,41(5):91-92,76.
Liang Y, Lu P, Zhang X X,et al.Problems and countermeasures in Poyang wetland[J].Journal of Shandong Forestry Science and Technology, 2011,41(5):91-92,76.
[7] 温春云,刘聚涛,胡 芳,等.鄱阳湖水质变化特征及水体富营养化评价 [J]. 中国农村水利水电, 2020,(11):83-88.
Wen C Y,Liu J T,Hu F,et al.Water quality change characteristics and eutrophication assessment of Poyang Lake[J].China Rural Water and Hydropower, 2020,(11):83-88.
[8] 陈旻坤,徐昔保.近30年来鄱阳湖生态系统服务变化[J].湖泊科学, 2021,33(1):309-318.
Chen Y K,Xu X B.Lake Poyang ecosystem services changes in the last 30 years[J].Journal of Lake Sciences, 2021,33(1):309-318.
[9] 熊捷迁,弓晓峰,江 良,等.鄱阳湖水体沉积物中Zn-Cd对底栖生物的毒性效应及基准验证[J].湖泊科学, 2021,33(6):DOI:10.18307/ 2021.0607.
Xiong J Q, Gong X F, Jiang L, et al. Toxic effects of zinc and cadium on the benthic organisms in sediments of Lake Poyang and verification of quality guideline [J]. Journal of Lake Sciences, 2021,33(6):DOI:10.18307/2021.0607.
[10] 陈 威,陈会娟,戴凡翔,等.基于人工神经网络的污水处理出水水质预测模型[J].给水排水, 2020,56(S1):990-994.
Chen W, Chen H J, Dai F X, et al. Effluent water quality prediction model based on artificial neural network [J]. Water & Wastewater Engineering, 2020,56(S1):990-994.
[11] Wang X Z, Wang K J, Ding J M, et al. Predicting water quality during urbanization based on a causality-based input variable selection method modified back-propagation neural network [J]. Environmental Science and Pollution Research, 2021,28(1):960-973.
[12] Liang N, Zou Z, Wei Y. Regression models (SVR, EMD and FastICA) in forecasting water quality of the Haihe River of China[J].Desalination and Water Treatment, 2019,154:147-159.
[13] 王明圆.基于灰色Elman神经网络的湖水水质指标预测研究[D].天津:天津大学, 2016.
Wang M Y. The research on predicting The water quality of lake with grey elman neural model [D]. Tianjin: Tianjin University, 2016.
[14] 汤 斌,赵敬晓,魏 彪,等.一种紫外-可见光谱检测水质COD预测模型优化方法[J].中国环境科学, 2015,35(2):478-483.
Tang B,Zhao J X,Wei B,et al.A method of optimizing the prediction model for the determination of water COD by using UV-visible spectroscopy [J].China Environmental Science, 2015,35(2):478-483.
[15] Cao X, Ren N, Tian G, et al.A three-dimensional prediction method of dissolved oxygen in pond culture based on Attention-GRU-GBRT [J]. Computers and Electronics in Agriculture, 2021,181.
[16] Liang R, Chang X T, Jia P T, et al. Mine gas concentration forecasting model based on an optimized BiGRU Network [J]. Acs. Omega., 2020,5(44):28579-28586.
[17] 童 俊.基于SVR-ARIMA组合模型的金泽水库氨氮预测研究[J].微型电脑应用, 2020,26(4):4-6,13.
Tong J. Prediction of ammonia nitrogen in Jinze Reservoir based on SVR-ARIMA combination model [J]. Microcomputer Applications, 2020,26(4):4-6,13.
[18] Cheng Y, Wang Z, Chen B, et al.An improved complementary ensemble empirical mode decomposition with adaptive noise and its application to rolling element bearing fault diagnosis[J].ISA Trans., 2019,91:218-234.
[19] 袁伟皓,王 华,曾一川,等.大型通江湖泊藻类增殖驱动要素时空分异特征[J/OL].环境工程, 2021,https://kns.cnki.net/kcms/detail/ 11.2097.X.20210525.1632.024.html.
Yuan W H,Wang H,Zeng Y C,et al.spatiotemporal variation of driving factors of algal proliferation in a large river-connected lake [J/OL].Environmental Engineering, 2021, https://kns.cnki.net/kcms/detail/11.2097.X.20210525.1632.024.html.
[20] GB3838-2002 地表水环境质量标准 [S].
GB3838-2002 Environmental quality standard for surface water [S].
[21] Zheng J D, Cheng J S, Yang Y. Partly ensemble empirical mode decomposition: An improved noise-assisted method for eliminating mode mixing [J]. Signal Processing, 2014,96:362-374.
[22] Liu H, Liu Z, Jia W, et al.Remaining useful life prediction using a novel feature-attention-based end-to-end approach [J].Ieee Transactions on Industrial Informatics, 2021,17(2):1197-1207.
[23] Huang Y R, Chen J J, Zheng S M, et al.Hierarchical multi-attention networks for document classification [J].International Journal of Machine Learning and Cybernetics, 2021,12:1639-1647.
[24] Zhang Z, Dong Z, Lin H, et al.An improved bidirectional gated recurrent unit method for accurate state-of-charge estimation [J]. IEEE Access, 2021,9:11252-11263.
[25] 包智鹏,支永帅,张素民,等.基于BiGRU的多模态驾驶行为及轨迹预测 [J].大连理工大学学报, 2021,61(3):246-254.
Bao Z P, Zhi Y S, Zhang S M, et al. BiGRU based multi-modal maneuvers and trajectory prediction [J]. Journal of Dalian University of Technology, 2021,61(3):246-254.
[26] Torres M E, Colominas M A, Schlotthauer G, et al. A complete ensemble empirical mode decomposition with adaptive noise [Z]. 2011IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2011:4144-4147.
[27] Dragomiretskiy K, Zosso D. Variational mode decomposition [J]. Ieee Transactions on Signal Processing, 2014,62(3):531-544.
Ammonia nitrogen prediction in surface water based on bidirectional gated recurrent unit.
REN Yong-qin1, KIM Ju-song1,2, YU Jin-won1,2, WANG Xiao-li1*, Peng Shi-tao1,3
(1.School of Environmental Science and Safety Engineering, Tianjin University of Technology, Tianjin 300384, China;2.Department of Mathematics, University of Science, Pyongyang 999091, DPR Korea;3.Key Laboratory of Environmental Protection in Water Transport Engineering Ministry of Transport, Tianjin Research Institute for Water Transport Engineering, Tianjin 300456, China)., 2022,42(2):672~679
For more accurate prediction of NH4+-N, this paper proposes a novel hybrid forecast model (CCB) that uses complementary complete ensemble empirical mode decomposition with adaptive noise (CCEEMDAN) and bidirectional gated recurrent unit (BiGRU) neural network. Firstly, the original NH4+-N data is decomposed into several relatively simple components by CCEEMDAN. Subsequently, BiGRU neural network is employed to predict each component. The final forecast result is obtained by the summation of all the prediction results for the decomposed components. NH4+-N data of Poyang Lake that was monitored from June, 2017 to February, 2020 is used to evaluate the proposed forecast model. Mean absolute percentage error (MAPE) of the forecast result by our model is 3.38% for 1day ahead forecast, 6.82% for 7days ahead forecast and 9.41% for 15days ahead forecast. Moreover, CCB model shows better forecast performance than the competitor models. Results demonstrate that CCB model has a powerful forecast capacity, and it can be effectively used for the analysis and decision-making in water resource management.
Poyang Lake;ammonia nitrogen(NH4+-N);complementary complete ensemble empirical mode decomposition with adaptive noise (CCEEMDAN);bidirectional gated recurrent unit (BiGRU)
X524
A
1000-6923(2022)02-0672-08
任永琴(1995-),女,山西吕梁人,天津理工大学硕士研究生,主要研究方向为环境安全监测与评价.
2021-07-10
中央级公益性科研院所基本科研业务费专项资金资助项目(TKS190202,TKS20200405);天津市科技计划项目(20JCQNJC00100)
* 责任作者, 教授, tjutwxl@163.com