APP下载

基于OVMD-TCN-AR 的水质预测模型

2024-01-01张思萱康燕宋金玲孙逊刘晓晴

环境科学导刊 2024年5期
关键词:水质预测

摘 要:近年来水质预测成为水环境管理领域的热点问题,但是水环境本身的复杂性和动态性导致水质预测时预测精度低、模型稳定性差。针对这些问题,基于最优变分模态分解(Optimality Variational Mode Decomposition,OVMD)、时间卷积网络(Temporal Convolutional Network,TCN)、自回归模型(Autoregression,AR)提出了一种新的水质预测模型。首先,采用 OVMD 对原始数据进行分解,得到若干个子序列;然后,将分解的子序列作为TCN模型和AR模型的输入进行水质预测,并将两种模型的预测结果进行叠加重构得到最终预测结果;最后,采用龙华溪监测站的总磷数据进行实验验证。结果表明,OVMD-TCN-AR水质预测模型明显优于长短时记忆网络(Long Short Term Memory networks,LSTM)和长短期时间序列网络(Long- and Short-term Time-series network, LSTNet),OVMD-TCN-AR水质预测模型的平均绝对误差为 0.00660,均方根误差为0.01166,MAPE为0.0494,拟合度为0.97,说明OVMD-TCN-AR水质预测模型具有较高的可靠性和应用价值。

关键词:水质;预测;最优变分模态分解;时间卷积网络;自回归模型

中图分类号:X82 文献标志码:A 文章编号:1673-9655(2024)05-00-06

0 引言

随着社会和经济发展,大量生活和工业废水的排放导致水质不断恶化,对水质变化趋势提前进行预测,有助于及时实施保护措施,达到事前预防的目的,对水资源的保护具有重要意义[1]。

早期的水质预测模型基于统计方法构建,根据历史水质数据的统计特征、趋势和周期性等信息,来预测未来水质状态,常用的统计方法包括多元线性回归[3]、灰色理论[4]等。随着机器学习方法的兴起,机器学习方法也被广泛应用于水质预测[2], 利用机器学习方法可以从大量的水质数据中学习规律和模式,从而实现更准确的水质预测,常用的机器学习方法有随机森林[5]、SVM[6]、循环神经网络[7]、时间卷积神经网络TCN[11]等。但是基于上述单个技术的水质预测模型性能一般,水质预测的精度不够理想。

为了获得更好的预测效果,近年来研究者们开始将多种技术组合在一起构建水质预测模型。其中,文献[8]采用了特征注意力、时间注意力和BiLSTM来构建水质预测模型,文献[9]中将ARIMA和BP神经网络相组合进行水质预测,文献[10]采用SDT和Tucker张量分解技术构建水质预测模型。以上组合模型在一定程度上提高了水质预测的精度,有效减少了单个模型的预测偏差,但是这些模型主要关注的是水质数据的长期趋势,具有一定的局限性。水质数据同时具有长期和短期模式,数据的变化既有随机性同时也有明显的周期性,若仅仅对长期模式或短期模式进行预测,不仅预测精度较低,而且水质预测模型无法适应不同采样站点之间的数据差异,无法实现模型的泛化性。

为了兼顾长期和短期模式的影响,本文提出一种基于OVMD-TCN-AR的水质预测模型。首先,利用OVMD(Optimized Variance Mode Decomposition)算法先将原始水质数据分解成若干子序列,获取到时间序列数据中不同频率的成分。然后,将分解之后的每一个子序列输入到TCN(Tempora Convolutional Network)模型进行长期模式预测、输入到AR(AutoRegressive)模型中进行短期模式预测,并将两个模型的预测结果进行加权求和,使得在水质预测可以同时兼顾长期和短期模式。最后,采用龙华溪监测站采样的总磷数据进行验证实验,并与TCN、LSTM、LSTNET水质预测进行对比。实验证明,本文预测模型可以综合处理水质数据间的长期依赖关系和短期依赖关系,能够有效提高水质预测精度。

1 模型方法

1.1 OVMD

变分模式分解(Variational mode decomposition,VMD)是通过求解频域变分优化问题估计各个信号分量。当原始信号f被分解为k个分量,为了保证分解序列都是集中在各自中心频率附近的窄带信号, VMD需要满足以下约束变分问题:

(1)

式中:uk—各模态函数;ωk—各模态中心频率。

为了解决上述的约束最优化问题,需要将约束性变分问题变为非约束变分问题,引入二次惩罚因子α和拉格朗日乘法算子λ,如式(2)所示:

(2)

式中:α—惩罚参数;λ—Lagrangian乘子;t—用于控制拉格朗日乘子的更新速率。

通过交替方向乘子算法进行迭代搜索,取该Lagrange函数的极值点,即可得到无约束变分问题的最优解,其模态函数uk和中心频率ωk的计算公式如下:

(3)

(4)

上述迭代搜索当满足下面式(5)的条件时会停止迭代。

(5)

由于VMD 充分考虑了分量的窄带性质,使滤波频带更加集中,得到信号分量的信噪比也更高,但是如何确定分解层数K是一个难题。OVMD采用中心频率法确定分解层数K,利用残差指数REI(公式6)确定拉格朗日乘子的更新速率t,在每次迭代过程中都会优化目标函数,从而最大程度地拟合原始数据,得到更准确和可靠的模态函数,加速了分解过程并提高了模型的稳定性。根据OVMD的特点,OVMD对分解非平稳数据具有较好的适应性,因此可以有效处理水质数据中的时间变化和趋势,提供更可靠和稳定的分解结果。

(6)

1.2 时域卷积网络(TCN)

TCN是一种基于卷积神经网络的时间序列建模方法,由多个卷积层和池化层构成,采用了因果卷积、膨胀卷积、残差连接(Residual connections)等技术,以有效地捕捉时间序列数据的依赖关系。每个卷积层使用固定宽度的卷积核对输入进行卷积操作,并通过RELU激活函数(公式7)传递得到特征序列。对于不同的卷积层,TCN模型能够学习不同范围的特征。具体来说,因果卷积使得模型仅从过去的时间点获取信息,而膨胀卷积通过增大卷积核的空洞间隔来扩展模型的感受野,从而更好地捕捉时间序列中的长期依赖关系。此外,残差连接允许卷积层的输出与之前层的输出直接相加,有助于改善模型的优化和训练,提高其稳定性和性能。TCN还加入一个丢弃(Dropout)(公式8)技术来防止过拟合。

(7)

式中:y—激活函数;x—输入值。

(8)

式中:maski—一个与xi相同维度的二进制掩码向量,其元素值为0或1。maski的生成过程是随机的。

根据TCN的技术特点,TCN能够捕捉时间序列数据的长期依赖关系和时间演变特征,适用于对水质数据的长期模式进行预测。

1.3 自回归模型(AR)

如果一个单变量时序数据{ yt ; t = 1, 2, ...}中,某时间点数据和之前多个时间点的数据满足线性关系,则称之为自回归。公式如下:

(9)

式中:p—自回归模型的阶数,记作AR(p);

α—系数项;ωt—白噪声。

在构建自回归模型时,超参数p的选取尤为重要,它代表了预测未来某一时刻的数据所需的历史时间点数量。通常有两种常用的准则来确定这个参数,分别是AIC(赤池信息准则)和BIC(贝叶斯信息准则)。AIC和BIC的计算公式如下:

(10)

(11)

式中:L—该模型下的最大似然函数;n—数据数量;k—模型的变量个数。

AR模型能够模拟数据之间短期内的时间相关性,捕捉时间序列数据的动态变化,从而实现时间上的迭代预测,因此可以使用AR模型对水质数据间的短期变化关系进行预测。

2 实验准备

2.1 数据来源

本实验基于2021年福建省莆田市龙华溪监测站点的数据进行研究。该监测站每隔4 h对水体总磷含量进行一次监测,共收集了1440组数据。并将前1000个数据作为训练样本,后440个数据作为测试样本。原始数据的曲线如图1所示。

图1 原始数据

2.2 模型评价指标

为了检验预测模型的精度度,使用均方根误差(RMSE)、平均绝对误差(MAE)、拟合度(R2)和平均绝对百分比误差(MAPE)4个评价指标对模型进行评估,各个评价指标的计算公式如公式(12)至(15)所示。

(12)

(13)

(14)

(15)

式中:—预测值;y—真实值;n—样本的数量。对于MAPE、MAE和RMSE指标,指标值越接近0表示真实值和预测值之间的误差越小,模型的性能越好。拟合度R2越接近1则表示模型对观测数据的拟合程度越好,模型的性能也就越好。

3 OVMD-TCN-AR水质预测模型构建

3.1 水质数据分解

利用OVMD对总磷时间序列进行分解时,计算不同k值下部分模态的中心频率,并采用皮尔逊相关系数对相邻k值模态分量的相关性进行分析,当相邻模态分量间的相关性达到最大时,即可确定出k的取值。确定好k值之后,进一步利用残差指数来确定t的值,将t的取值范围设为0到1,步长设为0.01,根据具体t值进行VMD分解,直到使REI达到最小值。本实验得到的分解总磷的k值为13、t值为0.75。利用OVMD分解总磷得到的各个分量图如图2所示。

总磷的各分量合并之后与原始数据对比如图3所示,图中蓝色曲线为原始数据,黄色曲线是分量合并之后的数据。通过图3可以看出,各分量合并之后的曲线与原始数据曲线基本重合,说明总磷的OVMD分解结果和原始数据相比基本一致,能够很好地还原原始数据的整体形态和趋势,利用OVMD分解得到的各个分量相对原始数据信息损失很小。

3.2 基于TCN的水质预测

利用TCN构建总磷的预测模型时,TCN的相关参数设置如下:过滤器数量为5、过滤器大小为3、Batch size为32、Epoch为100、优化器是Adam、TCN的膨胀因子为1/2/4,输入特征为3,输出特征为1,其中,Batch size表示每次投入训练的数据量,Epoch表示迭代次数。图4展示了训练集和测试集上损失函数的变化情况,损失函数值代表的是预测结果与真实数据之间的误差,可以看出,随着迭代次数的增加训练集和测试集上的损失函数值都在逐渐减小,尤其是在迭代100次以后损失函数值基本收敛,说明模型在训练过程中逐渐学习到了数据的规律和模式,预测的准确性在逐渐提高。

基于TCN的总磷预测模型的预测结果对比如图5所示,其中蓝色曲线代表预测数据,橘色曲线代表真实数据,基于TCN的总磷预测模型的评价指标如表1所示。通过对比图5的两条曲线可以看出,TCN水质预测模型的预测结果在大部分区域基本和真实数据重合,但是在部分区域还存在差距,从表1也可以看出,基于TCN的总磷预测模型的精度(R2)达到了0.8512,说明该预测模型的精度在一般水平之上。

3.3 基于AR的水质预测

本实验利用AIC和BIC准则确定总磷AR预测模型的滞后阶数p,针对不同的p值建立自回归模型,并计算对应的AIC和BIC值,根据AIC和BIC的最小值选择最优的p值,最终确定的滞后阶数为3。利用AR水质预测模型对总磷的预测曲线如图6所示,总磷的AR预测模型各个评价指标如表2所示。通过对比图6的两条曲线可以看出,AR水质预测模型的预测结果基本和真实数据重合,从表2也可以看出,基于AR的总磷预测模型的精度(R2)达到了0.9996,说明该预测模型的精度非常高。尽管基于AR的总磷预测模型在预测精度上表现出色,但是AR模型本身的特点决定了该预测模型只适用于短期趋势预测,实验精度过高很可能是预测模型存在过拟合现象,为了让水质预测模型具有更好的泛化性和适应性,需要将AR预测模型和TCN预测模型进行综合,以便使预测模型更好地应对不同的情况。

3.4 基于TCN+AR的水质预测

利用TCN+AR进行水质预测,就是将TCN水质预测模型的预测结果与AR水质预测模型的预测结果进行加权合并,本实验中TCN预测结果与AR预测结果的权重均取0.5,合并之后的预测效果对比如图7所示,TCN+AR水质预测模型的具体评价指标如表3所示。从图7中可以看出蓝色预测曲线基本和黄色真实曲线相吻合,说明TCN+AR综合水质预测模型的预测精度较高,表3中可以看出该预测模型达到了0.9731的高拟合度(R2)。

相比于单独的TCN水质预测模型,TCN+AR水质预测模型的各个评价指标均有明显提升,说明TCN+AR相比TCN水质预测模型具有更高的预测精度,说明TCN+AR水质预测模型充分利用了AR的历史数据分析能力,使得预测结果更加准确。与单独的AR水质预测模型相比,TCN+AR水质预测模型的预测精度虽然略低,但是该模型通过引入TCN具有了一定的非线性特征提取能力,更能适应复杂的数据模式变化和有效捕捉数据中的长期依赖关系,使水质预测模型具有更好的稳定性。因此, TCN+AR水质预测模型能综合TCN和AR两种模型的优势,保证预测的准确性和稳定性,提高预测性能。

4 模型对比及分析

为了综合评估OVMD-TCN-AR水质预测模型的性能和效果,选取处理时间序列数据的循环神经网络LSTM、LSTNet组合预测模型进行对比分析。对比模型的参数通过网格寻优和早停机制来设置,其中,LSTNet的过滤器数量为4、大小为3、神经元数量为64,LSTM中神经元数量为32。三种水质预测模型的预测曲线如图8所示,各个水质预测模型的具体评价指标值如表 4所示。

从图8中可以看出,在水质变化趋势相对缓慢的部分,三种水质预测模型的预测结果基本都能够拟合真实曲线;但在水质变化较剧烈的部分,尤其是峰值和谷值部分,预测值与实际值存在一定偏差,OVMD-TCN-AR水质预测模型的预测曲线和真实值曲线最接近。从表4可以看出, OVMD-TCN-AR水质预测模型的RMSE(0.0117)和MAE(0.0066)最低、MAPE(0.0494)最低、R2最高,LSTNet水质预测模型的评价指标次之,LSTM水质预测模型的评价指标最差,说明OVMD-TCN-AR水质预测模型的精度最高,OVMD-TCN-AR相对其他模型的预测效果最好。具体分析如下:

(1)对比OVMD-TCN-AR和 LSTNet水质预测模型的评价指标, OVMD-TCN-AR水质预测模型的RMSE提升了约60%、MAE提升了约77%、MAPE提升了约76%、R2提升了约17%,证明OVMD-TCN-AR相对LSTNet模型具有一定的优越性。

(2)相对于LSTM水质预测模型,OVMD-TCN-AR水质预测模型的RMSE提升了约87%、 MAE提升了约90%、MAPE提升了约93%、R2提升了约11%,说明OVMD-TCN-AR水质预测模型比LSTM水质预测模型表现更好、具有明显的优势。

通过对比曲线和模型评价指标可以看出,本文水质预测模型相对于对照模型均具有一定的优势,说明本文水质预测模型具有较好的有效性和可靠性。

5 结论

为了提高水质预测的准确性和精度,本文提出了一种基于最优变分模态分解(OVMD)、时间卷积网络(TCN)和自回归模型(AR)的水质预测模型,通过实证验证显示,OVMD-TCN-AR水质预测模型相比时域卷积网络(TCN)、长短时记忆网络(LSTM)和长期和短期时间序列网络(LSTNet)能够更准确地预测水质情况、具有更好的预测性能。OVMD-TCN-AR水质预测模型可为水资源保护和水质治理提供重要的辅助手段,有助于提前调整保护措施和降低事后治理的难度,具有实际应用价值。在今后的工作中,将进一步对该模型在其他水域或特定情境下的应用效果进行探究和验证,另外,也要进一步探索对水质数据进行多步预测,以提供更长期、更全面的水质保护,从而帮助相关部门更好地制定和实施水环境保护政策和措施。

参考文献:

[1] 白雯睿,杨毅强,朱雪芹.基于 VMDLSTNet 的水质预测模型[J].科学技术与工程, 2022, 22(22): 9881-9889.

[2] 梁坚.支持向量机在水质评价及预测中的应用研究[D]. 杭州:浙江工业大学, 2009.

[3] 李秋瑶.多元线性回归模型在河流水质预测中的应用[J].信息系统工程,2023(7):79-82.

[4] 王玉亮,吴利丰.灰色预测法在水资源管理中的应用综述[J].人民黄河,2023,45(7):86-90.

[5] 胡悦,范小娟.基于随机森林算法的河南地区地表水水质预测与评价[J].广东水利水电,2023(7):81-85.

[6] 宋治岑,张顺平,卢敏.基于HHO-SVM的水质预测模型及应用[J].水电能源科学,2023,41(8):70-72,47.

[7] 王梅芳,张磊,单卫军.基于神经网络的水质预测模型研究[J].自动化博览,2022,39(12):66-69.

[8] 陈湛峰,李晓芳.基于注意力机制优化的BiLSTM珠江口水质预测模型[J/OL].环境科学:1-14.

[9] 秦梓萱,郭健,许模.基于ARIMA-BP模型的北京市平谷区地下水水质双尺度预测[J].兰州大学学报(自然科学版),2023,59(1):121-128.

[10] 罗学刚,吕俊瑞.基于张量特征-GRU和多头自注意力机制的水质预测模型方法[J].攀枝花学院学报,2023,40(5):89-96.

[11] 陈树龙,黎志伟,黄祖安,等.基于TCN-LSTM-QR的地表水水质预测模型[J].广东化工,2023,50(10):182-184,199.

Water Quality Prediction Model based on OVMD-TCN-AR

ZHANG Si-xuan, KANG Yan, SONG Jin-ling, SUN Xun, LIU Xiao-qing

(School of Mathematics and Information Technology of Hebei Normal University of Science amp; Technology, Hebei Agricultural Data Intelligent Perception and Application Technology Innovation Center, Qinhuangdao Hebei 066004,China)

Abstract: In recent years, water quality prediction has become a hotspot in the field of water environment management. However, the complexity and dynamic nature of the water environment itself lead to low prediction accuracy and poor model stability during water quality prediction. To address these issues, a new water quality prediction model were proposed based on Optimality Variational Mode Decomposition (OVMD), Temporal Convolutional Network (TCN), and Autoregression (AR). First, OVMD was used to decompose the original data to obtain several sub-sequences. Then, the decomposed sub-sequences were used as inputs for TCN and AR models for water quality prediction, and the prediction results of the two models were stacked and reconstructed to obtain the final prediction result. Finally, the total phosphorus data from Longhua Creek monitoring station was used for experimental verification. The results showed that the OVMD-TCN-AR water quality prediction model significantly outperforms Long Short Term Memory networks (LSTM) and Long- and Short-term Time-series network (LSTNet). The average absolute error of the OVMD-TCN-AR water quality prediction model was 0.00660, the root mean square error was 0.01166, the MAPE was 0.0494, and the fitting degree was 0.97, indicating that the OVMD-TCN-AR water quality prediction model had high reliability and application value.

Key words: water quality; prediction; optimal variational mode decomposition; time convolutional network; autoregressive model

基金项目:河北省省级科技计划资助(21370103D);2023年度河北省高等学校科学研究项目(ZC2023123);河北省软件工程重点实验室项目(22567637H);河北省软件工程重点实验室开放课题(KF2307); 河北省农业数据智能感知与应用技术创新中心开放课题(ADIC2023Y006, ADIC2023Y004, ADIC2023Y005)。

作者简介:张思萱(2001- ),女,河北石家庄人,硕士研究生,研究方向为水质预测。

通信作者:宋金玲(1973- ),女,河北滦州人,教授,博士,硕士研究生导师,研究方向为数据库安全与数据分析处理。

猜你喜欢

水质预测
水质抽检岂容造假
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
一月冬棚养虾常见水质浑浊,要如何解决?这9大原因及处理方法你要知晓
这条鱼供不应求!虾蟹养殖户、垂钓者的最爱,不用投喂,还能净化水质
不可预测
图像识别在水质检测中的应用
不必预测未来,只需把握现在