基于PLS-GWO-SVR 水质预测模型在水污染事件中的应用研究
2023-05-09□金珊
□金 珊
近年来,水源地水污染事件发生频繁,我国水源地水质污染、水环境恶化等问题日渐突出,引起了政府和相关部门的高度重视,因此对水源地水质提前预测的方法研究势在必行。现以秦皇岛市地表水饮用水源地桃林口水库为研究对象,针对水质环境内源影响因子,设计水质预测模型,实现对水体污染指标提前预测,能够有效防止水污染事件发生。
1.研究的意义
水污染事件具有不确定的突发性、影响范围的广泛性和危害的严重性等特点,针对传统水质预测方法中水质内源影响因子维数高,多重共线性严重的特点,通过分析支持向量机的回归(SVR)理论和算法,建立一种偏最小二乘法和支持向量回归机相耦合的水质预测方法,并且利用灰狼优化算法寻优,建立PLS-GWO-SVR 模型,模拟分析水质内源影响因子与水体中总氮和溶解氧的响应关系,从而实现对桃林口水库总氮和溶解氧的短期预测。
2.研究区概况
青龙河位于秦皇岛市境内滦河流域东南侧,河长265km,流域面积6267km2,是秦皇岛市境内第一大河流,青龙河在秦皇岛市境内河长177km,控制面积3432km2。青龙河有6 条源于青龙满族自治县境内的主要支流,属季节性山溪河流,汛期河水呈暴涨暴落态势,水量丰沛,其他时期水量较小、河水澄清。
桃林口水库水库大坝位于青龙满族自治县三道河附近,控制流域面积5060km2,水 库 总 库 容8.59 亿m3,水 库工 程于1998年12月31日竣工,2000年8月19日—22日通过了由水利部主持的工程竣工验收,水库工程正式投入运行。水库枢纽工程由主坝、泄洪洞、正常溢洪道、发电洞及水电站等组成。坝顶高程146.5m,坝顶长度为500.7m,最大坝高74.5m,坝顶宽度8m,防浪墙顶高程147.0m,桃林口水库为多年调节的运行方式。
3.预测方法概述及应用
3.1 模型原理
此次模型根据偏最小二乘法、支持向量回归法和灰狼优化算法理论构建而成。偏最小二乘法简化了数据结构以及变量之间的分析,分别提取自变量和因变量实行回归计算,当精度满足要求后,则计算终止;否则,将进行第二轮主成分提取并再进行回归,直到精度满足要求。交叉有效性可以进行精度判断。
灰狼优化算法过程是迭代的过程,全局搜索复杂空间时,灰狼优化算法优于传统优化算法,因此通过灰狼优化算法对支持向量回归模型的参数进行优化。与其他学习算法相比,基于灰狼优化算法的支持向量回归模型更适合小样本数据,并能获得更好结果。
支持向量回归是指非线性变换,把低维空间上不可线性分割的数据集映射到高维空间,然后进行线性回归,从而预测数据趋势。最优化问题根据结构最小化原则,利用对偶原理以及拉格朗日函数,核函数在输入空间和一个特征空间之间执行非线性映射。其中此文采用RBF 径向基函数作为核函数,惩罚因子与核函数中参数一起决定模型的预测精度。
3.2 模型构建
建立基于灰狼优化算法和偏最小二乘法的支持向量回归模型。首先,偏最小二乘法对水质预测模型的输入因子进行有效信息提取,解决了水质因子间多重关联性带来的信息冗余问题;其次,灰狼优化算法对核函数和模型参数进行智能寻优,提升参数对结果的影响;最后,基于对训练集的训练构造预测模型,对测试集进行检验,验证其泛化性能。
将采集到的桃林口水库水质数据进行去噪和归一化处理,建立PLSGWO-SVR 预测模型。初始化参数为:种群规模N=20,最大迭代次数tmax=200,惩罚因子与核函数中的参数范围从0.01 到100。
为了检验PLS-GWO-SVR 总氮含量预测模型的性能,采用多种评价指标:平均绝对误差(MAE)、均方根误差(RMSE)、决定系数(R2)和平均绝对百分比误差(MAPE),各评价指标表达式如下:
式中:
yi—第i 个样本总氮实测值;
n—样本个数。
3.3 模型应用
此次选取128 组数据,包括PH 值、水温、高锰酸盐指数、总氮、溶解氧、氨氮、氟化物、总磷、硝酸盐氮等,采样频次为每月中旬固定一次,训练集是前88 组数据、测试集是后40 组数据。
由于水质因子的多重关联性造成信息冗余,因此采用偏最小二乘法对水质因子进行有效信息提取,使得新提取成分尽可能携带水质因子最有效信息。偏最小二乘法提取成分后需进行交叉有效性检验,得到的总氮(TN)和溶解氧(DO)浓度验证结果分别见表1、表2。
表1 总氮的交叉有效性
表2 溶解氧的交叉有效性
灰狼优化算法的参数初始化:N=20,tmax=200,惩罚因子与核函数中的参数范围从0.01~100。
建立的PLS-GWO-SVR 水质预测模型,分别预测了溶解氧浓度和总氮的值,预测值与实际值对比曲线如图1、图2 所示。
图1 模型的总氮预测值与实际值的对比
图2 模型的溶解氧预测值与实际值的对比
图3 为预测输出时总氮浓度的对比曲线,图4 为预测输出时溶解氧浓度的对比曲线。
图3 多个预测模型的总氮预测值的对比
图4 多个预测模型的溶解氧预测值的对比
从图3、图4 中可以看出,PLSGWO-SVR 模型的总氮浓度和溶解氧预测值曲线最接近实际值曲线,说明模型较好地拟合了总氮浓度与环境因子之间复杂的非线性关系。
4.结论
提出了灰狼优化算法和最小二乘法结合的支持向量回归机制水质预测模型,结果表明所提出的模型在各项性能指标评价方面良好,该模型水质预测误差偏小、计算方法简单、精度较高,能够自动获取模型的最佳参数,有效地避免了人为因素干扰,可直接用于水源地水质预测工作。在保证预测精度的前提下,对现有的一般方法进行优化,使水库管理者能够通过总氮和溶解氧含量监测水库富营养化程度,为水污染的防治提供相应数据支撑,因此具有普遍适用性和广泛推广的必要性,为完善水质监测点提前做好预防措施具有重要意义。