沂河水质评价模型研究及其应用
2023-08-28齐家蕙谢崇宝杨丽原
齐家蕙,谢崇宝,杨丽原
(1. 中国灌溉排水发展中心,北京 100054; 2. 济南大学水利与环境学院,山东 济南 250022)
0 引 言
水质指数(Water Quality Index,WQI)目前常被用于进行水质评价,它能够将大量复杂的水质数据转变为一个单独指标来反映水质整体状况[1-4],在许多国家得到推广和使用[2,4-6]。不同水质指标在水质评价中具有不同的局限性,比如地区差异导致水体污染源不同,如点源污染、面源污染[7,8];社会发展和土地利用结构不同使污染程度不同,如富营养化、工农业废水有机污染和矿区水体重金属污染[9-11];采样和实验分析时的操作误差等[12]。因此,越来越多的研究关注于确定关键水质评价因子,建立基于关键水质指标的最小化WQI 模型WQImin(Minimum WQI),以此来降低检测成本,提高水资源评价效率,这在发展中国家尤为适用[1,12,13]。此外,随着人工智能的发展,更多的领域开始尝试用机器学习算法解决问题。人工神经网络(Artificial Neural Network,ANN)以人脑的神经结构为灵感,在输入数据和输出数据之间建立联系,从而挖掘出他们的潜在关系,十分适用于水环境评价预测领域[14]。
传统的流域水质评价检测成本高、花费时间长,之前的研究存在单独使用WQI 模型进行水质评价,或单独使用ANN 模型进行水质预测,但没有基于相同样本同时使用这两种模型进行流域水质综合评价与预测。本研究以沂河为例,筛选出流域关键水质指标,简化了水质评价过程,构建了基于WQI 模型与ANN 模型的流域水质评价模型,为沂河水环境状况的智能化模拟和预警预案提供新的技术支持与科学参考。
1 模型与方法
1.1 样品采集
沂河是南水北调东线工程的重要汇水河流,提供防洪抗旱、渔业和水产养殖、饮用水源和生物多样性保护等多种效益和生态系统服务。沂河流域属于温带季风气候,流域内降水丰富且集中,夏季高温多雨,冬季寒冷干燥。
在沂河上游、中游和下游共设置8 个采样点,如图1 所示。于2018 年3 月-2019 年2 月进行采样,每个采样点采集4 个水样。共分析10 个水质指标,包括总磷(TP)、pH、水温(WT)、溶解氧(DO)、硝态氮(NO3-N)、五日生化需氧量(BOD5)、氟化物(F-)、化学需氧量(COD)、硫酸盐(SO42-)和氨氮(NH3-N)。
图1 采样点分布情况Fig.1 Location of the sampling sites
1.2 WQI模型构建
采用Pesce 和Wunderlin 提出的水质指数计算方法[1],分为加权和不加权两种处理方式,加权计算如公式(1)所示,不加权计算如公式(2)所示。
式中:n为水质评价过程中所有指标的数量;Ci为指标i实测浓度的标准化赋分数值;Pi为指标i的权重;上标w为加权标注;上标nw为不加权标注。所有Pi在以前的研究中都进行过验证[1,13],如表1所示。
表1 水质指标权重Tab.1 Weight of water quality index
关键水质指标模型WQImin的建立分为标准化赋分、模型训练和模型测试3 个步骤:①对所有水质指标的实测浓度进行标准化赋分;②将2006-2017 年来源于实验室和水文站的水质数据赋分后数值作为“训练数据”样本,结合多元线性回归分析,筛选出关键水质指标,构建WQImin模型;③将2018 年3 月-2019年2 月水质数据赋分后数值作为“测试数据”,对WQImin模型进行测试。采用决定系数(R2)评价所建立的WQImin模型的拟合程度,采用均方误差(Mean Square Error,MSE)和百分比误差(Percentage Error,PE)评价WQImin模型的预测精度,得到最优WQImin模型。
1.3 ANN模型构建
引入人工神经网络模型ANN验证所筛选的关键水质指标。本研究采用的人工神经网络为按误差反向传播训练的多层前馈网络(BP 人工神经网络),包含一个输入层(输入层节点个数与输入参数个数相同)、两个隐含层(隐含层节点分别为10 和3)和一个输出层(输出层节点为1),输出层一个节点输出的为当前测试样本的水质评价结果。ANN 模型使用的“训练数据”与WQI 模型相同,为2006-2017 年沂河水质样本。ANN 训练过程参数如下:批(batch)大小为64,学习率为2×10-5,预测值为20次连续训练和测试样本的平均值,训练过程中的损失函数采用均方误差。
2 结果与分析
2.1 关键水质指标筛选
将10 个水质指标依次加入模型,比较各指标对WQI 的贡献程度,关键水质指标筛选过程如表2 所示。在所有水质指标中,NH3-N 对训练数据WQI 的贡献最大,拟合程度最高,R2=0.776(P<0.001),所以我们将NH3-N 作为WQImin模型的第一个关键水质指标。当BOD5、DO 和SO42-依次加入模型时,模型R2显著增加,分别为0.830(P<0.001)、0.854(P<0.001)和0.874(P<0.001),其他水质指标加入模型后的拟合程度都不如这3 个指标,所以选择BOD5、DO 和SO42-分别作为WQImin模型的第二个、第三个和第四个关键水质指标。在选择WQImin模型第五个关键水质指标时,发现在模型中加入WT 和COD 后,模型性能小幅度提高,且R2相差较小。加入WT 后模型拟合度为R2=0.893(P<0.001),加入COD 后模型拟合度为R2=0.894(P<0.001)。因此,将NH3-N、BOD5、DO 和SO42-四个指标作为WQImin模型的基本构成,在此基础上考虑使用测试数据对加入WT 和COD 的WQImin模型进行性能比较,筛选出最能表征沂河水质状况的关键指标。
表2 基于训练数据集的多元线性回归模型(n=512)Tab.2 Multiple linear regression model based on the training data set (n=512)
如表3 所示,对于不加权WQImin模型,当选择NH3-N、BOD5、DO、SO42-和COD 这5 个水质指标时,模型的拟合程度最好R2=0.846(P<0.05),并且预测精度最高MSE=4.76,PE=2.12%。当选择NH3-N、BOD5、DO 和这4个水质指标时,模型的拟合程度和预测精度仅次于模型(R2=0.845,MSE=6.47,PE=2.48%,P<0.05) 。模 型 和模型的拟合程度和预测精度分别为R2=0.744,MSE=12.17,PE=3.40%(P<0.05)和R2=0.776,MSE=8.00,PE=2.75%(P<0.05),它们对WQI 模型的解释程度不如模型和WQInwmin+COD模型。
表3 基于训练数据集的不加权WQImin模型(n=512,P<0.05)Tab.3 Non-weighted WQImin model based on the training data set(n=512,P<0.05)
如表4 所示,对于加权WQImin模型,当选择NH3-N、BOD5、DO、SO4
表4 基于训练数据集的加权WQImin模型(n=512,P<0.05)Tab.4 Weighted WQImin model based on the training data set(n=512,P<0.05)
2-和WT 这5 个水质指标时,模型的拟合程度最好R2=0.903(P<0.05),并且预测精度最高MSE=3.05,PE=1.70%。当选择NH3-N、BOD5、DO、SO42-、WT 和COD 这6 个水质指标时,模型的拟合程度和预测精度反而比模型更低(R2=0.891,MSE=4.56,PE=2.08%,P<0.05)。模型和模型的拟合程度和预测精度分别为R2=0.834,MSE=7.46,PE=2.66%(P<0.05)和R2=0.841,MSE=5.24,PE=2.23%(P<0.05),它们对WQI 模型的解释程度不如模型和模型。
对水质指标分别进行加权和不加权处理,比较不同WQImin模型的拟合程度和预测精度,结果表明无论水质指标是否加权,改变模型的指标设置都会改变模型的拟合程度和预测精度。基于训练数据,分别对比了四指标、五指标和六指标模型在加权和不加权两种处理方式下的拟合程度和预测精度,当模型同为五个水质指标时,发现将WT 作为第五个指标的模型效果更好。
2.2 最优WQImin模型筛选
基于训练数据的多元线性回归分析筛选出关键水质指标,将其带入测试数据,比较各组WQImin模型的拟合程度和预测精度,如图2 所示。对于不加权WQImin模型模型的拟合程度最好R2=0.862,并且预测精度最高MSE=2.34,PE=4.45%。模型的拟合程度和预测精度仅次于模型(R2=0.844,MSE=3.81,PE=5.68%)。模型和模型的拟合程度和预测精度分别为R2=0.796,MSE=8.14,PE=8.31%和R2=0.814,MSE=5.39,PE=6.76%,它们对WQI 模型的解释程度不如模型和模型。对于加权WQImin模型,模型的拟合程度最好R2=0.972,并 且 预 测 精 度 最 高MSE=0.51,PE=2.07%。模型的拟合程度和预测精度仅次于模型(R2=0.956,MSE=1.14,PE=3.11%)。模型和模型的拟合程度和预测精度分别为R2=0.876,MSE=2.95,PE=5.00%和R2=0.897,MSE=1.70,PE=3.79%,它们对WQI 模型的解释程度不如模型和模型。
图2 基于测试数据集的WQImin模型拟合程度、预测精度比较Fig.2 The prediction accuracy and fitting degree of WQImin models based on the testing data set
四指标模型在不加权情况下R2=0.844,MSE=3.81,PE=5.68%,在加权情况下R2=0.876,MSE=2.95,PE=5.00%,无论是否加权,该模型拟合程度和预测精度都未达到最高;在4个五指标模型中,、和基于测试数据的结果都不如模型;六指标模型的拟合程度为0.956,略小于模型,可以认为基于测试数据的模型性能较好。但模型的MSE和PE值均高于模型,说明模型的预测能力比模型差,不是本研究的最优WQImin模型。经综合比较,在所有WQImin模型中,模型的拟合程度最好,PE和MSE最低,是本研究最优水质评价模型。
在早期的研究中,使用水质指数WQI对水质进行评价时一般考虑各指标权重,但在筛选关键水质指标时不使用权重[1,15]。近年来,学者们改进了基于WQI 的水质评价方法,考虑了权重对构建关键水质指标模型的影响,这明显提高了实验结果的准确性[12]。通过比较图2的散点分布和图3的置信区间大小可以直观看出,在使用相同水质指标时,加权的WQImin模型的散点分布都更加集中,置信区间更窄,说明加权模型比不加权模型表现更好、精确度更高,能够更准确地预测水质,评价结果更符合实际情况。
图3 基于测试数据集的WQImin模型置信水平比较Fig.3 Confidence level comparison of WQImin models based on the testing data set
2.3 基于ANN模型的关键水质指标验证
引入人工神经网络模型ANN验证所筛选的关键水质指标。使用与WQI 模型相同的“训练数据”样本对ANN 模型进行训练,基于多元线性回归分析所筛选出的关键水质指标,将其作为输入参数进行模型预测,预测结果如图4所示。结果表明,当输入参数为NH3-N、BOD5、DO、SO42-和WT 时,模型MSE=1.44,R2=0.92,拟合程度最好,预测精度最高。ANN 模型的验证结果与WQI 筛选结果一致,表明NH3-N、BOD5、DO、SO42-和WT 是能表征沂河水质情况的关键水质指标。本研究将WQI 水质评价法与ANN技术相结合,为沂河构建了一个具有预测与评价功能的水质模型,有利于对沂河水质未来变化做出判断,为其智能化模拟提供新的技术途径。
图4 基于ANN模型的水质评价结果预测Fig.4 Prediction of water quality evaluation results based on ANN model
2.4 关键水质指标分析
本研究的最优水质评价模型由NH3-N、BOD5、DO、SO42-和WT这5个水质指标组成,具有良好的水质评价性能。线性相关分析结果表明,该模型与WQI 模型呈极显著正相关关系(P<0.001),能够有效替代WQI 模型进行沂河水质评价。WQImin模型是简化的WQI 模型,能够解释水质的整体变化,并且模型选择的水质指标易于测量,降低了检测成本,有利于沂河流域水质高效评价。
NH3-N 是本研究所确定的第一个关键水质指标,对WQI变化的解释程度最大(R2>0.77,P<0.001)。之前的研究表明水体NH3-N 浓度对水质有重要影响[16]。硝态氮和氨氮都属于无机氮,但在本研究中硝态氮并未作为流域关键水质指标,主要原因是多元线性回归分析表明,硝态氮对WQI模型的贡献低于其他指标,不能有效表征WQI 模型(R2>0.002,P>0.001)。在以往的研究中,TP曾作为表示水体营养盐水平的水质指标[12,13]。基于以前的研究,在选择NH3-N 前先考虑TP 作为沂河水质的营养盐类关键指标。但训练数据结果表明,TP 对WQI 模型贡献不如NH3-N,所以我们最终选择NH3-N 作为沂河的关键水质指标,采用NH3-N 来表征沂河流域的营养盐水平也反映了流域水质状况的差异性。
BOD5和DO 是本研究所确定的第二个和第三个关键水质指标,体现了它们对WQI的重要性。这两个指标可能反映了城乡污水、畜禽集约化养殖、工业废水以及其他有机污染物输入对沂河水质的影响。有机物可能导致水中厌氧细菌分解,产生甲烷、硫化氢、硫醇、氨等恶臭难闻的气体,过量的污染物排放也可能导致水中溶解氧含量降低。DO 可以影响水生生物的许多复杂生化过程和生长发育,是反映水质状态的典型指标,研究人员常将DO作为流域关键水质指标[3,17]。
SO42-和WT 是本研究中的第四个和第五个关键水质指标。SO42-通常表征无机盐对水质的影响。F-也是一种无机盐,但训练数据的计算结果表明,当F-作为输入指标时,模型的PE和MSE都明显增加,因此使用F-作为关键指标的效果不如SO42-。硫酸盐来源广泛,比如生活污水、工业废水和天然矿物等。它是评价天然水体化学特征的重要指标,也可用于盐度分析[18]。过量的硫酸盐会破坏土壤结构,降低土壤肥力,对水环境产生危害[19]。WT 是本研究中权重最低的水质指标,反映了水体的物理化学性质,可以影响水中细菌的生长繁殖和水体自然净化效果[20]。在WQImin模型中加入WT后,模型R2显著升高,MSE和PE也有所降低。
3 结论与建议
(1)在使用相同水质指标时,加权模型的散点分布更加集中,置信区间更窄,能更好地解释水质变化趋势。无论是否加权,四指标模型的拟合程度和预测精度都未达到最高,不是本研究的最优模型; WQIwmin+WT模型性能最好,R2=0.972,MSE=0.51,PE=2.07%(P<0.05),包含5 个水质指标:NH3-N、BOD5、DO、SO42-和WT。
(2)WQIwmin+WT模型为本研究最优水质评价模型,该模型对WQI 的解释程度最大,具有良好的水质评价性能,与WQI 模型呈极显著正相关关系(P<0.001),能有效替代WQI 模型进行流域水质评价。水质评价模型由10 个水质指标简化为5 个,降低了检测成本,提高了评价效率。
(3)当输入参数为NH3-N、BOD5、DO、SO42-和WT时,水质预测ANN 模型拟合程度最好,预测精度最高,该模型不仅可用于沂河水质评价,还可对其未来变化做出判断,将其应用在水文监测站可做到水质状态实时更新,为流域水质智能化模拟提供新的技术途径。
(4)权重大小受研究区域和研究者个人经验的影响,可能会有所不同。因此在实际研究中,建议研究者查阅相关文献,根据实际研究地点和实测数据调整权重,从而构建更加真实的水质评价模型。此外,本文没有考虑重金属浓度对水质的影响,今后将加强相关研究,探究更多不同类型指标对水质的综合影响。