APP下载

基于机器学习方法的湖州市水质评价模型构建与关键特征识别

2023-02-17王一旭

水资源开发与管理 2023年1期
关键词:类水水质评价湖州市

何 恒 宋 蝶 王一旭

(浙江省发展规划研究院,浙江 杭州 310012)

水资源是人类赖以生存的自然资源,水环境质量直接影响着人类的生存和发展[1]。随着城市化进程的加速,工业废水、生活污水、农业面源污染使河流水体污染物含量增加,水体污染问题日益严重。区域水质时空变化特征分析是区域水资源管理与污染研究治理的重要内容之一,也是进行区域水环境治理与保护的科学依据[2],因此在时间和空间尺度上对水质进行分析具有重要的科学意义和现实意义。

近年来,随着数据可获得性的提升和建模技术的不断发展,机器学习算法越来越受到学界的重视,也被广泛应用于环境保护领域[3-6]。相较于传统统计学方法,机器学习算法能够从规模较大的数据集里进行相关模式的学习,构建基于数据的经验关系,并将其应用于预测和机理分析中。然而,这些模型比传统统计学模型复杂,其内部逻辑难以理解。即使能够作出准确的预测[7],但由于机器学习模型的“黑盒子”属性,其应用场景在很多领域都受到了限制。因此,需要使用外部的模型解释方法才能更深入地理解建模过程,而特征重要性就是一种常用的模型解释方法[8]。

湖州市是“绿水青山就是金山银山”理念的诞生地,2005年以来,湖州市以太湖流域水环境综合治理、“五水共治”“污水零直排区”创建等重大行动为抓手,推动水环境不断提质升级。但由城市化水平提升、人类活动加剧而产生的环境污染风险仍不可忽视。通过对湖州市近15年水质状况进行时空分析,可以了解湖州市水质指标随时间的变化规律,并确定不同水质的分布状况。因此,本文以2005—2019年湖州市省控监测断面水质监测资料为基础,分析研究湖州市水质时空变化规律,并通过机器学习方法进行水质数据的相关模式识别,采用基于模型性能的特征重要性对主要水环境污染物进行识别,探究利用上述方法在湖州市进行水质研究的可行性,为新时代美丽湖州、美丽乡村建设提供技术支撑。

1 材料与方法

1.1 研究区概况

湖州市位于浙江省北部、太湖南岸,市域面积5820km2,东部为水乡平原,西部以山地、丘陵为主,辖吴兴、南浔2个区,德清、长兴、安吉3个县,常住人口近300万,其中市区人口133万。湖州市地处北亚热带季风气候区,雨热同期、降水充沛,年平均气温12.2~17.3℃,无霜期224~246天,年平均降水量761~1780mm。境内水面面积536km2,主要河流包括东、西苕溪,长兴水系河流等。湖州市自然资源丰富,生态环境良好,是“绿水青山就是金山银山”理念的诞生地、中国美丽乡村发源地、全国首个地市级生态文明先行示范区。

1.2 数据来源

1.3 研究方法

1.3.1 时空分析方法

本研究首先对水质各指标的月均值数据进行了处理,同时将17个监测站点根据水系汇水情况划分为西苕溪流域(区域1)、长兴水系(区域2)、东苕溪流域(区域3)、东部平原河网(区域4)4个区域。其中区域1监测站点包括荆湾、塘浦、铁路桥、南潘,区域2监测站点包括合溪、杨家浦,区域3监测站点包括城南翻水站、城西大桥、东升、小梅口、新港口、大钱,区域4监测站点包括幻溇、古娄港、南浔、汤溇、沈家墩,具体分布见图1。

图1 监测断面分布

1.3.2 水质评价模型构建

为了识别关键水环境污染物,首先需要利用机器学习算法构建水质参数与水质类别的相关模式,即构建水质评价模型。为了确定适合用于水质评价的机器学习算法,本研究选取6种常用算法,进行了1000次水质数据集的随机划分以避免数据划分造成的性能影响,在默认的参数设置下分别进行了1000轮模型训练,并计算每个模型交叉验证准确率的均值和标准差(见表1)。经过模型性能比选,本研究选择梯度增强迭代决策树(Gradient Boosting Decision Tree, GBDT)算法进行水质评价模型的构建。

表1 模型比选结果

GBDT算法是一种有监督分类的算法,这类算法能从已知水质类别的水质数据集合中学习水质参数和水质类别的经验关系,以水质参数为自变量,水质类别为因变量,构建自变量和因变量之间的关联规则。

GBDT模型以分类与回归树(classification and regression tree, CART)模型为基分类器,针对每一个任务都会构建若干数量的CARTs,并采用梯度增强为学习策略进行训练。在构建新的CART时,采用现存CART的拟合残差梯度值作为学习目标,而模型的最终输出是所有CARTs输出预测值的累加结果,也就是说模型会以CART的原始结果为基础,并构建结果调整机制提升准确率,以实现更加优秀的模型性能。对于本研究中涉及的多分类任务,GBDT算法采用一对多的处理策略,如将Ⅰ~Ⅴ类水质级别标签划分为Ⅰ类水和非Ⅰ类水、Ⅱ类水和非Ⅱ类水等5个二分类,并分别同步构建模型,最后通过5个模型的输出结果综合判断水质级别。

本研究中,水质数据集合被划分为训练集(70%)和验证集(30%),其中训练集被用于模型构建,验证集被用于模型的泛化性能验证。在模型构建过程中,采用Hyperopt[9]在十折交叉验证下进行超参数调优,即将训练集随机分为10份,进行10次模型构建,每次构建都取1份作为该次模型构建的验证数据计算准确率,并将交叉验证准确率的均值作为超参数调优算法的评价依据。在完成模型训练后,将测试集数据作为模型输入,预测每一条水质监测记录的水质类别,并与真实值进行比较,计算模型的测试准确率。

1.3.3 关键特征识别

在完成水质评价模型构建后,计算特征重要性,以此作为关键水质参数的识别依据。本研究采用基于模型交叉验证性能的递归特征消除算法进行关键水质参数的识别。递归特征消除算法是一种向后选择的特征筛选方法,会进行多次模型构建。在每轮的模型构建中,依次遍历所有特征,将该特征剔除后,再将剩余的特征输入模型,计算该特征子集交叉验证的准确率,选择模型性能最好的特征子集进行下一轮消除,直到仅剩一个特征后停止消除。特征被消除的先后顺序便是特征的重要性排序。采用该方法进行关键水环境污染物的识别,可以从水质评价效果的角度出发,判断哪项水质指标对水质级别的影响更大,对于区域水质管理工作更具参考价值。

本研究中,水质数据分析采用SPSS 22.0进行;水质类别判断、GBDT模型构建和基于模型交叉验证性能的递归特征消除算法均采用Python编程实现。其中水质类别的划分依据为《地表水环境质量标准》(GB 3838—2002)。

2 结果与讨论

2.1 水质时空分布特征

2.1.1 时间分析

图2 湖州市2005—2019年高锰酸盐指数、化学需氧量、五日生化需氧量、氨氮、总磷年平均浓度变化情况

图3 丰水期、平水期、枯水期不同区域间水质参数比较

图3中,各水质参数同一时期的不同字母代表区域间差异显著,P<0.05。

2.1.2 空间分析

整体而言,湖州市水质按优劣情况排序依次为区域1、区域3、区域4、区域2。区域1近些年生态环境保护较好,西苕溪流域中上游的安吉县作为国家级生态示范区,其在水土保持、植被恢复等方面做了大量工作,使西苕溪生态环境得到良好恢复与保护[13];区域2的水体整体质量最差,可能是受太湖水质污染影响,此外位于区域2的长兴县是工业强县,工业发展也会产生较多的工业污染源;区域3的水体整体水质劣于区域1,这是由于东苕溪两岸的矿山企业较多,导致东苕溪受矿山开采和航运的影响使水质变浑,加之东苕溪两侧农业养殖多,畜禽粪便等生产废水治理尚不到位;区域4的水体整体质量较差,相关研究表明流域水质污染与居民区之间存在一定的相关性[14],而区域4位于湖州东部平原,人口众多,工业密集,可在居民点距河岸较近的区域设置植被缓冲带,降低水质污染风险[15]。

2.2 关键水环境污染物识别

2.2.1 水质评价模型构建

以水质级别作为标签,进行GBDT模型训练,经过Hyperopt超参数调优后(采用的超参数:bagging_fraction=0.26,learning_rate=0.34,max_depth=19,num_leaves=2,num_trees=231),训练集数据的十折交叉验证平均准确率可达98%。采用学习曲线对模型拟合度进行可视化表征(见图4),可以发现模型对训练数据的准确率一直稳定在100%,而随着训练数据的不断输入,其对于交叉验证的预测准确率不断上升,最终达到了接近训练拟合度的收敛状态。由此可知,GBDT模型对于水质数据的拟合程度较好,不存在欠拟合或过拟合的问题。

图4 GBDT模型学习曲线

将验证集数据输入训练好的模型,结果显示模型的预测准确率可达97%。具体的验证集数据分类效果见表2。

表2 验证集模型分类报告

对于Ⅰ类和Ⅴ类数据,模型的准确率高于召回率,对这两类水质数据作出正类判断的正确率较高,但存在部分的Ⅰ类和Ⅴ类数据会被误判为Ⅱ类和Ⅳ类的问题。Ⅳ类数据的准确率低于召回率,准确率低主要是受到Ⅴ类数据被错判为Ⅳ类的影响,而Ⅳ类数据样本数并不多,导致其准确率大幅降低。

湖州市的水质检测记录中Ⅰ类和Ⅴ类水都非常少,模型的召回率低,说明部分监测数据虽然属于Ⅰ类或Ⅴ类水,但其与Ⅱ类或Ⅳ类水标准的标准界限非常接近。特别是Ⅴ类水,其综合评价F1(包括召回率和准确率)得分只有67%,说明湖州地区虽然会偶而发出现Ⅴ类水,但其超过Ⅳ类水标准范围的幅度非常小,导致模型的精度不高。

由于湖州市的水质级别主要为Ⅱ类与Ⅲ类水,导致Ⅰ类、Ⅳ类、Ⅴ类水数据记录的样本数相对较少,模型的学习能力和判断能力受到了一定的影响。但是总体上,GBDT模型仍然能够有效识别水质指标与水质级别之间的相关关系,并且具有较强的预测能力,适合用于进一步的分析。

2.2.2 模型关键特征

采用基于模型性能的递归特征消除算法对所有水质指标进行分析,以进行关键水环境污染物识别,结果见表3和图5。

表3 基于模型性能的关键特征识别

图5 关键参数识别

由图5可知,模型中纳入的特征数量与模型性能成正相关关系,这可能是因为本研究采用的5项水质指标都属于对水质评价非常重要的参数,因此区分度并不十分明显。然而,CODMn和BOD5的加入对于模型性能的提升幅度存在一定程度上的衰减,并且由于递归特征消除算法的基本思想是每轮消除都会去除对模型性能影响最小的特征,可知这两项水质指标对于水质级别判定的影响相对较弱。

3 结 语

猜你喜欢

类水水质评价湖州市
湖州市庚村阳桃规范化栽培技术
湖州市吴兴区:构建消费帮扶机制 支援工作走深走实
湖州市吴兴区:融入长三角一体化发展
浞河浮游藻类的调查研究与水质评价
My family
滻灞河水质评价方法研究
浙江丽水:打好劣V类水剿灭战
基于概率统计和模糊综合评价法的水质评价模型及其应用——以拉萨河水质评价为例
十四烷酸插层稀土类水滑石的合成及其对PVC的热稳定作用
PA6/类水滑石纳米复合材料的制备与性能研究