SPSS模糊聚类分析法在虹口区监测断面水质分类中的应用
2022-05-25王晨君
王晨君,张 莎,王 臣
(上海市虹口区环境监测站,上海 200083)
1 引言
模糊聚类是指基于模糊相似矩阵或模糊等价矩阵将所选择的待分类对象进行分类的过程[1]。当聚类涉及事物之间的模糊界限时,需运用模糊聚类分析方法[2]。通常把被聚类的事物称为样本,将被聚类的一组事物称为样本集。模糊聚类分析被广泛地应用于水环境要素(水质或底质环境要素)研究区域污染程度的分类。由于影响水环境治理的因素纷繁复杂[3],而且研究对象的影响因素具有不确定性,采用精确关联的方法如单污染指数法[4]、综合污染指数法、分级加权评分法、概率统计法[5~9]等,对水环境质量的评价的大都存在一定的片面性,而模糊聚类方法对类似“水污染程度”这类界限不清或者隶属关系不明的问题具有很大的优势[10]。
监测断面的模糊聚类分析有助于确定不同断面之间的相互关系,其不仅注意到水质分界线的模糊性,也使得信息利用率和精度均有较大幅度的提高[11]。本文采用SPSS模糊聚类法对2019年上海市虹口区不同水质监测断面的监测结果进行聚类分析。利用聚类分析方法,根据断面水质检测结果,将监测断面进行聚类分类,探究聚类结果与各监测断面分布特征的差异。
2 研究对象与研究方法
2.1 研究对象
虹口区位于上海市中心城区东北部,区内河道资源丰富,虹口区11个水质监测断面分布图,如图1所示。
图1 研究区11个水质监测断面分布
数据来源于2019年上海市虹口区环境生态局发布的生态环境质量报告书[12]。其中,参照《地表水环境质量标准》(GB3838-2002)中的水质标准进行考核的多项重点监测指标。综合考虑本市地表水水质状况、计算参数的完整性、多年数据综合评价的可比性、评价方法的衔接性等原因,选择溶解氧、高锰酸盐指数、化学需氧量、氨氮、总磷五项作为聚类分析参数。
本研究选用11个断面监测点采集的上述5种参数的年度平均数据。各监测点样品的采集和分析测试均由上海市虹口区环境监测站完成。
2.2 研究方法
采用SPSS软件中的模拟聚类分析功能。
3 结果与讨论
3.1 数据标准化
查阅生态环境质量报告书中2019年虹口区地表水5种参数的监测结果(年均值),如表1所示。
表1 2019虹口区地表水监测结果(年均值)
为了使不同监测项指标之间具有可比性,对原数据进行标准化预处理[13],转化为无量纲的指数,即使用实测值除以评价标准值。其中,评价标准值采用《地表水环境质量标准》(GB3838-2002)中的三级水质标准,此处不做过多赘述。
数据经标准化后,得到初始化数据矩阵,如表2所示。
表2 标准化矩阵
3.2 模糊聚类分析
将表2中各监测点数据进行模糊聚类分析,采用SPSS软件计算,用欧式距离方法进行样本区间的度量标准,并采用组间连接法的聚类方法,进行上述参数进行聚类分析,计算结果如表3、表4和图2所示。
表3 案例描述
由表3可知:聚类法分析的有效案例数为11个,无遗漏值[14]。
由表4可知:经过逐步的聚类[15],可将11个监测断面分为4类:Ⅰ类(1,2,3,8,4,7)、Ⅱ类(6,10,9,11)和Ⅲ类(5)。其中,Ⅰ类聚类系数均小于0.1,表明其具有较强的聚类性。图2冰柱图也说明:聚成上述三类断面比较合适。
图2 冰柱图
表4 聚类过程
由图3聚类分析树状图可知,其聚类结果与聚类过程、冰柱图结果均保持一致,即Ⅰ类(1,2,3,8,4,7)、Ⅱ类(6,10,9,11)和Ⅲ类(5)。
图3 聚类分析树状图
3.3 讨论与结论
根据聚类分析可知,可将监测断面大致分为三类,即Ⅰ类(1,2,3,8,4,7)、Ⅱ类(6,10,9,11)和Ⅲ类(5)。结合图1,将上述断面进行划分,详见图4。由图4可知,通过聚类分析,可将监测断面划分为三大类,界限较为清晰,聚类分析结果与实际水系分布情况具有较高的一致性。
图4 监测断面划分
(1)通过对虹口区2019年11个监测断面5项水质参数的模糊聚类分析,可以将区域断面明显分为三类,即Ⅰ类断面(哈尔滨路1号桥,嘉兴路桥,外虹桥,车站北路桥,四明公所桥,大连西路桥)、Ⅱ类断面(忠烈桥,水电路市河桥,凉城路桥,场中路2号桥)和Ⅲ类断面(沽西浜小桥)。
(2)聚类分析的结果与实际水系分布情况具有较高的一致性,可将监测断面的界限划分得较为清晰,此方法在水质分类中具有一定的优越性。
水环境质量关系着国计民生,利用模糊聚类分析方法对虹口区水环境质量进行划分,具有客观性与科学性,能够真实地反映虹口区水环境质量状况。此外,对水环境质量进行划分有利于加强社会民众对环境质量的正确认识,提高保护环境的自觉性。同时,也为科学治理、制定行之有效的整治环境的规划与策略提供了科学依据。