APP下载

基于主成分分析法和系统聚类分析法的河流水质评价研究

2022-12-24杜俊鹏吴计生赵立勇魏春凤

水利技术监督 2022年12期
关键词:水质评价特征值氨氮

杜俊鹏,吕 军,吴计生,赵立勇,魏春凤,张 宇

(1.松辽水资源保护科学研究所,吉林 长春 130021;2.吉林省润佳水利工程咨询有限公司,吉林 长春 130032)

水质评价的方法有很多,从上世纪70年代开始,学者们通过各种不同的方法来评价河流水质情况。具体的方法有:单因子评价法、指数评价法、模糊评价法、神经网络评价法、主成分分析法、聚类分析法、灰色评价法、物元分析评价法等。其中主成分分析法是利用降维思想,在损失很少原始信息的前提下把多个指标转化为几个综合指标的多元统计方法。聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果,类内部个体特征具有相似性,不同类间个体特征的差异性较大。[1-7]

1 研究区概况

长春市经济技术开发区简称经开区是1992年成立,1993年经国务院批准的国家级经济技术开发区。地处长春市东部,位于长春向东北拓展的工业主轴线。行政面积112km2,分为南北两区,辖四街一镇,常住人口40万人,共有各类市场主体4万户。经开区内共有河流16条、人工湖1处。其中:伊通河流域分别为伊通河右岸(卫星路——自由大路段),全长约3570m;新开河右岸(东荣大路-金钱小白桥段)及东新开河(东前屯入口-洋浦大街段),全长约4470m;小河沿子河右岸(新城大街-伊通河段),全长约5120m;鲶鱼沟(绕城高速-伊通河段),全长约5770m。饮马河流域分别为雾开河支流干雾海河,全长约8050m;干雾海河支流中山沟,全长约6969m;干雾海河支流南阳沟,全长约470m;兴隆山隆东沟,全长约1350m。北海公园人工湖水域面积2887.85m2。全区共布置地表水监测点27个,监测项目为PH、溶解氧、COD、高锰酸钾指数、氨氮、总磷,监测数据由经开区河长制办公室提供,为2019年经开区全年平均地表水监测数据。

2 研究方法

本文采用主成分分析法和系统聚类分析法相结合,具体如下。

2.1 主成分分析法具体步骤[11]

步骤1:数据标准化。对原始数据进行标准化,以消除数据量纲及数量级的影响。

步骤2:根据标准化后的数据计算相关系数矩阵。

步骤3:计算相关系数矩阵的特征值与特征向量。相关系数矩阵的特征值λi其实就是主成分F的方差,一般选取特征根大于1的主成分进行分析。

步骤4:计算方差贡献率并确定主成分。

步骤6:计算各主成分表达式Fi即主成分荷载值lij与对应的标准化后的指标值xij相乘。

步骤7:计算主成分综合得分值F。即各主成分得分值Fi与相应权重的乘积之和,对应权重为对应特征值在选取总特征值中的占比。

通过主成分分析法,可得各监测断面主成分得分值和总得分值。得分值越高,说明该断面污染越严重。

2.2 系统聚类分析法具体步骤[10]

步骤1:首先对原始数据进行预处理,即标准化处理。

步骤2:根据标准化后的数据计算相关系数矩阵。利用标准化后的数据,计算各变量之间相关系数,对相关系数矩阵逐层分析,步骤1和步骤2与主成分分析法一样。

步骤3:对不同变量类型下个体距离采用平方欧氏距离计算,个体与小类、小类与小类间距离采用组间平均距离计算,逐步计算至各类对象归为一类,绘制聚类分析谱系图。

通过系统聚类分析谱系图,可以看出哪几类变量或者样本具有较大的关联性,从而对变量进行分类分析,对样本进行分类管理。

3 实例分析

通过主成分分析和系统聚类分析,利用SPSS软件,对经开区水质监测断面进行水质评价,具体如下。首先对监测的27个水质断面进行标准化处理,见表1。

表1 标准化数据表

接着计算相关系数矩阵见表2。从相关系数矩阵表可以看出,大部分相关系数大于0.3,说明各部分变量的相关性是比较强的,它们存在信息上的重叠,因此对原始数据进行主成分分析是比较合适的。并且从表中可以看出,COD与高锰酸盐指数的相关性最强,系数达到0.878,氨氮与总磷的相关性也较强,系数达到0.716。

表2 相关系数矩阵表

接下来通过KMO和巴特利特检验进一步说明研究方法的正确性。见表3,从表3可以得出KMO值为0.701,巴特利特球形度检验显著性为0.000。通常我们认为KMO检验结果在0.5~0.7之间,同时巴特利特检验结果的显著性小于0.05,则表示原始数据适宜进行主成分分析。KMO检验结果大于0.7则非常适合主成分分析,低于0.5则不适合用主成分分析[8]。因此本项目是非常适合用主成分分成来进行水质评价的。

表3 KMO和巴特利特检验表

计算特征值与特征向量,见表4。查阅相关文献知,当特征值小于1时,表示该主成分的解释力度还不如直接引入原变量平均值的解释力度大[9-10],因此考虑将特征值大于1作为纳入标准。本例中选用两个特征值,分别为λ1=3.201,λ2=1.138,此时累积方差贡献率为72.316%,也就是说通过选取两个主成分,就可以表达原始指标绝大部分的信息。并且可以进一步知道,第一主成分的影响最大,方差百分比为53.356%。

计算主成分荷载值,即特征向量。见表5。从主成分荷载矩阵可以看出,锰酸盐指数、COD、总磷、总氮在第一主成分荷载较大,PH在第二主成分荷载较大。负值代表的是负相关。因此可以得出高锰酸盐指数、COD、总磷和氨氮是主要的污染因子。

表4 总方差解释表

表5 主成分荷载矩阵表(特征向量)

接着从系统聚类分析法,来分析各个变量的相关性。通过SPSS软件绘制生成谱系图,如图1所示,从谱系图可以看出,COD与高锰酸钾的关联性较强,氨氮和总磷的关联性较强,溶解氧与任何一个变量的关联性都较差,这也从另一种方法验证了相关系数矩阵表和主成分荷载矩阵表即主成分分析法的正确性,更加直观、形象的展示了各个变量之间的亲疏关系。

图1 评价联接(组间)谱系图

表6 各监测断面主成分综合得分值和单因子水质综合评价对比表

4 结语

通过相关系数矩阵表、主成分荷载矩阵表和谱系图可以得到,高锰酸盐指数、COD、总磷和氨氮为主要的污染因子,并且高锰酸钾指数和COD的关联度较大,总磷和氨氮的关联度较大。通过计算各个监测断面的主成分综合得分值,在与单因子水质评价进行比较,见表6,可以看出经开区河流水质总体较差,大多数为Ⅴ类水体。水质最好的监测断面为伊通河(卫星大桥断面)、伊通河(自由大桥断面)水质为Ⅲ类。鲶鱼沟(地表水末端)断面、小稗子沟(入境断面)、小稗子沟(汇入东新开河前断面,窦开河为小稗子沟支流,汇入小稗子沟断面)水质最差。本文的研究思路,可以为其他河流的水质评价提供参考依据,为水资源管理、水污染防治提供科学方法。接下来作者将用神经网络法、灰色评价法等多种方法对水质进一步评价,从更多方面完善其工作。

猜你喜欢

水质评价特征值氨氮
悬浮物对水质氨氮测定的影响
阿什河哈尔滨段水质评价
一类内部具有不连续性的不定Strum-Liouville算子的非实特征值问题
一类带强制位势的p-Laplace特征值问题
基于一类特殊特征值集的扩散算子逆谱问题
单圈图关联矩阵的特征值
浞河浮游藻类的调查研究与水质评价
低温高铁锰氨地下水净化工艺中氨氮去除途径
氨氮动态优化控制系统在污水厂的应用效果
基于概率统计和模糊综合评价法的水质评价模型及其应用——以拉萨河水质评价为例