基于主成分分析的Spearman秩相关系数法在渭河干流甘肃段水质分析中的应用
2022-05-19丁杰萍尚婷婷
丁杰萍,周 静,尚婷婷
(甘肃省生态环境科学设计研究院,甘肃 兰州 730020)
0 引言
水环境质量的全面评价和水环境污染特征的准确把握是河流水环境污染防治的重要依据[1]。近年来,在社会经济的快速发展过程中,渭河流域水环境问题日益严重[2]。多元统计分析作为一种重要的数据处理分析方法,在河流水质变化特征的研究中有着广泛的应用[3],其中的主成分分析法(PCA) 主要通过线性变换,将多个原始变量转化为少数几个相互独立的综合指标(即主成分),从而深入揭示事物的内在规律,提高了分析结果的客观性和可靠性[4]。
本研究通过SPSS 软件因子分析功能,采用PCA分析对渭河干流甘肃段的水质影响因子进行提取,并对水质特征进行综合评价,再通过spearman 秩相关系数法对主成分综合得分值的变化趋势进行分析,以期为渭河干流甘肃段水污染防治提供依据。
1 研究区域与分析方法
1.1 研究区概况
渭河是黄河的最大支流,发源于甘肃省渭源县,流经甘肃天水、陕西宝鸡、咸阳、西安、渭南等地区,至渭南市潼关县汇入黄河。渭河甘肃段是指渭河的源头至甘肃和陕西交界之间的渭河干流区域,河长360 km,流域面积25 790 km2,干流两岸支流众多,水系呈扇状分布,属不对称水系。北岸有秦祁河、咸河、散渡河、葫芦河、牛头河等支流汇入,南岸有榜沙河、大南河、藉河等支流汇入。渭河流域甘肃段多年平均降水量515.1 mm[5]。
1.2 数据来源
本研究数据来源于甘肃省国控和省控断面水质数据监测值。共计选取了渭河干流西二十里铺、桦林、北道桥、伯阳桥和葡萄园5个监测断面(监测断面名称及位置具体见图1)。选择了各断面2011-2020年连续10 apH、电导率、高锰酸盐指数、化学需氧量(COD)、五日生化需氧量(BOD5)、氨氮(NH3-N)、总氮(TN)和总磷(TP)等8个水质监测指标,共计400个水质监测值进行分析。水质指标分析参照《地表水环境质量标准》(GB 3838-2002)执行。
图1 渭河流域水质监测断面位置示意图
1.3 研究方法
1.3.1 主成分分析
PCA是考察多个变量间相关性的一种多元统计方法,将原来众多具有一定相关性的变量重新组合,形成新的几个综合变量,这些综合变量彼此互不相关,且能够反映原变量提供的大部分信息,这些新的综合变量称为主成分。本文应用SPSS22.0(www.ibm.com/software/analytics/spss/)软件对渭河流域甘肃段的8个水质指标进行分析,最终提取了2个主成分,有效降低了具有较大因子载荷的变量个数。
1.3.2 spearman 秩相关系数法
秩相关系数法又被称为等级相关系数法,原理是将两因子的样本值从小到大按序排列,以各因子样本值的位次代替实际数据加以计算,是衡量时间序列变化趋势在统计上有无显著性的常用方法[6]。
秩相关系数计算方式见公式(1) :
(1)
di=Xi-Yi
(2)
式中:di为变量Xi和Yi的差值;Xi为周期1~N按浓度值从小到大排列的序号;Yi为按时间排列的序号;N为年份。
将秩相关系数的绝对值与spearman 秩相关系数统计表中的临界值Wp 进行比较,如果rs>Wp,则表明变化趋势有显著意义;如果rs为正值,则表明数据序列具有上升趋势;如果rs为负值,则表明数据序列具有下降趋势[6]。
2 结果与分析
2.1 主成分分析
采用SPSS22.0软件对数据进行KMO检验及Bartlett球形检验。KMO检验结果为0.817,且Bartlett球形检验结果的显著性概率P值为0,说明本研究水质数据适合用于主成分分析。
通过水质参数统计特征描述及各污染物指标相关性分析,可初步判断渭河干流水质状况。表1显示,渭河干流甘肃段主要污染物除总氮外其余指标浓度均值达到地表水III类水质标准。从变异系数(CV=标准差/平均值×100%)看,pH最小,氨氮最大,除pH外其他指标变异系数均较大,为21.6%~74.36%,这表明渭河干流甘肃段主要水质指标存在较大的时间或空间变异。
表1 渭河干流甘肃段2010-2020年水质指标的统计描述
由表2可知,高锰酸盐指数、五日生化需氧量、氨氮、化学需氧量、总氮和总磷之间呈显著正相关,因而适宜用主成分分析法研究变量之间的关系。
表2 相关系数矩阵
表3 主成分方差与方差贡献率
以特征值是否大于1为依据[7],提取出2个主成分(表3),因子负荷矩阵及各指标得分见表4,累计方差百分比为81.28%,可以反映原始数据的基本信息。其中,第1主成分对原始变量的解释贡献了总方差的65.259%,负荷值最高的指标包括五日生化需氧量、化学需氧量、总氮、总磷、高锰酸盐指数、氨氮,分别为0.917、0.910、0.892、0.884、0.788、0.778(以绝对值大于0.7判定负荷值为较高)[8],代表水体的有机物污水平[9];第2主成分的贡献率为16.021%,远低于第一主成分,负荷高指标主要为pH和电导率,可见该主成分反应的主要为水体的理化特征。这2个主成分的累计方差贡献率为81.28%,表明这2个主成分及8个水质参数指标可以解释流域大部分的水质变化。
由表3和表4可以计算得出2个主成分评价函数F1,F2及综合评价函数F。各评价函数表达式如下所示:其中,ZX1、ZX2、ZX3、ZX4、ZX5、ZX6、ZX7、ZX8分别代表五日生化需氧量、化学需氧量、总氮、总磷、高锰酸盐指数、氨氮、pH值、电导率的标准化数据;λ表示不同主成分对应的特征值。
F1=0.402ZX1+0.398ZX2+0.390ZX3+0.387ZX4+0.345ZX5+0.340ZX6-0.257ZX7+0.278ZX8;
F2=-0.134ZX1-0.012ZX2+0.047ZX3+0.170ZX4-0.351ZX5+0.258ZX6+0.626ZX7+0.607ZX8;
F=(λ1F1+λ2F2)/(λ1+λ2)=0.803F1+0.197F2
根据评价函数公式可计算出各断面的的主成分综合得分及排名见表5,各监测断面水质的主成分综合得分均值特征见图2。主成分综合得分越高,排名越靠前,表明污染越重,水质越差。
表4 初始因子载荷矩阵
表5 2011-2020年各断面水质的主成分综合得分值F
图2 各监测断面2011-2020年水质的主成分综合得分均值
由表5可知,2011-2015年,渭河干流甘肃段5个断面污染由重到轻依次为桦林>北道桥>伯阳桥>葡萄园>西二十里铺。2016-2020年,5个断面的排名发生变化,且不再稳定,但北道桥和伯阳桥排名居前二,说明该两个断面的污染相对加重,桦林排序靠后,说明该断面污染相对减轻。由图2可知,渭河干流甘肃段5个断面水质在2011-2020年平均受有机物污染从重到轻排序依次为桦林>北道桥>伯阳桥>葡萄园>西二十里铺。
2.2 渭河干流甘肃段水质趋势变化分析
采用spearman 秩相关系数法对渭河干流甘肃段5个断面10年的主成分综合得分值进行再分析,计算结果见图3。可知,2011-2020年,5个断面的主成分综合得分均呈波动减小的趋势,相对于2011年,桦林、北道桥、葡萄园、伯阳桥、西二十里铺5个断面的主成分综合得分值分别减少3.989、2.936、2.814、2.08、1.061,说明水质在变好,其中桦林最为明显。西二十里铺断面作为渭河源头区,水质状况最好。桦林断面十年来水质波动较大,2014年水质最差达到峰值5.896,表明有大量污染物排入,2015年后水质状况持续改善。伯阳桥断面2015年水质最差达到峰值,之后迅速转好,这与实施“水十条”的成效密不可分。葡萄园断面水质较为稳定,十年来水质持续转好。
图3 各断面主成分综合得分值变化曲线
表6 各断面主成分综合得分值变化趋势显著性检验表
各断面的主成分综合得分值趋势变化显著性结果表明(表6),渭河干流甘肃段5个断面得分值均呈减小趋势,说明水质均呈转好的趋势,其中,西二十里铺、北道桥和葡萄园断面在置信水平99%时具有显著意义,桦林和伯阳桥断面在置信水平95%时具有显著意义。
3 结语
本文采用主成分分析法对渭河干流甘肃段2011-2020年水质进行了分析,在此分析结果的基础上采用spearman 秩相关系数法对综合得分值进行了再分析,研究结果表明:(1)2011-2020年渭河干流甘肃段主要水质指标存在较大的时间或空间变异;(2)高锰酸盐指数、五日生化需氧量、氨氮、化学需氧量、总氮和总磷之间呈显著正相关;(3)渭河干流甘肃段5个断面水质受污染从重到轻依次为桦林>北道桥>伯阳桥>葡萄园>西二十里铺;(4)2011-2020年渭河干流甘肃段水质呈明显好转趋势。