APP下载

水质分析中聚类分析和因子分析的应用研究

2018-06-20

地下水 2018年3期
关键词:水质评价水样水质

(河南省地质调查院/河南省地球化学生态修复工程技术研究中心,河南 郑州 450001)

水质和水量问题一直是威胁社会和经济发展的重要议题,已引起社会各界的广泛关注[1-5]。随着城镇化进程加速和现代经济迅速发展,由人为干扰引发的地表水和地下水污染问题日益突出[4,6-7]。众多水质监测项目产生了大量且复杂的水质数据,而分析和解释这些物理、化学和微生物等各种参数的潜在关系有着很大的难度[8]。因此,用以简化数据结构、提取潜在信息的多元统计方法被大量应用在水质数据分析中。李俊霞等[9]运用快速聚类和因子分析法对大同盆地原生高砷、高氟地下水的16个水化学指标进行了分析,把地下水分为6类不同水化学特征的地下水;张旋等[10]基于聚类分析(CA)和判别分析(DA)以香港新界南部和九龙的五条河溪为例探讨了水质空间差异的分析方法;富天乙[11]等通过因子分析、方差分析和聚类分析对辽阳太子河监测断面的水质指标进行综合评价和分类。

本研究选取某盆地内浅层地下水样品测试数据,进行聚类分析和因子分析,分析过程较为详细,从统计学方面解释数据分析结果,从而更有利于多元统计学与水质分析的结合。该盆地内存在两条大型的河流,所选取的59组浅层地下水水样多采集于河流阶地的潜水含水层,忽略地形地貌等自然因素的影响,只做多元统计方法在水质分析中应用的探讨。参与方法探讨的水质分析指标主要有电导率EC、总硬度(CaCO3)、Ca2+、Mg2+、K+(K++Na+)、Cl-、SO42-、HCO3-以及NO3-8种水质因子。

1 聚类分析及水质评价

快速聚类法(KCA)的基本思想是:当待聚类的样品比较多时, 先给出一个大致的初始聚类, 然后用某种原则进行修改, 直到分类结果比较满意为止[12]。在水质评价中, 常根据采样点和采样时间进行聚类, 或根据评价指标进行聚类, 分析指标或区域之间的相似性[13,14]。

对59组水样进行聚类分析,选取的指标有pH值、Ca2+、Mg2+、K++Na+、Cl-、SO42-、HCO3-和NO3-八种常规离子,聚类结果如表1所示。另外按照《区域地下水污染调查评价规范》(DZT0288-2015)地下水水质评价标准对水样进行分类,分类结果如表1所示:

表1 系统聚类结果表

按照《区域地下水污染调查评价规范》(DZT0288-2015)地下水水质评价标准对水样进行评价,分类结果如表2所示,表中所取水样水质按规范分为Ⅲ类水,Ⅳ类水,Ⅴ类水,分别归为ABC三类。

2 因子分析

因子分析法(FA)是一种降低变量维数的方法。在水质分析中, 此方法主要用来提取污染因子和识别污染源[3,15]。其基本思想是根据相关性大小将变量分组, 使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。每组变量代表一个基本结构, 用一个不可观测的综合变量表示[1]。因子模型为:

x1=a11F1+a12F2 +…+a1mFm+ε1

x2=a21F1+a22F2 +…+a2mFm+ε2

xμ=ap1F1+ap2F2 +…+apmm+εp

式中:Fi 称为公共因子(也称主因子);εi 称为特殊因子, 是向量xi 所特有的因子, 各特殊因子之间以及特殊因子与所有公共因子之间都是相关独立的;aij 称为因子载荷, i为样品数量, j为变量数量;m为因子数量;p为变量个数。

表2 按《区域地下水污染调查评价规范》地下水水质分类

2.1 因子分析的适合性检验

运用KMO(Kaiser-Meyer-Olkin)和巴特利球形统计量进行检验,判断依据能否进行因子分析,结果见表3。KMO统计量检验是用于比较观测相关系数值与偏相关系数值的一个指标,其直大于0.5即适合做因子分析。本研究中,KMO统计量为0.646(>0.5),数据适合做因子分析;巴特利球度检验的近似卡方值为1 099.729,自由度为36,概率值为0,即使球形假设被拒绝,也就是说可以认为相关系数矩阵与单位矩阵有显著差异,原数据是可以进行因子分析的。

2.2 相关系数矩阵

盆地内各个水样常规水质因素进行标准化数据矩阵计算的相关系数结果如表4所示,相关系数表明了两两因子间的相关性大小,越接近1,则相关度越高。

各因素两两之间电导率EC、总硬度、Ca2+、Mg2+、K+和Cl-等因素之间极显著相关,均在0.8以上,阴离子NO3-与Cl-和SO42-呈显著相关。从整体数据来看,各因子之间的相关性较高,因此可以选择因子分析法对变量之间的关系进行深一步的研究。

表3 K均值和球形检验

2.3 因子分析的总方差解释

根据标准化后数据的相关系数矩阵,运用主成分分析方法提取因子,按规定提取因子,按照累计贡献率(一般取值在80%以上)和特征值(大于1)确定因子个数,由于参与分析的样本数量为44个,因子数量为9个,数据量和因子数量都较大,提取具有代表性公因子的难度也大,因此本次分析结果78.2%接近80%,仍可视为可以接受的范围。结果如表5所示。表中旋转前和旋转后累计方法贡献率没有发生变化,总的信息量没有损失。因此这两个因子来代替原来的水质指标。

2.4 因子旋转

建立因子分析模型的目的是为了找到公因子代替原有多个指标,并且要了解提取的每个公因子的统计学意义和专业应用意义,从而能更好的解决实际问题。用主成分分析法求出的主因子解,各因子的典型代表变量不是很突出,容易使因子的意义表述不清楚,为了便于对实际问题进行分析,需对因子载荷矩阵进行旋转,进而对因子的意义做出更好的解释。

表4 相关系数矩阵

注:*表示显著相关(P<0.05);**表示极显著相关(P<0.01)

综上,采用方差最大法对因子载荷矩阵实施正交旋转,使因子具有命名解释性。旋转因子载荷矩阵的输出结果如表6。

各个指标的初始共同度均为1,旋转后的因子载荷共同度均在0.63以上,其中电导率、总硬度和NO3-三个指标的共同度均在0.87以上,变量能被公共因子解释的程度高,变量的信息保留的非常完整。这些变量的大部分信息可以提取的两个公因子F1和F2解释,变量的信息丢失少,说明提取的公因子的总体效果较为理想。

表5 总方差解释表

表6 旋转后的因子载荷矩阵

2.5 因子得分系数矩阵

因子变量确定以后,对每一个样本数据,因子得分系数就是它们在不同因子和原变量的得分相对应的具体数值。在进行因子分析时,选择使用回归法来估计因子得分系数,结果如表7所示:

根据该表可知F1和F2的因子得分函数:

设定EC为X1,总硬度为X2,Ca2+为X3,Mg2+为X4,K+为X5,Cl-为X6,SO42-为X7,HCO3-为X8,NO3-为X9,

则F1=0.814X1+0.764X2+0.616X3+0.756X4+0.874X5+0.774X6+0.593X7+0.792X8-0.08X9;

F2=0.547X1+0.593X2+0.592X3+0.403X4+0.152X5+0.407X6+0.534X7-0.108X8-0.921X9

通过对盆地内浅层水水样常规水质指标的因子分析,表明了因子分析适合于水质分析,并能提取出包含多个指标信息的公共因子,分析两两指标之间的关系,同时也可以筛选出对于水质状况影响较大的水质指标。在多个水质指标多个水样分析过程中,因子分析可以发掘各个数据的统计学意义,为深一步的研究提供理论支撑。

3 分析探讨

聚类分析结果不能做为水质分类的最终结果,但可作为水质分类的一个参考。按照地下水水质评价标准和聚类分析选取的水样均分为ABC三组,且各个水样大致相对应。两种方法A组和C组组成的样品数量相同,相似率为90.48%,聚类分析结果中的B组中有81.25%的样品包含在水质评价标准分类的B组中;另外水质标准分类的C组中有82.35%的样品包含在聚类分析结果的C组中。

表7 因子得分系数矩阵

综上可知,聚类分析和水质评价标准两种方法的分析结果既有相似性也有一定的差异性。聚类分析不能替代水质评价标准,但是可以为水质分析的深层次研究提供数据支撑。一般情况下的地下水污染调查项目进行水质分析的项目较为全面,包括有机指标和无机指标,可以对每一项指标参照区域地下水污染调查评价规范进行归类,但是在其它项目中,有时只做常规离子如上述选取的各个指标进行分析,不能从仅有的常规指标进行地下水级,采用聚类分析则可以弥补测试指标不足的缺陷。另外一方面的应用主要体现在地下水化学类型的区分上,可以对样品数据先进行聚类分析,这样可以对所取样品的地下水类型和地下水质状况有一个初步的认识。

通过对盆地内浅层水水样常规水质指标的因子分析,表明了因子分析适合于水质分析,并能提取出包含多个指标信息的公共因子,分析两两指标之间的关系,同时也可以筛选出对于水质状况影响较大的水质指标。在多个水质指标多个水样分析过程中,因子分析可以发掘各个数据的统计学意义,为深一步的研究提供理论支撑。

4 结语

(1)本研究共选取某盆地内两组浅层地下水样品,第一组包含的样品数为58个,第二组包含的样品数为44个,分别进行了水质数据的聚类分析和因子分析。

(2)聚类分析可以根据水质数据对相同属性的地下水样品进行分类,从而对水化学类型和水质状况有一个初步的认识,进而结合地形地貌等地质背景因素以及水质判定标准进行更深层次的研究,这对水质测试指标较少、样品较多情况下地下水的分类有重要的意义。

(3)因子分析可以分析样品中个水质指标间的相互关系,筛选出对水质状况影响较大指标,同时将多个指标提取公因子,简化影响因素。

(4)综上可知,在进行水质分析过程中,聚类分析和因子分析方法在一定程度上可以减轻工作量并能很好地揭示出各水质数据的统计学意义,为深层次的专业性分析提供数据支撑。

[1]Vega M.,Pardo R.,Barrado E.,et al. Assessment of seasonal and polluting effects on the quality of river water by exploratory data analysis[J]. Water Research,1998,32: 3581-3592.

[2]Singh K. P.,Malik A.,Mohan D.,et al. Multivariate statistical techniques for the evaluation of spatial and temporal variations in water quality of Gomti River(India)-a case study[J]. Water Water Research,2004,38: 3980-3992.

[3]Singh K P.,Malik A.,Sinha S.,Water quality assessment and apportionment of pollution sources of Gomti River(India)using multivariate statistical techniques: a case study[J]. Analytical Chimica Acta,2005,538: 355-374.

[4]Crosa G.,Froebrich J.,Nikolayenko V.,et al. Spatial and seasonal variations in the water quality of the Amu Darya River(Central Asia)[J]. Water Research,2006,40: 2237-2245.

[5]Kannel P R.,Lee S.,Kanel S R.,et al. Chemometric application in classification and assessment of monitoring locations of an urban river system[J].Analytica Chimica Acta,2007,582: 390-399.

[6]Clement L,Thas O.Testing for trends in the violation frequency of an environmental threshold in rivers [J].Environmetrics, 2009, 20(1):53-67.

[7]Kannel P R, Lee S, Kanel S R, et al. Chemometric application in classification and assessment of monitoring locations of an urban river system[J].Analytica Chimica Acta, 2007, 582(2):390-399.

[8]Zhou F, Guo H, Liu Y, et al. Chemometrics data analysis of marine water quality and source identification in Southern Hong Kong[J]. Marine Pollution Bulletin, 2007, 54(6):745-756.

[9]李俊霞,苏春利,谢先军,等.多元统计方法在地下水环境研究中的应用-以山西大同盆地为例[J].地质科技情报.2010.29(6):94-100.

[10]张旋,王启山,于淼,等.多元统计分析技术在水质监测中的应用[J].中国给水排水.2010.26(11):120-122.

[11]富天乙,邹志红,王晓静.基于多元统计和水质标识指数的辽阳太子河水质评价研究[J].环境科学学报.2014.34(2):473-480.

[12]向东进,李宏伟,刘小雅.实用多元统计分析[M].武汉:中国地质大学出版社.2005.

[13]王焰新,郭华明,阎世龙,等.浅层孔隙地下水系统环境演化及污染敏感性研究:以山西大同盆地为例[M].北京:科学出版社.2004.

[14]Singh K P,Malik A,Sinha S.Water quality assessement andapportionment of pollution sources of Gomti River (India)using multivariate statistical technique:A case study[J].Analytical Chemical Acta ,2005,538:355 -374.

[15]卜红梅,刘文治,张全发.多元统计方法在金水河水质时空变化分析中的应用[J].资源科学.2009.31(3):429-434.

猜你喜欢

水质评价水样水质
一月冬棚养虾常见水质浑浊,要如何解决?这9大原因及处理方法你要知晓
我国相关标准水样总α、总β放射性分析方法应用中存在的问题及应对
平行水样分配器在环境监测中的应用
水样童年
图像识别在水质检测中的应用
滻灞河水质评价方法研究
基于概率统计和模糊综合评价法的水质评价模型及其应用——以拉萨河水质评价为例
基于SPAM的河流水质评价模型
水质总磷测定存在的问题初探
水质总氮测定方法改进探究