基于主成分分析法的新乡市地下水水质评价
2020-11-05褚莹倩许传鹏薛伟锋
褚莹倩,孙 赟,许传鹏,薛伟锋
(大连海关,辽宁 大连 116600)
1 引言
地下水是水资源中重要组成部分。近年来,随着地下水开采量的增加以及恶劣气候变化,导致地下水环境质量急剧恶化,随之而来的与地下水有关的环境问题日益突出,已引起国内外广泛关注[1~4]。地下水一旦遭受污染,由于其自净能力较弱,会对生态环境造成严重影响,直接或间接危害人类身体健康[5~7]。为了能够及时有效的采取措施,保护和改善地下水水质,需要对地下水环境质量进行评价。
水质评价通过将确定性评价标准与不确定性监测结果相结合,水质评价没有一个统一的评价方法,故难以建立统一的评价模型[8]。目前,国内外围绕水质评价已开发多种方法,如单因子评价法[9]、综合指数评价法[10]、模糊综合评价法[11]、神经网络法[12]、灰色评价法[13]、主成分分析法[14]和集对分析法[8,15]等。每种方法都有其侧重点,但每种方法都无法全面地反映复杂的水质状况。因此,在实际研究工作中将多种方法结合使用,能够更加全面、准确了解水质情况。集对分析是近年提出的一种新型的处理模糊性和不确定性的数学模型,该模型通过计算评价因子与水质之间的联系度达到对地下水水质做出评价[8,15]。主成分分析法考虑不同指标是否存在信息重叠,通过数据标准化,在保留尽量多原有信息基础上,对多维数据降维处理,筛选出独立综合因子,克服了主观随意性,已广泛应用于水质评价[16~19]。本研究通过主成分分析法对新乡市地下水水质进行评价,并与文献15中使用熵权集对分析法预测结果进行比较,分析不同水质评价模型差异原因,为新乡市地下水水质保护和改善提供更加全面可靠的科学依据。
2 研究方法
采用SPSS 17.0软件进行分析,具体步骤如下。
(1) 根据文献15报道结果,选取水质评价指标,包括:总硬度、溶解性总固体、硫酸盐、氯化物、氨氮和锰。
(2) 对数据标准化处理,消除指标间数量级和量纲影响。
(3) 采用Kaiser-Meyer-Olkin (KMO)检验统计量和Bartlett球形度检验判断指标间的相关性,以确定原始变量是否适合进行因子分析。当KMO值大于0.5时,可进行因子分析。Bartlett球形度检验对应的显著性小于0.05时,原始变量间存在相关性,可进行主成分分析。
(4) 确定主成分个数。一般选取累计方差贡献率大于80%,特征值大于1的主成分。
(5) 根据计算结果,确定主成分Fi的表达式。
(6) 计算主成分分值,综合得分越高,表明水质越差,从而给出不同监测断面水质排名。
3 结果与讨论
3.1 数据标准化
对数据进行标准化处理,能够消除原始数据数量级和量纲不同的影响,结果如表1所示。
3.2 变量相关系数及相关性检验
如表2所示,6项水质指标相关系数可以通过相关分析法获得。两指标的相关性越强,则其相关系数绝对值越大。相关系数的正或负,说明两个指标之间存在正或者负相关关系。由表2可知,指标之间相关系数绝对值大部分均在0.5以上,说明各指标相关性较高,存在信息重叠,原始变量适于做因子分析。变量相关性检验是主成分分析前提,地下水KMO和Bartlett检验结果如表3所示。由表3分析可知,地下水KMO检验度量值大于0.5,Bartlett球形检验显著性小于0.05,表明原始变量间存在相关性,适合做主成分分析。
表1 标准化后数据
表2 相关系数矩阵
表3 KMO和Bartlett检验结果
3.3 主成分确定
特征值用于衡量成分对指标变量影响力大小,特征值小于1,说明主成分的解释力度不够。主成分的方差及方差贡献如表4所示。由表4分析可知,特征值大于1的有2个成分,累积的方差占比为96.464%,即可用2个主成分替代全部6个水质指标,其包含信息量可以解释监测指标表征的绝大部分信息,可利用其进行地下水水质的评价研究。
表4 解释的总方差
提取方法:主成分分析
3.4 初始因子载荷矩阵
监测水质指标与主成分的相关程度可用初始因子载荷矩阵系数表征,可以解释各个主成分变量的变异情况。其中,正或负值分别表示水质指标与主成分之间呈正或负相关;其绝对值越接近1,表明相关程度越高,该指标越容易成为评价地下水水质的主要指标。地下水主成分初始因子载荷矩阵如表5所示。主成分1在总硬度、溶解性固体和硫酸盐等3个变量上具有高载荷,表明主成分1主要反映这3个指标的信息;主成分2在锰上具有高载荷,表明主成分2主要反映锰的信息。
表5 主成分初始因子载荷矩阵
3.5 主成分表达式建立及水质评价
将主成分初始因子载荷矩阵中数据除以主成分对应特征值平方根,获得主成分相对应的特征向量,即每个指标相应的系数,与标准化的后的数据ZXi相乘,即可得出主成分F1和F2相应的表达式。根据初始特征值方差的百分比λ1和λ2,进而获得F值表达式。F1、F2和F相应的表达式如下所示:
F1= 0.465ZX总硬度+ 0.465ZX溶解性固体+ 0.464ZX硫酸盐
F2= 0.775ZX锰
F= [λ1/(λ1+λ2)]F1+ [λ2/(λ1+λ2)]F2
由上述公式,获得地下水水质主成分F值,结果见表6。根据F值越大,水质污染越严重进行不同采样点水质排名,由优至劣依次为封丘县(10#)-原阳县(15#)-卫辉市(4#)-封丘县(27#)-长恒县(36#)-长恒县(15#)-获嘉县(19#)。
表6 F值综合得分
表7 不同水质评价模型预测结果比较
3.6 主成分分析法与熵权集对分析法预测结果比较
在文献15使用熵权集对分析法预测7个采样点水质结果中,按照水质级别可以分为3类,其中水质最好的采样点为封丘县(10#),水质II级;其次是原阳县(15#)和卫辉市(4#),水质Ⅲ级;最差的是封丘县(27#)、获嘉县(19#)、长恒县(15#)和长恒县(36#),水质均为V级。水质排名由优至劣依次为封丘县(10#)-原阳县(15#)/卫辉市(4#)-封丘县(27#)/获嘉县(19#)/长恒县(15#)/长恒县(36#)。本研究采用主成分分析法预测7个采样点水质优劣排名为封丘县(10#)-原阳县(15#)-卫辉市(4#)-封丘县(27#)-长恒县(36#)-长恒县(15#)-获嘉县(19#)。封丘县(10#)在2个预测模型中均排名第1,说明该点水质相对最好。在熵权集对分析法中列为水质III级的原阳县(15#)和卫辉市(4#),无法通过该模型进一步判断水质优劣,但是通过主成分分析法预测后发现原阳县(15#)要比卫辉市(4#)水质相对好一些。同理,在熵权集对分析法中列为水质V级的封丘县(27#)、获嘉县(19#)、长恒县(15#)和长恒县(36#),也可通过主成分分析法对该4个采样点水质进一步判断其优劣顺序,结果为封丘县(27#)-长恒县(36#)-长恒县(15#)-获嘉县(19#)(表7)。
由上述分析可知,采用主成分分析法和熵权集对分析法对新乡市7个采样点水质预测结果非常吻合。熵权集对分析法是一种新型的处理模糊性和不确定性的数学模型,该模型通过计算评价因子与水质之间的联系度达到对地下水水质做出评价,预测结果可靠,但该模型不能区分同一级水质优劣,为了解决该问题,有必要引入主成分分析法。该方法通过降低数据维度,筛选出主要因子,克服了主观选取评价因子带来的不利影响。主成分分析法达到对同一级水质按照污染程度排序,更好地区分了水质优劣,使评价结果趋于客观合理。尽管主成分分析法无法直接获得水质类别,但结合熵权集对分析法后,不仅可以获得水质类别,还能够针对同一级水质进行水质排名,使结果更加详实。以上分析说明,主成分分析法和熵权集对分析法两种模型结合使用后预测结果要比单一预测模型更加全面可靠。
4 结论
本研究运用主成分分析法对新乡市地下水水质主要影响指标进行了分析,并对水质进行了综合评价,结论如下。
(1) 针对新乡市7个地下水水质监测断面,主成分分析法指出,可将6个水质指标综合为2个主成分进行解释,解释率为96.464%。其中,第1主成分贡献率为74.838%,第2主成分贡献率为21.626%,第1主成分控制指标为总硬度、溶解性固体和硫酸盐,第2主成分控制指标为锰。主成分分析法预测水质由优至劣顺序为封丘县(10#)-原阳县(15#)-卫辉市(4#)-封丘县(27#)-长恒县(36#)-长恒县(15#)-获嘉县(19#)。
(2) 本研究使用的主成分分析法和文献中使用的熵权集对分析法对新乡市7个地下水水质排名预测结果非常吻合。主成分分析法有效弥补了熵权集对分析法无法区分同一级水质优劣的缺陷,说明两种模型结合使用后综合预测结果要比单一预测模型更加可靠。