PCA水质分类法在通济堰水质评价中的应用
2016-12-20李晓丰李兴华孟春晓彭道平
李晓丰,李兴华,黄 涛,孟春晓,彭道平
(1. 西南交通大学,成都 611756;2. 四川省环境监测总站,成都 610091)
· 水环境 ·
PCA水质分类法在通济堰水质评价中的应用
李晓丰1,李兴华1,黄 涛1,孟春晓2,彭道平1
(1. 西南交通大学,成都 611756;2. 四川省环境监测总站,成都 610091)
选取通济堰2014年CODMn、NH3-N、DO等8种水质指标的监测数据,使用主成分分析法(PCA法)进行水质评价。针对PCA法无法进行水质分类的缺陷,提出一种类似内梅罗评价理论的PCA水质分类法,并将分类结果与模糊评价法、内梅罗法和改进的内梅罗法等评价方法的分类结果进行比较。结果表明,PCA法可以直观地描述河流不同月份的污染特征,基于评价结果,使用PCA水质分类法进行水质分类,从而能更加准确地掌握不同月份水质污染的程度。
水质评价;主成分分析法;水质分类
我国经济发展迅速,但也面临水资源贫乏、供需矛盾日益尖锐的情况[1]。水质评价作为水资源管理的基础,起着重要的作用。目前水质评价的主要方法包括内梅罗污染指数法、模糊综合评价法以及主成分分析法等。其中,传统的内梅罗污染指数法数学过程简洁,但未考虑各指标因子的权重问题,过分突出最大值对结果的影响[2]。改进的内梅罗指数法考虑了各指标因子的权重,其结果相比于传统的内梅罗指数法更加合理[3]。模糊数学综合评判法通过函数关系把反映各种水质污染问题的实测值,转化为反映水质质量优劣程度的质量值,它考虑到了水质界限的模糊性,但该方法只能给出分类结果,无法对水质样本进行比较[4]。主成分分析法(PCA法)可以将多个指标转化为少数独立的指标,使结果更加直观[5],便于鉴别和描述水质质量的空间变化特征以及相应的主要污染物质[6]。但该方法的缺点是只能比较水质样本间的优劣,却无法对水质受污染的程度进行判别分类[7]。
PCA法结果直观,可揭示不同时间或地点水样中污染物的变化情况,从而利于分析水样的污染来源[6]。本文参考内梅罗法评价思想,提出一种改进的PCA法——PCA水质分类法[8]。在对通济堰水样进行水质评价的基础上,通过设定判别标准,实现对样本标准化后的数据结果进行分类,从而解决PCA法无法判断水质类别的问题。
1 方法简介
1.1 主成分分析法
主成分分析法(PCA法)是一种从原来具有一定相关性且数量较多的变量或指标中,提取出一组新的、相互独立的少数综合性指标——这些新的指标可以尽可能多地保留原来较多变量的信息,是一种对原样本进行降维处理的数学统计方法[9]。
设污染物监测指标为X1,X2, …,Xn,用Xki表示第k个监测断面的第i个分析指标的数据, 建立数据矩阵。按特征值大于1的原则,提取出相互独立的m个主成分,从而将重复的信息剔除。每个主成分概括原始指标信息的程度用其贡献率表示, 以给定的阈值(本文取85 %)为确定主成分个数的依据,当前i个主成分的累积贡献率大于等于阈值时, 表明这i个主成分已充分概括了大多数原始指标的信息, 就以这i个主成分作为新的分析指标。这样, 原始分析指标由多个转变为少数几个, 分析指标数量的减少并未使信息损失多少[10]。
1.2 PCA水质分类法
PCA法无法进行水质分类是因为标准化后的数据无量纲,所以不能直接跟水质标准进行比较。本文在内梅罗污染指数法判断水质的思想上[8],提出确定主成分分类的三个原则,并提出一种新的PCA水质分类法。
1.2.1 内梅罗污染指数法
内梅罗法以各水质指标在i标准下的标准值为依据,计算第i类水质的内梅罗污染指数标准值[3]。类似于内梅罗法,本文提出了一种PCA水质分类法,通过制定分类原则,确定计算模型,实现基于PCA评价结果的水质分类方法。
1.2.2 分类原则
本文提出的分类原则如下:
(1)对任意i、j,若Mi,j≥Mi,j+1,则M’i,j≥M’i,j+1,反之亦然;
(2)对任意i、j,若Mi,j≥Xi≥Mi,j+1,则M’i,j≥X’i≥M’i,j+1,反之亦然;
在三个原则中,原则(1)是为了保证新生成的标准与原标准大小上具有一致性。原则(2)是为了保证对某一水质指标的监测值Xi而言,如果该值在原标准下,达到了j+1类水的标准,而未达到j类水的标准,则其标准化后的值X'i,在新生成的标准下,判定结果仍必须是达到了j+1类水的标准,而未达到j类水的标准。原则(3)是为了使新生成的标准尽可能地接近标准化后数据的平均值。由于会将新生成的标准继续带到公式(3),(4)和(5)中计算综合评价函数的各级标准值,如果某一指标的新标准与标准化后数据的平均值距离过远,则会对综合得分标准值的大小造成突出影响,从而导致评价结果的不稳定。
1.2.3 分类方法思路
本文结合内梅罗污染指数法判断水质的思想,将水质标准代入到监测数据的标准化公式中,计算出对标准化处理后的数据进行分类的新标准。由于该数学变换仅是对标准值的平移拉伸,因此易于证明,变换后的结果满足原则(1)和(2)。为了满足原则(3),同时又不与原则(1)和(2)矛盾,本文规定,当某指标的原标准不在监测数据最大最小值之间时,则用监测数据的最大或最小值代替该标准。
基于以上思想和原则,本文提出如下分类方法:
(1)
2 案例分析
2.1 研究区背景及指标选取
通济堰属于岷江支流,位于成都平原西南边缘[11]。本文从四川省环境监测总站获取的2014年通济堰水质监测数据中,选取了CODMn(X1)、NH3-N(X2)、DO(X3)、Se(X4)、As(X5)、Zn(X6)、Pb(X7)、Cu(X8)等8个指标的月平均浓度进行分析。
2.2 监测数据标准化及独立性检验
对8个水质指标的原始数据进行标准化处理,针对标准化后的数据,进行KMO检验和Bartlett球形检验,若KMO检验结果大于0.5,Bartlett球形
图1 各成分特征值Fig.1 Eigenvalues of principal component
检验结果显著性概率P值小于0.05时,说明该组数据不相互独立,可以进行主成分分析[12]。本文中KMO结果为0.674,Bartlett球形检验结果小于0.001,说明本文的对象适合进行主成分分析。
利用SPSS20.0软件,得到特征值和解释的方差,见图1。
其中,第1、2主成分的特征值分别为4.922和1.997,满足大于1的原则,且第1、2主成分方差百分比分别为61.521%和24.963%,累计方差百分比达到86.484%,满足累计方差百分比大于85%的原则[13],说明主成分1、2已经基本包含了原数据的信息,可用它们代替原8个指标。
2.3 主成分载荷值的确定
上述确定的两个主成分对应的初始因子载荷值可由SPSS20.0直接算出,对初始因子载荷按照以下公式进行变换,得到主成分荷载值(图2)。
Lm=Vm/SQR(λm)
(2)
式中Vm和λm分别表示第m主成分的初始因子载荷值和特征值,其中m=1、2[13]。
图2 主成分荷载 (a)第一主成分(b)第二主成分Fig.2 PC loadings (a)PC 1 loading(b) PC 2 loading
其中,第1主成分和Se、As、Zn、Pb、Cu等(类)重金属指标的相关系数为0.389~0.448,说明该主成分主要反映了(类)重金属指标的情况;第2主成分中CODMn和NH3-N的相关系数分别为0.669和0.558,说明该主成分主要反映该两种指标因子的情况;两个主成分和DO的相关系数分别为-0.166和-0.395,呈负相关关系,说明DO浓度越大,水质状况越好。
则主成分函数为:
F1=0.030X1+0.127X2-0.166X3+0.448X4+
0.448X5+0.448X6+0.389X7+0.448X8
(3)
F2=0.669X1+0.558X2-0.395X3-0.054X4-0.019X5-0.015X6-0.285X7-0.014X8
(4)
以各主成分的方差百分比为权数得到综合得分函数:
F=0.615F1+0.250
(5)
2.4 计算结果
根据公式(3),(4),(5),计算2014年各个月份的主成分得分(图3),其中污染的严重程度随着得分的增大而增大。
图3 主成分得分(a)第一、二主成分得分(b)主成分综合得分Fig.3 PC scores (a) PC 1 versus PC 2 scores (b) PC composite score
图3(a)显示,从横轴看,除了10、11、12三个月以外(第一主成分得分分别为-1.609、-4.582和-4.214),其余月份的得分均在0.739~1.524之间,说明这9个月的(类)重金属污染情况较为严重;从纵轴看,1月份的第二主成分得分最低(-2.136),而3、4、5、6月的得分较高,在0.998~2.614之间,说明这4个月中,水样主要受氨氮和还原性物质的污染;综合来看,位于坐标系右上方的4个月份(3、4、5、6月)的污染情况最为严重。而根据图3(b),可以对十二个月份的污染严重程度进行排序(4月>3月>5月>6月>9月>8月>7月>2月>1月>10月>12月>11月),其中,4月份的污染最重(综合指数为1.563),而11月份的污染最轻(综合指数为-2.797)。
本例中,PCA法从原始样本中提取了86.484%的信息,并根据这些主要信息,对水质进行综合评价。该方法可以直观地描述不同月份的污染特征,并比较不同月份的水质情况。但PCA法只能比较出各水质样本的相对污染情况,却无法确定各样本的水质类别。对此,本文提出一种PCA水质分类方法,通过对水质样本进行分类,从而判断样本受污染的程度。
3 分类结果
根据水质样本监测值和公式(1)、(3)、(4)、(5),计算主成分分类标准,如下表所示。
表 主成分分类标准Tab. PCA classification standards
结合图3(a),表和公式(5),做出主成分分类结果图(图4)。
图4 主成分分类结果 Fig.4 PCA classification result
根据该分类结果,11月水质最好,达到了一类水标准,其次是12月份,为二类水,而4月水质最差,被评为四类水。将该分类结果和使用内梅罗污染指数法、改进的内梅罗污染指数法和模糊评价法[3]得到的分类结果进行比较,如图5所示。
图5 4种方法水质类别比较Fig.5 Comparison between 4 methods
可以看出,除了1、2月份外,其余月份的水质分类结果和其他三种方法所得出的评价结果基本一致。而1、2月份的水样,按本方法,被归为三类水;若按其余方法,则被归为一类或二类水。从图3(a)可以看出,1、2月份第二主成分得分分别为-2.136和-1.006,为全年最低,但它们第一主成分得分分别为0.739和1.225,远高于11月份的-4.582和12月份的-4.214。而在计算综合得分时,由公式(5)可知,第一主成分的权重(0.615)大于第二主成分的权重(0.250),从而导致1、2月份综合得分较高,被评为三类水,可见分类结果将主要受第一主成分得分的影响。
本文提出的PCA水质分类法在PCA法识别出水质污染特征的基础上,依据样本的主要信息(86.484%),进一步对水质进行分类。其中,不同主成分对分类结果的影响程度仅取决于它们的信息贡献率,信息贡献率越大,则权重越高。相比于其他分类方法,其避免了某些极大值水质指标对分类结果的直接影响,能够充分体现大部分指标对分类结果的贡献情况,从而更客观全面地反映样本的水质情况。因此,通过该分类结果,可以在PCA评价的基础上,进一步准确地掌握不同月份水体受污染的程度。
4 结 论
本文使用PCA法对通济堰青龙断面进行水质评价,并针对该方法无法判断水质类别的缺陷,提出一种新的水质分类方法,并得到以下结论:
(1)主成分分析法可以用少数独立的新指标来反映原始样本中的水质信息,从而使评价结果更
加直观。本例中,通济堰10、11、12三个月份的(类)重金属污染程度最轻,而3、4、5、6四个月份氨氮和高锰酸盐指数的超标情况最为严重。综合而言,4月份水质最差而11月份最好。
(2)针对PCA法不能分类的缺点,本文提出PCA水质分类法,并将其分类结果与其余3种方法的分类结果进行比较。结果表明:PCA水质分类法可以客观全面地反映样本的水质情况,从而在PCA评价的基础上,进一步准确地掌握不同月份水体受污染的程度。
[1] 窦 明,王艳艳,李 胚. 最严格水资源管理制度下的水权理论框架探析[J]. 中国人口.资源与环境,2014,(12):132-137.
[2] 王 博,韩 合. 内梅罗指数法在水质评价中的应用及缺陷[J]. 中国城乡企业卫生, 2005,(6):16-17.
[3] 杨磊磊,卢文喜,黄 鹤,等. 改进内梅罗污染指数法和模糊综合法在水质评价中的应用[J]. 水电能源科学,2012,(6):41-44.
[4] 韩晓刚,黄廷林,陈秀珍. 改进的模糊综合评价法及在给水厂原水水质评价中的应用[J]. 环境科学学报, 2013, (5):1513-1518.
[5] 冯利华. 环境质量的主成分分析[J]. 数学的实践与认识, 2003, (8):32-35.
[6] Olsen R L,Chappell R W, Loftis J C. Water quality sample collection, data treatment and results presentation for principal components analysis - literature review and Illinois River watershed case study[J]. Water Research, 2012, 46(9):3110-3122.
[7] 张亚丽,周 扬,程 真,等. 不同水质评价方法在丹江口流域水质评价中应用比较[J]. 中国环境监测, 2015, 3(3):58-61.
[8] Nemerow N L C. Scientific stream pollution analysis[M].Washington:Scripta Book Co, 1974.
[9] 吉祝美,方 里,张 俊,等. 主成分分析法在SPSS软件中的操作及在河流水质评价中的应用[J]. 环境研究与监测,2012,(4):68-73,57.
[10] 张 妍, 尚金城, 于相毅. 主成分-聚类复合模型在水环境管理中的应用——以松花江吉林段为例[J]. 水科学进展, 2005, 4(4):592-595.
[11] 刘 国. 通济堰灌区水政执法的实践与思考[J]. 四川水利,2015,(1):50-52.
[12] 杜乔乔,颜 坤. 基于PCA的于桥水库富营养化因子分析[J]. 水资源与水工程学报,2013,(2):212-214.
[13] 卢小燕. 基于PCA法的松花江哈尔滨段水质评价研究[J]. 哈尔滨师范大学自然科学学报,2015,(3):156-161.
A PCA based Water Quality Classification Method and its Application in Water Quality Assessment of Tongjiyan River
LI Xiao-feng1,LI Xing-hua1,HUANG Tao1,MENG Chun-xiao2,PENG Dao-ping1
(1.SouthwestJiaotongUniversity,Chengdu611756,China; 2.EnvironmentalMonitoringCentre,Chengdu610091,China)
Principal components analysis(PCA)was applied to assess the water quality of Tongjiyan River in 2014, based on the monitoring data of 8 indicators of CODMn, NH3-N, DO, and etc. Aimed at the disadvantage of PCA method on classification of water quality, a PCA similar to Nemerow approach on water quality classification was proposed, and the comparisons among classification results with fuzzy evaluation method, Nemerow approach, and modified Nemerow approach were made. The results showed that PCA could intuitively describe the pollution characteristics in different months, and based on the evaluation results, using PCA water quality classification method to classify water samples could understand the water pollution degree in different months more accurately.
Water quality assessment; principal component analysis (PCA); water quality classification
2016-03-17
教育部新世纪优秀人才支持计划项目(NCET-11-0710)。
李晓丰(1991-),男,江苏丰县人,西南交通大学工程环境与景观专业2014级在读博士研究生,主要从事环境管理方面研究。
彭道平,pdp0330@qq.com。
X824
A
1001-3644(2016)03-0041-05