基于主成分分析的水环境质量评价研究
2019-10-17楼珏璟太仓市环境监测站
文_楼珏璟 太仓市环境监测站
主成分分析作为一种常用的多指标统计方法,它将原来多个变量转化为少数几个综合指标,从数学的角度说,是一种降维处理技术。主成分分析能够在最大限度地保留原始数据信息的基础上,对高维变量进行综合和简化,并且能够客观地确定各个指标的权重,避免了主观随意性,有一定的优越性,已经被广泛地应用于环境领域。
在环境评价中,主成分分析与环境标准相结合时,主要有两种方法。盛周君,丁春等将环境标准加入评价样本中同时进行主成分分析;李俊,卢文喜等将环境标准单独作为一个样本进行主成分分析,以环境标准的主成分综合得分作为评价样本等级的判定依据。本文将这两种方法应用于A市河流水质评价中,就这两种方法的可靠性进行对比分析。
1 主成分分析原理
根据主成分分析的基本原理,可以把主成分分析的计算步骤归纳如下:
1.1 数据标准化
由于主成分分析中各个因子的量纲、大小以及评价指标往往差别很大,可比性较差,为了消除这些影响,因此首先进行标准化,使其具有良好的可比性。对样本变量 作变换,标准化后的数据矩阵记为数据标准化主要包括同趋化和无量纲化两个方面。同趋化主要解决不同性质数据问题,使所有指标对评价结果的作用同趋化;无量纲化主要解决数据的可比性问题。
1.2 建立相关系数矩阵
1.3 计算特征值、特征向量
计算相关系数矩阵R的特征值λj,相应的单位特征向量lij及主成分载荷因子矩阵。特征值是各个主成分的方差,主要说明的是各个主成分在描述被评价对象上所起作用的大小,方差越大,则对评价对象作用越明显。每一特征向量则是对应主成分的线性表达式中原始指标的组合系数,说明了主成分与指标间的定量关系。载荷因子揭示了主成分与指标之间的密切程度,即每个主成分主要替代了何种指标的作用。
1.4 主成分贡献率
1.5 确定主成分
选取主成分的个数取决于主成分的累计方差贡献率,通常选取累计贡献率大于85%以上等主成分,这些主成分更好地保留了原来因子的信息,减少了因子数量,从而起到筛选因子的作用。
1.6 计算综合得分
将各个样本的标准化数据分别代入各主成分的表达式中,计算得到各主成分的分值,以各主成分的方差贡献率为权重求和,得到各样本的综合评价分值,分值越大,污染越严重。
2 应用实例
2.1 指标选取
本次分析选取2016年A市22个河流水环境例行监测断面数据,河流水质监测断面包括2个国家“水十条”考核断面、4个省级考核断面、1个城市内河断面、3个市级考核断面、12个市控断面。选取9个监测指标为研究对象,利用主成分分析法对各个监测断面的水质进行评价,包括X1(溶解氧)、X2(高锰酸盐指数)、X3(生化需氧量)、X4(氨氮)、X5(化学需氧量)、X6(总氮)、X7(总磷)。
2.2 分析步骤
运用SPSS软件对A市22个河流水环境7个指标的例行监测断面数据进行主成分分析,构造2个样本,样本1为2016年A市22个河流水环境例行监测断面数据,样本2为监测数据与五类水质标准数据共同组成。
从表1可以看出样本1中第一主成分的高锰酸盐指数、氨氮、总氮相关系数较高,是影响水质的主要因子,第二主成分的溶解氧、化学需氧量相关系数较高。从表2可以看出,样本2中第一主成分的高锰酸盐指数、溶解氧、总磷相关系数较高,第二主成分中总氮、化学需氧量的相关系数较高。
这两种方法提取出的主成分代表了原有指标的大部分信息,可以替代原有指标进行水质评价。
表1 样本1的特征值与累计贡献率
表2 样本2的特征值与累计贡献率
根据各主成分贡献率,得出其在综合得分中的权重,综合得分表达式:
样本1:Z=0.9029Z1+0.0971Z2
样本2:Z=0.7757Z1+0.2243Z2
3 结果对比分析
3.1 水质监测结果分析
根据评价时段内该断面参评的指标中类别最高的一项来确定河流水质等级,2016年国家“水十条”考核断面A断面水质符合Ⅱ类水水质要求,水质状况为优;B断面水质符合Ⅲ类水水质要求,水质状况为良好。
3.2 主成分分析评价结果
根据样本1、样本2评价结果,各监测断面污染程度对比。根据图1可以看出,两种评价方法的评价结果基本相同,监测断面的污染程度排序与监测结果实际情况符合,两种方法均可反应水质污染程度。因此,无论是单独对评价样本进行主成分分析,还是将评价标准加入样本中进行主成分分析,水质污染程度评价结果基本相同,不影响评价结果,污染程度与实际监测结果相符,在水环境质量评价工作中均具有一定的可靠性。
图1 两种样本评价结果对比
4 结语
主成分分析可以减少原始数据信息损失,简化数据结构,避免主观随意性。但由于其核心思想是提取变异程度较大的变量,更多反映的是不同年份污染物在含量上的差异,可以反映出环境质量的变化趋势。本文采用两种主成分分析法对A市城市河流水质进行评价分析,对比显示两种方法都能正确评价反映出水质污染程度,得出的评价结果与事实较为接近。