APP下载

基于熵权的主成分分析法在村镇水质评价中的应用

2017-09-22周可婧杨日剑

绿色科技 2017年16期
关键词:主成分分析法熵值法贡献率

周可婧 杨日剑

摘要:针对传统主成分分析法在水质评价中的缺陷,从数据标准化和熵权的引入两个方面对传统的主成分分析法进行了改进,并将其应用到了长沙市某村镇养殖水体水质评价中。结果表明:非线性主成分分析法具有可行性和实用性,其主成分总贡献率和第一主成分贡献率明显提高,对长沙市村镇水质评价的结果也更为合理,更符合实际水质情况。

关键词:主成分分析法;贡献率;标准化;熵值法

中图分类号:X824

文献标识码:A文章编号:16749944(2017)16005103

1引言

近年来,由于河流污染的日益加剧,河流生态环境退化问题日趋严重,河流污染的控制及治理受到广泛关注,对河流水质的准确评价是河流污染防治的必要前提[1]。主成分分析方法(PCA)则是一种将多维因子纳入同一系统进行定量化研究,且理论比较完善的多元统计分析方法,在解决很多实际问题的同时已取得较好效果[2]。在传统主成分分析法的基础上,引入了熵权进行改进,并将改进的方法应用到长沙市某村镇水域的水质评价中,以期获得更加客观准确的结果。

2传统的主成分分析法

主成分分析法是数学变换方法的一种, 采用降维方法,在失去很少信息的前提下,将各种原始变量转化为几个指标(称之为主成分)之间的线性组合,剩下的信息称之为原始变量[3]。这样在数据指标较多的水质评价研究中,就可以把复杂的多维问题转化成低维问题且最大程度地保留原始数据信息。主成分分析法的主要步骤为。

(1)数据标准化。设有n个样本,每个样本有m项指标,对样本进行标准化为:

zij=xij-x·js·j (1)

式(1)中zij为标准化后的指标值,x·j是第j项指标数据平均值,s·j是第j项指标数据标准差。

(2) 计算相关矩阵。对标准化的数据进行相关分析,计算相关矩阵ρij。

(3)计算特征值、特征向量与主成分贡献率。从相关矩阵出发,计算出相关矩阵的特征值λ1,λ2…λm和其对应的特征向量β1,β2…βm,然后将特征值按从大到小排序,即λ1>λ2>…>λm,而主成分贡献率计算公式为:λi/∑mi=1λi,选取累加贡献率超过85%的前p个成分作为主成分。

(4)计算主成分载荷。主成分载荷的计算公式为:

lij=p(zi,xj)=λiβij(2)

得到主成分载荷后,再根据公式(3)进一步计算,可以得到各主成分的得分:

y·1=l11zi1+l21zi2+…+lm1zim

y·2=l12zi1+l22zi2+…+lm2zim

y·p=l1pzi1+l2pzi2+…+lmpzim(3)

式(3)中,y1為第一主成分,y2为第二主成分,….,yp为第p主成分。

(5) 主成分的综合评价。根据采样点的主成分得分yi,以方差贡献率di为权重,计算综合得分F=∑pi=1di·yi/∑pi=1di,综合得分就是对采样点污染程度的定量描述,得分越大,水质越差。

3主成分分析法的改进

(1)数据标准化方法的选择。针对传统主成分分析法处理非线性数据的约束性及反映数据信息的片面性,以指数中心化和对数中心化为例引入非线性标准方式进行改进,并以协方差代替相关矩阵,使其能够反映数据的非线性特征,对数、指数中心化的格式为:

sij=lnxij-∑mi=1lnxij/m(4)

sij=exij-∑mj=1exij/m

(2) 基于熵权的主成分综合评价。传统主成分分析法是以方差贡献率为权值,主要反映了指标间的相关性,忽略了数据的离散程度,而熵值法能较好地解决这一问题,是一种客观赋权法。因此,将熵值法引入主成分分析中,计算出熵权作为各个主成分的权值,最后进行综合评价。在信息论中,熵是反映系统无序化程度的量,熵值越大,无序化程度越小,熵值越小,系统无序化程度越大。熵值法就是利用这一原理,根据指标之间差异程度,计算出指标权重值。若通过上述计算得出主成分个数为p,则能得到指标数为p,样本数n的主成分矩阵(yij)n×p,在此基础上利用熵值法计算熵权。熵值法计算步骤,计算样本的第j个评价指标下y′ij的比重rij:

rij=y′ij/∑ni=1y′ij (5)

定义熵值,计算指标jj的信息熵:

Ej=-1lnp∑ni=1rijlnrij(6)

定义熵权,计算指标jj的权重:

Aj=(1-Ej)/∑pj=1(1-Ej)(7)

计算主成分的综合得分:

vi=∑pj=1Ajrij (8)

由于主成分得分中数值有正有负,在进行熵权计算时,需要进行非负化处理,将主成分得分yij化为y′ij,非负化方式采用数据平移方法,平移后各主成分权重不变。

4实例应用

结合MATLAB软件,将上述改进的主成分分析法应用于长沙市某村镇水域环境评价中并与传统的主成分分析法进行比较,验证其合理性。评价数据选用该村镇养殖水体最不利断面连续12 d的9项水质指标,通过对最不利断面的评价,以期更好地控制养殖水体水质,为渔业生产提供指导,具体数据见表1。

对表1数据作散点图,观察数据分布规律,选择合适的数据标准化方式,布局满足对数分布或指数分布。

对表2分析可知,采用指数中心化的方式主成分承载的信息超过其它方法,故本文采用指数中心化方式对表1数据进行处理更为合理,其中溶解氧指标为数据越大水质越好,故对其进行正向化处理后再进行标准化处理。对标准化数据进行相关矩阵计算,并以相关矩阵为基础计算出其特征值和主分贡献率,并与其他数据标准化方法进行比较,具体结果如表2所示。endprint

从表2可以看出,如果从累计贡献率超过85%即满足要求的角度考虑,三种方法都只需要前两个主成分,但改进的主成分分析法第一主成分贡献率为75.94%,超过其他两种方法第一主成分贡献率,即第一主成分承载的信息增加了,且进一步比较前两项总贡献率,改进的方法贡献率为92.68%,远大于其他方法前两项主成分贡献率,即主成分承载的总信息增加了。

为确定影响研究区域水质情况的主要污染物,须计算出主成分载荷。主成分载荷反映了原始水质指标与主成分之间的相互关联程度,具体见表3。

从主成分载荷大小来看,与第一主成分密切相关的是悬浮物、电导率、氨氮、硝酸盐、亚硝酸盐、化学需氧量

和溶解氧,它们在第一主成分所承载的信息较高,说明第一主成分反映了养殖水体大部分水质信息,而第二主成分密切相关的是总磷和总氮,其主成分荷载值最大,即承载的信息最多。

根据主成分综合评价函数,计算研究区域同一断面12 d的水质污染综合得分排名,对水质污染程度进行定量化描述,排名越小,表明污染程度越严重,可对该断面污染程度进行趋势分析,计算结果如表4。

表4中得分越大,排名数字越小,说明水质越差。对两种方法的比较可以看出,改进的主成分分析法与传统的主成分分析法计算的出的水质排名整体较为接近,个别天数有所改变。如水质最好的两天分别发生在第5天和第9天,这是由于不同方法各个指标所占权重不同,在水质情况较为接近时,权重越大的指标值对水质影响越大,结合监测数据可知,第5天与第9天水质指标数据较为接近,但第5天氨氮和溶解氧都明显好于第9天,因改进的主成分分析法中氨氮和溶解氧权重较大,对水质影响起关键作用,故第5天水质情况应好于第9天,计算结果较为合理。

2017年8月绿色科技第16期

5结论

(1)该评价中主要将熵权引入主成分分析法中,采用熵值法计算权值,解决了主成分水质评价过程中忽略数据离散作用的问题,使得评价结果客观合理。

(2)通过对该区域进行主成分分析,结果发现:第一主成分密切相关的水质指标包括悬浮物、电导率、氨氮、硝酸盐、亚硝酸盐、化学需氧量和溶解氧,它们在第一主成分中承载信息最,说明第一主成分基本反映养殖水体整体水质情况,第二主成分密切相关的水质指标为总磷和总氮,其反映的信息最多。

(3)通过对该村镇水质评价可以发现,采取指数中心化的方式对非线性原始数据进行处理,以协方差反映指标信息,可获得较好的结果。

参考文献:

[1]

张丹,丁爱中,林学钰,等.河流水质监测与评价的生物学方法[J].北京师范大学学报,2009,45(2):200~204.

[2] 库路巴依,白云鵬,王玲.主成分分析法在水库水质综合评价中的应用[EB/OL].[2017-04-11].中国科技论文在线.http://www.paper.edu.cn.

[3]陈仁杰,钱海雷,袁东.改良综合指数法及其在上海市水源水质评价中的应用[J].环境科学学报,2010,30(2):431~437.

[4]明星,姚建,程欢,等.基于主成分分析与聚类分析的水污染排放分布研究[J].绿色科技,2016(10):36~38.

[5]巩嘉誉.基于主成分析方法的山东省水资源承载力研究[J].绿色科技,2013(1):82~85.endprint

猜你喜欢

主成分分析法熵值法贡献率
农业财政投入与农业经济增长的动态关联性
14.8%
应用型高校实践教学质量评价指标体系研究
基于改进突变级数的农产品流通体系建设绩效研究
灰色关联模型在白酒企业财务竞争力评价中的应用
中国装备制造业阶段竞争力研究
陕西省各地区人力资本水平综合评价与分析
基于主成分分析法的高校财务风险评价指标体系构建