基于主成分分析与聚类分析的水污染排放分布研究
2016-07-20明星,姚建,程欢,王沛
明 星,姚 建,程 欢,王 沛
(四川大学 建筑与环境学院,四川 成都 610065)
基于主成分分析与聚类分析的水污染排放分布研究
明 星,姚 建,程 欢,王 沛
(四川大学 建筑与环境学院,四川 成都 610065)
摘要:阐述了主成分分析以及聚类分析,结合spss统计分析软件,采用主成分与聚类分析的复合模型,对我国各地区废水中污染物排放量进行了主成分分析,从12个指标因子中提取出4个相互独立的主成分,并将各地区的主成分因子得分进行聚类分析,最终将31个地区分成5类,分析了各类地区的污染排放特征,提出了重点整治措施,以利于各地区污染控制与防治。
关键词:主成分分析;聚类分析;spss统计分析
1引言
水污染问题是当前我国最突出的环境问题之一,严重威胁着我国水资源与水环境的安全,为改善水环境质量,加强水环境管理和控制消除水污染问题迫在眉睫[1,2]。众多学者通过广泛深入的研究,促进了水环境研究的发展。张妍等[3]克服了水环境管理复合模型在应用中存在的主观随意性,提出将主因子分析与聚类分析方法集成,定量诊断出水污染因子对河段的污染贡献率,合理划分出各类水环境管理区域。袁连新等[4]对比分析了“系统”、“模糊”、“灰色”3种聚类方法,并通过实例说明其在水质分析领域的作用。在水环境综合管理评价的研究中,单因子评价法、综合指数法、模糊综合评价法、灰色系统法、神经网络法等方法[5~8]也为水环境保护提供了科学依据。在水污染物总量控制方面,梁博等[9]阐述了我国水污染物总量控制的现状及存在的问题,指出了我国水环境污染物总量控制的发展方向。刘年磊等[10]致力于污染物总量控制手段的研究,构建了国家水污染物总量控制目标分配指标体系,并利用熵值法与改进等比例分配方法从一种全新的视角给出了我国31个省市自治区总量分配方案。
笔者将水质评价研究中贡献突出的主成分分析法和聚类分析法应用到我国水污染物排放分布的研究中,为我国水污染控制提供参考价值。
2主成分分析和层次聚类分析复合模型
2.1主成分分析
主成分分析[11,12]概念最早由英国生物统计学家Karl Pearson在1901年提出,但仅限于非随机变量的讨论,之后由Hotelling于1933年将其扩展到随机变量,利用数学降维思想,在变量较多的高位空间中,用较少的综合变量代替原来较多的变量,并且尽可能多地反映原来变量的信息,综合变量互不相关。然而,主成分分析的主要功能是压缩指标个数,简化数据,不能作为研究结果,须继续采用其他统计方法以解决实际问题。
2.2聚类分析
聚类分析[11]主要是研究对样品或指标进行分类,采用系统聚类法对研究对象进行分类,开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类之间的距离或相近性测度,该过程将持续到所有对象归为一类为止,聚类的过程用谱系聚类图(树状结构)描述。
2.3主成分分析和层次聚类分析复合模型的建立
运用spss统计分析软件进行主成分和聚类分析复合模型的建立[12~14],首先计算相关系数阵,检验各变量是否适合作主成分分析,然后根据初始变量选定协方差阵或相关阵求主成分,求出特征根及标准化特征向量,确定提取的主成分个数,最后计算出各样品的主成分得分,根据各主成分的因子得分,在spss统计分析软件中进行聚类分析,选用离差平方和法(Ward method)进行系统聚类分析,然后画出聚类谱系图,决定类的个数和类。
3水污染排放分布研究
3.1研究资料
研究数据来源于《中国统计年鉴2015》[15],选取了全国31个地区的化学需氧量、氨氮、总氮、总磷、石油类、挥发酚、铅、汞、镉、六价铬、总铬和砷的污染物排放量,共12个指标因子。
3.2数据处理及分析
将数据输入spss软件进行主成分和聚类分析,经过KMO和Bartlett的球形度检验,Bartlett球形检验统计量为449.811,相应的概率Sig为0.000,该数据通过了显著性≤0.05的Bartlett球形检验。同时,KMO值为0.655,满足Kaiser给出的KMO度量标准。提取主成分时考虑3方面因素:选取主成分的特征值均大于1、累积贡献率达到85 %以上及根据碎石图判断。如表1和图1所示,从12个指标因子中提取出了4个主成分,4个主成分的特征值均大于1,累积贡献率为88.256 %,碎石图中在第3个主成分后出现明显的拐点,综合判断,取拐点前所有的因子及拐点后的第1个因子作为主成分。
表1 各主成分特征值、方差贡献率及累积贡献率
图1 碎石
根据最大方差法进行正交旋转,可以清楚地解释4个主成分与12个原始变量之间的关系。主成分与变量间的相关系数越接近1,则该主成分涵盖了各变量更多的信息,一般相关系数大于0.6即可用该主成分解释变量。旋转成份矩阵如表2所示,主成分1主要涵盖了总磷、总氮、化学需氧量、氨氮4个变量的信息。以此类推,主成分2涵盖了铅、镉、砷、汞4个变量;主成分3涵盖了六价铬、总铬2个变量;主成分4涵盖了挥发酚、石油类2个变量。根据主成分得分系数矩阵和各地区指标因子的标准变量值,可计算出31个地区的主成分得分,后续研究则应用这4个主成分进行聚类分析。
表2 旋转成份矩阵
主成分分析中31个地区的4个主成分得分作为聚类分析的分析数据,采用Ward method法计算类间距离,图2提供了1~31个类别的所有分类结果。根据实际情况,将31个地区分为5类比较合适,每一类别中包含的地区如表3所示。
图2 树状结构
类别地区地区个数1北京、天津、内蒙古、上海、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆162河北、辽宁、吉林、黑龙江、安徽、山东、河南、四川83山西14江苏、浙江、福建、湖北、广东55湖南1
通过树状结构以及系统聚类结果分析,发现北京、天津、上海、重庆4个直辖市的12项水污染物排放水平相近,并且与内蒙古、新疆、西藏等中西部发展较弱的地区合并为一类,各地区4个主成分得分均较低,属于污染物排放量较少的低排放地区;河北、辽宁、吉林、黑龙江等被合并为一类,各地区水污染物排放量比较相似,主成分1得分较高,另外3个主成分得分均衡且数值不高,属于污染物排放量中等的一般排放区;山西被单独并为一类,其在主成分4的得分远远高于其他地区,属于挥发酚和石油类高排放量地区;江苏、浙江、福建、湖北、广东被合并为一类,均在主成分3的得分比较相近且较高,另外3个主成分得分较均衡且偏高,属于污染物排放量较高的高排放地区;湖南被单独并为一类,其在主成分2的得分远远高于其他各地区,属于重金属高排放量地区。
4结论
(1)北京、天津、上海、重庆作为城市级别的地区,在其工业和生活水平属于国内领先的优势条件下,产生了各项水污染物排放量较高的弊端,排放量水平和我国大部分中西部省份的废水排放水平相似,这一点值得重视,相关部门和各企业须采取提升市民环保意识、提高企业污染控制技术等有效措施,控制各项水污染物排放量,减轻或消除局部地区污染过度的情况。
(2)一般水污染排放地区多集中在北方和中西部地区,均属于工业、经济及生活发展较好的地区,各地区切勿以环境作为代价发展经济,须做到经济发展与环境保护相协调,须严格制定各项水污染物排放总量控制指标。
(3)山西省成为挥发酚和石油类高排放量地区,主要与该地区的工业形势有关,工业对煤的依赖性较高,导致山西省挥发酚和石油类排放量较高,该地区须提高污染控制技术、加快促进产业结构调整,增加清洁能源的研发与使用;湖南省成为重金属高排放量地区,主要因为湖南省矿产资源丰富,并且随着经济发展,大量能源消耗与浪费导致了污染加剧。该地区须加大对矿产资源的保护力度,提高开采和产品生产技术,严格控制突出污染物排放量,制定有效的污染物总量控制指标。
(4)污染物高排放地区为沿海发达省份以及湖北省,属于工业、经济及生活水平较高的省份,通过这5个地区在主成分2和3中的突出表现,工业废水的排放为该地区废水排放量的贡献突出,因此,各企业须提高原料使用效率、提高科学技术水平,采用更为先进的工艺控制污染物排放。
参考文献:
[1]张晓.中国水污染趋势与治理制度[J].中国软科学,2014 (10): 11~24.
[2]张修宇,陈海涛.我国水污染物总量控制研究现状[J].华北水利水电学院学报, 2011, 32(5): 142~145.
[3]张妍,尚金城,于相毅.主成分聚类复合模型在水环境管理中的应用[J].水科学进展, 2005, 16(4): 592~595.
[4]袁连新,余勇.聚类分析方法及其环境监测、水质分析中的应用[J].环境科学与技术, 2011 (Z2): 267~270.
[5]魏文杰,张新华,罗吉忠,等.模糊综合法在水质评价中的应用分析[J].节水灌溉, 2014 (9): 46~49.
[6]樊向阳,宋韶盈,杨华锋,等.灰色综合指数评价法在商丘水环境评价中的应用[J].地下水, 2008, 30(6): 84~86.
[7]隋文斌.模糊数学法在水环境质量综合评价中的应用[J]. 长春工业大学学报(自然科学版), 2012, 33(4): 367~370.
[8]郭劲松.基于人工神经网络 (ANN) 的水质评价与水质模拟研究[D].重庆:重庆大学, 2002.
[9]梁博,王晓燕.我国水环境污染物总量控制研究的现状与展望[J].首都师范大学学报(自然科学版),2005,26(1): 93-98.
[10]刘年磊,蒋洪强,卢亚灵,等.水污染物总量控制目标分配研究:考虑主体功能区环境约束[J].中国人口·资源与环境, 2014, 24(5): 80~87.
[11]高惠璇.应用多元统计分析[M]. 北京:北京大学出版社, 2005.
[12]汪冬华.多元统计分析与SPSS应用[M]. 上海:华东理工大学出版社, 2010.
[13]蒋群,许光泉,梁修雨.主成分和聚类分析应用于淮南矿区地下水水质评价[J].能源环境保护, 2007, 21(2): 51~53.
[14]张萌,倪乐意,谢平,等.基于聚类和多重评价法的河流质量评价研究[J].环境科学与技术, 2009, 32(12): 178~185.
[15]中华人民共和国国家统计局.中国统计年鉴—2014[M].北京:中国统计出版社,2014.
Research on Distribution of Water Pollution Emission Based on Principal Component Analysis and Cluster Analysis
Ming Xing, Yao Jian, Cheng Huan, Wang Pei
(CollegeofArchitecture&Environment,SichuanUniversity,Chengdu610065 ,China)
Abstract:Thisarticle introduced principal component analysis and cluster analysis.Combined with SPSS statistical analysis software, the wastewaterpollutantemission from across the countrywere analyzedbased on the composite model of principal component analysis and cluster analysis.4 mutually independent principal components were extracted from 12 index factors. Then we analyzed the principal component factor scores of regionswithcluster analysis, and finally the 31 regions were divided into 5 categories. in the research, we analyzed the pollution emission characteristics of different regionsand put forward the key regulation measures, which would be conducive to the control and prevention ofregional pollution.
Key words:principal component analysis; cluster analysis; SPSS
收稿日期:2016-03-10
作者简介:明星(1991—),女,四川大学建筑与环境学院硕士研究生。
通讯作者:姚建(1966—),男,教授,主要从事环境影响评价、环境规划及烟气脱硫技术方面的研究工作。
中图分类号:X52
文献标识码:A
文章编号:1674-9944(2016)10-0036-03