APP下载

基于结构性双标图的城市废水污染物排放分析

2016-05-04马艳芳张晓琴

陕西科技大学学报 2016年2期
关键词:聚类分析

马艳芳, 张晓琴

(山西大学 数学科学学院, 山西 太原 030006)



基于结构性双标图的城市废水污染物排放分析

马艳芳, 张晓琴

(山西大学 数学科学学院, 山西 太原030006)

摘要:双标图是一种基于主成分分析原理,将多维数据可视化在一张图中的有效方法.传统的双标图根据奇异值的分配分为协变性双标图、结构性双标图、对称双标图三种.文章主要针对结构性双标图适合分析样本点之间相似性的特点,对全国主要城市的废水污染物排放情况做了双标图分析,并且和最长距离聚类法相比较,结果表明结构性双标图不仅可以得到相应的类别,而且可以得到相应类别中的显著性变量,为废水处理工程提供了有力帮助.

关键词:结构性双标图; 聚类分析; 废水污染物

0引言

随着近年来我国人口的增长,以及工业化、城镇化发展和经济的迅速增长,我国的用水量也日趋增多,城市中产生的废水也随之增加.我国是一个水资源比较缺乏的国家,淡水资源只占全球的6%,同时水污染也严重威胁着城市居民的饮水安全,所以污水处理是水治理中不可缺的一部分,从而分析废水中的污染物排放情况具有重大意义.已有许多学者对废水中污染物处理做了分析与研究,例如,周为华等[1]对扬州市废水中的氨氮做了分析;蒋琴[2]对陕西省工业废水及其主要污染物排放量进行了预测;梁淑轩、孙汉文等[3]对中国工业废水污染状况以及影响因素做出分析; 陈明等[4]对北京市的工业废水状况做了调查;王洪波等[5]对东北三省工业废水排放中典型污染物进行了行业分析.

本文将用一种多元统计分析方法中的可视化方法——双标图来分析全国各个城市中主要污染物的排放情况,此方法不同于传统的多元统计分析方法[6],如主成分分析、对应分析[7]、相关分析,期待能更加直观地反映出样本集的信息.

双标图于1971年由Gabriel[8]首次提出,最初来分析农作物品种和环境的双向数据[9];而后,Gower和Hand[10]于1996年将其与数据分析结合起来,在传统双标图的基础上进行了改进,提出基于多种距离的双标图,同时给出不同双标图的统一理论,将双标图看作是类似传统散点图的多元散点图;Yan W[11]在2000年首次提出了GGE双标图,主要用于分析农作品种和环境的关系;Aitchison和Greenacre[12]在2002年将双标图应用于成分数据的分析中;Niel J.le Roux和Sugnet Gardner[13]将双标图作为分析多元数据的一种工具.由于双标图分析能够直观反映指标变量和样本以及它们之间的关系,受到许多学者的推崇,已在不同的科学领域得到广泛应用,如农业、医学[14]、旅游[15]等.

本文第1节主要介绍双标图理论知识;第2节利用结构性双标图对2013年全国各个城市废水中主要污染物排放情况做了分析,并且和传统的聚类分析做了比较分析;最后给出相应的结论.

1双标图理论

设所研究的原始数据有n个观测样本,p个指标变量,记为Xn×p=(xij)n×p=(X1,X2,…,Xp) ,其中xij(i=1,2,…,n;j=1,2,…,p)表示矩阵Xn×p中第i行第j列的元素;Xj=(x1j,x2j,…,xnj)T表示第j个指标变量的观测值;xi=(xi1,xi2,…,xip)表示第i个样本的观测值.双标图分析希望在最小化信息损失的前提下,把矩阵Xn×p中的n个观测样本xi和p个指标变量Xj表示在同一张低维图上,可以直观分析矩阵中行、列以及他们之间的交互关系.

下面给出双标图的构造步骤:

步骤1:对矩阵Xn×p进行标准化得到矩阵Zn×p,且

Zn×p=(zij)n×p=(Z1,Z2,…,Zp)

(1)

其中

i=1,2,…,n; j=1,2,…,p.

Z=UΓVT

(2)

其中U=(uij)n×r=(U1,U2,…,Ur)为n×r阶矩阵,Uj=(u1j,u2j,…,unj)T(j=1,2,…,r)是ZZT的非零特征值所对应的单位正交特征向量;V=(vij)p×r=(V1,V2,…,Vr)为p×r阶矩阵,Vj=(v1j,v2j,…,vpj)T(j=1,2,…,r)是ZTZ的非零特征值所对应的单位正交特征向量;Γ=diag(λ1,λ2,…,λr)为r×r阶对角矩阵,且λ1≥λ2≥…≥λr>0.

步骤3:令

Z=FGT

(3)

当α取不同的值时,所对应双标图中点和向量的坐标是不一样的,得到的双标图也不同.通常选取α=0,0.5,1这三个值,并且可以相应得到三种不同的双标图.下面具体介绍这三种不同的双标图.

(4)

i,j=1,2,…,p

(5)

rij表示第i个向量与第j个向量之间的简单相关系数,即两向量之间的夹角余弦值近似两列指标的相关性.因此,这种双标图适合分析列指标之间的关系.

(2)α=1时,称为结构性双标图(Form biplot),此时F=UΓG=V,FFT=ZZT,双标图中两点之间的距离近似于两个观测样本之间的相似性,适合分析观测样本及其之间的关系.

(3)α=0.5时,称为对称双标图(Symmetric scaling biplot),此时F=UΓ1/2,G=VΓ1/2,这种α的分配介于上述两者之间,此种双标图适合均衡的分析行列之间的关系.

上述所提到的双标图点、向量、夹角等元素可在一张二维图中表示,即r=2,如图1展现了双标图中的元素,其中:点近似表示矩阵Xn×p的行信息即样本;向量近似表示矩阵Xn×p的列信息即列指标;两点之间的距离近似表示两样本的相似性;向量的长度近似表示列指标的标准差;两向量之间的夹角的余弦值近似表示两列指标之间的相关性;点到向量的距离近似表示标准化矩阵中该样本点在其列指标下的值.

图1 二维双标图中的元素

2实例分析

废水是指居民活动过程中排出的水及径流雨水的总称,一般指没有利用或没利用价值的水.目前,我国水资源情况不容乐观,是一个缺水比较严重的国家,全国许多城市的地下水均受到不同程度的污染,并且威胁到了城市居民的饮水安全,废水处理也成为我国城市发展不可或缺的一部分.本文对全国主要城市废水中的主要污染物排放情况进行研究分析,数据来源于2014年中国统计年鉴[16],如表1所示.

表1 全国主要城市废水中主要污染物排放情况

续表1

编号城 市工业废水排放量(V1)/万吨工业化学需氧量排放量(V2)/吨工业氨氮排放量(V3)/吨城镇生活污水排放量(V4)/万吨生活化学需氧量排放量(V5)/吨生活氨氮排放量(V6)/吨22重 庆334515153432661089372186013621123成 都1052412321801998601025951314424贵 阳226269932932177426324449025昆 明48088115266488824840454326拉 萨378312272114792799427西 安777121615163232672629061067528兰 州4909444627231404332806497729西 宁279815759591766016332349630银 川6194167262741139223026261831乌鲁木齐4889595066618816137094613

2.1城市废水主要污染物的双标图分析

结构性双标图中两点之间的距离近似两样本点之间的相似性,根据这一特点,本文对表1中的数据做出结构性双标图,见图2所示.根据样本到中心的距离由远到近,以及样本点在向量上的投影可以将所有样本大致分为6类,可得到以下分析结果.

图2 全国主要城市废水污染物排放的结构性双标图

第1类:石家庄(3)离中心最远,可以自成一类,并且它在工业氨氮、工业废水、工业化学这三个指标变量上的值都很高.事实上,石家庄是全国重点污染城市,部分企业污水的排放是导致石家庄废水污染物中上述指标高的一个重要原因,居民饮用水也令人堪忧.

第2类:上海(9)、重庆(22)是一类,因为这两点离样本中心的距离较远,并且这两个城市在城镇生活污水、生活氨氮、生活化学、工业废水这4个指标上的值很高,说明这两个城市的废水污染物主要是这4种污染物.近年来,重庆市的餐饮业的迅速壮大,带动了重庆的经济发展,但与此同时,餐饮废水成为重庆市污水的主要来源,废水中的污染物大多是人们日常生活中排放出的.上海作为一个国际化的大都市,人口密集,生活污水排放量较大,工业主要集中在乡镇,乡镇工业水污染日趋严重,导致上海、重庆这两个城市在上述4个指标上的值很高.

第3类:北京(1)、广州(23)、成都(19)是一类,这些城市的污染物主要来自于生活污水、生活氨氮、生活化学,在这3个指标上的值较高.北京、广州、成都是我国人口较密集的城市,均排在城市人口排名前六,人们日常生活产生的废水成为这些城市水污染的主要来源.

第4类:天津(2)、杭州(11)是一类,在工业化学、工业氨氮这两个指标上的值都较高.化工、冶金、医药产业是天津市的支柱产业,在杭州,医药化学、纺织服装处于全国领先地位,产业发展带动经济的增长,同时也带来了工业污染,废水中工业化学、氨氮的排放量较高.

第5类:武汉(17)、南京(10)、西安(27)、南宁(20)这些城市是一类,由于其距离中心位置比较近,其污染物的指标值较低.这些城市的工业相对不发达,并且旅游业也比较突出,水污染相对较轻,废水中的污染物排放量相比上述所提到的城市较少.

第6类:其余城市是一类,这些城市离样本中心最近,并且在各个污染物指标上的值都很低,甚至为负,说明这些城市相比以上城市而言,废水污染物排放量比较低,水污染较轻.相比前5类中所提到的城市,这些城市的经济相对不发达,人口密集度较低,生态环境污染相对较轻.

2.2城市废水主要污染物的聚类分析

利用最长距离法聚类,得到的5类结果如图3所示.具体为:

第1类:石家庄.

第2类:上海、重庆.

第3类:北京、成都、广州.

第4类:杭州、天津、南宁、西安、武汉、南京.

第5类:兰州、银川、海口、拉萨、哈尔滨、福州、长沙、长春、南昌、沈阳、郑州、呼和浩特、西宁、合肥、济南、昆明、贵阳、太原、乌鲁木齐.

图3 全国主要城市废水污染物排放的最长距离聚类

2.3结构性双标图和最长距离聚类法的比较

从以上分析可以看出,结构性双标图把数据分为6类,而最长距离法把数据分为5类,但两种方法得到的类大部分是相同的,只有个别有些差异,结构性双标图中的第4类和第5类在最长距离聚类法中合并为一类,其他类都是一样的,说明结构性双标图的聚类效果是不错的,并且在图中可以得到每一类的成因;而对于最长距离聚类法得到的5类,我们只知聚类的结果,但是每一类的显著指标变量是不知道的,这也是聚类法的一个弊端.

3结论

基于结构性双标图的特点,本文将该方法应用于全国主要城市废水污染物排放情况的数据,通过双标图分析将全国主要城市分为6类,并且指出每一类中显著的废水污染物,为各个城市废水分类处理提供了帮助.城市的发展需要经济的带动,在发展经济的同时需要保护生态环境,水,作为生命的摇篮,更需要我们共同保护.

参考文献

[1] 周为华,盛海君,朱新开.扬州市城市废水中主要污染物调查和分析[J].化学工程与装备,2010(8):200-205.

[2] 蒋琴.陕西省工业废水及其主要污染物排放量预测[D].西安:西安建筑科技大学,2012.

[3] 梁淑轩,孙汉文.中国工业废水污染物状况及影响因素分析[J].环境科学与技术,2007,30(5):43-48.

[4] 陈明,任仁,王子健,等.北京工业废水和城市污水环境激素污染状况调查[J].环境科学研究,2007,20(6):1-7.

[5] 王洪波,王鑫,薛南冬,等.东北三省工业废水排放中典型污染物的行业分布特征[J].农业环境科学学报,2006,25(6):1 685-1 690.

[6] 陆璇,叶俊.实用多元统计分析[M].北京:清华大学出版社,2013.

[7] 王育鸿,梁满发,张逸进.对应分析模型在电视剧市场评估中的应用[J].陕西科技大学学报(自然科学版),2011,29(12):126-130.

[8] Gabriel K.R.The biplot graphical display of matrices with application to principal component analysis[J].Biome-trika,1971,58(3):453-467.

[9] Bradu D,Gabriel K R.The biplot as a diagnostic tool for models of two-way tables[J].Technometrics,1978,20:47-68.

[10] Gower J.C,Hand D.J.Biplot[M].London:Chapman & Hall,1996.

[11] Yan W,Hunt L A,Sheng Q L,et al.Cultivar evalution and mega-environment investigation based on GGE biplot[J].Crop Sci,2000,40:596-605.

[12] Aitchison J,Greenacre M.Biplots of compositional data[J].Journal of the Royal Statistical Society:Series C(Applied Statistics),2002,51(4):375-392.

[13] Niel J.le Roux,Sugnet Gardner.Analysing your multivariate data as a pictorial:A case for applying biplot methodology[J].International Statistical Institute,2005,73(3):365-387.

[14] Wouters L.,Gohlmann H.W.,Bijnens L.,et al.Graphical exploration of gene expression data:A comparative study of three multivariate methods[J].Biometrics,2003,59(4):1 131-1 139.

[15] Pan S.,Chon K.,Song H.Y.Visualizing tourism trends:Acombination of ATLAS.ti and Biplot[J].Journal of Travel Research,2008,46(3):339-348.

[16] 中华人民共和国国家统计局.中国统计年鉴[M].北京:中国统计出版社,2014.

【责任编辑:蒋亚儒】

The form biplot analysis of main pollutant emission in waste water in part urban cities

MA Yan-fang, ZHANG Xiao-qin

(School of Mathematical Science, Shanxi University, Taiyuan 030006, China)

Abstract:Biplot analysis is an useful graphical representation of multivariate date,which is based on the principal component.Traditional biplot can be divided into three kinds according to the distri-bution of the singular values,respectively,covariance biplot,form biplot,symmetric scaling biplot.This paper aim to analyze main pollutant emission in waste water in part urban cities of China by form biplot and get the clustering results.Compared to complete linkage method,we can conclude that the form biplot not only get the coresponding clusters,but also can get significant variable in these categories.It provide the strong help for wastewater treatment projects.

Key words:form biplot; clustering analysis; main pollutant in waste water

中图分类号:O212.4

文献标志码:A

文章编号:1000-5811(2016)02-0174-05

作者简介:马艳芳(1989-),女,山西岚县人,在读硕士研究生,研究方向:统计机器学习

基金项目:山西科技厅自然科学基金项目(2015011044 ); 山西省国际合作计划项目(2015081020)

收稿日期:2015-11-21

猜你喜欢

聚类分析
基于谱聚类算法的音频聚类研究
基于Weka的江苏13个地级市温度聚类分析
我国中部地区农村居民消费行为阶段特征分析
基于多元统计方法的高校科研状况评价分析
基于聚类分析的无须人工干预的中文碎纸片自动拼接
浅析聚类分析在郫县烟草卷烟营销方面的应用
基于聚类分析研究贵州省各地区经济发展综合评价
新媒体用户行为模式分析
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析