基于主成分分析法的黄河呼和浩特段水环境质量评价
2016-05-14吕欣格田剑南王超张琨
吕欣格 田剑南 王超 张琨
摘要:基于主成分分析法对黄河呼和浩特段进行了主因子分析、得分排名,从而得出了不同断面的水环境质量现状,并进行了分析。结果说明:生化需氧量、氨氮、总磷为主成分因子,其总贡献方差为89.489%;在得分排名中依次为河口镇(0.212)、喇嘛湾(0.103)、头道拐(-0.303);在结果分析中,生化需氧量处于3.00-3.600mg/m3之间,为该段流域的最大值污染物,且头道拐断面污染程度最大。主成分分析法反映了该段流域7类主要污染物、3个断面及整个断面的联系及区别。通过进一步分析,表明该评价方法是客观合理的,同时也揭示了此方法在监测因子和监测量不足的情况下较为实用。
关键词:主成分分析;水环境;污染物;评价;分析
中图分类号:TV131.2 文献标识码:A 文章编号:2095-672X(2016)05-0015-06
DOI:10.16647/j.cnki.cn15-1369/X.2016.05.004
Water environment quality assessment Based on Principal Component
Analysis of the Yellow River, Huhhot
Lv Xinge1,Tian Jiannan2,Wang Chao1,Zhang Kun1
(1.Inner Mongolia Academy of Environmental Sciences,Huhhot 010011;
2. Environmental Protection Bureau of Hongshan District,Chifeng, Inner Mongolia 010018)
Abstract:The main factor analyze and ranking score to Yellow River (Hohhot section) based on principal component analysis,the present situation of water environment quality in different sections are given,and carried on the objective analyze.Result shows:BOD,NH3-N and P as main component factors, the total contribution of variance is 89.489%;in the score ranking, Hekouzhen (0.212),Lamawan(0.103)andToudaoguai (-0.303);results of analysis that BOD about between 3.00-3.600mg?m-3 is the largest values of pollutants for the river and the largest pollution degree is Toudaoguai section.the relation and difference among the 7 kinds of main pollutants,the 3 sections and the entire section by principal component analysis method reflected.After further analysis,indicate this evaluation method is objective and reasonable,this is a practical method under the condition of insufficient monitoring factors and quantities also be revealed.
Keywords:Principal component analysis;Water environment;Pollutants;Evaluate;Analysis
主成分分析是将众多具有一定相关性的指标,重新组合成一组相互无关的综合变量来替代原指标,从而达到降维的一种统计分析方法,在降维过程中可消除评价指标之间的相关影响、减少原数据信息的损失、避免各个指标权数确定的缺陷。目前主成分分析法已被引入生态调查研究、城市环境质量研究、水及土壤中污染物评价研究等。近年来在地下水、湖泊、水库等水环境领域的应运备受关注[1-2],包括水环境介质中主要污染物的界别及相关污染物分布特性的客观评价及分析,对于流速较大的流域水环境中污染物分布特点及其有关定量化研究已成为流域水环境研究的焦点。指数评价法、模糊评价法、灰色评价法、物元分析法等已成功用于水环境质量评价中,但此类方法具有时间和空间的局限性且需要大量监测数据[3-4],尤其在流域水环境中的应用无法客观、合理的体现污染物分布特征[5]。主成分分析方法避免了这类问题,可有效的分析出流域水环境不同断面污染物数据对流域某一段的影响,从而揭示了其污染物内在联系及分布特征。本文先对黄河流域呼和浩特段的主要污染物进行主成分分析评价,从而得出主成分污染物组成及其得分,以所得结果为依据,结合此段流域的实际情况对所得结果进行简要分析。
1 资料选取及分析方法
1.1 资料选取
利用《黄河流域(内蒙古段)水环境风险调查及防范措施研究》中的水质监测数据作为主成分分析流域水环境质量评价的数据源。选取黄河流域呼和浩特段头道拐、河口镇、喇嘛湾3个断面,连续3年,每年连续10个月(除去1、2月冰封期)的主要污染因子作为评价指标。样本总数为90个,分析指标包括:生化需氧量(BOD)、化学需氧量(COD)、氨氮(NH3-N)、总氮(总N)、总磷(总P,以P计)、锌(Zn)、铅(pb)。样本检测方法及处理按照《地表水环境质量标准》(GB3838-2002)中相关要求进行(表1)。
1.2 分析方法
采用主成分分析法即将多个变量转化为少数几个综合变量,各主成分之间互不相关,从而使这些主成
分能够反映出初始变量的大部分信息[6]。主成分分析法基本步骤如下[7-9]:
第一步:估计样本数为90,选取的污染物指标数为7,由估计样本数据可得矩阵X=(xij)m×7,其中xij表示第i个断面的第j项污染物指标数据。
第二步:消除各污染物指标之间在量纲化和数量级上的异同,标准化指标数据,得到标准化矩阵。
第三步:根据标准化矩阵建立协方差矩阵R,其中Rij(i,j=1,2,…,7)为原始变量Xi与Xj的相关系数,其计算公式为:
[Rij=k=190(Xkj-Xi)(Xkj-Xj)k=190(Xkj-Xi)2(Xkj-Xj)2]
第四步:根据协方差矩阵R求出特征值、主成分贡献率和累计方差贡献率,确定主成分个数主成分[Zi]的贡献率[Wi=λij=17λj],累计贡献率为[j=1mλjj=17λj]。选取特征值大于1且累计贡献率达80%-95%的特征值λ1,λ2,…,λm所对应的1,2,…,m(m≤7,中m即为主成分的个数)的污染因子为主成分。
第五步:建立初始因子载荷矩阵,计算流域水质综合评分函数及综合值,并进行降序排列。
考虑到流域水环境的流动性及各水质因子的相关性,最终采用SPSS17.0软件对相关分析模块进行处理[10-12]。
2 评价结果
2.1 确定主成分个数
首先进行KMO检验系数和巴特利球体检验,KMO检验系数为0.719>0.50,巴特利球体检验系数为0<0.05,所以可以进行主成分分析[13-14]。
主成分判定是将原有的7个污染指标作为变量,通过降维,转化为便于反应实际情况且互不相关的几个变量。由于所采集的90个数据包含7种污染物,因此,数据量纲不同。所以,在进行主成分结果分析前要进行数据标准化处理(表2)。
从全部解释方差表中看出,第一、第二、第三主成分特征值大于1,方差累计百分比大于80%,第一、第二、第三主成分方差百分比分别占38.113%、26.075%、25.301%,其余四组成分总贡献方差为10.511%,从而说明第一、第二、第三主成分可以概述7个污染指标的信息[15]。因此,选取前3个因子作为主成分,代表黄河流域呼和浩特段主要的污染物指标。
2.2 主成分污染物识别
在成分矩阵中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与有关主成分的相关系数,每一列主成分值最大的可确定为重要污染因子即主成分污染物(表3)。
从成分矩阵中可得出:生化需氧量在第一主成分上载荷较大,亦即与第一主成分的相关程度较高;氨氮在第二主成分上的载荷值较大,即相关程度较高;总磷在第三主成分上的载荷较大,即相关程度较高[16]。
因此可将主成分命名如下:
第一主成分:生化需氧量主成分;
第二主成分:氨氮主成分;
第三主成分:总磷主成分。
2.3 主成分得分评估
在主成分分析结果的基础上构建新的坐标系,将原始变量在新坐标系下投影后,可得新坐标系下的变量值,即主成分得分(表3)。
利用水环境污染物浓度值与相应主成分得分系数相乘加和主成分得分,对水环境污染物总得分进行排名,按照排序可确定出不同断面主成分污染物的污染程度大小[17](表4),即可以进行水环境质量评价。
表4中排名已经说明了黄河流域呼和浩特段所调查的7种主要污染物的整体污染程度,河口镇断面水环境质量最好,其次为喇嘛湾镇断面,头道拐断面水环境质量最差。但由于排名第一的河口镇断面及排名第二的喇嘛湾断面整体得分相近,因此,特此引入估计边界均值图[18-20](图1)。估计边际均值就是在控制了其它6种污染物之后,只是单纯在其1种污染物的作用下污染物的变化值,且污染物的的变化值都是其它6种污染物共同作用的结果。
由图1中可看出:在3-12月河口镇断面(实线)估计边界均值处于0.09-0.13之间[21,22],且与喇嘛湾断面(短虚线)、头道拐断面(长虚线)交错点最多,即交互作用较强,污染程度较小。头道拐断面和喇嘛湾断面估计边界均值分别处于0.09-0.15、0.10-0.15,由于估计边界均值区间、最大值均大于河口镇断面,因此,污染程度较大。头道拐断面与其它两断面的交错点大于喇嘛湾断面与其它两断面的交错点,即可表明喇嘛湾断面水环境质量由于头道拐断面。
由表5及图1的分析结果相结合,可得出头道拐断面整体污染程度最大,致使其它两端面受到不同程度的影响,河口镇断面的污染程度最小。
3 结果与分析
依据主成分分析法对各断面污染程度的评价结果进行分析(图2),生化需氧量差别明显,氨氮和总磷差别不太明显。因此可得出:黄河流域呼和浩特段主要的大值污染物为生化需氧量,氨氮和总磷虽有一定影响,但数值相对较小。
头道拐断面生化需氧量3.00-3.600mg?m-3,氨氮0.066-0.883mg?m-3,总磷0.054-0.186 mg?m-3,致使头道拐断面污染程度较大主要是由生化需氧量较大引起,其原因[23-27]:第一,头道拐断面紧接包头段断面,包头属于重工业城市,黄河排污口约20个,排入黄河流域的污水量较大;第二,头道拐断面排污口约3个,均属于工业污水排放;第三,目前国家控制指标为化学需氧量、氨氮,对生化需氧量没有明确的总量控制指标,因此生化需氧量差异明显,氨氮和总磷差异不明显且数值较小;第四:排入流域的主要为工业废水,工业废水主要含有化学需氧量、生化需氧量、氨氮。氨氮及总磷较小,主要因为氨氮为国控指标,污水排放对氨氮的含量要求比较严格,且工业及生活废水自身排放浓度不高,约为0.50mg?L-1;总磷在污水中处理效率高,约为89%,大于生化需氧量和氨氮的处理效率约83%和85%,最终排入该段流域的浓度约为0.26 mg?L-1;附近农田引用黄河水会造成氮流失,从转化为氨氮,但这种迁移量速率较慢,而且农田自身含量也不高。所以,生化需氧量对黄河流域呼和浩特段影响较大,尤其是头道拐断面,氨氮、总磷对该段流域也具有影响,但较生化需氧量小。
喇嘛湾断面水环境质量排名第二,生化需氧量2.200-3.700mg/m3,氨氮0.060-0.850mg/m3,总磷0.030-0.180mg/m3,主要原因:头道拐断面的污染物随着水体的流动,具有消化降解的功能,之所以比河口镇水环境质量较差是由于喇嘛湾段设置的3个排污口,主要为重工业园区(例如:电厂,化工厂)所排的废水造成。
河口镇断面水环境质量最好,生化需氧量2.00-3.500mg?m-3,氨氮0.057-0.816mg?m-3,总磷0.012-0.178 mg?m-3,均低于其它两断面,是由于此段排放口约为3个,而且主要以城镇污水为主,附近无重工业园区。
由于头道拐断面污染程度最大,因此,对此断面进行较为详细的分析[28-31]。由头道拐断面主成分污染物变化图(图3)可知:由于7-11月份气温相对较高,工业用水量相应要加大,比如冷却水、循环水等,所以,生化需氧量7-11月处于一年最高阶段,并处于上升趋势;氨氮在3-6月份处于一年较高时间段,是由于在此期间农田处于灌水阶段,会产生氮流失,而且此阶段硝化菌活性较差容易转化为氨氮,工业污水也对此有一定影响;由于总磷处理效率较氨氮和生化需氧量高,且污水中的含量极小,农田氮磷流失也不是很严重,因此,总磷在一年当中处于平稳状态,污染量较小。
3 结论
基于主成分分析法评价了七类污染物对黄河流域呼和浩特段三个断面的污染程度,同时也说明了7类污染物与三个断面及整个断面的相互关系和区别。通过主成分分析七类污染物并分析出了三种主成分,并对此进行了得分排名,既反映了水环境污染物对黄河流域呼和浩特断面的影响,也概括了三个断面的水环境质量现状。最后对所得结果进行了较为详细的分析,生化需氧量对整个断面,尤其是头道拐断面的影响最大。
由于污染物指标及断面数量稍有不足,可能造成评价结果有微小偏差,在今后的水环境研究中将不断改善。主成分分析法用于水环境质量的评价和分析处于尝试阶段,不能完全优越于目前的水环境质量标准中的评价法,但通过此评价方法的应用,不仅反应了黄河流域呼和浩特段的实际情况,而且结果分析与实际情况相符合,同时减少了监测因子和监测量。因此,主成分分析法应用于流域水环境质量的评价与分析是较为简便的、合理的。
参考文献
[1]李哲强,侯美英,白云鹏.基于SPSS的主成分分析在水环境质量评价中的应用[J].河海水利,2008,(3):49-53.
[2]郭天印;李海良.主成分分析在湖泊富营养化污染程度综合评价中的应用[J].陕西工学学院报,2002,18(3):65-68.
[3]ZHANG Yan,ZHANG Hong,GAO Xiang et al.Improved AHP method and its application in lake environmental comprehensive quality evaluation—a case study of Xuanwu Lake, Nanjing, China[J]. Nature,Environmentand Pollution Technology, 2013,4(8):54-56.
[4]Meini Yang,Dingfang Li,Jinbo Yang.Wei Xiong.FANN-based surface water quality evaluation model and its application in the Shaoguan area[J].Geo - spatial Information Science,2007,10(4):303-310.
[5]YANG Yuhong,YAN Baixing,SHEN Wanbin. Assessment of Point and Nonpoint Sources Pollution in Songhua River Basin,Northeast China by Using Revised Water Quality Model[J].Environ Earth Sci,2010,20(1):32-38.
[6]朱星宇,陈勇强. SPSS多元统计分析方法及应用[M].北京:清华大学出版社, 2011:241-243.
[7]Tai PENG,Lianning ZHOU,Nian LIU. Application of Principal Component Analysis with SPSS in Water Quality Assessment of Shenzhen Eastern Beach Laboratory[J].Agricultural Science & Technology, 2009,15(4):688-691.
[8]Yutaka Tanaka,Yoshimasa Odaka.Influential observations in principal factor analysis [J].Psychometrika,1989,54 (3): 475-485.
[9]Liang Guo,Ying Zhao,Peng Wang.Determination of the principal factors of river water quality through cluster analysis method and its prediction[J].Frontiers of Environmental Science & Engineering, 2012,6(2):238-245.
[10]Daniel T. L. Shek,Cecilia M. S. Ma,Joav Merrick.Longitudinal Data Analyses Using Linear Mixed Models in SPSS: Concepts, Procedures and Illustrations[J].TheScientificWorldJOURNAL,2010,11(2):42-76.
[11]Michael E.Robinson,Ian J.Sadler,Patrick D.O'Connor.Detection of Submaximal Effort and Assessment of Stability of the Coefficient of Variation[J].Journal of Occupa-tional Rehabilitation,1997,7(4):207-215.
[12]高吉喜,段飞舟,香宝.主成分分析在农田土壤环境评价中的应用[J].地理研究,2006,26(5):836-842.
[13]Alexander A.Frolov,Dusan Husek,Pavel Y.Polyakov.Two Expectation-Maximization algorithms for Boolean Factor Analysis[J].Neurocomputing,2012,2(55):121-127.
[14]A. M. Lara-Porras1,E.Ramos-?balos,New Methoodologies In Statistics: A Different Way of Studying SPSS [J].Revista Investigació Operacional,2009,30(2):185-189.
[15]HE Qing-hua,HE Xiang-yu,ZHU Jian-xin.Fault detection of excavators hydraulic system based on dynamic principal component analysis[J].Journal of Central South University of Technology,2008,15(5):700-705.
[16]Xinguang Wang,Nicholas ODwyer,Mark Halaki.A review on the coordinative structure of human walking and the application of principal component analysis[J].Neural Regeneration Research,2013,8(5):662-670.
[17]MA Hui-zi,ZHAO Bang-hong.Research on Rural Consumer Demand in Hebei Province Based on Principal Component Analysis[J].Asian Agricultural Research,2011,3(5):55-58.
[18]C. F. Spiekerman,D. Y. Lin.Marginal regression models for multivariate failure time data[J].Journal of the American Statistical Association,2000,1(35):324–354.
[19]Robert J.Gray,Yi L.Optimal Weight Functions for Marginal Proportional Hazards Analysis of Clustered Failure Time Data[J].Lifetime Data Analysis,2009,36(11):123-128.
[20]Jianwen Cai,Ross L.Prentice.Regression Estimation Using Multivariate Failure Time Data and a Common Baseline Hazard Function Model[J].Lifetime Data Analysis,1997,3(3):197-213.
[21]Feng Liu,Wei Wei.On the Estimation of Stability Boundaries of Nonlinear Dynamic Systems[A].2011.
[22]Feng Liu,Wei Wei.On expansion of estimated
stability region:Theory,methodology,and application 、to power systems[J].Science China,2011,54(6):1394-1406.
[23]LIU Jian-fei,LI Ning,LU Jia,ZENG Xiang-ye et al.PAPR reduction based on improved Nyquist pulse shaping technology in OFDM-RoF systems[J].Optoelectronics Letters,2013:9(1):57-60.
[24]刘婷婷,张晟,王定勇,吕平毓.嘉陵江水体中CODMn和BOD5的季节变化及输出[J].西南大学学报(自然科学版),2009.31(1):168-172.
[25]张学青,夏星辉,杨志峰.黄河水体氨氮超标原因探讨[J].环境科学,2007,28(7):1435-1441.
[26]Saunders D L,Kalff J,Nitrogen retention in wetlands, lakes and rivers[J].Hydrobiologia,2014,30(3):205-212.
[27]夏星辉,周劲松,杨志峰.黄河流域河水氮污染分析[J].环境科学学报,2001,21(5):563-568.
[28]Su-lin XIANG,Wen-bin ZHOU,Phosphorus forms and distribution in the sediments of Poyang Lake China[J].Journal of Sediment Research,2011,26(2):230-238.
[29]姜欣,许士国,练建军,孟庆国.北方河流动态水环境容量分析与计算[J].生态与农村环境报,2013,29(4):409-414;
[30]Feng Liu,Wei Wei.On expansion of estimated stability region:Theory,methodology,and application to power systems[J].Science China,2011,54(6):1394-1406.
[31]孟伟,于涛,郑丙辉,邓义祥等.黄河流域氮磷营养盐动态特征及主要影响因素[J].环境科学学报2007,27(12):2046-2051.