聚类-因子分析在黄河水污染综合评价中的应用
2017-01-13李成李海波高丹丹杨小露
李成,李海波,高丹丹,杨小露
(湖北大学资源环境学院,湖北 武汉 430062)
聚类-因子分析在黄河水污染综合评价中的应用
李成,李海波,高丹丹,杨小露
(湖北大学资源环境学院,湖北 武汉 430062)
以黄河流域12个监测站点2015年全年52个周的监测数据为依据,运用因子分析和聚类分析相结合的复合模型,对黄河的水质问题进行综合评价,结果表明:在选取的4个指标中,COD和NH3-N是影响黄河水质污染的主要因子,DO和pH对水质的影响相对较小;黄河流域的12个监测断面可以划分为6大类,代表6种不同特征的水质,其中山西运城河津大桥水质最差,山东济南泺口水质情况最好.结果分析表明,复合模型具有一定的可靠性和实用性,可为环境治理和保护提供一定的参考.
因子分析;系统聚类;综合评价;水质参数
0 引言
近年来,由于黄河流域旅游业和周边工农业的快速发展,导致黄河水污染日趋严重.为了能更合理地治理黄河水污染问题,我们首先得对黄河水域的污染情况作出科学合理的评价.目前在水质综合评价方面的方法有多种,其中包括单项参数评价法、系统聚类分析法、人工神经网络分析法、主成分分析法、层次分析法等[1],但是每一种方法都有它的局限性.面对复杂的水质问题,运用单一的办法已经很难做出较为理想的分析评价.因此,通过建立复合模型,可以解决使用单一办法带来的局限性.
本文中运用多元统计分析[2]中的系统聚类分析和因子分析相结合的复合评价模型,对黄河水污染的多个指标进行合理分析与评价,以期为黄河水污染治理提供科学的参考.
1 复合模型
因子分析法是通过对变量之间关系的研究,找出能够综合原始变量的少数几个因子,使得少数因子能够反映原始变量的绝大部分信息,将分散的变量数据的信息集中到某几个综合指标上,分析和识别出对高维度变量有公共影响的共因子,对数据起着降维的作用.因子分析法[3]是主成分分析方法的推广和深化,对诊断水质污染因子具有较好的效果.
聚类分析法[4]是根据样本之间的相似程度,定量确定样本之间的亲属关系,把相似的样本聚为同一类,并且将样本逐一归类,直到将所有的样本都聚集完成,然后按照某些要求对样本进行分类.
本文中针对单一评价方法的不足,提出了将因子分析与聚类分析方法相结合的复合模型,旨在科学地对水质进行评价与分区.首先将样本数据进行系统聚类分析,分成几大类,然后对每一类样本数据进行因子分析,整个复合模型的计算在Spss22.0软件上实现.
2 研究区域监测点位分布与数据来源
本文中数据来源于中华人民共和国环境保护部数据中心,选取了黄河沿线12个监测站点(见图1)2015年总共52周的水质指标检测数据,主要的检测指标为pH值、溶解氧(DO)、高锰酸盐指数(COD)、氨氮指数(NH3-N)这4个指标.选取的52周的数据中,除了由于河流断流引起的数据缺失外,对其他异常数据直接进行删除,然后将各站点剩下数据的均值作为各监测点的综合水质数据进行分析,各站点数据见表1所示.
图1 黄河沿线12个监测站点分布图
3 结果与分析
3.1 因子分析 为了消除因数据量纲的不同而带来的影响,必须对各指标先进行标准化处理[5],即将其转化成无量纲的数据,使其具有可比性.然后对12个监测站点的水质指标检测数据进行因子分析,提取方差累积贡献率大于85%的前几个因子为主因子进行分析,见表2.从表2可以看出,前3个因子的累积贡献率达到98.619%,远远大于85%,说明前3个因子能够代表原始数据的绝大部分信息.因此,选择3个主因子进行接下来的分析,经正交旋转后的因子载荷矩阵[6-8]如下表3.
表1 黄河水质综合数据 mg/L
表2 因子的特征值、贡献率及累积贡献率
表3 方差极大正交旋转后因子载荷矩阵及贡献
通过正交旋转后,从因子载荷大小来看,第一主成分因子载荷占47.850%,第二主成分因子载荷占25.625%,第三主成分因子载荷占25.145%.从各参数指标与因子间的影响程度来看,与第一主因子密切相关的是水质指标COD和NH3-N.COD主要是受城市污水与工业废水排放的影响,反映了水体受工业污染的程度.NH3-N除了来源于工业废水外,还有一部分来源于厌氧微生物反硝化作用,故而NH3-N的含量偏高,也会反映水体可能会有富营养化的趋势.与第二主因子有密切关联的是DO的含量.一般天然的水体溶解氧的含量是达到饱和的,但是由于水中的生物消耗大量的氧,DO会随着生物量的增加而迅速下降.与第三主因子有密切相关的是pH,一般河流的水质是呈弱碱性,除了受外来污染源的影响外,主要是受水中植物的生命活动的影响.由于第一主因子的贡献率大于其他主因子,因此控制黄河流域污染影响因子的是NH3-N和COD.
3.2 聚类分析 根据上面分析计算提取的3个不相关的主因子以及各主因子得分,对水质数据进行系统聚类分析[9-10](Q型聚类分析),样品间的距离定义为平方欧式距离,系统聚类的方法使用组间平均距离法,从而得到谱系聚类图[11](见图2).
图2 黄河沿线12个监测点的水质综合指数聚类谱系
从聚类谱系图2不难发现,黄河沿线的12个站点可以划分为6大类,结果比较理想.类别1为山西运城河津大桥;类别2为陕西渭南潼关吊桥;类别3为甘肃天水牛背山、青海海东民和桥以及河南济源小浪底;类别4甘肃兰州新城桥和山西忻州万家寨水库;类别5为宁夏中卫新墩、宁夏石嘴山麻黄沟、内蒙乌海海勃湾和内蒙包头画匠营子;类别6为山东济南泺口.
类别1所在的监测站点位于晋陕省界汾河流入黄河前,此处水质很差,主要的污染指标NH3-N和COD都严重超标,主要原因是因为汾河沿岸的采矿、冶炼等工业集中,排污严重,再加上各污染因子没有得到有效地稀释就与下游的污染物混合,从而使监测值严重超过国家地表水Ⅴ类标准,根据国家河流水质监测的数据,该监测断面全年几乎都处于劣Ⅴ类水质.
类别2所在的监测断面位于陕-晋、豫省界渭河流入黄河前,水质也较差,长期处于国家地表水Ⅳ类水质,除了NH3-N和COD超标外,DO指标污染也较重,其因是渭河沿岸大量未经处理的工业废水和生活污水直接排污,使渭河成为关中地区的排污河,再加上来自农业的面源污染,大量农药化肥随着雨水和地下水,不断地流入渭河,使渭河的水质问题更加突出.虽然近些年政府大力治理,使水质得到了改善,但是效果还是甚微.
类别3所在地区的水质主要污染因子是NH3-N,但是COD和DO也存在一定的超标情况,主要是由于沿岸的小型食品加工厂、屠宰场和养殖厂违规将未经处理的废水直接排入河中,以及周边村庄的村民将生活垃圾倒入河道.
类别4从监测的数据来看,水质一般,全年基本上不存在水质超标的情况,全年的水质处在Ⅱ类和Ⅲ类浮动.
类别5包括宁夏中卫新墩、宁夏石嘴山麻黄沟、内蒙乌海海勃湾和内蒙包头画匠营子4个监测断面,水质情况较好,全年水质处在国家Ⅱ类和Ⅲ类标准,较好时期能达到国家Ⅰ类水质.
类别6为山东济南泺口,该监测断面处于黄河入海口,水质情况很好,全年都处于国家Ⅰ类水质或者Ⅱ类水质,不存在污染超标的情况.
4 结语
1) 对黄河流域2015年12个监测站点的水质参数作因子分析,可以得出影响黄河水环境质量的主要污染物为NH3-N和COD,其中DO和pH对水质的影响较小.
2) 通过对黄河水质指标数据提取的3个主因子[12]进行系统聚类分析,将黄河流域的12个监测断面的水质划分为6大类,其中12个监测断面中,山西运城河津大桥水质最差,其次为陕西渭南潼关吊桥,山东济南泺口的水质情况最好.并对6类不同特征的水质污染源进行解析,分析可能造成水质污染的原因.
3) 通过上述方法表明,使用因子分析[13]与聚类分析方法相结合,能够高效地解决流域水质评价的问题.因子分析能够准确的找出影响水质的主因子,再通过聚类分析,将监测站点进行合理的分类,为环境的治理与管理提供科学的参考依据.若引入更多的评价指标,聚类-因子分析法就可以适用于对全国各流域水污染进行综合评价.
[1] 王晶,孙世群,邵超,等.模糊聚类分析法在水质监测断面优化中的应用[J].广州化工,2012,40(7):153-154.
[2] 刘小楠,崔巍.主成分分析法在汾河水质评价中的应用[C].中国给水排水,2009,25(18):105-108.
[3] 刘罗曼,张颖南.因子分析和聚类分析的一个简单应用[J].沈阳师范大学学报(自然科学版),2005,23(2):130-132.
[4] 袁东,付大友.聚类分析在水环境质量评价中的应用进展[J].四川轻化工学院学报,2003,16(3):50-55.
[5] 张绪美,董元华,石浚哲,等.聚类—因子分析在太湖水质参数评价中的应用[J].安全与环境学报,2006,6(6):58-62.
[6] 杨道军,钱新,殷福才,等.因子分析与聚类法的复合模型在水环境评价和管理中的应用[J].环境科学与管理,2007,32(4):155-158.
[7] 卢敦,张丽.聚类分析与因子分析在天津港富营养化分析中的应用[J].数学的实践与认识,2010,40(11):72-79.
[8] 汤姿.基于因子分析和聚类分析的生态环境质量评价[J].哈尔滨商业大学学报(自然科学版),2006,22(6):121-124.
[9] 苏静.基于因子聚类分析综合评价模型的构建及实证分析[J].湖南文理学院学报(自然科学版),2008,20(3):22-24.
[10] 王文博,陈秀芝.多指标综合评价中主成分分析和因子分析方法的比较[J].统计与信息论坛,2006,21(5):19-22.
[11] 任广平,邹志红,孙靖南.因子分析及其在河网水质综合评价中的应用研究[J].环境污染治理技术与设备,2005,6(4):91-94.
[12] 李文生.基于因子分析的水质综合指标评价法及其应用[J].中北大学学报(自然科学版),2011,32(2):207-211.
[13] 杨威,卢文喜,李平,等.因子分析法在伊通河水质评价中的应用[J].水体保持研究,2007,14(1):113-114.
(责任编辑 游俊)
Application of factor analysis and cluster analysis to water quality comprehensive evaluation on the Yellow River
LI Cheng, LI Haibo, GAO Dandan, YANG Xiaolu
(Faculty of Resources and Environmental Science, Hubei University, Wuhan 430062, China)
Based on the monitoring data of 52 weeks about the Yellow River basin of 12 surveillance sites in 2015, by the methods of factor analysis and cluster analysis,we combinated the composite model to evaluate the water quality of the Yellow River.The results show that: in the selection of the four indicators, COD and NH3-N is the main factor affecting the water quality pollution of the Yellow River, the DO and the influence of pH of water quality is relatively small; The 12 monitoring section of the Yellow River basin can be divided into six categories, on behalf of the six different characteristics of water quality, including Shanxi Yuncheng Hejin bridge water quality is the worst, Shandong Jinan Luokou water quality is the best. Results show that the composite model has certain reliability and practicability, can provide certain reference value for the environmental management and protection.
factor analysis; cluster analysis; comprehensive evaluation; indexes of water quality
2016-04-04
湖北省自然科学基金(2014CFA113)和湖北大学-孝昌菲力省级研究生工作站资助
李成(1991-),男,硕士生;李海波,通信作者,教授,E-mail: lhb@hubu.edu.cn
1000-2375(2017)01-0072-04
X703.1
A
10.3969/j.issn.1000-2375.2017.01.014