模糊聚类法用于兰州市西固区环境监测的布点
2016-05-30李卷耳
【摘要】本文利用模糊聚类方法结合一组采暖期兰州西固区环境空气质量监测结果,对西固区监测点进行优化。计算结果呈现出采暖期西固区空气质量的污染特征,超标污染物主要是PM10,CnHm,以煤烟型污染为主,建议环境部门在这些污染区域设置监测点。
【关键词】兰州西固区;监测点优化;模糊聚类;煤烟型污染
1.引言
在环境监测中,用尽可能少的观测点的污染物监测数据,反映出尽可能完整、准确地某区域的整体环境质量,不仅满足了环境监测代表性的需求,而且能节省观测所带来的成本,这对于常规环境监测有重要的意义[1]。杨晓华等[2]应用物元关联分析法进行大气环境的监测优化选点,该方法计算简便,但是其中涉及的关联函数的确定有一定的经验性;彭荔红和李祚泳[3]利用BP神经网络对贵阳市1992-1993年期间的16个大气环境测点的监测数据进行优选,得到符合实际的结果,但是神经网络方法的理论较为复杂。环境要素中的污染物受到多种因素的共同影响,例如气象条件、污染源扩散条件等等,其系统一般不是简单的黑色系统或白色系统,而是灰色系统,在客观上存在一定的模糊性,若通过数学中模糊聚类方法,对污染物不同对点位进行聚类分析,从而划分出不同区域。万小卓和孙蕾[4]利用模糊聚类方法对铝厂周围环境的氟化物结合植物含氟量进行了污染分区,结果显示该方法可以客观的反映铝厂周围环境的污染状况。兰州市西固区是我国西北石油化工基地[5],早在上世纪70年代,兰州西固工业区就爆发了光化学烟雾[6],经过一系列的研究治理工作,西固区的空气质量有明显改善[6-8],但是,该地仍然是兰州市的重点环境监测区域。本文采用文献[5]提供的甘肃省环境监测中心站在西固区测得环境空气质量数据,结合模糊聚类分析法,对西固地区的监测点进行优化,时间段从2005年1月26日至2月2日。
2.模糊聚类分析基本数学原理
聚类分析是对一组不清楚类别的观测对象根据彼此相似程度进行分类,从数学的几何角度分析,聚类分析是通过某种准则将空间上某些相对接近的点聚为一类,而点与点之间的接近程度常常通过相似系数和距离两种参量来表示[9]。而对于大多数污染物而言,由于其受到污染源排放、气象扩散条件等复杂、不确定因素的影响,污染物浓度是一个灰色系统,模糊数学的方法则能很好的建立相似矩阵进行分类。
2.1模糊矩阵及其建立[8]
矩阵可称为一个模糊矩阵,若对任意i=1,2,……n,j=1,2,……m都有rij∈[0,1]。通过模糊数学方法对事物进行分类是建立模糊矩阵最关键的步骤。
2.2距离
在实际的操作中常采用“距离”的概念来度量不同样本之间的相似度,距离常用符号d来表示,下面列出几种常用的距离计算方法:欧几里得距离,海明距离,明科夫斯基距离(其中,与之对应p=1,2可得到不同距离度量)
2.3聚类分析基本过程
首先将n个样本各自间归为一类,即n类;之后寻取最相似的为新一类,则此时的总类数已变为n-1类;之后计算新的一类与其他n-2类之间的相似程度,选取最相似者在合并为一新类,则总类数改变为n-2类;依此类推,一直到全部变量归为一类为止。整个聚类过程可通过聚类图谱呈现出来,同时在较合理选择聚类距离与相似系数之后,最终得到聚类类别。
3.应用实例
本节选用文献[5]提供的单因子指数法对2005年兰州西固区内采暖期空气质量评价后的结果,详见表1。
以下采用MATLAB中的内置函数进行模糊聚类分析。
(1)寻求数据中变量之间的相似程度,利用pdist函数计算各个变量之间的欧氏距离y=pdist(X,Euclid),其中X表示污染物指标矩阵;
(2)用linkage函数来定义各个变量之间的连接:此函数通过pdist函数产生距离的信息,其中相近的成对变量将形成分类,再将新产生的类与其余变量连接产生更大的类,直至原始数据全部变量均被连接至系统聚类树,z=linkage(y);
(3)用cophenetic函数评价聚类信息即原始相似数据的相似程度,希望得到衡量聚类信息的有效性,c=cophenet(z,y);
(4)利用pdist函数提供的五种计算距离的方法,得到的相关系数值见表2。可以看出,对于本例而言,以布洛克距离表征相似度最好。
(5)采用dendrogram(z)命令生成聚类树,见图1。本文指定类数以3类进行聚类,结果见表3。
图1 兰州市西固区污染物聚类分析树
表3 污染物聚类分类结果
聚类类别 监测点
I 水上花园,兰炼石油学校,兰化宾馆,兰化职工医院,兰州第一水厂,兰州第二水厂,桃园中学,兰州齿轮厂
II 兰州铝厂,兰炼宾馆,东区污水厂
III 中川公路段
结合表1各污染物的评价结果,聚类分析的结果说明,组III的中川公路监测点主要受PM10的污染,而兰州铝厂,兰炼宾馆,东区污水厂主要受CnHm的污染影响。实际上,文献[5]已指出西固区在采暖期空气质量主要受到PM10,CnHm污染的影响,其浓度超过了国家规定的质量标准,是污染空气的主要污染物,这表明模糊聚类方法能较好的区分不同污染类型的区域。
4.结论
(1)利用MATLAB软件中函数的模糊聚类分析功能,结合污染物类型分析,对兰州市西固区污染物监测点进行了优化。结果表明,中川公路段主要为PM10污染,兰州铝厂,兰炼宾馆,东区污水厂是典型的石油化工污染[5],主要受CnHm污染物的影响。以上两类污染区域都需重点监控,而其他监测点为轻污染区,监测点可相应减少。
(2)模糊聚类方法在环境监测点的优化使用方面,可以减少单因子评价的信息损失,使评价结果更加客观、真实,而且其理论和计算步骤较为简单,易于推广。
参考文献
[1]李祚泳.基于B-P人工神经网络的环境测点的优选[J].环境科学研究,1998,11(5):34-40
[2]杨晓华,杨志峰,郦建强,等.大气环境质量综合评价的物元分析法[J].环境工程,2003,21(5):69-70,80
[3]彭荔紅,李祚泳.应用BP神经网络实现环境监测的优化布点[J].环境保护,2000(4):17-19
[4]万小卓,孙蕾.植物和空气同步监测在铝厂环境污染综合分析中的应用[J].湖南农业科学,2006,(2):71-73
[5]韦春.兰州市西固区域环境空气质量的污染特征[J].环境监测管理与技术,2008,20(3):28-30
[6]陈长和,黄建国,任阵海,等.兰州西固工业区夏季光化学烟雾污染的气象条件[J].环境科学学报,1986,6(3):334-341
[7]李金龙,张其苏,唐孝炎,等.兰州西固地区光化学烟雾污染气质模式[J].环境科学学报.1988,8(2):125-130
[8]王式功,张镭,陈长和,等.兰州地区大气环境研究的回顾与展望[J].兰州大学学报(自然科学版),1999,35(3):189-201
[9]肖中新.安徽省辖淮河流域省控地表水环境监测点位优化研究[D].合肥:合肥工业大学,2008
作者简介
李卷耳(1998.8—),男,中国人民大学附属中学,研究方向:环境与经济相关关系.