APP下载

基于系统聚类方法划分中国PM2.5防治区域

2018-01-15单春艳白志鹏任丽红孟露露吴晓璇赵佳佳李洋阳

中国环境监测 2017年6期
关键词:聚类距离污染

陈 杨,单春艳,白志鹏,任丽红,孟露露,吴晓璇,赵佳佳,李洋阳

1.南开大学环境科学与工程学院,天津 300071 2.中国环境科学研究院,环境基准与风险评估国家重点实验室,北京 100012

空气中细颗粒物(PM2.5)污染对人体健康和大气环境质量有极大影响[1-3],当前PM2.5成为对中国城市环境空气质量影响最大的污染物之一。环境状况公报显示,2013年首批实施新环境空气质量标准的74个城市PM2.5年均质量浓度为72.0 μg/m3,达标城市比例仅为4.1%[4];2014年全国161个城市PM2.5年均质量浓度为62 μg/m3,达标城市比例为11.2%[5]。2015年,全国338个地级以上城市PM2.5年均质量浓度为50 μg/m3,达标城市比例为21.6%。尽管近几年通过采取一系列PM2.5污染防治措施,中国部分城市污染程度有所减轻,但达标率仍然较低,区域性特征明显[6-9]。2015年,京津冀区域的13个地级城市和长三角区域的25个地级城市中,都各仅有1个城市达标,且各区域的重污染发生体现出同步性。因此,合理划分PM2.5污染防治区域、建立区域性大气环境管理体系,是改善区域空气质量的重要途径。

很多发达国家采取区域联防联控的大气管理模式治理PM2.5污染。如美国大气管理区域的地理分布和社会经济区域基本一致[10],在个别严重污染区域,如美国加州,设立南海岸大气质量管理区,共同协商区域大气治理事宜。欧盟通过会议委员会签订国际会议条约来约束[11]。通过区域管理、联防联控和统筹安排,美国、英国等国家的大气污染得到了有效控制。

中国通过各级行政区环境保护部门统一实行大气环境治理。部分省(市)按照地理位置和经济发展集中程度聚成大区(如京津冀、长三角、珠三角地区等)。2013年环境保护部提出的大气污染防治“三区十群”,做出了全国范围大气污染防治分区的尝试,在一定程度上改善了大气污染状况,但仍主要以省(市)行政大区为主体,而不是环境相互影响较大的城市各自合成大区统筹安排。从大气问题管理的角度出发,这种自上而下的纵向管理模式无法满足现今中国严峻的污染形势,加强横向的相互影响城市之间的联系才是改善中国城市PM2.5污染的出路。部分学者根据大气污染情况利用系统聚类法“横向”聚类城市。如王斌[12]利用空气污染指数(API)数值将84个城市聚类成南北2个大区,细化可聚类成11个小区;GAO等[13]利用每日空气污染指数将81个城市划分成7个区域;康娜等[14]利用PM10污染特点将86个城市划分为7个区域等。但是这些研究侧重于区域内大气污染特征、规律的探讨,在聚类方法选择、聚类分区的说明上过于简略。因此,本研究从数据选择与处理、聚类要素分析及选择、结合实际地理位置和行政管理对聚类结果进行判断分析等角度展开阐述,既探究适于全国城市大气污染区域划分的方法,又为实际区域大气PM2.5防控提供依据。

1 研究对象和数据来源

选取2015年全国108个重点城市PM2.5的日均浓度值为数据样本,根据各城市的PM2.5污染浓度年变化特征进行区域划分。在中国空气质量在线监测分析平台[15]获取108个城市(长春、哈尔滨、葫芦岛、盘锦、营口、沈阳、包头、呼和浩特、大同、张家口、承德、北京、保定、廊坊、唐山、天津、秦皇岛、石家庄、邢台、衡水、德州、邯郸、沧州、郑州、威海、烟台、大连、滨州、东营、潍坊、丹东、太原、阳泉、济南、淄博、菏泽、聊城、青岛、日照、临沂、淮安、宿迁、盐城、连云港、莱芜、泰安、徐州、枣庄、济宁、渭南、西安、咸阳、宝鸡、延安、铜川、泰州、扬州、镇江、南京、合肥、杭州、湖州、绍兴、南通、上海、苏州、无锡、嘉兴、常州、宁波、舟山、台州、温州、福州、泉州、金华、衢州、丽水、厦门、汕头、成都、重庆、长沙、湘潭、株洲、南昌、武汉、昆明、玉溪、西宁、兰州、清远、韶关、肇庆、柳州、贵阳、深圳、珠海、中山、江门、东莞、广州、佛山、惠州、北海、南宁、海口、河源)的2015年PM2.5日均浓度值,进行系统聚类分析。为保证数据整齐、方便聚类分析,对缺失数据进行处理(当某一城市某日PM2.5浓度值缺失,则删除其他城市对应日期数据值,最终删除的日期为1月1—5日、4月4—9日、7月11日),最终处理数据得到108个城市353 d的PM2.5日均浓度值。

2 研究方法

2.1 系统聚类方法介绍

使用系统聚类方法。首先定义样品间的距离(或相似系数),这时的类间距离与样品间的距离是等价的;然后将距离最近的两类合并成新类,并计算新类与其他类的类间距离,再按最小距离准则并类[16]。这样每次缩小一类,直到所有的样品都并成一类为止。这个并类过程可以用谱系聚类图形象地表达出来[17]。

借助SPSS软件进行系统聚类时需要明确聚类方法、度量标准和数据标准化3个因素。通常可使用的聚类方法有组间联接、组内联接、最近邻元素、最远邻元素、质心聚类法、中位数聚类法、ward法等,它们有各自的适用范围(表1);测度方法有平方欧氏距离、欧氏距离、夹角余弦、皮尔逊相关系数、切比雪夫距离、绝对值距离、明考斯基距离、自定义距离等,其中,夹角余弦、皮尔逊相关系数是相似性系数的测度方法,其他为距离的测度方法。当变量量纲不同时进行聚类分析需要先将数据标准化。除上述3个要素以外,系统聚类分为Q型(个案)聚类和R型(变量)聚类,具体的方法可以根据数据类型以及聚类目的进行选择。

因为不同的方法侧重点与实际意义不同,所以当相同数据采用不同聚类方法和度量标准进行处理时,结果有所不同,但不同聚类结果有相似部分。在实际聚类处理中,可以比较不同处理方法的处理结果选择最优方案[18]。在比较不同处理结果时可以遵循3个原则:①合理性:聚类分类结果在实际应用中有可借鉴的意义,符合分类的目的;②适中性:各类别所包含的元素适中,不会过多或过少;③差异性:各类别内聚合系数(距离)应相对较小,类别间聚合系数(距离)应相对较大,即类与类之间有界限。这3个原则与文献[17]中引述DEMIRMEN提出的分类原则相吻合。

表1 聚类方法表

2.2 系统聚类方法选择

比较SPSS中几种聚类方法的适用范围,优先选用类平均法,即组内联接法和组间联接法作为聚类方法。城市聚类分区的主要目的是使区域内PM2.5浓度变化相关性较大的城市聚成一类,便于开展区域性管理。相关性较大的城市样本间,应该呈现出近似的数据波动情况,因此测度方法应该选择夹角余弦和皮尔逊相关系数。由于本研究使用的数据是单一类型的数据——仅有PM2.5浓度值,浓度值单位统一,因此不需要进行数据标准化。综上,对108个城市进行系统聚类可以采取如下4种组合方式:①组内联接-夹角余弦;②组内联接-皮尔逊相关系数;③组间联接-夹角余弦;④组间联接-皮尔逊相关系数。

3 结果分析与讨论

使用SPSS软件分别采用上面4种聚类方法进行计算,树状聚类图结果如图1所示,图中标定距离代表重新调整距离后的类别远近关系,数值在分类时可作为划分标尺使用。4种聚类方法均有近似的分类趋势,但细节上有所差异。从图1可知,组内联接法相对组间联接法,其类内的距离较远,而类间的距离较近;余弦度量和皮尔逊度量相比,在标定距离较小时,皮尔逊度量结果的聚合性更好,即元素较能集中进入类别中。

分别选取不同的标定距离,每种聚类方法所得的分类结果有所不同(表2)。组间联接法分类的数量比组内联接法的数量少,且随着标定距离的增加,这种差距渐渐缩小。理想的聚类结果应该是标定距离相对较少,类别数量相对较少,类别范围相对较大,类别内元素量适中。结合树状图观测的结果——组内联接法类内远、类间近,皮尔逊度量聚合性好,可以选择“12.5+方法④”和“15+方法①”2种方式比较其在实际应用中是否合理。

PM2.5污染的区域性主要是因为大气的流动性引起的,PM2.5污染相互影响较大的城市在地理位置上应该近邻,观察2种方式的分类结果(表3)可知,“15+方法①”的分区在实际运用中并不合理。例如广东多数城市和河北张家口聚合成一类,玉溪、昆明与福建沿海合成一类等,它们在地图上距离较远,无法连成区域,故选择以“12.5+方法④”聚类结果作为区域划分的主要依据。进行分类时,为保证后续研究的准确性和实际意义,删除城市样本量小且涵盖范围小的城市,最后将中国划分为8个区域(图2):ⓐ赣鄂湘接壤地区(长株潭及周边城市);ⓑ成渝及周边地区;ⓒ粤桂地区;ⓓ闽浙沿海城市群;ⓔ东三省地区;ⓕ长三角地区;ⓖ山东及周边地区;ⓗ京津冀、山西中北部、陕西关中城市群。

城市:1.淄博;2.株洲;3.珠海;4.舟山;5.重庆;6.中山;7.郑州;8.镇江;9.肇庆;10.长沙11.长春;12.张家口;13.枣庄;14.玉溪;15.营口;16.阳泉;17.扬州18.盐城;19.延安20.烟台;21.徐州;22.宿迁;23.邢台;24.湘潭;25.咸阳;26.西宁;27.西安;28.武汉;29.无锡;30.温州;31.渭南;32.潍坊;33.威海;34.铜川;35.天津;36.唐山;37.泰州;38.泰安;39.太原;40.台州;41.苏州;42.石家庄;43.沈阳;44.深圳;45.绍兴;46.韶关;47.上海;48.汕头;49.厦门;50.日照;51.泉州;52.衢州;53.清远;54.青岛;55.秦皇岛;56.盘锦;57.宁波;58.南通;59.南宁;60.南京;61.南昌;62.柳州;63.临沂;64.聊城;65.连云港;66.丽水;67.廊坊;68.兰州;69.莱芜;70.昆明;71.金华;72.江门;73.嘉兴;74.济宁;75.济南;76.惠州;77.淮安;78.湖州;79.葫芦岛;80.呼和浩特;81.衡水;82.菏泽;83.河源;84.合肥;85.杭州;86.邯郸87.海口;88.哈尔滨;89.贵阳;90.广州;91.福州;92.佛山;93.东营;94.东莞;95.德州;96.丹东;97.大同;98.大连;99.承德;100.成都;101.常州;102.沧州;103.滨州;104.北京;105.北海;106.保定;107.宝鸡;108.包头。图1 4种系统聚类方法树状图结果(由上往下依次为方法①—方法④)Fig.1 Dendrograms of 4 different hierarchical cluster analysis results

表2 不同标定距离系统聚类的分类情况

表3 2种聚类方法分类详情对比

注:“—”表示未设区。

长沙、湘潭、株洲、武汉、南昌跨3省被聚合成赣鄂湘接壤地区(长株潭及周边城市),其中的长株潭[19-20]是湖南经济发展的核心区域,3个城市产业发展虽然侧重不同,但是经济相互影响较大;长株潭与武汉、南昌相聚合,一方面说明其在地理位置上相距较近,变化规律具有很好的相似性;另一方面可能是周边样本量过少导致。闽浙沿海城市群聚合成区可能由其特殊的气候环境和地理位置造成,一方面沿海易受海风影响[21],另一方面闽浙沿海城市群经济区内各城市经济发展关联紧密[22]。山东与江苏北部聚合为山东及周边地区;而江苏中南部归为长三角地区。江苏南北被划分到2个区域,可能由于苏北、苏中南颗粒物来源不同,也可能由于江苏苏北和苏中南经济发展程度不一致导致[23]。这说明某种程度上单纯的南北方划分已经不能满足空气污染分析的要求,深一步挖掘区域间的关联更有利于大气防控工作的开展。京津冀与河南省郑州市、山西省中北部、陕西省中部聚合成京津冀、山西中北部、陕西关中城市群,一定程度上说明颗粒物扩散的趋势。京津冀[24-26]地理位置相邻且相互经济影响较大,向西扩散至陕西成同一区域。云南、西北地区、成渝、东三省地区单独聚合,某种程度上反映其地理环境所带来的独特的污染规律[12],但也有可能是因为周边样本量过少导致。

以上分类结果中部分区域划分主体是省份,也存在几省被分割交错聚合的情况。聚合成区的城市在地理位置上邻近,系统聚类分析的结果反映了污染的区域性特征,这说明单一的行政区环境管理方法已经不能适应当前的区域污染特点,跨省间的联防联控、建立区域空气管理体系是非常有必要的。

注:底图源自国家测绘地理信息局网站(http://219.238.166.215/mcp/index.asp)下载的1∶400万政区版(南海诸岛)中华人民共和国底图。审图号为GS(2008)1 349号,下载日期为2016-03-20。图2 中国PM2.5防治区域划分示意图Fig.2 Map of eight PM2.5 control regions in China

图3展示了2015年8个区域中城市PM2.5浓度的最高值、最低值和平均值。如图3所示,8个区域中,粤桂地区总体污染较轻,山东及周边地区污染严重。长株潭及周边地区、粤桂地区、闽浙沿海城市群、山东及周边地区的各区域内污染轻和污染严重的城市所占比例近似,长三角地区污染严重的城市所占比例较大,京津冀、山西中北部、陕西关中城市群中污染轻的城市所占比例较大。山东及周边地区,长三角地区,京津冀、山西中北部、陕西关中城市群的内部污染程度不均衡、较离散。粤桂地区、闽浙沿海城市群、长三角区域的PM2.5范围的最低值较为相近;长株潭及周边、东三省地区、成渝及周边地区的PM2.5范围的最低值较为相近。总体而言,长株潭及周边城市对比其邻近的粤桂地区应更加强化区域PM2.5污染防治;粤桂地区、闽浙沿海城市群整体空气质量较好,应在维持现有空气质量的前提下,改善个别空气相对较差城市的空气质量;长三角地区区域PM2.5平均值偏高,应重点削减重污染城市的源排放;山东及周边地区PM2.5污染值跨度大,京津冀、山西中北部、陕西关中城市群区域PM2.5平均值偏低但整体污染较重,这2个区域PM2.5污染成因复杂,需要进一步探明污染来源后,采取多项措施综合治理。

图3 2015年8个区域中城市PM2.5浓度最高值、最低值与平均值Fig.3 The highest, the lowest and the mean values of annual concentration of eight regions in 2015

4 结论

以中国108个城市PM2.5污染水平为研究对象,对比分析了4种不同的系统聚类方法,结合聚类原则,优化确定了合理的聚类方法,根据2015年PM2.5日均浓度数据,将中国城市聚类划分为8个主要区域。分区结果在地理分布上具有较好的可解释性和可操作性。根据系统聚类的应用和结果,可以得到以下结论:

1)系统聚类的分类方法和分类结果没有固定的评判标准,即没有对错之分,不同聚类方案的分类结果应该存在相似部分。因此在考察系统聚类的方法时,首先要根据使用目的选择合适的度量标准,其次应该根据合理性、适中性、差异性的原则选择聚类方法。

2)由于分析时选取的城市样本有限,区域的划分没有包含中国西部大部分城市和港、澳、台地区。因此,在针对全国范围内更多的城市划分PM2.5防治区域时,可以采取与研究108个城市聚类的相同步骤进行分析,最后则要根据聚类原则重新选择聚类方法和标定距离。

3)聚类分析结果显示,大气污染防治区域划分可能会打破省、自治区、直辖市行政区界限,单纯的地理位置近邻或者同一行政区划的城市之间PM2.5污染水平的相关性不一定最大。因此在研究PM2.5污染的区域性管理时,不能单纯按照行政区划来划分管理区域。

4)分区结果体现了各区域中城市间PM2.5污染的内在关联,影响因素可能是类似的经济产业结构,相同的主要污染源类型等,这要根据各个区域的经济、社会、地理、气象特征等具体分析。

5)根据各个区域PM2.5污染情况可知,长株潭及周边城市整体需加强PM2.5污染防治;长三角地区应着重治理污染严重的城市;山东及周边地区,京津冀、山西中北部、陕西关中城市群PM2.5污染成因复杂,需要探明区域PM2.5污染主因后,采取综合措施控制PM2.5污染。

[1] 张少红,于少华.PM2.5的来源、危害及防治措施研究[J].环境科学与管理,2014(7):92-94.

ZHANG Shaohong, YU Shaohua. Sources, harm and prevention control Measures of PM2.5pollution[J].Environmental Science and Management,2014(7):92-94.

[2] 刘洁岭,蒋文举.PM2.5的研究现状及防控对策[J].广州化工,2012(23):22-24.

LIU Jieling,JIANG Wenju.The present research situation and prevention control measures of PM2.5[J].Guangzhou Chemical Industry,2012(23):22-24.

[3] 唐孝炎,张远航,邵敏.大气环境化学[M].2版.北京:高等教育出版社,2006:268-269.

[4] 环境保护部.2013环境状况公报[R].北京:环境保护部,2014.

[5] 环境保护部.2014环境状况公报[R].北京:环境保护部,2015.

[6] 中国科学院“灰霾追因与控制”专项总体组.“大气国十条”实施以来京津冀PM2.5控制效果评估报告[J].中国科学院院刊,2015(5):668-678.

Project Group of “Reasons and Control of Atmospheric Haze”. Chinese Academy of Science. PM2.5control effect assessment report since the implementation of “Ten Articles for Air Pollution” in Beijing, Tianjin and Hebei Province[J].Bulletin of Chinese Academy of Sciences,2015(5):668-678.

[7] 贺克斌,杨复沫,段凤魁,等.大气颗粒物与区域复合污染[M].北京:科学出版社,2011:121-222.

[8] 欧阳帆.中国环境跨域治理研究[D].北京:中国政法大学,2011.

[9] 任阵海,高庆先,苏福庆,等.北京大气环境的区域特征与沙尘影响[J].中国工程科学,2003,5(2):49-56.

REN Zhenhai, GAO Qingxian, SU Fuqing, et al. The regional characteristics of the atmospheric environment and the impact of dust-storm in Beijing[J].Engineering Science,2003,5(2):49-56.

[10] 朱玲,万玉秋,缪旭波,等.论美国的跨区域大气环境监管对我国的借鉴[J].环境保护科学,2010,36(2):76-78,95.

ZHU Ling, WAN Yuqiu, MIAO Xubo, et al. Transboundary monitoring for air in United States and its application in China[J].Environmental Protection Science,2010,36(2):76-78,95.

[11] 冯百侠,王倩楠,陈金.发达国家大气污染联防联控的成功模式与启发[J].河北理工大学学报:社会科学版,2013,13(4):5-7.

FENG Baixia, WANG Qiannan, CHEN Jin. Successful modes and inspiration of developed countries in atmosphere joint control[J].Journal of Hebei United University:Social Science Edition,2013,13(4):5-7.

[12] 王斌.利用空气污染指数(API)分析我国空气污染的区域时空变化特征[D].青岛:中国海洋大学,2008.

[13] GAO H W, CHEN J, WANG B, et al. A study of air pollution of city clusters[J].Atmospheric Environment,2011,45:3 069-3 077.

[14] 康娜,高庆先,王跃思,等.典型时段区域污染过程分析及系统聚类法的应用[J].环境科学研究,2009,22(10):1 120-1 127.

KANG Na, GAO Qingxian, WANG Yuesi, et al. Analysis of regional pollution process and application of system cluster method[J].Research of Environmental Sciences,2009,22(10):1 120-1 127.

[15] 王杰.PM2.5历史数据[EB/OL].[2016-05-11].http://www.aqistudy.cn/historydata/.

[16] 何晓群.多元统计分析[M].2版.北京:中国人民大学出版社,2008:59.

[17] 赵姗姗.基于SPSS中系统聚类的CPI分析[D].新乡:河南师范大学,2013.

[18] 沈毅,陈峰.六种常见的条件系统聚类法比较[J].中国卫生统计,2004,21(6):338-340.

SHEN Yi, CHEN Feng. The comparison of six familiar conditional hierarchical clustering methods[J].Chinese Health Statistics,2004,21(6):338-340.

[19] 胡麓华,张虹.长株潭城市群核心区大气环境承载力初探[J].四川环境,2009,28(5):31-35.

HU Luhua, ZHANG Hong. The capacity of the atmospheric environmentin the core area of Changsha-Zhuzhou-Xiangtan agglomeration[J].Sichuan Environment,2009,28(5):31-35.

[20] 杨晴,张凯,柴发合,等.长株潭城市群秋季大气颗粒物及其重金属元素污染特征[J].环境科学研究,2013,26(6):590-597.

YANG Qing, ZHANG Kai, CHAI Fahe, et al. Study on the pollution characteristics of atmospheric particles and heavy matals in autumn in Chang-Zhu-Tan Metropolitan Area[J].Research of Environmental Sciences,2013,26(6):590-597.

[21] 鹿世瑾.台湾海峡西岸近40年的气候变化[J].应用海洋学报,1994,13(1):62-70.

LU Shijin. Climatie changes of latest 40a in Taiwan Strait[J].Journal of Applied Oceanography,1994,13(1):62-70.

[22] 郑秋萍,王宏,林长城,等.海峡西岸沿海城市群大气污染物浓度特征及其与天气形势的关系[J].环境科学学报,2013,33(2):356-363.

ZHENG Qiuping, WANG Hong, LIN Changcheng, et al. Characteristics of atmospheric pollutants and its relationships with synoptic situations over the metropolis in the western coast of Taiwan strait[J].Acta Scientiae Circumstantiae,2013,33(2):356-363.

[23] 陈诚,陈辰,汤莉莉,等.江苏沿江城市PM10和PM2.5中水溶性离子特征及来源分析[J].环境化学,2014,12:2 123-2 135.

CHEN Cheng, CHEN Chen, TANG Lili, et al. Characteristics and sources analysis of water-soluble ions in PM10and PM2.5in cities along the Yangtze River of Jiangsu Province[J].Environmental Chemistry,2014,12:2 123-2 135.

[24] 王志娟, 韩力慧, 陈旭锋, 等. 北京典型污染过程PM2.5的特性和来源[J].安全与环境学报, 2012,12(5):122-126.

WANG Zhijuan, HAN Lihui, CHEN Xufeng, et al. Characteristics and sources of PM2.5in typical atmospheric pollution episodes in Beijing[J].Journal of Safety and Environment, 2012,12(5):122-126.

[25] 北京大学.2010—2014年北京城区PM2.5污染状况研究报告[R].北京:北京大学统计科学中心,2015.

[26] 孟晓艳,王普才,王庚辰,等.北京及其周边地区冬季SO2的变化与输送特征[J].气候与环境研究,2009,14(3):309-317.

MENG Xiaoyan, WANG Pucai, WANG Gengchen, et al. Variation and transportation characteristics of SO2in winter over Beijing and its surrounding areas[J].Climatic and Environmental Research,2009,14(3):309-317.

猜你喜欢

聚类距离污染
基于K-means聚类的车-地无线通信场强研究
坚决打好污染防治攻坚战
算距离
坚决打好污染防治攻坚战
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
每次失败都会距离成功更近一步
对抗尘污染,远离“霾”伏
爱的距离