基于聚类分析的北京市空气质量时空分布研究
2021-03-19金仁浩曾国静王莎
金仁浩 曾国静 王莎
(北京物资学院信息学院,北京 101149)
1 引言
北京地区的空气质量问题一直受到中央和当地政府及居民的高度关注,北京冬季较容易出现的雾霾天气,不仅影响居民的正常出行,更对民众身体健康造成威胁。近年来,北京市及周边省市通过联防联控联治等措施使得北京市的空气质量得到了显著的提升,但大气污染防治工作仍然是一个长期艰巨的过程。国家环境保护部从2012 年开始采用空气质量指数(AQI)定量描述空气质量状况,AQI 是根据SO2,NO2,PM10,PM2.5,O3,CO 这6 项污染物浓度指标计算出来的一个综合指标[1]。由于公众对空气污染的关注度越来越高,笼统的空气质量报告已经无法满足公众需求,需要对多种空气污染物浓度进行时空分析来直观、准确地展示空气质量情况。目前对北京市空气质量时空分布情况的研究相对比较丰富,相关研究主要是基于北京市35 个自动空气质量监测子站提供的每日污染物浓度数据。董芬等对北京地区PM10污染物分布情况进行研究,得出北京地区大气污染分布呈现出南差北好的场景,尤其在秋冬季比较明显[2]。李令军等对北京地区PM10和O3的分布情况进行研究,得出北京地区大气重污染分布呈现出南高北低、平原比山区高的特点[3]。王占山等对北京市PM2.5数据进行分析,结果表明,PM2.5浓度在冬春季较高、秋夏季较低,南部较高、北部较低[4]。王占山等还对北京市O3和NO2的分布情况进行了研究,得出了与PM2.5类似的分布规律[5-6]。
然而现有文献对北京市空气质量时空分布的研究还存在一些不足,譬如,相关研究较多采用描述性的研究方法;仅仅考虑2~3 种污染物的时空分布情况;仅从宏观上研究不同空气监测站点污染物变化情况,而没有去分析不同区域的监测站点在污染物数据变化上的相似性。针对这些不足,本文在现有研究的基础上,将研究范围拓宽到6 种污染物,在描述统计分析的基础上,利用聚类分析方法对北京市空气监测站点污染物数据变化的相似性进行分析,研究结果可为北京地区大气污染的联合防治提供一定的科学依据。
2 数据与方法
2.1 数据
北京市共有35 个自动空气质量监测子站,这些监测站点每小时都会记录周边空气污染物浓度。本文基于北京市2018 年各监测站点的数据展开研究,由于2018 年其中一个监测站长期处于维护状态,导致该站点数据大量缺失,故仅选用其他34 个监测站点的数据。收集了34 个监测站点每日每小时的空气质量数据(包含6 种污染物浓度值),通过对各个站点各种污染物每日每小时数据取均值的方式,获得各个站点的每日均值,并在每日均值的基础上计算出每月的均值,以34 个监测站点某种污染物浓度均值作为相应时间段的北京市总体均值。
在监测的6 种污染物中,由于细颗粒物PM2.5污染物最受社会的关注,因此在分析多种污染物指标数据时,会更聚焦对PM2.5指标的分析。根据PM2.5的每日24 h 平均值,国内外将空气质量分为6 个级别:优,良,轻度污染,中度污染,重度污染,严重污染,这6 个级别对应的PM2.5浓度值分别是0~35,35~75,75~115,115~150,150~250 μg/m3及250 μg/m3以上[1]。
2.2 聚类分析
首先通过描述统计的方法对北京市的空气质量进行时空变化分析,并分别从空气质量等级和污染物浓度2 个角度对各个监测站点进行聚类分析,以期发现北京市空气质量的分布规律。
聚类分析被广泛应用于各种数据分析中,在许多领域都有广泛的应用。在多种聚类分析算法中,K均值(KMEANS)方法由于其算法流程简单且收敛速度快,是最常用的聚类方法。张宾和陈永佳通过K均值聚类的方法对我国113 个城市的空气质量数据进行了聚类分析。具体的K 均值聚类的方法步骤可参见《基于聚类和主成分分析的城市空气质量影响因素研究》[7]。
3 污染物时空分布特征
3.1 污染物浓度时间变化情况
北京市6 种污染物浓度月均值的相关系数矩阵见表1,除了O3这一指标外,各个指标之间表现出了明显的正相关关系。CO 与PM10正相关系数最小,为0.49,而PM2.5与PM10的正相关系数达到了最大值,为0.9。O3与NO2的负相关强度最大,达到了-0.69,与PM2.5和PM10的负相关强度相对较小,其中与PM10的相关系数为-0.13。从表1 可知,北京市的空气治理是个系统工程,需要对各种污染物从源头进行同步监控和限制。
表1 北京市6 种监测污染物月均浓度指标相关系数矩阵
各种污染物的日均变化图与月均变化图所反映的趋势基本一致,但由于日均变化图较为密集,展示效果差,因此本文仅仅展示月均变化图。2018 年北京市各种污染物月均浓度变化见图1。如图1 所示,除O3外,其他4 种污染物指标都呈现出夏季偏低、冬季偏高的特点。由于SO2月均浓度变化值在1.46~11.2 μg/m3之间,与其他污染物浓度值尺度相差较大,故未在图1 中展示,但其变化趋势与除O3之外的其他4 种污染物相似。在冬季,北京市周边地区散户燃煤排放及市内生活排放、温室气体水蒸气、昼夜温差较大等原因,使得北京在冬季较容易出现大面积雾霾现象[8]。O3浓度月均变化的趋势与其他污染物不同,O3浓度指标在7 月达到峰值,在气温较高的4—10 月含量较高,而在气温较低的冬季和初春季含量较低。这是因为人为排放的NOX和具有挥发性的有机物在高温度、充足的日照、空气干燥的条件下较易转化为O3[9]。
图1 2018 年北京市污染物浓度月均变化
3.2 污染物浓度空间分布情况
在6 种污染物指标中,由于PM2.5污染物一直受到大众的关注,因此本文主要分析PM2.5指标的空间分布状况。北京市年均PM2.5浓度均值为57.46 μg/m3,空气质量较前几年有较大程度的提高,整体质量等级为良。污染物PM2.5浓度值在空间上呈现出北低南高的趋势,海淀区以北监测站点的浓度值相对较低,其中密云水库监测站点的PM2.5浓度值最低,为45 μg/m3;五环内监测站点的PM2.5浓度值与年度均值相差不大;大兴以南地区的监测站点PM2.5浓度值明显偏高,尤其是与津冀交界位置的榆垡、永乐店、琉璃河3 个监测站点指标值偏高,都达到72.9 μg/m3以上。通过进一步分析可知,榆垡、永乐店、琉璃河3个监测站点附近有工业园区,并且临近高速进京检查站。另外,还可以得出在同一区域人口密度较大的站点污染物浓度相对偏高,如人口密度大的中心城区站点的PM2.5浓度值往往比同一位置人口偏少的站点要高。
北京地区的自然因素可能是造成这一趋势的主要原因,北京市大体以西北风向为主,此风向特点使得北部地区的PM2.5值偏低,污染较轻,而南部地区PM2.5值偏高,污染较重。另外,北京西北部地区以山地为主,地势较高,而市中心和南部地区以平原为主,地势较低,空气污染物在地势较低地区不易消散,这也会造成北京市北部地区污染物浓度值偏低,中部地区值偏高。除自然因素外,人口因素也对空气污染物分布有一定影响,人口密集区域会存在汽车尾气排放量大、楼宇密集不利于污染物消散以及冬季取暖污染物排放量大等问题。
3.3 空气质量等级分布情况
图2 北京市各大气监测站点空气质量等级天数分布
4 聚类分析结果
为了能够全面了解北京市各区域的空气质量差异情况,分别从空气质量等级和6 种污染物浓度值2 个角度,对北京市34 个监测站点的2018 年空气质量数据进行聚类分析,并对2 种聚类分析得出的结果进行合并分析,期待得到更为全面的结论。
基于空气质量等级数据聚类所涉及的变量是2018 年各个监测站点空气质量等级为优、良、轻度污染、中度污染、重度污染和严重污染所对应的天数;而基于CO,NO2,O3,PM10,PM2.5和SO26 种污染物浓度聚类所涉及的变量是这6 种污染物年均值。2种聚类分析所对应的观测值标识是这34 个监测站点名称,都采用聚类算法,并以聚类结果的解释性作为选定聚类个数的标准。
4.1 基于污染物浓度数据的聚类分析
为了得出合理的聚类结果,本小节设定聚类个数为3~6 类,再比较这几种聚类结果的解释性后,本文最终将34 个监测站点聚成4 类。聚类结果统计见表2。从表2 可知,第一类中仅包含1 个站点,这个站点各污染物指标明显偏低,但O3指标值最高。由于O3污染对人体伤害偏小,因此将该类命名为污染低类。第二类中包含8 个站点,除O3外各种污染物指标均值都比较低,仅高于污染低类,因此将该类命名为污染偏低类。类似的将第三类命名为污染偏高类,将第四类命名为污染高类。这4 类站点呈现出一定的空间集聚性,污染低类仅包含密云水库这一个站点;污染偏低类包含的站点有北部的怀柔镇、昌平镇、定陵、密云镇、平谷镇和东高村以及中部的丰台云岗和门头沟双峪;污染偏高类包含的站点主要集中在六环内以及北部的延庆夏都公园和八达岭站点;污染高类包含的3 个站点为榆垡、永乐店和琉璃河,这3 个监测站点附近有工业园区,并且临近高速进京检查站。总体上,聚类结果与各站点PM2.5年度均值分布情况结果基本一致。
表2 基于污染物浓度年均值聚类结果统计
另外,污染低类和污染偏低类中的站点主要分布在北京的市郊区,但这些站点O3浓度均值明显高于其他2 类,结合这些站点的空间分布情况可得,北京市郊区的O3含量相对较高。该现象形成的主因是北京市郊区以发展农业为主,绝大多数植物在充分的阳光光照条件下能够产生一定的O3气体,导致这些地区O3含量升高。
4.2 基于空气质量等级数据的聚类分析
根据污染物空间分布特征可知,北京市各监测站点空气质量分布情况大致分为三大类,即北部较好,中部一般,南部较差。为了得出合理的聚类结果,聚类时设定聚类个数为3~6 类。比较这几种聚类结果的解释性后,本文最终将34 个监测站点聚成3类,聚类结果统计见表3。由表3 可知,第一类中包含6个站点,这些站点空气质量等级为优和良的天数均值明显较高,而且各种污染等级天数均值相对较低,因此将此类命名为空气质量优类,简称优类。第二类中包含25 个站点,各指标均值都比较适中,因此将该类命名为空气质量中等类,简称中等类。类似的将第三类命名为空气质量差类,简称差类。这3 类站点也呈现出比较明显的空间集聚性,优类站点主要集中在北部地区,中等类站点主要集中在中部地区,而差类站点主要集中在南部京津冀交界处。总体而言,此聚类结果与污染物空间分布特征一致。
表3 基于空气质量等级天数指标聚类结果统计
4.3 2 种聚类结果比较分析
把2 种聚类分析结果进行合并,可得出聚类结果交叉,见表4。通过表4 可相对清晰地总结出政府部门大气污染治理应关注的站点和区域。首先,绝大多数监测站点处于污染偏高且质量等级中等的交叉类,这类站点主要集中在中心城区和人口密集区域,这类站点周边区域将是政府部门大气污染治理重点关注区域。另一类需要重点关注的站点为污染高且空气质量等级差的交叉类,这类站点仅有榆垡、永乐店和琉璃河3 个站点。其他站点基本处于污染物低和偏低类与空气质量等级高和中等类的交叉类,这些站点主要位于北京中部和北部郊区,这些区域人口密度低且植物覆盖度高,空气质量往往较好。
表4 2 种聚类结果的交叉分布
5 结论与建议
5.1 研究总结
本文在分析2018 年北京市空气污染物数据时空分布的基础上,通过K 均值聚类的方法,分别从污染物浓度均值和空气质量等级天数值2 个角度对北京市34 个大气监测站点进行聚类分析。相关研究结果总结如下:
(1)除了O3指标外,污染物浓度指标之间表现出明显的正相关关系。PM2.5与PM10的正相关强度最大,因此北京市空气质量的治理是个系统工程,需要对各种污染物从源头进行同步监控和限制。
(2)在北京市除O3外的其他污染物浓度指标在时间上都呈现出“U”形变化特征,即在年初和年末污染物浓度含量高(冬春季),年中含量低(夏秋季)。O3浓度指标却在7 月达到了峰值,在年初和年末浓度相对较低,高温和阳光充足便于O3转化是形成这种差异性的原因。
(3)北京市年均PM2.5浓度值为57.46 μg/m3,空气质量整体等级为良,污染物浓度值较前几年有较大程度的降低。污染物PM2.5浓度值在空间上呈现出北低南高的趋势,海淀区以北监测站点的浓度值相对较低,五环内监测点的PM2.5浓度值基本与年度均值相差不大;大兴以南地区的监测站点,尤其是京津冀交界位置的3 个监测站点浓度值最高,自然因素是造成该趋势的主要原因。
(4)基于空气质量等级数据的聚类分析将34 个监测站点分为3 类:空气质量等级优、中等和差类,聚类结果呈现出明显的空间集聚并与PM2.5浓度的空间分布特征一致。
(5)基于污染物浓度数据的聚类分析将34 个监测站点分为4 类:污染低、污染偏低、污染偏高和污染高类,聚类结果呈现出明显的空间集聚并与PM2.5浓度的空间分布特征一致。
(6)北京市绝大多数监测站点处于污染偏高且质量等级中等的交叉类,这类站点主要集中在中心城区和人口密集区域,仅有榆垡、永乐店和琉璃河3个站点处于污染高且空气质量等级差的交叉类。
5.2 相关建议
根据研究总结,对北京市的空气质量治理提出如下建议:
(1)借助民众对空气质量问题的关注,政府部门可加大对环境治理方面的宣传工作,鼓励民众从眼前的小事做起,从生活的方方面面做起,为首都空气质量和环境质量的提升贡献一份力量。如鼓励民众采用公共交通工具出行,减少私家车的污染物排放。
(2)北京市北部地区虽然空气质量等级为优类且污染物浓度相对偏低,但O3浓度相对较高。为了民众健康,在保证农业生产的前提下,政府部门应借助科学的方法降低北部区域的O3浓度。
(3)北京市中部和南部区域空气质量较北部区域相对较差,自然因素是形成这一格局的主要原因,但政府部门可通过限制汽车尾气排放、禁止燃烧秸秆、采用环保能源取暖等方式,降低中南部区域的污染物浓度。
(4)根据2 种聚类结果的交叉分析可知,绝大多数监测站点处于污染偏高且质量等级中等的交叉类,这类站点主要集中在中心城区和人口密集区域,这类站点周边区域将是政府部门大气污染治理的重点关注区域。另外,对于榆垡、永乐店和琉璃河3 个站点及其周边地区,政府部门需加大空气治理的力度,切实降低空气污染物浓度。