APP下载

地理探测联合地理加权岭回归的PM2.5驱动因素分析

2022-04-16赵锐詹梨苹周亮张军科

生态环境学报 2022年2期
关键词:负向回归系数湿度

赵锐,詹梨苹,周亮,张军科*

1.西南交通大学地球科学与环境工程学院,四川 成都 611756;2. 兰州交通大学环境与市政工程学院,甘肃 兰州 730070

随着城市化的快速发展,以PM2.5为主导的大气污染已成为中国最突出的大气环境问题之一。长期暴露于高浓度的 PM2.5环境中会显著增加呼吸和心血管系统的发病率,对人体健康构成威胁(Song et al.,2017;Chen et al.,2020)。开展 PM2.5的驱动成因分析,可识别主要驱动因素,揭示各因素在不同区域的影响强度,为制定切实可行的防治措施提供决策依据。

PM2.5驱动因素众多,存在显著的空间异质性(Lou et al.,2016;Cheng et al.,2019;Chen et al.,2020)。现有的驱动因素识别方法众多,包括地理探测器(Zhou et al.,2018;Ding et al.,2019;姚荣鹏等,2021)、全局回归分析(Wang et al.,2018;Xu et al.,2020;柏玲等,2018)、地理加权回归分析(Ma et al.,2017;Wang et al.,2019;贺祥等,2016)等。地理探测器由王劲峰等首次提出(Wang et al.,2010),基于因变量和自变量空间分布的相似性,识别出产生空间分异的关键因子。在此基础上,吴浪等(2018)和陈优良等(2021)先后应用该方法以识别成渝地区和长三角地区PM2.5的空间分布关键驱动因子。但地理探测器却难以反映自变量与因变量空间位置的变化关系(Wu et al.,2020;周敏丹等,2020)。全局回归分析是基于因变量与自变量之间的线性关系,根据回归系数判别因变量的主要影响因素(王佳佳等,2020)。吴健生等(2015)和汉瑞英等(2016)将此方法成功应用于PM2.5的影响因子的筛选与甄别。但全局回归将因变量和自变量之间的关系视为相对不变,忽略了回归系数在空间上存在的异质性(黄小刚等,2019)。地理加权回归是由Brunsdon et al.(1996)在1996年首次提出,在全局回归基础上,将数据的地理位置引入回归分析,对每个空间位置对应的回归系数进行估计,为揭示变量间关系的空间差异特征奠定了基础(Zhao et al.,2020;段杰雄等,2018)。随后,Hajiloo et al.(2019)和邓悦等(2018)将此方法应用于刻画与PM2.5关联影响因素间(如气象、土地利用等)的空间非平稳性。但地理加权回归又容易受到变量间多重共线性的制约,且当变量间存在的较强相关关系时,可能导致拟合失真(Wheeler,2006)。

鉴于上述驱动因素识别方法各有特点,本文考虑利用地理探测和地理加权回归融合的方法开展PM2.5的驱动成因分析。其中,地理探测主要用于识别 PM2.5空间分异的驱动因素,在地理加权回归的基础上进一步引入岭回归方法,用于揭示关键驱动因素与PM2.5的影响程度和影响强度。两种方法的耦合可降低驱动因素间可能存在的多重共线性,同时可更好解释因素间的空间非平稳性,为区域PM2.5污染防治提供科学合理的政策建议。

1 数据与方法

1.1 数据来源

既有研究表明气象要素、社会经济活动、土地利用状况等是引起 PM2.5空间分异的主要影响因素(Chang et al.,2019;Lu et al.,2020;Xu et al.,2020;杨兴川等,2017;周亮等,2017;龚光彩等,2018)。在此基础上,本文基于数据可获性,选择了如下因素作为地理探测器输入变量,详见表1。其中,PM2.5数据主要从中国环境监测总站获取(http://www.cnemc.cn),涵盖中国366个城市在2015年1月1日—2018年12月31日间PM2.5每小时的监测数据,经处理后得到各城市PM2.5的年平均浓度;气象数据从国家青藏高原科学数据中心获取(http://data.tpdc.ac.cn),包括风速、降水率、气温、气压和比湿度等要素的月均值,经处理后得到各气象要素的年均值;社会经济活动数据和土地利用数据来源于对应时间段内的《中国城市统计年鉴》(2016—2019)。部分缺失数据结合相应省市(自治区)、地市统计数据进行补充。为保障所选变量数据在研究时间内的完整性和一致性,本文最终选择282个城市作为研究对象。

表1 影响因素选择Table 1 Selection of influencing factors

1.2 研究方法

1.2.1 地理探测器

地理探测器是探测地理要素空间分异性,以揭示其背后驱动力的一种统计学方法(王劲峰等,2017)。其核心思想假设:若某个自变量对某个因变量具有重要影响,则自变量和因变量的空间分布应具有相似性(Wang et al.,2012)。利用地理探测,可揭示某影响因素对 PM2.5空间分异的解释程度,用q值度量,表征如下(Luo et al.,2016):

式中:

q——PM2.5空间分异驱动因素解释程度;

N——影响因素的分类数量;

1.2.2 地理加权岭回归

为降低地理加权回归中变量的共线性风险,Wheeler(2006)提出地理加权岭回归模型,其基本思想是利用岭回归方法对回归系数进行约束,以获取更优的回归过程。空间点位i上的系数估计如下(Wheeler,2006):

式中:

X——标准化的解释变量矩阵;

y——标准化的响应变量;

λ——控制回归系数收缩量的岭回归参数,当λ取值为0时,地理加权岭回归和地理加权回归的系数估计值一样,本研究λ通过设置方差膨胀系数阈值小于5(VIF<5)进行确定;I是单位矩阵;W(i)是回归点与其他观测点之间地理距离的函数。

2 结果与讨论

2.1 PM2.5驱动因素地理探测结果

因地理探测的输入变量要求为类型变量,需对连续型变量进行离散化处理(Cao et al.,2013)。为此,本文结合先验知识和各因素数值的分布特征,采用相等间隔法(Equal Interval,EI)、分位数法(Quantile,Q)、自然间断点法(Natural Breaks,NB)和几何间隔法(Geometrical Interval,GI)4种非监督分类方法将各因素分为5—15类,并利用地理探测器计算不同分类结果的贡献度大小,选择贡献度最大的分类组合对因素进行离散化处理。各因素最优分类组合如表2所示。

表2 各因素最优分类组合Table 2 The optimal classification combination of factors

在最优分类组合下,利用地理探测器分别测算了2015—2018年各影响因素对PM2.5的解释程度,结果如表3所示。气象因子中,比湿度和气温是PM2.5的主导影响因子,在2015—2018年,比湿度对PM2.5解释度,以及气温对PM2.5解释度的探测结果均在(P<0.001)水平下显著,说明对PM2.5具有显著影响;其次是气压、降水率和风速。

表3 PM2.5影响因素地理探测结果Table 3 Geographical detection results of PM2.5

社会经济因素中,对 PM2.5贡献较为显著(P<0.001)的是地区生产总值、年平均人口和工业企业数。其中,工业企业数贡献程度最大,其探测结果q值整体呈现逐年降低趋势;年平均人口和地区生产总值的探测q值呈现倒“U”型变化特征。此外,工业烟(粉)尘排放量解释力逐年降低,公路货运量的探测q值呈上升趋势,且在2017和2018年影响显著,而公路客运量的探测q值变化不明显,对PM2.5的影响甚微。

2.2 地理加权岭回归结果

以地理探测结果为依据,选择各时间截面上q值在P<0.001水平下显著的变量作为关键驱动因素,分别构建回归模型,如表4所示。同时,本文利用相同数据集对比分析了全局回归(OLS),地理加权回归(GWR)和地理加权岭回归(GWRR)3种模型的性能。从R2来看,地理加权岭回归具有更高的拟合优度,参与回归的变量具有更强的可解释性。此外,在所有的时间截面上,地理加权岭回归的AICc值均显著小于其余两个模型,进一步说明所建模型具有一定的稳健性(Zhao et al.,2015)。

表4 模型变量及性能评价指标Table 4 Model variables and performance evaluation indicators

2.3 地理加权岭回归系数空间分布分析

本文利用ArcGIS 10.2软件对地理加权岭回归结果进行可视化,分别得出各变量回归系数2015—2018年的空间分布图。由图1可以看出,气温对PM2.5的影响强度在空间上分异明显,全国大部分区域以负向影响为主,负值较大区域集中在湖北、湖南和江西部分地区(见图1a)。气压对PM2.5的影响则以正向效应为主,正值较大区域集中分布在福建、江西、湖南和湖北等地(见图1b)。比湿度对PM2.5的影响具有明显的空间聚集性,在山东、河南、安徽、江苏和上海等省市为负效应,而全国其余城市为正效应(见图1c)。地区生产总值对PM2.5的影响在北方和华南地区主要表现为负向效应,而在西部和华中地区表现为正向效应(见图1d)。年平均人口的空间分布呈现出明显的圈层结构,在中西部地区为负效应,而东北、华北、华东和华南部分地区为正效应(见图1e)。工业企业数对PM2.5的影响程度在全国大多数地区呈现正向效应,而在长三角城市群、环渤海地区和东北地区为负向效应(见图1f)。绿地面积在南方地区主要表现为负向影响,北方地区则主要为正向影响(见图1g)。

图1 2015年关键驱动因素回归系数空间分布Figure 1 The spatial distribution of regression coefficients of the key drivers in 2015

图2是2016年各关键驱动因素回归系数的空间分布。其中,气温在四川、云南、贵州、广东以及华东和东北部分区域对 PM2.5的影响呈现负相关,在华北和中西部地区大部分城市呈现正效应(见图2a)。比湿度的回归系数正负比例相当,空间上整体呈现出西南-东北走向的带状分布,正向高值区集中分布在东北地区,而负向高值区分散在河南、湖北、广西和安徽等地(见图2b)。地区生产总值对PM2.5的影响以负向为主,影响较强区域主要集中在宁夏、甘肃、云南和贵州等地,而正向影响较强区域分布在陕西南部地区(见图2c)。年平均人口的回归系数空间差异性不大,在长江沿岸省市和内蒙古中部地区为负效应,其余区域为正效应(见图2d)。工业企业数对PM2.5的影响仅在京津冀、山东、辽宁以及四川、甘肃和陕西三省交界区域等地呈现负向效应,而其余大部分城市为正向效应(见图2e)。工业烟(粉)尘排放量的正向回归系数所占比例更大,仅在在华北、四川、云南和贵州等地为负值(见图2f)。

图2 2016年关键驱动因素回归系数空间分布Figure 2 The spatial distribution of regression coefficients of the key drivers in 2016

图3中,风速对PM2.5的影响以正相关为主,主要分布在南方和华北等地区(见图3a)。降水率对 PM2.5的影响则以负向为主,仅在安徽、上海、江苏西南部、浙江北部和山东半岛等地为正向效应(见图3b)。气温对PM2.5的影响呈现出明显的空间异质性,影响强度较大区域主要集中在中部和东部地区,其中,淮河以北为正相关,淮河以南为负相关(见图3c)。气压对PM2.5的影响强度仅在内蒙古和黑龙江东部、华北以及山东等地为负效应,而在其余大部分城市内呈现正向效应(见图3d)。比湿度对 PM2.5的正负影响比例相当,负相关效应主要分布在华北、华中和华南部分地区,而正相关效应主要分布在西部、东北和长三角城市群(见图3e)。地区生产总值对PM2.5的影响以负向为主,正向影响主要集中分布在甘肃、陕西和四川东部(见图3f)。年平均人口的回归系数在长江流域显现负效应,其余地区为正效应(见图3g)。工业企业数对PM2.5的负相关效应主要分布在北方地区,高值区集中在西北地区,而正相关效应主要分布在南方,高值区集中在西南地区(见图3h)。公路货运量对PM2.5的正向影响主要分布在华东和华中地区,负向影响则主要分布在东北、华南和西部地区(见图3i)。

图3 2017年关键驱动因素回归系数空间分布Figure 3 The spatial distribution of regression coefficients of the key drivers in 2017

2018年气温的回归系数在空间上具有非常明显的变化,作用较强的区域主要分布在华北、华东和华南部分地区。在南方主要表现为负向作用,而在中原城市群、京津冀地区和山东半岛等地,正向影响非常强烈(见图4a)。气压对PM2.5的影响以正向影响为主,主要集中在秦岭以南的地区,而在东北、华北和山东等地则表现为明显的负效应(见图4b)。比湿度系数在河北、山东、山西、陕西与河南等地呈现为负向作用,东北、长三角、珠三角以及西部地区(陕西省除外)为正向作用(见图4c)。地区生产总值对PM2.5的影响在四川、甘肃、陕西、山西、河南等部分地区为正向效应,而在其余区域为负向效应(见图4d)。年平均人口对PM2.5的正向作用主要分布在秦岭以北和华南地区,而在西南地区和长江中下游平原,人口与PM2.5之间呈负相关关系(见图4e)。工业企业数的回归系数在空间上存在明显的南北差异,负向作用主要分布在东北地区、华北、华东和西北部分地区,而在西南、华南和华中南部等地为正向作用(见图4f)。公路货运量对PM2.5的影响在辽东半岛、山东半岛、京津冀、甘肃和陕西南部等区域为正向效应,而在内蒙古东部、黑龙江和西南地区等地为负向效应(见图4g)。

图4 2018年关键驱动因素回归系数空间分布Figure 4 The spatial distribution of regression coefficients of the key drivers in 2018

2.4 讨论

本研究在构建4个时间截面上的地理加权岭回归模型时,为保证纳入模型的变量都是对PM2.5具有显著贡献的因素,同时为降低模型冗余,并没有使用完全一致的变量,而是根据各年份地理探测结果,分别选择显著性水平P<0.001的关键驱动因素参与模型构建。由于各年份探测出的关键驱动因素具有差异性,导致部分模型回归变量在时间尺度上不具有连续性,只能观察其在单一时间节点上对PM2.5的影响。从不同时间截面上各关键因素回归系数的空间分布特征可以发现,各因素与 PM2.5存在空间非平稳性,且同一关键驱动因素对 PM2.5的影响强度和作用方向在时间和空间两个维度上均存在较大差异,主要表现在气温、比湿度、地区生产总值、年平均人口和工业企业数这几个因素上,为此在制定污染防治措施时应该充分考虑因素影响的时空异质性。

2015—2018 年间,气温的回归系数在空间分布格局中发生了较大变化,除辽宁、京津冀、浙江、江西、云南、四川和贵州等部分区域外,其对PM2.5的作用方向均发生了转变,同时正负影响效应的空间聚集性更加明显。到2018年,在中国东部地区呈现出明显的南北分异特征,在南方地区主要表现为负向作用,这是因为当气温较高时,大气的垂直湍流作用会加强,可以促进PM2.5的扩散(谢劭峰等,2020)。而在北方地区主要为正向作用,尤其在京津冀地区和山东等地,气温对 PM2.5的正向影响非常强烈,可能是由于这些地区近地面相对湿度较大,并且容易遭受寒流侵袭形成逆温现象,进而更容易导致PM2.5污染加剧(赵晨曦等,2014;刘海猛等,2018)。

从比湿度系数的空间分布来看,其对 PM2.5的负相关效应在 2015年仅集中在河南省和华东北部地区,但在 2016—2018年逐渐向西北和华南等地延伸,稳定的正值聚集区分布在西南和东北地区。出现正负两种不同影响的原因与各地大气湿度水平有关,当湿度低于临界条件时,其增加可能会导致颗粒物表面凝结大量水汽,形成雾滴悬浮于大气,不利于污染物的稀释与扩散;当湿度高于特定阈值时,较高的空气湿度会使细颗粒物表面吸附能力增强,形成更大的颗粒物沉降,同时湿度持续升高可能会引发降水,在一定程度可减少悬浮大气中的PM2.5(郭春月等,2016;王祎頔等,2018;姚青等,2020)。

从2015—2018年,在东北、华东、华中和西南地区,城市地区生产总值对PM2.5的作用方向逐渐由正转负,到2018年负相关效应已占近80%,表明中国大部分区域经济的发展与污染物排放呈现出脱钩效应。但是在西部地区部分城市形成了一个正值聚集区,可能是因为西部地区发展模式较粗放,经济发展的同时易造成更大的环境代价(黄小刚等,2020)。

在研究时段内,年平均人口对PM2.5的影响强度波动范围较小,其回归系数空间变化主要体现在作用方向上,从整体上看正向作用逐渐增加,且逐渐向西北和华中地区转移,在2018年有超过75%的城市人口与PM2.5呈现正相关性,而在西南地区和长江中下游平原地区,人口与 PM2.5一直呈负相关关系,说明城市人口规模增加并不一定会造成大气环境质量下降,但与居民生产生活方式相关(张淑平等,2016)。

工业企业数对PM2.5的负向作用由2015年的东北聚集区逐渐向华北、西北和华东地区拓展,表明PM2.5并不会因工业企业数量和规模增加而发生显著变化。该现象与不同城市经济发展水平和产业结构相关,例如江苏、浙江等省的产业结构比较稳定,服务业和产业密集型企业数量众多,由技术聚集效应产生的企业数量增加会在一定程度上促进生产技术和效率的提高,有助于降低污染物的排放(马忠玉等,2017)。而在西南地区逐渐形成一个正向高值区,可能原因在于该区域的产业聚集水平不够,资源依赖型企业数量多,且资源利用效率不高所引起(王少剑等,2020)。

3 结论

本文利用地理探测器和地理加权岭回归模型对 PM2.5空间分异影响因素展开分析,得出以下主要结论:

(1)由地理探测结果可知,气象参数和社会经济因素对 PM2.5空间分异解释性更强。不同年份主导因素不同,2015年关键驱动因素贡献度排序为比湿度>气温>工业企业数>年平均人口>地区生产总值>气压>绿地面积;2016年为比湿度>气温>工业企业数>年平均人口>地区生产总值>工业烟(粉)尘排放量;2017年为比湿度>气温>工业企业数>年平均人口>公路货运量>地区生产总值>气压>风速>降水率;2018年为比湿度>气温>工业企业数>年平均人口>公路货运量>气压>地区生产总值。

(2)通过对比分析OLS、GWR和GWRR模型的性能,发现GWRR模型的拟合结果良好,其R2和AICc较OLS和GWR的模型效果更优。

(3)根据地理加权岭回归模型结果,各关键驱动因素与 PM2.5存在空间非平稳性。各因素的影响既存在正向效应也存在负向效应,且空间差异性明显。气温、比湿度、地区生产总值、年平均人口和工业企业数对PM2.5影响的空间分布特征在时间尺度上存在明显差异。

此外,本研究还存在一定的局限性。一方面,本文使用的是城市截面数据,很多更细微的变化特征无法观察;另一方面,所选影响因素不够全面,仅考虑了能获取统计数据的部分因素,同时仅分析了单一因素对PM2.5的影响情况,尚未考虑不同因素对PM2.5的协同影响。

猜你喜欢

负向回归系数湿度
路基上CRTSⅡ型板式无砟轨道湿度场分析
湿度变送器测量结果不确定度评定
miRNA-145负向调控子宫内膜异位症中OCT4的表达
miR-21负向调控宫颈癌HeLa细胞株中hTERT的表达
2019年A股负向舆情百案榜
基于生产函数模型的地区经济发展影响因素分析
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
带有双检测结构的电缆接头保护装置
互联网+环境下大学生精神追求的负向嬗变