武汉空气质量预测及受周边城市污染影响分析
2019-07-05张学新周泳岑
张学新 周泳岑
摘 要 利用武汉及其周边城市长沙、南昌、合肥、襄阳、孝感等城市空气质量指数(AQI)及相关污染物数据,探索了武汉市空气质量指数的统计分布规律及空气污染治理效果的评价问题,给出了能较好预测空气质量指数等级的推理规则.用统计模型分析武汉及周边大中城市的SO2等空气污染物之间的传播及相互影响.
关键词 环境经济学;空气污染影响机制;规则模型预测;空气质量;因果检验;协整关系
中图分类号 X823 文献标识码 A
Prediction of Air Quality in Wuhan
and Analysis of the Influence on its Air Pollution
Exerted by Those of Surrounding Cities
ZHANG Xuexin1, ZHOU Yongcen 2
(1. School of Mathematics and Statistics, Hubei Engineering University, Xiaogan, Hubei 432000, China;
2. Wuhan Foreign Languages School, Wuhan, Hubei 430022, China)
Abstract The data of air quality index(AQI) and related pollutants in Wuhan and in its surrounding cities such as Changsha, Nanchang, Hefei, Xiangyang and Xiaogan are used in this paper.Then, the statistical distribution of air quality (AQI) in Wuhan and a scientific evaluation of the effect of pollution control and management are explored. More importantly, some inference rules are obtained which can well predict the air quality (AQI) level. Finally, by applying some statistical regression mode, the spread and interaction between air pollutants such as SO2 in atmosphere of Wuhan and its surrounding cities has been analyzed.
Key words environmental economics; impact mechanism of air pollution; rulebased model forecast; air quality; testing for causality; cointegration relation
1 引 言
對城市空气质量状况及其气象诱因,已有许多研究.时连俊等(2015)[1]对成都市空气质量状况、李刚(2017)[2]对克拉玛依市空气质量特征进行描述性统计分析.韩霄和张美根(2014)[3] 通过模拟华北平原气象场及主要气溶胶粒子的时空分布分析重霾成因,赵金霞等(2017)[4] 探讨了天津滨海新区灰霾的主要气象诱因.刘超等(2017)[5]讨论上海冬夏两季大气污染特征及其污染来源,苏维等(2017) [6] 讨论南昌市PM2.5和PM10的时空变异特征.在预测方面,丛琳等(2017) [7]对北京市PM2.5做回归分析,用PM10等关联指标对PM2.5作静态预测.对武汉市空气质量研究,岳岩裕等(2016)[8]研究空气质量状况与气象条件的关系;刘慧君(2014)[9]分析PM2.5污染的成因;郭浩天(2014) [10]分析PM2.5中有机酸的分布特征及来源.这些研究侧重于分析气象因素对武汉市空气质量指数的影响,主要关注PM2.5污染物成分的分解.
空气质量指数是研究空气质量常用的一个指标.利用当天全部实体污染物信息预测该天空气质量等级很有意义.第一,拟合武汉市PM2.5,PM10,SO2,CO,NO2和O3-8h等实体污染物浓度的分布函数,确认选择非时间序列分析方法预测质量指数等级,使用决策树模型进行预测.第二,分析空气质量治理效果.第三,鉴于城市群之间的空间相关性,应用Granger因果检验、协整检验,联系地、整体地研究武汉市及周边大中城市的污染物间的相互影响及传播机制.
2 武汉市空气质量指数分布特征
在《空气质量历史数据查询》网页里采集武汉市2013年12月初到2018年6月中旬的日相关记录,其中有空气质量指数值、质量等级、污染物PM2.5、PM10、SO2、CO、NO2、O3-8h的浓度观测值.对少量缺失记录,用最邻近的3个观测值的均值替补.
对武汉市空气质量指数序列的频率图及周期性模型拟合分析得到,6年内武汉市空气质量指数序列没有周期性.再考察2015年对2014年、2016年对2015年、2017年对2016年的每日差分序列,均值、方差及其他分布特征均有显著性差异,印证空气质量指数序列没有周期性.统计分布结果从一个侧面说明空气质量治理取得了一定的效果.其中,2013年12月份有21天、2014年有36天、2015年有20天、2016年有7天、2017年有8天、2018年1月~6月份有4天分别是重度污染,这些日期多数分布在12月份、1月份、2月份,少数分布在3~6月、10~11月.2014年有29天、2015年有32天、2016年有52天、2017年有56天、2018年1月~6月份有14天分别是优秀天气,优秀日期多数分布在7月份、8月份、10月份、9月份、5月份,少数分布在2月份、11月份.
从空气质量指数的月度平均值看,武汉市空气质量的同比没有明显下降,如图1所示.
图1 武汉市5年月度空气质量指数均值比较
3 空气质量治理效果分析
评价空气质量治理状况,一般是统计某个时段的“优良”等级天数的累计频率.为了分析某个时段连续的“优良”等级天数,需使用序列模式方法.该方法的步骤是:1)保持空气质量指数序列观测值的时间顺序,对序列进行分割聚类;2)在每个聚类里,对空气质量指数求平均值,按“优”、“良”、“重度污染”、“中度污染”、“轻度污染”5级给出该类的属性标签.3)对每个聚类,计算不同属性标签的空气质量指数日数的比例.
序列模式分析不打乱空气质量指标值的观测时间顺序,它依据样本点之间的相近程度,将性质相近的样本点聚为一类.设某一类Gi={ti,ti+1,…,ti+j-1},j≥1,表示Gi包含j个样本点{xti,xti+1,…,xti+j-1}.该类的均值为i.=∑ti+j-1l=tixl/j,该类的直径为D(ti,ti+j-1)=∑ti+j-1l=ti(xl-i.)2.记L(p(n,k))是把n个样本点分为k类遭受的损失函数,并定义为全体分类的直径总和.当n和k固定时,最小的L(p(n,k))意味着分割聚类的离差平方总和最小,因而分割聚类是有效的.可证
L(p(n,2))=min 2≤j≤nD(1,j-1)+D(j,n), L(p(n,k))=min k≤j≤n{L(P(j-1,k-1))+D(j,n)},(k≥3). (1)
由式(1)可知,寻找把n个样本点分成k类(k≥3)的最优分割,需要在对j-1个样本点做k-1类最优分割(2≤j≤n)的基础上进行.
不失一般性,仅对武汉市2014年至2017年间四个冬季的空气质量指数序列做最优分割聚类,结果见表1.从表1看,2014-2017年4个冬季的空气质量,前3年持续好转,但是在第4年情况恶化.2014年冬季,两次出现重度污染,共9天,良好一次,44天.2015年冬季,两次出现重度污染,共6天,良好一次,100天.2016年冬季,零次出现重度污染,良好二次,57天,其余全是轻度污染.2017年冬季,一次出现重度污染,共3天,良好一次,51天.应用序列模式方法分析和表述武漢市大气环境质量,结果更具体、更深刻.
4 空气质量等级预测
设样本集S的大小为|S|,样本点共有m个不同的类别,其中属于第i类Ci(i=1,2,…,m)的样本点构成集合Si,样本点落入Ci的概率是pi.再设属性A将S划分为S=∪vj=1Sv,当A取值aj时,落入类Ci的样本点构成集合Sij,发生的概率是pij=|Sij|/|S|,则属性A的信息增益定义为 Gains(C,A)=(∑vj=1∑mk=1Skj/|S|)(∑mi=1pijlog 2pij)-∑mi=1pilog 2pi,信息增益率定义为
GainsR(C,A)=Gains(C,A)/[(∑vj=1∑mk=1Skj/|S|)(∑mi=1pijlog 2pij)]. (2)
现在构建分类与回归树(C&R tree)预测模型.这是一种基于树的分类方法,它以递归划分的方式将训练记录分割为具有相似输出变量值的若干个子集.C&R树从根节点开始,每次利用信息增益率选择一个当前最佳的属性进行分枝,采用成本复杂性的修剪策略去控制树的生长,最后产生基本形式是A→B的推理规则来预测新样本点的类别.
为了检验C&R树模型的预测效果,把所有样本按7:3的比例随机分成两个数据集,一个用于训练模型,一个用于测试模型的性能,结果如表2所示.
由C&R树得到的推理规则有6条,预测准确率在93%以上.变量的重要性依次是PM2.5,PM10,O3-8h,Co,NO2和SO2.
规则用于 优 - 包含 1 个规则: 如果 PM2.5 <= 75.5且 PM10 <= 46.5 则 优;
规则用于 良 - 包含 1 个规则:如果 PM2.5 <= 75.5且 PM10 > 46.5 且 O3-8h <= 160.5 则 良;
规则用于 轻度污染 - 包含 2 个规则:
规则 1如果 PM2.5 <= 75.5且 PM10 > 46.5且 O3-8h > 160.5则 轻度污染;
规则 2如果75.5 < PM2.5 <= 115.5则 轻度污染;
规则用于 中度污染 - 包含 1 个规则:如果 115.5 < PM2.5 <= 149.5则 中度污染;
规则用于 重度污染 - 包含 1 个规则:如果PM2.5 > 149.5则 重度污染;
缺省:良.
给出一个上述推理规则的使用和验证实例.查阅2019年5月1日武汉空气质量指数日历史数据(来源:https://www.aqistudy.cn/historydata/daydata.php?city=武汉)知:AQI=79,质量等级=良,PM2.5=28,PM10=71,SO2=8,CO=0.8,NO2=35,O3-8h =134.按照第二条规则,满足条件PM2.5 =28<75.5且PM10=71>46.5且O3-8h =134<160.5,因此它被规则预测为良,的确如此.
5 武汉市及周边大城市的空气质量相互影响
为了分析武汉市空气质量是否受周边大城市长沙、南昌、合肥、襄阳、宜昌等地空气质量的影响,现对PM2.5、PM10、SO2、CO、NO2、O3-8h等实体污染物观测值序列做统计建模分析.
5.1 长期稳定关系
如果k个城市的某污染物浓度序列PC1t、PC2t,… PCkt不是平稳的,但其d阶差分是平稳的,而且存在不全为零的常数c1,…,ck使得∑ki=1ciPCit是平稳的,则称这k个序列有协整关系(长期稳定的关系).把平稳序列视为d=0的情形.对于具有协整关系PC*2=k0+k1PC*1的两个序列,其动态关系用误差修正模型给出:
ΔPC2t=α(PC2-k0-k1PC1)t-1+
β2ΔPC1t+εt, (3)
这里, 差分ΔPCt=PCt-PCt-1,假定残差εt为白噪声.
首先通过单位根检验判断武汉PM2.5W与长沙PM2.5C两个时间序列之间的平稳性.各单位根检验的原假设都是:“序列没有单位根”.细微差别是,Levin方法假设“两个序列有共同的单位根”,Pesaran方法假设“每个序列各自有单位根”.在计算检验的概率时,ADFFisher、Fisher、PPFisher方法使用漸近卡方分布,其它检验方法则使用渐近正态分布.各个检验结果都显著性地拒接了原假设,说明两个序列都是平稳的,见表3.
其次,分析它们之间的协整关系.表4是武汉PM2.5W与长沙PM2.5C的误差修正模型拟合结果.
表4对应的误差修正模型是:
ΔPM2.5Wt=-0.355(PM2.5W-16.225-0.85PM2.5C)t-1+0.507ΔPM2.5Ct+εt, (4)
它表明武汉的PM2.5W与长沙的PM2.5C有长期均衡关系,PM2.5W=16.225+0.85PM2.5C,同样的,武汉与南昌、武汉与合肥的PM2.5都有长期均衡关系.值得注意的是,两地之间的影响,不局限于滞后一天,经初步分析,滞后可达7天.
对有关城市的其它污染物PM10、SO2、CO、NO2、O3-8h的时间序列分析可以得到类似的结论.
5.2 Granger因果关系
判断一个城市的空气污染是否是由另一个附近城市漂移过来的,即一个城市的空气质量指数是否与另一个城市的空气质量指数具有Granger因果关系,需要进行相关的检验.把一个城市的某种污染物浓度PC1的历史信息加入到关于另一个城市的同样污染物PC2的预测模型中,如果该模型的预测能力得到显著提高,就说PC1是PC2的“Granger原因”.
对模型
检验H0:βj=0,(j=0,1,…l),其含义是假设“一地PM2.5不是另一地PM2.5的“Granger原因”.统计量F=(SSE0-SSE1)/mSSE1/(n-l-m-1)~F(m,n-l-m-1),这里n是观测值个数,SSE1、SSE0是模型及零假设下的模型的残差平方和.
5.3 武汉、长沙、南昌、合肥各PM2.5序列之间的Granger因果检验
武汉、长沙、南昌、合肥各PM2.5序列PM2.5W、PM2.5C、PM2.5N、PM2.5H之间的Granger因果检验结果见表5.在0.05、0.01的显著性水平下,拒接“一地PM2.5不是另一地PM2.5的Granger原因”的假设.即武汉、长沙、南昌、合肥四城市的PM2.5污染物是互为相互影响的,一地至少受另外一地的污染物提前1~2天的影响.
5.4 湖北省武汉市周边城市大气污染物的相互影响
对湖北省内武汉市周边大中城市空气质量状况对武汉市的影响分析,仅选择SO2污染物这一个指标做实证分析.
武汉市某天的SO2污染物不仅受省内其周边大中城市当天SO2污染物的影响,而且也受这些周边大中城市前若干天SO2污染物的影响、还受武汉市自身前若干天SO2污染物的影响,因此,可以建立一个带有分布滞后项的多元线性回归模型.模型的概要见表6.
有些系数估计值是负的,比如-0.0805,意指前2天黄石市SO2污染物浓度的减少将引致武汉市今天SO2污染物浓度0.0805个单位的增加,或者说前2天黄石市SO2污染物浓度的增加将引致武汉市今天SO2污染物浓度0.0805个单位的减少.说明武汉市及周边SO2污染物有关联,污染途径可能取决于风向(因为没有取得风向的历史数据,不能确定其具体关系),它引致了SO2污染物的流动.对宜昌没有检测到这种关系.
Durbin统计量的值是2.077950,说明残差序列非自相关,图2显示残差分布近似于正态分布.模型总体效果很好.
类似的,对其它污染物浓度的分析也表明武汉市及省内部分周边大中城市的污染物浓度是相互影响的.
6 结论与讨论
武汉市空气质量指数的统计分布难以得到,使得当前评价空气质量治理效果的方法比较简单,序列模式方法尝试更加科学化的评价,但是带来一定的时间复杂度.规则模型不仅可准确地预测空气质量等级,而且能给出等级对应的各种污染物浓度的临界值,给人具体的空气质量认识.
武汉市与周边大中城市空气质量污染物之间的影响机制很复杂.Granger因果检验及其它统计分析表明这种影响机制是相互的,武汉市空气污染物与长沙、南昌、合肥的空气污染物有着长期均衡关系,可以有比较稳定的2~7天的前期影响.武汉当天空气污染物还受孝感、黄石及武汉市自身前1~3天污染物影响.建立带有分布滞后项的多元线性回归可以定量地描述武汉市与周边大中城市空气质量污染物之间的影响力度.模型(6)只用PM2.5、PM10、SO2、CO、NO2、O3-8h污染物的浓度就较好地预测了武汉市未来一天SO2污染物浓度.如果能加入其它气象因素,将极大提升模型的预测能力.
参考文献
[1] 时连俊,徐建,王变芳,等.成都市空气质量状况研究[J].资源与环境,2015,31(8): 986-989.
[2] 李刚.克拉玛依市空气质量特征分析[J].干旱环境监测,2017,31(2): 75-79.
[3] 韩霄,张美根.2013年1月华北平原重霾成因模拟分析[J].气候与环境研究,2014,19(2):127-139.
[4] 赵金霞,沈岳峰, 范苏丹.天津市滨海新区持续性重度雾霾成因分析[J].沙漠与绿洲气象,2017, 11(6): 69-74.
[5] 刘超,花丛,康志明. 2014-2015年上海地区冬夏季大气污染特征及其污染源分析[J].气象,2017,43(7):823-830.
[6] 蘇维,赖新云,赖胜男,等.南昌市城市空气PM2.5和PM10时空变异特征及其与景观格局的关系[J].环境科学学报.2017,37(7): 72432-2439.
[7] 丛琳,孙德山,邹存利,等.北京市PM2.5的相关因素研究[J].经济数学,2017,34(4): 26-29.
[8] 岳岩裕,王晓玲,张蒙晰,等.武汉市空气质量状况与气象条件的关系[J].暴雨灾害,2016,35(3):271-278.
[9] 刘慧君.武汉市PM2.5污染的演变预测及成因分析和仿真[D].长沙:湖南大学数学与计量经济学院,2014.
[10]郭浩天.武汉市大气PM2.5中有机酸的时空分布特征及来源解析[D].武汉:武汉理工大学资源与环境工程学院,2014.