APP下载

改进多元回归分析在空气质量监测的应用

2016-10-27金江强张怀相

关键词:格兰杰因果关系空气质量

金江强,张怀相

(杭州电子科技大学计算机学院,浙江 杭州 310018)



改进多元回归分析在空气质量监测的应用

金江强,张怀相

(杭州电子科技大学计算机学院,浙江 杭州 310018)

为提高空气质量的测量精度,利用各种空气污染物之间的关联性,提出了一种基于空气污染物之间的因果关系来提高空气质量测量精度的算法.首先针对空气污染物的时间序列建立了自回归差分滑动平均模型;然后通过F统计量检验其格兰杰因果关系;接着利用逐步线性回归模型建立空气污染物之间的定量关系;最后运用实验数据分析并验证了算法的准确性和有效性.

空气质量监测;无线传感网络;因果关系;多元回归

0 引 言

对空气质量的监测,既能让人们及时获取空气质量信息避免恐慌,又能量化空气污染程度,为环境保护和治理的决策分析提供有力支持.目前,我国主要采用自动化大气环境监测站来监测空气质量.这种方法所采用的设备结构复杂、价格昂贵,难以在全国大范围内普及.基于无线传感网的空气质量监测设备体积小、价格低,易于维护和布局,但是其测量精度却不及监测站.基于多元回归分析的预测方法是提高空气质量测量精度的常用方法[1-4].文献[2]利用传统的多元回归模型较好地预测了马来西亚3天内的臭氧浓度,文献[3]提出了一种基于回归分析与小波分析的混合模型,有效地提高了对中国东部城市PM10浓度的预测精度,文献[4]提出了一种基于回归分析和BP神经网络来提高PM10浓度预测精度的混合模型.本文在前人研究的基础上,提出了一种基于多元回归分析和格兰杰因果分析[5]的空气质量测量的混合预测模型,其中格兰杰因果分析能够有效地筛选出相关的时间序列,而多元线性回归分析则能够进一步确定相关时间序列之间的定量关系.

1 格兰杰因果关系分析

给定2个时间序列xt和yt,在统计学上,如果序列yt能对序列xt的预测提供有意义的信息,则称yt是xt的格兰杰原因.格兰杰因果检验的基本思想是:首先建立包含xt和yt的假设预测模型,然后利用统计量检验模型,判断此模型是否适合.

1.1多元时间序列模型——ARIMAX模型

自回归差分滑动平均(Auto Regressive Integrated Moving Average,ARIMA)模型是处理时间序列的经典模型,主要包含3个基本内容:差分模型、自回归模型和预测误差的滑动平均模型.考虑了外生变量的ARIMAX模型是对ARIMA模型的扩展,假设对时间序列xt建模,时间序列yt作为xt的外生变量,那么ARIMAX模型包括:

zt=d1xt,

(1)

vt=d2yt,

(2)

(3)

式中:αk,βk,εk为模型参数,表示差分操作,d1,d2表示差分次数,另外,xt=xt-xt-1,dxt=d…(xt).

式(1)和式(2)分别对序列xt和yt差分,直至序列稳定.式(3)右边第1项是自回归部分,表示当前观测值与zt历史观测值的关系;第2项表示当前观测值与vt历史观测值的关系;第3项是滑动平均部分,表示当前观测值与历史观测误差的关系.

1.2F检验

对于式(3),时间序列yt对xt的影响完全由等式右边第2项决定,那么表示yt不是xt的因果关系的零假设为:

H0∶βk=0∀k.

(4)

如果零假设被接受,就意味着仅仅用自身历史观测值来预测的效果和联合外因变量来预测的效果是一样的;相反,如果零假设被拒绝,则表示联合外因变量yt能够提高预测xt的效果,称yt是xt的格兰杰原因.当零假设接受时,ARIMAX模型也就退化成ARIMA模型:

zt=dxt,

(5)

(6)

把式(3)所表述的模型记为模型1,式(6)所表述的模型记为模型2,样本容量记为T.为了描述模型1和模型2的适合度,本文定义模型的残差平方和:

(7)

用SRSS1和SRSS2分别表示模型1和模型2的残差平方和,则模型的统计量S定义如下:

(8)

当零假设被接受时,统计量S服从自由度为q和T-2(p+q+r)-1的F分布F(q,T-2(p+q+r)-1).如果计算的S值大于给定显著性水平α下F(q,T-2(p+q+r)-1)分布的临界值,则认为yt是xt的格兰杰原因.

2 多元线性回归分析

2.1多元线性回归预测模型

假设Y是1个可观测的随机变量,它受到多个因素X1,X2,…,Xk的影响,若Y与X1,X2,…,Xk有如下线性关系:

Y=β0+β1X1+β2X2+…+βkXk+e,

(9)

式中:β1,β2,…,βk是未知参数,e是不可测的随机误差.称式(9)所表示的模型为多元线性回归模型,称Y为被解释变量,X1,X2,…,Xk为解释变量.

2.2回归方程的建立方法——逐步回归法

逐步回归法的主要思想为:将变量逐个引入模型,引入条件是通过偏F统计量的检验.同时,每引入1个变量后对已经选入的变量进行检验,剔除其中不显著的变量.

首先,根据一定显著水平,给出偏统计量的2个临界值,1个用作选取自变量,记做FE;另1个用作剔除自变量,记做FD(一般FE>FD).接着,进行逐步计算:

1)对于每1个未引入的解释变量,分别建立线性回归模型.接着计算所有模型的统计值F,并选取最大的F值,记为Fmax.若Fmax>FE,将模型对应的变量引入回归方程,转至步骤2.如果Fmax≤FE,表示已无变量可选入方程,则结束计算;

2)计算每个已经选入模型的变量的F值,若F≤FD,表示该变量不显著,应将其从回归方程中剔除.若还有变量未加入,则计算转至步骤1,否则结束计算.

3 实验及结果

利用环境信息采集设备采集杭州下沙2周的空气质量数据.实验对采集到的数据进行因果关系分析和回归分析,以寻求提高PM2.5测量精度的方法.

3.1下沙空气质量的格兰杰因果关系分析

为了判定PM2.5浓度、NO2浓度、SO2浓度和O3浓度4个变量之间的格兰杰因果关系,首先任意选择其中2个变量作为预测变量xt和外因变量yt,然后根据式(3)和式(6)分别建立ARIMAX和ARIMA模型,ARIMAX模型中3个参数p,q和r以及ARIMA模型中2个参数p和q都按赤池信息量准则(AIC)[6]来选择.最后根据由式(7)得到的这两个模型的残差平方和,计算出统计量S和F检验的临界值C,计算结果如表1所示,表1中置信水平为0.95.

表1 空气质量各变量之间的格兰杰因果关系分析

若模型的统计量S的值大于临界值C,则表明该模型中的变量存在着格兰杰因果关系.从表1可以看出:1)只有SO2浓度和PM2.5浓度是互为格兰杰原因,格兰杰因果关系是非对称的;2)格兰杰原因没有传递性.PM2.5浓度是SO2浓度的格兰杰原因,SO2浓度是O3浓度的格兰杰原因,但PM2.5浓度却不是O3浓度的格兰杰原因.

3.2下沙空气质量的线性回归分析

利用逐步回归法建立PM2.5的预测分析模型,如表2所示.其中自变量XPM2.5(t),XNO2(t)和XSO2(t)分别表示PM2.5,NO2和SO2当前的浓度序列,自变量XPM2.5(t-1)和XNO2(t-1)分别表示PM2.5和NO2的历史浓度序列,因变量是环保局提供的更加精确的PM2.5浓度序列,R表示模型拟合效果的系数,自变量进入的置信水平为0.05,剔除自变量的置信水平为0.1.

表2 PM2.5的预测分析表

最终得到逐步回归的预测分析模型:

y(t)=0.24×XPM2.5(t)+0.70×XPM2.5(t-1)-0.16×XNO2(t)+0.19×XNO2(t-1)+0.11×XSO2(t).

(10)

根据式(10)所表述的模型对原始测量曲线进行拟合,拟合结果如图1所示.

图1 逐步回归模型的拟合结果

分别计算拟合前后的SRSS和相对误差在一定范围内的样本占总样本的百分比数,如表3所示.

表3 原始测量和回归拟合方案的误差统计结果

由上面的计算结果可以看出:

1)拟合后的PM2.5曲线走势与环保局提供的PM2.5曲线走势基本一致.在90~100,120~130两个时间段,原测量值走势与实际值走势相反,经模型预测后,其走势基本一致;在30~40,70~80和140~160等多个时间段,模型改善了PM2.5测量值的走势,使之更符合实际值;

2)拟合后的PM2.5浓度的测量精度有了一定程度的提高.

3.3模型预测

模型的实际意义在于对未来的数据有效,对2015-04-25至2015-05-01测量的下沙空气质量数据应用上述模型进行误差统计,结果如表4所示.

表4 原始测量和回归拟合方案的误差统计结果

由表4可知,经拟合后,98%的样本相对误差在20%以下,52%的样本相对误差在5%以下,说明模型预测的精度较高.

4 结束语

基于F检验的格兰杰因果关系分析的实验结果显示,空气污染物浓度的时间序列之间存在着因果关系.利用逐步回归分析建立联合预测模型,提高了PM2.5的测量精度.本文在探索大气污染物之间的关系时,只考虑了它们的线性关系.如若考虑污染物之间的非线性关系是否能进一步提高测量精度,还需要进一步研究.

[1]LI C,HSU N C,TSAY S.A study on the potential applications of satellite data in air quality monitoring and forecasting[J]. Atmospheric Environment,2011,45(22):3663-3675.

[2]MUHAMAD M,SAUFIE A Z,DENI S M.Three Days Ahead Prediction of Daily 12 Hour Ozone (O3) Concentrations for Urban Area in Malaysia[J]. Journal of Environmental Science and Technology,2015,8(3):102-112.

[3]CHEN Y,SHI R,SHU S,et al.Ensemble and enhanced PM10concentration forecast model based on stepwise regression and wavelet analysis[J]. Atmospheric Environment,2013,74:346-359.

[4]SAUFIE A Z,YAHAYA A S,RAMLI N A,et al.Future daily PM10concentrations prediction by combining regression models and feedforward backpropagation models with principle component analysis(PCA)[J]. Atmospheric Environment,2013,77(3):621-630.

[5]ZHOU Y,KANG Z,ZHANG L,et al.Causal analysis for non-stationary time series in sensor-rich smart buildings[C]//Automation Science and Engineering(CASE),2013 IEEE International Conference on.Madison WI:IEEE,2013:593-598.

[6]BOZDOGAN H.Model Selection and Akaike’s Information Criterion(AIC):The General Theory and Its Analytical Extensions[J]. Psychometrika,1987,52(3):345-370.

Application of Granger Causality and Multiple Regression Analysis in Air Quality Monitoring

JIN Jiangqiang, ZHANG Huaixiang

(SchoolofComputer,HangzhouDianziUniversity,HangzhouZhejiang310018,China)

In order to improve the accuracy of measurement of air quality, this paper proposes an algorithm of improving air quality measurement precision by causality between air pollutants, based on the contact between the various air pollutants. First of all, autoregressive integrated moving average(AIMA) model with exogenous variables is established for time series of air pollutants. Secondly, Granger causality is tested for air pollutants by F-statistics. Then, stepwise linear regression mode is trained to establish a quantitative relationship in air pollutants which has causal relationship. Finally, the accuracy and effectiveness of the algorithm has been validated by the analysis of experimental data.

air quality monitoring; wireless sensor networks; causality; multiple regression

10.13954/j.cnki.hdu.2016.01.009

2015-06-23

国家科技支撑计划资助项目(2014BAF07B01)

金江强(1988-),男,浙江台州人,硕士研究生,无线传感网络.通信作者:张怀相副教授,E-mail: hxzhang@hdu.edu.cn.

TP391

A

1001-9146(2016)01-0041-05

猜你喜欢

格兰杰因果关系空气质量
玩忽职守型渎职罪中严重不负责任与重大损害后果的因果关系
做完形填空题,需考虑的逻辑关系
国内外铜期货市场的格兰杰因果检验分析
“空气质量发布”APP上线
车内空气质量标准进展
重视车内空气质量工作 制造更环保、更清洁、更健康的汽车
开展“大气污染执法年”行动 加快推动空气质量改善
帮助犯因果关系刍议
介入因素对因果关系认定的影响
临终的医生与关怀的本意