基于经验模态分解的空气质量指数组合预测方法及应用
2019-07-08李婷婷
李婷婷
摘要:空气质量发展趋势的预测对于空气污染问题的防治具有非常重要的意义。因此,本文提出了基于经验模态分解(EMD)的空气质量指数(AQI)的一种组合预测方法。我们首先运用经验模态分解(EMD)的方法对非平稳、非线性且呈剧烈波动的时间序列即AQI原始数据进行多尺度分解。其次,我们分别使用4种常用的单项预测方法:灰色预测(GM)、ARIMA、BP神经网络和支持向量回归(SVR),分别对于分解后的本征模态函数(IMF)序列和趋势序列进行预测,得到单项预测结果。为了提高预测的精度,我们选用平均相对误差(MRE)较小的前三种单项预测方法,并对它们的预测结果进行组合预测。最后,运用熵权法分别计算出IMF序列和趋势序列的组合预测值,并将所有预测值求和得到AQI的最终预测结果。为了评价模型的预测效果,我们选用四种常用误差评价指标,对各个模型的预测结果进行评价比较,而仿真实验的结果表明了本文提出的基于经验模态分解的空气质量指数组合预测方法具有较高的预测精度和良好的适用性。
Abstract: The prediction of air quality development trend is very important for the prevention and control of air pollution problems. Therefore, this paper proposes an air quality index (AQI) combination forecasting method based on empirical mode decomposition (EMD). First, the empirical modal decomposition method (EMD) is used to perform multi-scale decomposition of non-stationary, nonlinear and violently fluctuating time series AQI raw data. Secondly, four different single prediction methods, gray prediction (GM), ARIMA, BP neural network and support vector regression (SVR), are used to predict the decomposed intrinsic mode function (IMF) sequence and trend sequence respectively, and obtain the single prediction methods forecast results. Then, in order to improve the prediction accuracy, we use the first three single prediction methods with small mean relative error (MRE) for combined prediction. Finally, the combined prediction values of the IMF sequence and the trend sequence are calculated by the entropy weight method, and all the predicted values are summed to obtain the final prediction result of the AQI. At the same time, in order to evaluate the prediction effect of the model, four error evaluation indicators are used to evaluate the prediction results of each model. The simulation results show that the proposed method based on empirical mode decomposition has high prediction accuracy and good applicability.
关键词:空气质量指数;EMD分解;灰色预测;ARIMA;BP神经网络;SVR;组合预测
Key words: air quality index;EMD decomposition;grey prediction;ARIMA;BP neural network;SVR;combined prediction
中图分类号:O212 文献标识码:A 文章编号:1006-4311(2019)16-0134-05
0 引言
随着我国工业化和城市化进程的加快,空气污染逐渐成为环境科学中的重要问题,而能源需求和消耗量持续增加,同时也造成日趋严重的空气污染問题,更加严重影响了人们的日常生活和健康[1]。有研究表明在被污染的空气中存在着许多对人体健康有不利影响的空气污染物,如PM2.5、一氧化碳(CO)、SO2、NO2、SPM、臭氧(O3)等。高浓度的这些污染物会威胁生命,导致呼吸困难、头痛和头晕。它们甚至可能导致心脏病发作[2]。因此,如何提高空气质量指数的预测精度,正是目前研究的热点和难点。
原始空气质量预测方法可以概括为三类:一类是传统的统计模型如:多元线性回归(MLR)[3]、自回归综合移动平均(ARIMA)模型[4]、主成分回归(PCR)技术[5]等。传统的统计模型在线性假设条件下具有较好的预测效果,但是面对空气质量指数的数据是混沌的、无序的且非平稳的,因此传统的预测模型显然不适用于这类数据的预测。一类是人工智能技术如:BP神经网络[6]、支持向量回归(SVR)[7]等,这类方法因其具有非线性而被广泛应用于空气质量的预测,并且取得较好的预测效果,但是神经网络等容易陷入局部最优,一般需要较大的样本,存在过拟合问题等,还有很大部分要改进的地方[8]。还有一类是混合预测模型,也就是将人工神经网络与传统的统计模型相结合,以此提高预测精度。如王建州[9]等人曾提出了基于改進最小二乘支持向量机和云模型的空气质量预警系统的研究与应用,实验结果表明,空气质量预警系统不仅性能显著,而且适用广泛。Voukantsis[10]等人将神经网络与主成分分析法相结合对空气质量进行预测,将线性与非线性相结合提高了预测的有效性。
已有的研究表明,如果先将时间序列进行多尺度分解,使其呈现出具有某种规律性的波动序列。然后选择再进一步恰当的模型分别对分解后的序列进行预测,会有效提高模型的预测效果。常用的分解方法包括:小波分析(WT)[11]、经验模态分解(EMD)[12]、奇异普分析(SSA)[13]和变分模态分解(VMD)[14]。其中EMD分解不需要预设分解尺度,自适应性更强且拟合精度更高,能够完整地分解非平稳时间序列信号,是相较于其他三种方法而言较简便易实现[15]。王建州[16]等人在2016年提出了一种预测主要污染物的混合模型ICEEMD-WOA-SVM。该方法结果在中国太原、哈尔滨和重庆得到了很好的验证,说明经过EMD分解后的组合预测能够提高预测准确性。不过,由于EMD分解后得到的各个本征模态函数(IMF)序列,往往具有不同的尺度波动特征,使用同一种方法对不同序列进行预测会造成较差的适应度[17]。因此,目前关于多尺度分解的组合预测方法仍然具有两个问题:一是已有研究对EMD分解之后的结果直接运用特点的模型进行预测,并没有考虑依据数据自身特征以及波动规律性选择适合的预测方法进行单项预测。二是大量的研究表明,相对于单项预测方法而言,组合预测能显著提高预测精度,因此如果对EMD分解之后的各层序列,采用组合预测模型可进一步提高准确性并能有效降低风险。
针对上述问题,本文提出了基于经验模态分解的AQI组合预测方法,该方法能将EMD分解和组合预测的优势结合,提高AQI的预测精度。首先,对空气质量指数时间序列用EMD方法进行多尺度分解。其次,考虑到EMD分解后的分量具有各自的数据特征不适用相同的单项预测方法,因此对分解后得到的IMF序列和趋势序列,分别利用ARIMA、灰色预测、BP神经网络和SVR四种方法进行预测,并得到相应的单项预测值。然后,对每一个IMF序列和残差序列,我们都分别计算其四种单项预测结果的平均相对误差(MRE),接着选用MRE值较小的前三种预测方法,进一步用熵权法实现组合预测。最后,各分量的组合预测结果加总在一起,得到AQI的最终预测值。同时,通过仿真实验来检验组合预测模型的适用性与准确性,本文的研究可为时间序列的预测提供新思路。
1 空气质量指数多尺度分解组合预测模型
1.1 EMD分解
EMD分解的方法首先由Huang[18]等在1998年提出,它主要原理是通过对信号的筛选,得到不同频率的本征模函数和一个趋势项。其中IMF必须满足两个条件:一是过零点的数量与极值点的数量之差绝对值不大于1,二是数据序列中任何一点对应的局部极小值和局部极大值的包络线均值为零,且在时间轴上的局部对称。具体分解步骤如下:
1.2 单项预测模型
对EMD分解结果得到的多个IMF序列ci(t)以及一个趋势序列rn(t),采用灰色预测、ARIMA、BP神经网络、和SVR四种方法分别进行预测,得到不同预测方法下的每一层序列的4种预测结果fij(t)和frj(t),其中i=1,2,…,n,j=1,…,4。i表示分解n层,j表示共4种预测方法。
1.2.1 灰色预测
1.2.2 ARIMA
1.2.3 BP神经网络
1.2.4 SVR
1.2.5 熵权法
熵反应了信息的不确定性程度,是信息论中一个概念。因此,当信息的不确定程度越高,熵也越大,表示提供的信息的有效性越小,自然其权重也就越小;反之,信息的不确定性程度越低时,熵也会越小,提供的有效信息量更多,其权重也越大。因此熵权法常用于客观赋权,并且能得到可信度较高的权重值。如果采用p种预测模型,q种误差指标,那么p种模型的q种预测误差指标构成的评价指标矩阵为:
1.3 预测方法选取
1.4 预测结果集成
熵权法主要依据观测样本本身反映的信息的多少来决定各个指标的权重大小,可以很好的克服多个指标评价中权重的主观性[18]。因此,本文采用熵权法确定IMF序列ci(t)和趋势序列rn(t)的单项预测方法的权重,可以分别得出IMFci(t)和趋势序列rn(t)的组合预测值i(t)和n(t)残差,接着加总各预测结果,得到最终预测值。
1.5 预测结果评价
为了更好的比较本文提出模型的预测效果,分别采用4种常用的误差指标:误差平方和(SSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和相均方根误差(RMSE)来评价预测模型的预测精度。误差指标的计算公式如下:
2 仿真实验
2.1 数据的来源与处理
本文以北京市2014年1月1日至2018年12月31日的AQI公开数据作为原始数据。首先,为了消除数据之间的过大差异,减小数据之间的波动幅度,以一周的AQI数据的平均值作为本文的研究对象进行预测即y(t)。同时为了便于比较,我们分别利用未分解的灰色预测、ARIMA、BP神经网络和SVR四种单项预测方法进行分析,来评价本模型的可行性。
2.2 原始数据EMD分解
对非平稳、非线性且呈剧烈波动的260个北京市AQI周数据进行EMD分解,使得数据的波动具有规律性便于进行单项预测,得到的5个IMF和1个残差序列结果如图3所示。
2.3 多尺度组合预测
分解后的时间序列规律性较好,有助于提高模型的预测效果。对于IMF序列和趋势序列,分别采用GM、ARIMA、BP神经网络、和SVR进行单项预测。并对每一个IMF序列ci(t)和趋势序列rn(t),分别计算平均相对误差(MRE),以选取MRE较小的前三种单项预测方法进行集成。其结果如表1所示。
2.4 预测效果评价
为证明本文构建的基于EMD分解的空氣质量指数组合预测模型的有效性,将该方法与GM、ARIMA、BP神经网络和SVR四种单项预测模型的预测结果进行比较分析,并且对未分解序列的四种单项预测方法进行组合预测,以证明EMD分解后的组合预测效果大大提高。分别使用SSE、MAE、MAPE和RMSE,四种误差评价指标,来度量六种预测方法的预测精度。各模型的比较结果如表2所示。
根据表2,可得出三个重要的结论,首先,通过将组合预测模型与GM、ARIMA、BP神经网络和SVR的对比,组合预测模型的SSE、RMSE、MAE和MAPE这四个误差评价指标值明显小于其他四种单项预测模型,说明对于AQI数据来说,组合预测结果往往优于单项预测结果。其次,将本文提出的EMD-组合预测方法与未分解的组合预测方法进行对比分析,本模型的SSE、RMSE、MAE和MAPE均小于未分解的组合预测模型,这表明将非线性非平稳的AQI数据进行EMD多尺度分解能避免冗余信息的影响,更好的反映数据本身的信息,有益于提高预测效果。最后,对于EMD分解后的不同频率的数据采用组合预测方法,能有效减弱外界随机因素的干扰信息,不但提高了预测效果,这也是有别于已有研究的不足将组合预测方法应用于EMD多尺度分解后不同频率数据的首次应用。综上所述,本文提出的基于EMD分解的组合预测模型具有较高的拟合效果和广泛适用性,为今后AQI预测提供了新的思路。
3 结论与展望
如今,空气质量已成为社会公众普遍关注的社会问题,如何能够准确有效地提高空气质量指数预测精度也成为目前的研究热点。因此,本文充分利用了EMD多尺度分解的特点,对非平稳非线性且呈剧烈波动的AQI数据提出了基于EMD分解的空气质量指数组合预测模型。首先,本文利用EMD多尺度分解方法的优势对AQI时间序列进行多尺度分解,得到了多个不同频率的波动序列和一个趋势序列。其次,将分解后的多个IMF序列和趋势序列分别用四种不同的单项预测方法GM、ARIMA、BP神经网络和SVR进行预测,分别得到每一个IMF序列和趋势序列的四种单项预测结果。为了提高模型预测效果和简化预测复杂性,我们用MRE对每层IMF和趋势序列的四个单项预测结果进行筛选,选择MRE较小的三种单项预测方法进行集成。然后,用熵权法对每层IMF和趋势序列的三种单项预测结果进行赋权,得到每层IMF和趋势序列的组合预测值,最后,将组合预测结果加总,就得到AQI数据的最终预测值。最后,为了比较本模型的高效性,我们用了五种方法进行对比分析,实验结果表明数据进行EMD多尺度分解的组合预测结果明显优于单项预测方法,为AQI数据的预测提供了新的预测方法。
参考文献:
[1]齐甜方,蒋洪迅,石晓文.面向多源数据沈阳市PM2.5浓度预测研究及实证分析[J].系统工程,2018,36(05):108-119.
[2]Kumar A, Goyal P. Forecasting of daily air quality index in Delhi[J]. Science of the Total Environment, 2011, 409(24):5517-5523.
[3]Vlachogianni A, Kassomenos P, Karppinen A. Evaluation of a multiple regression model for the forecasting of the concentrations of NOx and PM10 in Athens and Helsinki[J]. Science of the Total Environment, 2011, 409(8):1559-1571.
[4]Jian L, Zhao Y, Zhu Y P. An application of ARIMA model to predict submicron particle concentrations from meteorological factors at a busy roadside in Hangzhou, China[J]. Science of the Total Environment, 2012, 426(1):336-345.
[5]Slini T, Karatzas K, Moussiopoulos N. Statistical analysis of environmental data as the basis of forecasting: an air quality application[J]. Science of the Total Environment, 2002, 288(3):227-237.
[6]李翔.基于GAB和模糊BP神经网络的空气质量预测[J]. 华中科技大学学报,2013,41(z1):63-65.
[7]尹琪,胡红萍,白艳萍.基于GA-SVM的太原市空气质量指数预测[J].数学的实践与认识,2017,47(12):113-120.
[8]Kumar A , Goyal P . Forecasting of air quality in Delhi using principal component regression technique[J]. Atmospheric Pollution Research, 2011, 2(4):436-444.
[9]Yun zhenXu, PeiDu, JianzhouWang. Research and application of an air quality early warning system based on a modified least squares support vector machine and a cloud model[J]. Environmental Pollution, 2017, 223: 435-448.
[10]Voukantsis D, Karatzas K, Kukkonen J. Intercomparison of air quality data using principal component analysis, and forecasting of PM10 and PM2.5 concentrations using artificial neural networks, in Thessaloniki and Helsinki[J]. Science of the Total Environment, 2011, 409(7):1266-1276.
[11]刘金培,林盛,郭涛.一种非线性时间序列预测模 型及对原油价格的预测[J].管理科学,2011,24(6):104-112.
[12]张晨,杨仙子.基于多频组合模型的中国区域碳市场价格预测[J].系统工程理论与实践,2016,36(12):3017-3025.
[13]Ma X, Jin Y, Dong Q. A generalized dynamic fuzzy neural network based on singular spectrum analysis optimized by brain storm optimization for short-term wind speed forecasting[M]. Elsevier Science Publishers B. V. 2017.
[14]Dragomiretskiy K, Zosso D. Variational Mode Decomposition[J]. IEEE Transactions on Signal Processing, 2014, 62(3):531-544.
[15]王書平,朱艳云.基于多尺度分析的小麦价格预测研究[J].中国管理科学,2016,24(5):85-91.
[16]Xu Y, Yang W, Wang J. Air quality early-warning system for cities in China[J]. Atmospheric Environment, 2016, 148:239-257.
[17]刘金培,郭艺,陈华友,任贺松,陶志富.基于非结构数据流行学习的碳价格多尺度组合预测[J].控制与决策,2019,34(02):279-286.
[18]Huang N E, Shen Z, Long S R. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J]. Proceedings A, 1998, 454(1971):903-995.
[19]马雪莹,蔡如华,宁巧娇,等.基于辅助粒子滤波与灰色预测的时间序列NAR模型状态估计[J].统计与决策,2019,4:25-29.
[20]曹学晨,张顺堂.基于ARIMA模型和BP人工神经网络的产品质量预测[J].价值工程,2018,37(35):198-201.
[21]李越洋.基于熵权-TOPSIS的PPP项目融资风险评价[J]. 价值工程,2019,5:69-72.