APP下载

基于混合模型的PM2.5日浓度预测

2019-03-28薛惠锋张文宇

统计与决策 2019年5期
关键词:阶数果蝇污染物

李 栋,薛惠锋,张文宇,3,方 铭

(1.西安邮电大学a.经济与管理学院;b.研究生院,西安 710061;2.西北工业大学 自动化学院,西安 710072;3.中国航天系统科学与工程研究院,北京 100048)

0 引言

近年来,随着中国城市化、工业化进程的不断加快,空气污染问题也愈发严重,成为公众关注的社会焦点问题之一。PM2.5作为空气污染的主要组成成分,是指环境空气中空气动力学当量小于等于2.5um的颗粒物[1]。经研究发现,PM2.5已经是当前影响人类生存环境[1-3]和人体健康[4]的最主要污染物之一。PM2.5中含有大量的有毒有害物质,具有高活性、停留时间长、运输距离远的特性。研究表明,长期暴露在含有较高浓度PM2.5环境中的人,将增加患心血管[5]和肺部疾病[6]的概率。因此,及时并准确地预警PM2.5浓度,对于评估城市空气质量,帮助人们合理安排出行具有指导意义,同时能为政府治理PM2.5污染的提供依据。

为了准确预测PM2.5的日均浓度,本文提出了一个基于自回归分布滞后模型(ARDL)、果蝇优化算法、核极限学习机的PM2.5日均浓度混合预测模型。为了验证混合模型的有效性,选用了2016年1月1日至2017年5月31日陕西省关中地区五地市(西安、宝鸡、咸阳、渭南和铜川)的PM2.5、PM10、CO等空气污染物、以及相关气象因子的历史数据,从日维度进行了PM2.5浓度预测,预测结果显示混合模型具有良好的预测能力,可为陕西省关中地区开展空气污染预警和城市综合管理提供理论支持和决策依据。

1 材料与方法

1.1 研究区域

关中又称为关中平原,它位于陕西中部,海拔在323~800米之间,东西长约350公里,面积约为3.6万平方公里,是中国四大平原之一。关中平原介于横贯陕西的秦岭和渭北北山山系之间,南北宽窄不一,东部最宽达100公里,在西安附近时南北宽度缩为75公里,至宝鸡市西部逐渐闭合成峡谷,这种东宽西窄,周边高平原低的地形条件不利于污染物扩散。随着以西安为中心的关中地区工业化和城市化进程的加速发展,人为活动日益频繁造成污染物排放量的大幅增加,关中地区空气质量日趋恶化。根据2016年全国雾霾城市排名显示,关中五地市PM2.5日均浓度均排在前70名,其中西安排名最高,位于第34位,铜川排名最低位于63位,关中地区已经成为中国区域性大气污染较为严重的区域之一。

1.2 研究数据

为了加强对关中地区PM2.5等污染物的监测和治理,为居民提供实时的污染状况信息,陕西省环保厅在关中地区共设置70个监测点,其中西安有18个监测点、咸阳有15个监测点、宝鸡有17个监测点、铜川有7个监测点、渭南有13个监测点,涵盖了关中地区中各类型区域,这些监测点能够实时监测各种污染物的浓度数据,通过陕西省环保厅网站进行公布。本文中涉及的各市污染物数据均来自该网,并进行了后期整理。PM2.5预测研究中除了需要空气中的各种污染物数据外,还需要温度、湿度、风速等各种气象因子数据,这部分数据则是通过陕西省气象局网站获取并进行相应整理。

1.3 研究方法

1.3.1 相关分析与因子定阶

相关分析(CA)是研究PM2.5与其他污染物及气息因子之间是否存在某种依存关系,测度各因子之间关系密切程度的一种统计方法。由于收集到的污染物种类及气象因子较多,如全部引入预测模型,则预测模型势必受到非必要因素的影响,增加预测模型复杂度。因此,需要通过相关分析识别哪些因素与PM2.5浓度相关性较高,从而将这部分因素从众多因素中筛选出来,作为预测模型的输入。

在预测模型中,不仅要明确PM2.5的影响因子有哪些,还需要明确这些影响因子与PM2.5之间的滞后影响阶数。为了解决这个问题,本文引入自回归分布滞后模型来识别和确定各影响因子滞后阶数。

自回归分布滞后模型(ARDL)是一种较新的协整检验方法,其原理是利用边界检验法确定变量间是否存在长期稳定的关系,若存在协整关系,则可进一步估计变量间的相关系数[7]。区别于传统的协整检验方法,ARDL模型最大的优势是其对变量平稳性要求较为宽松,只要求变量的单整阶数均不超过1,即1(0)序列、1(1)序列或1(0)、1(1)混合序列均可使用该模型进行检验。除此之外,ARDL模型还具备小样本适用性,解释变量为内生变量的适用性等特点。自回归分布滞后模型的一般形式如下:

1.3.2 KELM算法

极限学习机(ELM)[8]是一种基于单隐层前馈神经网络的快速学习方法。该方法只需指定隐层节点数,即可通过求解线性方程组得到极小2-范数最小二乘解,并将该解作为隐层输出权值。ELM的学习过程只有一次,相比传统的神经网络,ELM的网络泛化能力和学习速度得到明显提高。

核极限学习机(KELM)是在极限学习机(ELM)的基础上提出了基于核函数的极限学习机,该方法将SVM中核函数的思想运用到ELM中。由于支持向量机(SVM)中的核函数映射ϕ(x)与ELM中的隐含层节点映射h(x)的具有一定的相似性,Huang(2012)[9]提出将ELM的h(x)替换为支持向量机的核函数映射ϕ(x),构建核极限学习机(KELM)算法,该算法解决了ELM需要确定隐含层个数的问题,且具有更好的泛化性能。

1.3.3 果蝇优化算法

已有的研究成果显示KELM的拟合精度和泛化能力受到参数的影响。因此,需要采用适合的优化算法来对其核参数进行寻优。目前在KELM的参数寻优中主要使用的有遗传算法[10]和粒子群优化算法[11],这些方法虽然存在可以找到最优参数的可能性,但仍存在迭代速率慢,易陷入局部最优的问题。果蝇优化算法(FFOA)[12]是依据果蝇觅食行为设计出的一种全局优化算法。相较于粒子群、鱼群等群体智能优化算法,FFOA具有参数设置少、运算速度快且易于代码实现等优点。因此,本文采用FFOA自动搜索核极限学习机核参数,以此建立PM2.5浓度预测模型。

1.3.4 混合预测模型

鉴于PM2.5浓度预测的复杂性,本文将前面介绍的几种方法进行混合提出了PM2.5混合预测模型。该模型首先通过相关性分析识别PM2.5与其他污染因子以及气象因子之间的相互联系,然后通过ARDL模型分析识别出PM2.5与各因子之间是否存在长期稳定关系,并确定各因子的滞后影响阶数。通过相关性分析以及ARDL模型就可以识别PM2.5与自身以及各因子存在的各种关系,进而明确未来预测方法的输入向量。具体的预测方法选择上,本文通过对比选择了KELM作为预测算法,由于KELM的泛化能力受到核参数的影响,因此本文引入果蝇优化算法使用对其核参数进行寻优,从而最终建立PM2.5混合预测模型。具体建模具体步骤如下:

(1)数据预处理。对收集到的PM2.5、SO2、NO等空气污染物以及相关气象因子时间序列数据进行缺失值填充。

(2)因子相关性分析。对PM2.5、SO2、NO等空气污染物以及最高气温、最低气温等气象因子数据进行相关分析,识别出与PM2.5浓度具有显著相关性的因子。

(3)确定PM2.5相关因子滞后阶数。利用ARDL模型检测PM2.5与自身及相关因子之间存在的长期关系,确定各因子最大滞后阶数ti(1<=i<=p+1),p为识别出的与PM2.5显著相关的因子个数,由于PM2.5自身存在滞后相关性的可能,因此i的最大值为p+1。

(4)数据重构。根据各影响因子最大滞后阶数对数据进行重构,重构后的数据将作为KELM预测算法的输入向量。重构结果如式(2)所示,式中X1(-1)指与PM2.5具有显著相关性的第1个因子延迟1阶的数据。

(5)动态生成训练数据。本文模型是在线预测模型,即该模型会动态更新训练数据。若指定预测t时刻的PM2.5浓度,则模型会自动将t-1时刻之前的数据(含t-1时刻)作为训练数据。当预测时间更新为t+1时刻时,则模型自动将t时刻的各指标数据加入到训练数据中。

(6)构建KELM初始预测模型。首先对重构数据集XR、Y进行归一化处理,得到归一化后数据集。接着建立单隐层神经网络,输入数据为,输出数据为Y,使用KELM算法建立初始预测模型。

(7)KELM核参数优化。

①根据核参数个数确定果蝇群搜索食物的空间维度,若为2个参数,则果蝇在2维空间中搜索食物;若为3个参数,则果蝇在3维空间搜索食物。

②初始化果蝇群中各果蝇位置,或将果蝇群集中在当前最佳位置。

③果蝇群在搜索空间中自由搜素食物,每个果蝇飞翔后的位置坐标即为KELM的核参数的值。根据这些核参数值使用KELM计算训练集的训练精度,计算结果即为该果蝇的味道浓度(适应度值)。

④对所有果蝇的适应度值由小到大排序,找到最佳果蝇及其位置坐标。

⑤判断是否达到优化目标,若达到则跳转下一步。否则,继续判断是否达到最大优化次数,若达到则跳转至下一步,若未达到则跳转至步骤②继续优化。

(8)KELM预测。依据核参数优化结果建立KELM预测模型,依据归一化之后的相空间数据XR(t)预测t时刻的Y′(t),并将预测结果反归一化。

(9)预测时间更新。若要继续预测时间t+1的PM2.5浓度值,则更新预测时间为t+1,并跳转至步骤(5)更新训练集,然后继续预测。

1.4 评价指标

为了衡量PM2.5混合预测模型的稳定性和适应性,选择一些具有代表性的指标对模型的预测结果进行评价,具体指标有:平均绝对百分比误差(MAPE)、均方根误差(RMSE)以及可决系数R2。平均绝对百分比误差能够避免平均百分比误差相比正负相抵的情况,可以更准确地反映预测值误差的实际情况。均方根误差对异常大的误差反应较为灵敏,能够较好地反映模型的预测精度。拟合优度R2能够表达混合预测模型整体的拟合情况,当R2接近1时,表明预测值对实际值的拟合程度好,同时说明预测模型的性能较高。假设Ti为实际观察值,Pi为预测值,各指标定义如下:

2 实例验证

2.1 影响因子初步分析与数据收集

通过对已有研究成果进行分析后发现,影响PM2.5浓度的因素主要源于三个方面:直接生成、间接生成以及气象因素对PM2.5的净化衰减。其中,直接生成主要包括燃煤、汽车尾气、工业废气等含有的PM2.5固态污染物;间接生成主要是空气中的污染物通过复杂化学反应形成的PM2.5固态污染物;PM2.5的净化衰减则是通过自身的扩散以及外界气流、降雨等方式来实现PM2.5浓度下降。基于以上分析并考虑到数据的可获得性,本文收集了PM2.5(μg/m3)、PM10(μg/m3)、SO2(μg/m3)、CO(μg/m3)、O3(μg/m3)、NO2(μg/m3)、RH(相对湿度%)、WS(风速m/s)、T_Low(最低温度oC)、T_high(最高温度oC)等10个因子数据,这些数据开始时间为2016年1月1日,结束时间为2017年5月31日,共计517组。

2.2 数据预处理

在数据收集完成之后,还无法直接使用,原因是数据集中可能存在一些异常数据,需要对其进行处理。本文数据预处理的对象主要是针对缺失值。在污染物浓度和气象因子监测过程中,由于监测设备故障或者网络传输链路故障可能会造成监测数据的缺失,主要表现为数据断档或出现NULL值。数据缺失将破坏时间序列的连续性,进而影响预测模型的精度。因此,在建模过程中,首先要对缺失数据采用插值等方法进行数据的补足。本文主要采用多点三次样条插值等方法补足缺失数据。

2.3 预测因子筛选

KELM预测模型能够通过核函数很好地表示输入向量与预测目标之间的高维非线性关系,而合适的高维输入向量将有助于准确地描述信息特征,表达数据含义,因此KELM模型的预测能力在很大程度上依赖于输入向量的选择。

由于可收集的污染物和气象因子种类较多,若全部引人会导致KELM预测模型输入层维度过高,增加预测模型的复杂度。为此,本文借鉴文献[13]的数据处理方法,通过相关性分析,识别出与PM2.5存在显著相关的因子。通过将PM2.5与PM10等因子数据进行相关性分析,求其相关系数,并查阅相关系数显著性检验表,找出与PM2.5显著相关的影响因子。通过对各因子时间序列数据的分布发现,各序列均非正态分布,因此选择计算各因子之间的Spearman相关系数,各地计算结果如表1所示。

表1 相关性分析

通过Spearman相关系数计算之后就可以得到影响当地PM2.5浓度的主要因素有哪些。对各污染物数据进行分析发现,PM2.5与CO、PM10、SO2均为化石燃料燃烧的产物,而关中地区地处北方,在每年11月至3月之间会有供暖期,这期间会燃烧大量的化石燃料,因此它们均表现出春、冬季浓度较高、夏秋季浓度较低的特征,而这一点在表1中也得到了验证,PM2.5与CO、PM10、SO2它们之间存在明显的正相关性。SO2、NO2经二次化学反应可以形成硫酸盐、硝酸盐微粒,它们是PM2.5主要构成成分,因此SO2、NO2与PM2.5浓度也呈现出较强的正相关性;O3主要是在紫外线辐射作用下通过光化学反应产生,而PM2.5颗粒物浓度较高时,其消光作用散射了太阳辐射,因此O3与PM2.5呈现一定的负相关性[8];温度会影响气体流动速度,当温度较高时,空气会加速流动,将有利于将地表的PM2.5颗粒扩散,降低地表的PM2.5浓度,因此PM2.5与T_high与T_low存在明显的负相关性。

2.4 影响因子定阶

在进行PM2.5预测时,不仅要识别与PM2.5有显著相关关系的影响因素有哪些,还要明确各影响因素对PM2.5影响的时效性。需要根据各输人变量与输出变量的互相关系数确定模型中各输人变量的延迟阶数。本文这里借鉴ARDL模型中确定各影响因子滞后阶数的方法,通过该方法识别出PM2.5与自身及其他相关因子之间存在最大滞后阶数。经ARDL模型识别结果如表2所示。

表2 滞后阶数

通过检测结果发现,在西安与PM2.5存在长期相关关系的有PM2.5、PM10、NO2、CO、T_high以及WS、它们的最大延迟阶数分别为3、3、2、3、3和1。由此可以确定KELM的单隐层神经网络结构,其输入层的向量个数为15,其输入深入层神经元对应的数据输入为:PM2.5(-1)、PM2.5(-2)、PM2.5(-3)、PM10(-1),PM10(-2)、PM10(-3)、NO2(-1)、NO2(-2)、CO(-1)、CO(-2)、CO(-3)、T_high(-1)、T_high(-2)、T_high(-3)和WS(-1)。

2.5 预测结果及评价

确定了KELM预测模型的各输入数据之后,就可以使用KELM算法进行训练与预测。由于KELM算法的适用性受到核参数的影响,因此要提高KELM的适用性就必须对核参数寻优,本文采用FFOA算法对KELM中的核参数优化。在FFOA优化过程中设置迭代次数为100,果蝇种群规模也为100。经FFOA优化后即可寻得最优核参数,并应用寻得的核参数建立KELM预测模型进行预测。为了验证混合模型的预测效果,本文应用混合模型、ARDL模型以及KELM模型(随机生成核参数)分别对关中地区五地市2017年5月1日至2017年5月31日的PM2.5日均浓度进行了预测,预测结果如图1所示。

通过观察图1中曲线的拟合情况可以看出混合模型预测结果曲线相较于ARDL和KELM预测结果曲线更能有效跟踪实际值曲线的变化趋势。同时在一些极值点上,混合预测模型表现出更好的预测性能,正如图1中所示,在2017年5月5日关中地区出现了一次极端PM2.5污染事件,五地市当日的PM2.5浓度较前一日出现明显增加,部分地区(西安、铜川)当日浓度是前一日浓度的4~5倍。面对这种极端突变情况,混合模型表现出了较好的预测效果,当日混合模型在各地的绝对百分比误差均保持在9%以内,其中宝鸡最小为4.45%,渭南最大为8.81%,五地市绝对百分比误差为6.8%,而ARDL与KELM分别为13.68%和62.36%,由此可以看出混合模型在应对突变情况的能力明显优于ARDL和KELM。除此之外,混合模型预测的稳定性也明显优于ARDL模型和KELM模型,例如在铜川地区2017年5月25日至2017年5月31日这个时间区间,ARDL模型的绝对百分比误差最大值竟然达到561.67%,最小值也达到了41.24%,同期KELM模型的预测准确率也较差,其绝对百分比误差最大值为86.97%,最小值也达到了29.03%,而同时间段,混合模型的绝对百分比误差的最大值为13.68%,最小值为2.83%,由此可以看出ARDL模型与KELM模型在预测稳定性方面较混合模型有明显差距。为了更加精确地评价各个预测模型的预测效果,使用前文中提出的3个评价指标对3个预测模型进行评价,评价结果如表3所示。

由表3可以看出,混合模型在3个评价指标上均明显优于ARDL模型和KELM模型,说明了混合模型能够更好地拟合PM2.5浓度数据。同时,混合模型在各地区均能得到较好的预测效果,进一步说明了混合模型的适应性强,性能稳定,能够为政府部门应急处理突发性PM2.5污染事件提供有力的决策支持。

3 结论

(1)根据PM2.5日均浓度数据的自相关性以及与其他影响因子日均数据的延迟相关性,建立了PM2.5混合预测模型,该模型可以动态更新训练集,确保预测模型能够保持对新现象新规律的适应性。混合模型在与ARDL以及KELM预测模型的比较中,表现出良好的预测精度和稳定性。

表3 模型指标评价结果

(2)混合模型需要对KELM的核参数进行优化,这与ARDL以及KELM模型相比需要增加一定的计算代价。然而FFOA算法的寻优效率较高,因此总体而言本文模型增加的运行时间有限,不会对其实践应用产生较大影响。

(3)根据实验结果可看出本文模型对于PM2.5预测精度有明显提高,尤其是对于极值点本文模型能更好地应对PM2.5浓度的突变情况,预测精度较高,因此可以认为PM2.5经相关性分析以及ARDL处理后,能够识别出与PM2.5浓度具有显著相关性的因素,有助于预测模型更好地总结规律、发现特征,提高模型的预测精度和响应能力。

(4)本文模型结构简单,易于实现,具有一定的实用性。本文的研究结果不仅能有效应用于地区日均PM2.5浓度预测,同时也可用于小时或其他时间维度的PM2.5浓度预测,可以为政府开展空气污染预警、城市综合管理提供理论支持和决策依据。

猜你喜欢

阶数果蝇污染物
果蝇遇到危险时会心跳加速
菌株出马让畜禽污染物变废为宝
2021年大樱桃园果蝇的发生与防控
《新污染物治理》专刊征稿启事
确定有限级数解的阶数上界的一种n阶展开方法
《新污染物治理》专刊征稿启事
你能找出污染物吗?
15相感应电机槽配合研究
小果蝇助力治疗孤独症
果蝇杂交实验教学的改进策略