基于灰色关联模型优化的空气质量分析与可视化
2022-09-13郭悦嵩
郑 瑶,邢 昱,郭悦嵩,李 明
(1.河南省生态环境监测中心,河南 郑州 450046; 2.河南省环境监测技术重点实验室,河南 郑州 450046)
当今社会经济水平的发展与环境保护存在一定的矛盾,及时获知生存环境存在的问题、发现环境污染特征成为国民关注的重点。精准的污染物预测技术有利于学者对各城市的空气污染特征进行总结分析,以此为依据制定合理化的环境治理对策[1-2]。各种数学模型应用在城市污染物预测领域,为空气质量预测分析提供了智能化的技术手段。河南省是我国重要的经济大省,预测河南省各市的空气污染物浓度,对于长久性把控空气质量、构建环境治理的长效机制意义重大[3]。空气质量因子例如PM2.5具有样本量小、不确定性大、信息贫乏等特征,大部分数学模型难以解决这类数据序列的预测分析问题。灰色模型属于灰色系统理论的重要分支,与这类小数据系统建模需求相适应[4-5]。为此,研究以灰色模型理论为基础对预测模型进行关联度优化,以解决经济发展过程中日益凸显的空气质量预测问题。
本文在GM(1,1)模型的基础上增加关联度计算策略,使用灰色关联度方法计算GM(1,1)模型、多项式回归残差修正GM(1,1)模型、粒子群优化算法(Particle Swarm Optimization,PSO)背景权值优化GM(1,1)模型的预测关联度,以此确定个体模型在组合模型中的权重系数,最后构建灰色关联组合模型获取河南省各城市的PM10、PM2.5浓度预测值,相比个体灰色模型而言,组合式的灰色关联模型精度更加理想。
1 基于灰色关联模型优化的空气质量预测分析模型构建
1.1 GM(1,1)模型建模
GM(1,1)预测模型对预测目标的数据样本要求程度低,可实现小规模样本、贫乏无规律数据信息的发展水平预测,较少的计算量更加扩大了灰色模型在空气质量预测领域的应用范围。此处以空气质量评估因子中的PM10为例展开空气质量预测模型构建研究。
Step 1:定义PM10的原始非负数据序列为X(0),经过一次性累加得到一阶累加序列X(1),以降低X(0)的扰动程度[6],表达式如下:
X(1)={x(1)(1),x(1)(2),…,x(1)(n)}
(1)
Step 2:检验原始序列的光滑性,生成X(1)序列的紧邻均值序列,如式(2)、式(3)所示。
Z(1)={z(1)(1),z(1)(2),…,z(1)(n)}
(2)
(3)
式中,k=2,3,…,n。
基于式(4)生成背景值序列:
(4)
式中,λ为背景权值。
Step 3:累加X(1)序列的动态特性利用微分方程来描述[7],构造方程表达式如下:
x(0)(k)+az(1)(k)=b
(5)
微分方程的白化处理方法为:
(6)
式中,a和b分别为传递系数与灰色作用量,前者描述了PM10数据序列的发展趋势,后者表达PM10数据变化影响的传递关系[8-9]。
Step 4:对式(6)进行差分方程转换,已经存在x(1)(k)-x(1)(k-1)=b+ax(1)(t)+ε(k),定义差分转换误差为ε(k),使用最小二乘算法求取误差的最小值以获取高精度的预测结果,此时获得估计值如下:
(7)
式中,累加矩阵B与常数向量Y如式(8)和式(9)所示:
(8)
(9)
Step 5:将原始值代入得到不同时期累积数据之和即灰色模型时间响应公式见式(10)。
(10)
其中,k=1,2,…,n。
Step 6:通过还原得到灰色模型预测值公式为:
(11)
Step 7:模型检验。通过残差、后验差等方式进行模型检验,以保障灰色模型在空气污染物预测中的精度。
1.2 基于多项式回归残差修正的GM(1,1)模型
GM(1,1)模型残差值影响空气质量预测的精度,定义μ(0)(k)为GM(1,1)模型原始污染物浓度值同预测值间的残差,采用多项式回归模型预测μ(0)(k),及时调整灰色模型的拟合值与预测值,降低GM(1,1)模型预测误差[10-12]。GM(1,1)模型残差序列表达式为:
μ(0)={μ(0)(2),μ(0)(3),…,μ(0)(n)}
(12)
基于式(13)描述的一元多项式对μ(0)(k)进行参数拟合:
(13)
式中,k=1,2,…,n-1;m取值在[2,n/3];c为多项式系数,c=c0,c1,…,cm。
结合式(14)得到调整预测值的多项式表达式:
(14)
(15)
式中,k=1,2,…,n-1。
1.3 基于PSO背景权值优化的GM(1,1)模型
大量灰色模型预测研究显示,背景值的选取一定程度上决定了模型预测精度,当灰色模型背景权值λ选取为最优时对应的误差最低,急需对GM(1,1)模型的λ值确定方法实施优化以获得最优解。PSO算法是一种高效、并行、基于种群的全局搜索策略,能够在多维空间中获得参数的最优解,因此引入PSO算法确定灰色模型背景权值[13-14]。基于PSO算法的GM(1,1)模型背景权值选取流程如图1所示。
图1 GM(1,1)预测模型背景权值选取流程Fig.1 GM(1,1) prediction model background weight selection process
结合流程图分析λ的选取过程:①定义PM10因子序列维数为n,并设置原始GM(1,1)模型的维数信息,求取PM10的预测值;②利用适应度函数获得粒子在空间中的适应值,据此重新设置粒子在空间搜索中的位置信息与速度信息,迭代合理次数后得到全局最优的背景权值λ;③将最优背景权值λ输入GM(1,1)模型获得第一个PM10预测结果标记为P1,在动态更新模型中删旧数据,同时将P1替代旧数据参与到该数据序列中获得一组崭新的序列,其维数无变化;④在GM(1,1)模型中输入新序列,同样方法计算得到P2,不断迭代操作当全部年份的PM10预测完成后终止。
PSO算法参与到背景权值λ确定中确保了灰色模型预测步骤使用的λ均为最优,拟合精度也达到最优。
1.4 灰色关联组合优化模型构建
GM(1,1)模型、多项式回归残差修正GM(1,1)模型、PSO背景权值优化GM(1,1)模型的单一预测效果均有可取之处,为了发挥每个单一模型在空气质量预测分析中的作用,提高预测结果的精准度,对预测序列与实际序列进行灰色关联度分析[15-17],计算二者关联度值,根据灰色关联度确定单一模型在组合灰色模型中所占的权重。
(1)权重系数。权重系数是构建灰色关联组合优化模型的关键参数,参考张和平等[18]的研究,确定个体模型在组合模型中的权重系数,完成灰色关联模型的赋权工作。计算方法见式(16):
(16)
(2)计算3个个体模型的灰色关联度。定义个体模型在第k个年份产生的空气质量预测误差为rjk,0.5为分辨系数,预测序列的关联度η计算方法如下:
(17)
其中,关联度取值为0<η<1。当关联度超过0.6时表明组合模型的预测效果较优。
(3)确定灰色关联组合优化预测模型。假设xjk表示原始数据序列X(0)是d个预测模型的预测值,式(18)为灰色关联组合优化模型的表达式:
(18)
式中,ωj为个体模型的权重,所有个体模型权重之和为1;j=1,2,…,d,k=1,2,…,c。
2 模型预测效果可视化分析
在《中国统计年鉴》获得河南省2005—2014年间各城市的空气质量统计信息,包括PM10、PM2.5两种污染因子在内的污染物浓度数据,利用本文构建的灰色关联组合模型预测2015—2020年间PM10、PM2.5浓度情况。本文模型能够输出可视化预测结果,以供研究者进行直观的城市空气质量预测与分析。
为了评估本文构建的灰色关联组合模型在预测空气质量方面的优越性,将方法部分构建的GM(1,1)模型、多项式回归残差修正GM(1,1)模型、PSO背景权值优化GM(1,1)模型单一化模型作为对比方法同时进行空气质量预测分析。
2.1 空气质量预测可视化分析
本文最终优化设计的灰色关联组合模型关于PM10、PM2.5两种污染因子的预测结果见表1。表1主要展示了2015—2020年间的预测情况,因为这些年份的污染物浓度实际值已知,便于客观地进行预测误差对比。为了便于对比预测误差,生成预测误差曲线如图2所示。
表1 河南省2015—2020年PM10/PM2.5浓度预测结果统计Tab.1 Statistics of prediction results of PM10/PM2.5 concentration in Henan Province from 2015 to 2020μg/m3
图2 实测值与预测值比较Fig.2 Comparison between measured value and predicted value
预测曲线与监测曲线重合度越高,说明预测效果越好。图2中,开封市预测值与监测值曲线几乎重合,展现了良好的空气质量预测效果。
将预测结果与河南省2015—2020年真实的空气质量统计信息进行相关性拟合运算,生成部分城市预测值与真实值的可视化拟合结果,如图3所示。
图3 实测值与预测值相关性拟合结果Fig.3 Results of correlation fitting between measured value and predicted value
图3中,灰色关联组合的污染物拟合结果的散点与折线的数据重合度较高,预测折线与真实折线的发展规律基本一致,说明PM10与PM2.5浓度预测结果与真实结果数据的发展趋势十分接近;另外,随着各城市污染物浓度的波动提升,预测模型跟随能力也随之提升。其中,郑州市的PM10与PM2.5浓度、开封市的PM2.5浓度预测效果尤其突出,模型的拟合效果、稳健性良好。本文模型河南省2022—2030年的空气质量预测结果及预测用时情况见表2、表3(仅展示郑州市、洛阳市、开封市)。
表2 2022—2030年空气质量预测结果Tab.2 Forecast results from 2022 to 2030 μg/m3
表3 模型运行时间开销Tab.3 Model runtime overhead s
结合表2与表3可知,模型预测2028年PM2.5因子数值运行时长最短,为2.16 s,预测2026年PM2.5因子数值运行时长最长,为2.94 s。可见,本文模型能够快速给出2022—2030年PM10与PM2.5浓度预测结果,在空气质量预测方面较为可靠。本文方法不仅预测空气质量误差低,且效率高,因为本文模型汲取了GM(1,1)模型、多项式回归残差修正GM(1,1)模型、PSO背景权值优化GM(1,1)模型的优势,一般而言,组合灰色模型运行过程中容易消耗较多的时间来完成预测工作,但由于本文应用的组合模型中PSO背景权值优化GM(1,1)模型采用粒子群确定精准的模型背景权值,减少了模型迭代寻优的繁琐步骤,节约了不必要的模型构建时间消耗,使得整体组合模型的预测用时大幅度缩减。另外,由于本文模型实现了“小样本、贫数据”的空气质量预测,不依赖过多的样本信息,无需复杂的样本学习训练过程,参数易于调节、模型实现简单,因而呈现了较好的空气质量预测效率。
2.2 模型误差分析
为综合客观评价灰色模型的预测优劣,使用预测误差、方差比、小误差概率来描述其污染物预测效果,统计了各模型关于2015—2020年PM10与PM2.5浓度预测效果指标(表4)。
表4 各模型预测结果的平均相对误差、方差比、小误差概率统计Tab.4 Probability statistics about average relative error,variance ratio and small error of prediction results in each model
(1)灰色关联组合模型的空气污染物浓度预测效果最佳,除了郑州市PM10平均相对误差为0.11,其他城市预测结果均低于0.10,说明该模型的预测精度较为理想;同时,灰色关联组合模型的方差比最大仅为0.5,一般集中在0.20~0.35,模型的小误差概率较大,郑州市、开封市的小误差概率较大,均为1。以上数据说明该模型预测结果的稳定性较好、预测波动性较低,不易出现较大的预测误差。可见,本文模型不仅能够得到趋于真实空气污染物浓度的预测值,并且能够显著降低预测结果的稳定性,有效提升空气污染物浓度预测精度。这是因为本文模型结合3种GM(1,1)模型的优势构建了一种组合式的灰色关联模型,其过程中使用灰色关联度计算的方法确定每个个体模型在组合预测模型中所占的权重,能够将预测精度好的模型放在主要预测位置作为关键性的预测方法,因而这样得到的空气污染物浓度的预测值精度良好。
(2)PSO背景权值优化GM(1,1)模型的预测精度居于第二位,其平均相对误差在0.05~0.18,小误差概率也较高,综合评定取得了相对优异的预测效果。可见,PSO背景权值优化GM(1,1)模型利用粒子群优化算法科学选取灰色模型的背景权值,提升了灰色模型的预测精准度,说明背景权值这一参数设置对灰色模型性能产生了较大的直接影响。
(3)另外2种模型的预测精度虽然没有达到较高标准,但也在可接受的范围内,平均相对误差均低于0.30,一部分预测结果精度较优。例如,GM(1,1)模型的PM2.5预测结果、多项式回归残差修正GM(1,1)模型的PM10预测结果良好。这是因为灰色模型本身适用于小样本、少信息的数据信息预测,对于少量样本的城市空气污染物预测问题展现了良好的预测性能。
但是,GM(1,1)模型的预测方差比均在0.50以上,最高可达0.76,说明该模型的预测稳定性不高,预测结果的波动性较大,多项式回归残差修正GM(1,1)模型也呈现了相同的效果。
3 结论
本文以传统的GM(1,1)模型为基准进行空气质量预测模型优化,分别计算个体模型的预测关联度从而确定组合灰色关联模型的构建方法,增强了模型预测空气中污染物浓度的精准度。
(1)河南省空气质量分析预测实例中,空气质量预测效率方面,本文模型预测2028年PM2.5因子数值运行时长最短,仅为2.16 s;在空气质量预测精度方面,除郑州市PM10平均相对误差为0.11,其他城市预测结果均低于0.10,预测郑州市、开封市空气质量的小误差概率较大,均为1。由此可见,本文模型预测结果稳定、误差低、小误差概率大。
(2)本文构建的灰色关联模型汲取了3种灰色模型的优势,且保持了自身敏感性低、稳定性强、计算量小的特点,在空气质量预测分析中展现了较大的优势,为其他领域灰色模型的研究应用开辟了新的思路。参数是灰色模型构建的关键因素,未来关于灰色模型的优化研究可集中在模型参数优化方面,引入群体智能优化算法辅助构建灰色预测模型。