基于时间序列的PM2. 5时空插值算法改进研究
2023-03-27肖亚楠
肖亚楠
关键词: PM2.5 时间序列 相关性分析 时空插值
随着生活品质的提高,“雾霾”一词越来越多出现在人们的视野里,其主要成分是PM2.5[1]。各地区的PM2.5分布具有季节、地域特征,与温度、湿度、风速、降雨量等气象特征之间具有相关性[2]。
PM2.5是典型的时空数据,具有显著的时间序列特征和地域性特征。现有的PM2.5分析方法中,多将时间和空间特征分割开来,不能充分地利用时空数据的全部特征,分析结果的可靠性较低。
该文基于成都地区气体污染物观测数据对基于时间序列的时空插值算法进行了改进研究,并设计了对比实验,对改进后的算法插值精度进行了评估。
1 研究区概况与现有研究方法的概述
1. 1 研究区概况
成都位于四川盆地西部,地形地貌复杂,东接龙泉山脉和盆中丘陵,西临邛崃山脉,中部为成都平原[3],静小风频率高,污染物难以及时扩散,此外,该地区近年来发展迅速,基础设施建设迭代更新较快[4],使得成都地區的PM2.5处于高浓度状态。该文研究了32 个环境监测站点的数据,这些监测站点位于成都市及周边的4 个市区,站点分布不规律,局部成簇,分布于北纬28.7°~34.57° 、东经100.82°~105.67°。图1 为32 个环境监测站点分布图。
1. 2 数据来源及预处理
该文采用的数据包括研究区域的地理范围、环境监测站点的位置,待研究空气污染物指数观测数据。通过网络数据访问方式完成数据获取,具体为:编程获取四川省空气质量监测系统中JSON 格式数据,经解析后得到各观测站点全天候空气污染物指数数据(污染物浓度与其指数呈现正相关)。
需要先对空气污染物指数数据进行预处理,处理结果用于插值分析。
1. 3 既有研究方法概述
既有的时空插值方法众多,其中,约减法和扩展法较为经典,两种算法均能实现对不规则数据集的时空混合插值计算。约减法首先对数据进行时间插值,再进行空间插值[5],该方法只能在时间序列内对观测站点历史缺失数据进行插补,对PM2.5 进行历史数据统计,并对PM2.5的变化规律进行分析,但是不能实现对PM2.5数据的实时监测。扩展法综合考虑了时间和空间因素,整体性较好,但时空单位的多种组合形式会造成插值结果各异,且不同组合单位之间并不具有换算规律,结果不稳定。该文以约减法为基础,结合时间序列分析和相关性分析结果,改进PM2.5时空插值方法。表1 是环境监测站点数据记录格式表。
2 基于空气污染物之间相关性的相关权重法
约减法将时间间隔作为插值权重,算法基于“等间隔内PM2.5指数变化量相同”的假设,算法执行过程中使用中间时刻对应的前后两时刻的PM2.5指数估算中间时刻的PM2.5数值。分析发现,PM2.5的时间变化量并不均匀,该权重具有局限性。
2. 1 相关性分析
相关性分析是指使用相关系数定量的分析两变量之间的相关性,以判断其关系的密切程度。相关系数的取值在[-1,1]范围内,为无量纲数,相关程度与相关系数的绝对值正相关,正值表示正相关。该文采用Spearson 秩相关系数和Pearson 相关系数来衡量各空气污染物指数与PM2.5指数值之间的相关程度。对于变量X、Y 的观察值xi 和yi,采用式(1)、式(2)分别计算Pearson 相关系数和Spearson 秩相关系数:
式(1)(2)中,xi、yi 为i 时刻两变量的观测值;xˉ、yˉ为两样本观测均值;N为变量X与Y的Pearson 相关系数;pi、qi 为两变量的秩次,N为样本数量,R 表示变量X 与变量Y的Spearson 相关系数。
2. 2 PM2. 5与主要空气污染物之间的相关性
CO、O3、SO2、NO2等气态污染物在扩散过程中可转换为二次污染物,引起PM2.5指数变化,研究PM2.5与空气污染物之间的相关性对于描述PM2.5的变化趋势具有重要意义。杨可鑫[6]、彭菲等人[7]、党莹等人[8]、陈菁等人[9]、BRAVO M A 等人[10]和WONG D W[11]等人通过对国内外部分地区空气污染物暴露水平进行监测和分析,证明了主要气体污染物与PM2.5的变化趋势具有相似性。该文定量分析了成都地区PM2.5与主要气态污染物之间的相关性。
该文以梁家巷观测展为例进行说明,表2 是各空气污染物72 h 内的指数观测值,图2 是各空气污染物的变化曲线,表3 是PM2.5与各气体污染物之间的相关系数。
2. 3 基于空气污染物相关性的相关权重法
由表3 数据可知,除CO 和O3 之外,PM2.5 与SO2、NO2、PM10 的相关系数均大于0.6,相关性较强。进行PM2.5时间插值时,将其变化程度及变化趋势作为确定插值权重的参考。
第一步:数据准备。数据预处理,得到长为72 h 的六组空气污染物时间序列数据结果。
第二步:相关性分析。根据编制好的时间序列数据,采用公式(1)、公式(2)算出这5 种气体污染物与PM2.5的相关系数Rj,若结果若满足式(3),则相关性较强,其变化程度数据可作为PM2.5插值权重的参考。
第三步:权重计算。计算待插值时刻气体污染物指数相对前后两连续时刻的变化率,该文次采用商表示变化率:
第四步:PM2.5时间插值计算。采用式(5)计算插值结果。
第五步:PM2.5时空插值。分析PM2.5的时、空插值与真值间的相对关系,构建多元线性回归模型,估算出PM2.5在时空范围内任意点的数值。
3 基于PM2.5自相关性的函数模型法
相关权重法基于气体污染物之间的相关性特征,能实现对时空范围内任意点的插值分析。该方法的局限性在于:第一,只能用于估算首尾时刻之间的PM2.5数值;第二,算法基于“一定时间范围内,PM2.5与主要空气污染物的变化趋势具有相似性”的前提,若参考气体与PM2.5的相关系数小于0.6 时,则该方法的可信度较低[12]。
传统时间序列分析方法仅能够实现指定时刻的数据预测[13],该文研究了PM2.5时序数据的自相关特征,构建了预测模型,实现了PM2.5指数的实时预测。
X = {x1 x2 x24},其中x1~x24 是采样间隔为1 h的PM2.5时间序列数据集。首先从时间序列数据中计算出趋势变化特征点,以此特征点为隔断,将整个序列划分为多个不等长的子区间,然后对各区间的观测值分别建立函数估算模型,即:第一步,趋势变化特征点的确定。对于时间序列X 而言,如果X 满足条件xp ≤xp + 1 ≤ ≤xi,并且xi ≥xi + 1 ≥ ≥xq (1 ≤p ≤i ≤q ≤n),或者满足xp ≥xp + 1 ≥ ≥xi且≤xi + 1 ≤ ≤xq (1 ≤p ≤i ≤q ≤n),则xi 为时间序列数据X 的趋势变化特征点。
第二步,函数估算模型的确定。以趋势变化特征点为间隔,划分时间序列子区间,使用函数模型拟合各区间内的PM2.5指数变化趋势估算任意时刻的PM2.5指数值。采用式(7)、式(8)进行计算。
式(7)(8)中,a1、b1、a2、b2、c 为函数模型中的常数,通过最小二乘法计算得到;Z(t )为PM2.5在t 时刻的指数估算值。
第三步,开展PM2.5 数据时空插值计算。采用式(9)进行综合考虑时空的混合插值。可估算任意时刻、观测站点的PM2.5指数值。
4 实验结果分析
在进行PM2.5时空插值时,第一需要确定时空插值的目的,第二要确定插值的方法。由图3 可知,针对不同的插值要求和数据情况,分为以下3 种情况进行分别处理。
(1)仅PM2.5 数据缺失,也即SO2、NO2 等其他空气污染物觀测值完整。该情况下,可计算PM2.5与各空气污染物指数的相关系数,使用相关权重法修补缺失的PM2.5数据。
(2)所有气体污染物观测数据在某一时刻整行缺失。该情况下可以使用约减法进行数据修补。
(3)实时空气污染物指数值预测。需要编制完整时间序列,进行数据平稳性分析及处理,然后采用函数模型法进行数据值预测。
4. 1 成都市PM2. 5缺失数据修补
截取29 个环境观测站的连续72 h 的空气污染物指数观测数据作为数据源,对其进行了循环计算及交叉验证。分别采用了相关权重法、约减法、直接函数模型法以及平稳性处理后的函数模型法,对中间段的70个时刻的污染物指数进行逐一插值计算。以平均绝对误差、均方根误差即平均相对误差作为计算结果的评价指标,对各插值算法的PM2.5 修补结果进行精度评价,表4 是指标计算结果。
评估结果反映出:相关权重法的精度最高,经时间序列数据平稳性分析处理后,基于时间序列的函数模型法计算得到的结果精度有提高。试验表明,各监测站点的计算结果一致,该文将以梁家巷观测站点为例进行结果展示。图4 表示不同时刻的PM2.5指数修补结果,图5 表示不同插值方法的PM2.5数据修补结果的相对误差分布。
4. 2 成都市PM2. 5数据预测
数据预测前对原始数据进行了预先处理,具体如下。
(1)奇异站点的检测与观测数据修补。奇异站点为数据缺失超过3 h 的观测站,使用时间序列分析法对奇异站点进行PM2.5数据修补。
(2)时间序列插值补充。修补历史缺失数据,得到完整的时间序列,为实时数据预测做准备。
(3)计算时空插值模型的参数值wp、wt,w。
(4)将第24、36、72 组数据作为“待预测值”,其他组数据作为“样本观测值”,对其进行观测值预测。
该文采用了时间插值方法、空间插值方法以及基于时间序列的函数模型法进行插值计算,表6 是插值精度的评定结果。
4. 3 结果分析
这3 种插值方法的精度由低到高依次为:空间插值算法<时间插值算法<基于时间序列的时空插值算法。其中,基于时间序列的时空插值算法的RMSE 比时间插值法提高了25%,比空间插值法提高了40%。分析其原因:由于研究的环境监测站点分布不规律,且数量有限,导致了空间插值的精度较低;由于用于时间序列分析的原始数据时间分布均匀,且数据量充足,导致时间插值算法的精度较高;时空插值算法综合考虑了时、空因素对PM2.5指数的综合影响,该文中对其进行了量化分析,并参与插值计算,故其插值结果精度最高。
5 结论
基于时间序列的时空插值算法的优势在于:(1)进行时序数据预测时,对时间间隔无要求;(2)考虑了空间因素对空气污染指数的影响,可以对任意地点、任意时刻的PM2.5 观测值进行预测。实验表明,改进后的基于时间序列的时空插值算法从理论和原理上可行。