APP下载

基于逐步回归模型的空气质量数据的校准与统计分析

2021-09-25张宇玉

关键词:气象差异指标

张宇玉

(山西机电职业技术学院,山西 长治 046011)

对“两尘四气”(PM2.5、PM10、CO、NO2、SO2、O3)浓度的实时监测可以及时掌握空气质量,对污染源采取相应措施。国控点监测数据准确但是布控较少,自建点可对空气质量进行实时网格化监控,并同时监测温度、湿度、风速、气压、降水等气象参数。基于2019年全国大学生数学建模竞赛D题国控点和自建点的数据,对数据进行探索性分析,包括描述性统计分析、分类汇总各项指标、观察“两尘四气”随时间变化的规律和对“两尘四气”6个指标和5个气象参数做两两相关分析。对造成数据差异的因素进行单因素方差分析,并建立多元逐步回归模型确定绝对误差与气象参数的数量变化规律。最后将气象参数一一对应代入回归方程,利用国控点数据对自建点数据进行校准。

1 数据处理和探索性分析

依据国控点和自建点的“两尘四气”浓度数据和温度、湿度、风速、气压、降水气象参数数据进行探索性数据分析。主要从以下几点考虑:

(1)数据预处理,删除重复项数据;

(2)对国控点和自建点“两尘四气”浓度和气象参数数据进行描述性统计分析;

(3)利用Excel数据透视功能分类汇总各项指标;

(4)作“两尘四气”随时间变化的散点图,观察变化规律;

(5)作“两尘四气”6个指标的两两相关分析和5个气象参数的两两相关分析。

1.1 数据预处理及描述性统计分析

首先利用SPSS软件“分析—描述统计—描述”过程[2]对“两尘四气”6个指标分别进行描述性统计分析,结果如表1所示(以国控点为例,自建点数据处理过程同)。

表1 国控点“两尘四气”描述统计分析

结果分析:

(1)从表1可以看出6个指标的平均值、标准偏差、方差、偏度、峰度、最小值和最大值等统计量值。

(2)CO的标准偏差和方差都很小,说明CO数据的离散程度很小;NO2和SO2的标准偏差和方差较小,说明数据的离散程度较小;PM2.5、PM10和O3的标准偏差和方差很大,说明对应数据的离散程度很大。这个特点从最大值和最小值也得到了印证。

(3)“两尘四气”的偏度均>0,而且偏度值大小差不多,说明它们的数据分布都是右偏,即直方图中有一条长尾拖在右边,偏斜程度相当。

(4)“两尘四气”的峰度值均>0,说明数据的分布比标准正态分布更陡峭。其中PM10的峰度值为46.782,大大超出了其他指标的峰度值,说明PM10的数据分布更尖峰。

1.2 “两尘四气”随时间变化的情况

利用Matlab软件[3]作“两尘四气”随时间变化的散点图,如图1所示。

图1 国控点“两尘四气”随时间(小时)变化的散点图

从图1可以看出国控点“两尘四气”随时间(小时)变化没有明显的线性变化关系,但是具有明显的周期性和季节性。PM2.5、PM10、CO、SO2随时间变化还具有明显的季节性,冬季的数值较大,夏季的数值较小;O3随时间变化也具有明显的季节性,不过是冬季较小,夏季较大;NO2随时间变化的规律没有明显的变化趋势。

1.3 “两尘四气”6个指标两两相关分析

将国控点的数据导入SPSS软件,进行变量之间的相关分析,经过“分析—相关—双变量”过程[2]228-236,结果:PM2.5与PM10的相关系数为0.816,说明具有极强的正相关;PM2.5与CO的相关系数为0.662,CO与PM10的相关系数为0.582,说明它们具有较强的正相关;其他变量间的相关系数小于0.4,说明相关性很弱。

2 导致国控点和自建点数据差异的因素分析

通过查阅资料发现,自建点的数据可能会发生零点漂移和量程漂移,导致误差发生的原因可能是气象因素[1]。所以我们主要从以下4个方面考虑:

(1)将自建点与国控点“两尘四气”的数据一一对应,作单因素方差分析,从中发现两组数据是否存在显著性差异;

(2)计算自建点与国控点两尘四气6个指标两组数据的平均相对误差,从而比较“两尘四气”中数据误差的大小;

(3)作“两尘四气”6个指标两组数据的绝对误差与气象参数的相关分析;

(4)作“两尘四气”6个指标两组数据的绝对误差与气象参数的多元回归分析,从而得到绝对误差与气象参数的确定的数量变化规律。

为了与国控点数据进行比较,首先利用Excel数据透视表功能对自建点与国控点的数据进行汇总,筛选出“两尘四气”6个指标每天的平均值,并一一匹配比较。

2.1 自建点与国控点数据的差异分析

利用Excel对自建点与国控点“两尘四气”的每个指标两两一组作单因素方差分析,结果如表2所示(以PM2.5为例,其他指标的数据方差分析同理可得)。

表2 PM2.5两组数据的方差分析

结果分析:6个指标的两组数据F统计量均大于F检验的临界值,P均远小于0.05,表明自建点与国控点6个指标的数据有显著性差异。

计算6个指标对应的自建点与国控点两组数据的MRE(平均相对误差),结果如表3所示。

表3 自建点与国控点两组数据的MRE

结果分析:NO2、SO2的MRE很大,它们的数据差异很大;PM2.5、O3的MRE较大,它们的数据差异较大;PM10、CO的MRE较小,它们的数据差异较小,勉强在可接受范围内。

2.2 对导致自建点与国控点数据差异的因素分析

2.2.1 “两尘四气”自建点与国控点的绝对误差与5个气象参数的相关分析

查阅资料可知:导致零点漂移的原因是温度变化、元件老化等因素引起,最主要因素是温度的变化。导致量程漂移的原因是受温度、压强、湿度等外界变化或仪器本身性能不稳定所致[4]。鉴于以上原因,我们先计算自建点与国控点“两尘四气”6个指标对应两组数据的绝对误差,再做绝对误差与气象参数的相关分析。结果分析:“两尘四气”自建点与国控点的绝对误差与5个气象参数的相关系数均较小,表明它们的相关性很弱。

2.2.2 “两尘四气”自建点与国控点的绝对误差与5个气象参数的逐步回归模型

多元线性回归方程的建立:[2]

y=β0+β1x1+…+βmxm+ε

式中β0,β1…βm表示方程的回归系数。

用国控点和自控点采集数据的绝对误差作为两组数据的差异,公式如下:

α=|y-x|

利用SPSS软件“分析—回归—线性”过程[2]247-272,得到“两尘四气”两组数据的绝对误差与气象参数的回归结果:6个指标的最终回归模型的概率P-值均小于0.05,通过了显著性检验,置信区间均不包括零点,表示建立的线性回归模型是恰当的。将得到的6个指标绝对误差与气象参数的回归方程进行整理,如表4所示。

表4 “两尘四气”绝对误差与气象参数的回归方程

3 利用国控点数据对自建点数据进行校准

我们利用 Matlab 编程将气象因素一一对应代入所得回归方程,得出绝对误差的预测值,用预测绝对误差与真实的绝对误差作比较,求它们的相对误差,从而校准自建数据。公式如下:

部分计算结果如表5所示。

表5 校准误差百分比表

结果显示,误差百分比除个别异常数据,其他误差比例均在1%以内,模型合理。

4 结语

本文利用描述性统计分析、分类汇总、绘制散点图、相关分析等方法对数据进行了充分的探索性分析,以大量的图表显示,直观清楚,推理条理严谨;利用单因素方差分析数据的差异,发现两组数据存在显著性差异;利用多元逐步回归模型建立了两组数据的绝对误差与气象参数的数量变化规律,从而实现对自建点数据的校准,模型检验效果达到预期。本文使用的统计方法和建立的模型简洁可行,易于推广,可以为类似空气质量数据的分析与校准提供参考。

猜你喜欢

气象差异指标
一类带临界指标的非自治Kirchhoff型方程非平凡解的存在性
气象树
JT/T 782的2020版与2010版的差异分析
相似与差异
《内蒙古气象》征稿简则
主要宏观经济指标及债券指标统计表
关于中西方绘画差异及对未来发展的思考
找句子差异
最新引用指标
莫让指标改变初衷