APP下载

城市环境空气质量数据的真实性判别及分析

2017-12-27

关键词:因变量真实性空气质量

林 杰

(安徽财经大学)

0 引言

随着我国经济的迅速发展,环境也遭到了人为破坏,人们对空气质量开始越发关注.空气质量的真实性不但决定着相关部门的公信力,更是与人们的日常生活息息相关,直接影响着人们的健康.因此,空气质量问题成为了政府、环境保护部门和全国人民关注的热点问题.政府工作报告中增加了环境质量的考核指标,一是对环境质量的指标考核更加全面、更加完善;二是和老百姓息息相关,切身利益更加贴近、更加结合;三是更加严格.然而在实际监测过程中,由于主观或客观上的原因,监测数据会出现一定的异常现象.该文针对网上公布的数据,利用多元回归和连续性检验方法,对数据的真实性进行判别,并根据判别结果,对异常现象进行分析.

1 多元线性回归模型的建立与检验

1.1 多元线性回归模型理论

在研究实际问题的过程中,会遇到因变量受到多个变量影响的情况,变量的主次难以区分,也不能略去其作用.当因变量与变量之间分别存在线性关系时,便可以采用多元线性回归分析[1].

多元线性回归是一种数理统计方法,设因变量为y,自变量为x,自变量有p个,其n组观测值为(x1i,x2i,…,xpi,yi)(i=1,2,…,n),其多元线性回归表达式为:

其中,β(i=1,2,…,p)是回归方程的回归系数.

1.2 多元线性回归模型检验

(1)拟合优度检验(R2检验)

拟合优度检验是构造一个可以表征拟合程度的指标R2,其定义为:

(2)方程的显著性检验(F检验)

2 数据真实性空间上的判别

选取京津冀、长三角、珠三角空气质量情况数据(2013.11.1~2015.2.28).以AQI为因变量,以PM2.5、PM10、CO、NO2、SO2浓度为变量,借助MATLAB建立多元线性回归模型,对数据进行判别分析.

2.1 原始数据的处理

收集的三个地区的数据中,有部分城市缺少2~4 d的数据,利用MATLAB对数据进行插值,补全空缺数据,进行进一步分析.

2.2 多元线性回归分析

空气质量与气候有极大的相关性[3].中国气象科学数据共享中心的气象要素主要有:温度、降水量、风速和相对湿度.已知气温、降水量、风速和相对湿度的平均值按地理位置影响空气质量指数,因此用层次分析法把京津冀、长三角和珠三角按照地理位置分为三个对象来处理.

下面以长三角地区为例对进行分析建模,其他地区分析步骤相同.

如图1所示,长三角地区16个城市的空气质量指数随时间变化的趋势具有一致性,可以考虑将该地区所有城市看作一个对象进行分析,各城市在空气质量指数的变化上具有连续性[4].因此,在研究对象中,根据每个城市数天以来的平均值,选取平均值中位数城市作为数据相对真实的城市.对长三角地区16个城市481天的数据计算平均值,然后作出各城市平均值柱状图,如图2.

从图2中可以看到,平均值位于中位数的城市为绍兴和湖州.由于湖州缺少部分天数数据,利用MATLAB进行了插值补全,考虑到尽量选用原始数据,选取湖州作为相对真实数据的城市.选取湖州的AQI为因变量,各项污染物为变量,分别做出AQI与各项污染物浓度之间的散点图,观察其线性关系.

图1 各项污染物与AQI指数关系

由图1可以看到,单因素与AQI之间具有很强的线性相关性,因此对湖州的空气质量数据进行多元线性回归.得到多元线性回归方程:

y=0.9722x1+0.1016x2+4.4047x3-

0.0838x4+0.0751x5+18.2306

对回归方程进行检验,R2=0.9376,说明模型拟合优度较好;F=1426.3,说明众变量对因变量解释程度很高,且p值小于0.001,回归系数显著不为0,,线性关系较好.

将长三角地区其他各城市的PM2.5、PM10、CO、NO2、SO2代入回归方程,求出回归数据和原始数据残差平方和,即可根据残差平方和判别相关城市数据的真实性.

图2 长三角地区各城市AQI平均值

2.3 判别结果

对于京津冀和珠三角地区,选取廊坊和深圳拟合多元线性方程,进而得出不同城市各地区的残差平方和.得出最终结果:按照残差和递减,即真实性递增的顺序.长三角地区依次是泰州、舟山、绍兴、上海、镇江、南京、宁波、湖州、扬州、嘉兴、无锡、常州、苏州、杭州、南通、台州;京津冀地区依次为邢台、石家庄、邯郸、衡水、保定、天津、唐山、北京、廊坊、沧州、秦皇岛、张家口、承德;珠三角地区依次为肇庆、东莞、佛山、中山、江门、珠海、惠州、深圳.

3 数据真实性时间上的判别

3.1 判别原理

由于污染物的变化在时间具有连续性,可以根据某一地区的各种污染物浓度随时间变化的折线图变化的规律性来判断数据的真实性.若数据发生突变,出现了明显的不连续性,便可以认为此时数据有很大的不真实性.

如果数据经过了有目的人为改动,其峰值消失速度就会比出现的速度快,其峰值出现以及消失的形状大致如图3左图所示,而真实数据的峰值出现速度和消失速度大致相同,其形状如图3右图所示[5].

图3 两种连续性变化曲线

3.2 判别结果

以京津冀地区的石家庄为例,作其污染物浓度变化曲线,如图4所示,在研究时间段内存在数据变化异常点.通过对各地区数据真实度较低城市的的各项数据观察,可以得出:在出现不真实数据时,普遍存在5项指标同时作假现象;在时间上,不真实数据易出现在每月的污染物浓度最高峰之后,在年底数据作假现象也比较严重;在空间上,京津冀地区出现不真实数据的城市最多,长三角地区次之,珠三角最少.

图4 石家庄12月份各项污染物浓度变化

4 结束语

该文根据污染物浓度在空间变化上的连续性,通过多元线性回归结果,对整个地区的数据真实性进行判别;利用时间上变化的连续性,通过各项污染物浓度变化折线图较为直观的观察出数据异常点.不真实数据主要分为主观性错误和非主观性错误两类.对于前者,相关部门和社会应加强监督,对于后者应提高测量仪器的精确度,提升工作人员的专业素养等[6].

猜你喜欢

因变量真实性空气质量
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
论三维动画特效数字模拟真实性与艺术性的结合
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
追求真实性永远是记者的基本准则
广告的真实性
偏最小二乘回归方法
车内空气质量标准进展
重视车内空气质量工作 制造更环保、更清洁、更健康的汽车
开展“大气污染执法年”行动 加快推动空气质量改善
回归分析中应正确使用r、R、R23种符号