城市空气污染数据真实性判别及分析研究
2019-10-21吴玉莹刘嘉美陈金鸿郭小强
吴玉莹 刘嘉美 陈金鸿 郭小强
摘 要:空气污染是指一些危害人体健康及周围环境的物质对大气层所造成的污染,空气质量问题始终是政府、环境保护部门和全国人民关注的热点问题。本文针对城市空气污染数据真实性判别分析研究问题,采用主成分分析法、多元线性回归法、相关分析,建立了主成分分析模型、各城市群气象数据真实性判定模型、相关分析等模型,并利用MATLAB做出AQI指数变化折线图判断,京津冀城市群空气质量数据误判的情況相对于其他城市要严重,城市空气污染数据存在不真实性,AQI、PM2.5、PM10与工业产值具有很强的相关性。
关键词:城市空气污染;主成分分析;多元线性回归;相关分析;MATLAB
0 引言
随着我国经济和社会的高速发展,城市一体化进程的加快,以及工业规模的扩大,尤其是煤和石油的大量使用,一些颗粒物、二氧化硫、二氧化氮等大量有害物质被排放到大气中,空气污染越来越严重,直接影响了生态环境,经济发展和人民的身体健康。由此,优良天数比率对城市建造具有一定的意义[1]。然而由于各种主观原因,会使采集到的数据具有一定的异常现象,所以分析研究空气污染数据真实性具有一定的意义。
1 理论基础
1.1 主成分分析法
在我们选取的京津冀,长江三角洲和珠三角中的十几个不同城市,计算出这些城市的空气的主要污染物:PM2.5,PM10,二氧化碳,二氧化硫和一氧化碳的年平均浓度,将影响空气质量优劣的指标看作不同主体。建立观测数据阵为:
1.1.2 对影响因素原始数据进行数据标准化处理
先求出各个指标,即因素的均值和方差,可以得到答题的影响因素关系式,然后再对该城市的空气质量影响的差别情况和对三个不同地区影响水平[2],也就是说i越大,第j个因素对第i个城市的空气质量的影响越大。
其中
计算样本相关系数矩阵
其中
对于每个城市的不同地区主体因变量来说,样本的相关系数 ,代表 个不同地区与因素之间的相关性关系,即 越接近1,则说明相关性越大,反之越小。
2 问题的求解
2.1 问题一
搜集相关空气质量和气候数据,分析空气质量数据的真实性,建立数学模型或者相应指标来确定是否存在数据不真实的现象。
2.1.1 模型建立与求解
首先我们作出了2015年1月2日到2015年2月28日这个时间段三个城市群AQI指数的变化折线图从而判断各城市群AQI指数分布是否一致。如果该城市群各指数在同一时刻差异较大则该城市数据存在偏差的现象可能较严重,再以PM10为被解释变量其他指标为解释变量对三个城市群所有城市进行多元线性回归,最后根据线性回归的结果选取残差平方和较大的城市。
根据所给的数据我们选取了2015年1月2日到2015年2月28日这一时间段三个城市群(京津冀、长三角、珠三角城市群)AQI指数的数据,利用MATLAB做出AQI指数变化折线图,结果如下图所示。
从图一、图二、图三、图四中可以看出京津冀城市群各城市之间AQI指数变化差异较大,长三角城市群和珠三角城市群各城市在这一时间段AQI指数波动情况相似并且AQI数值较为靠近[5]。由此可以判断,京津冀城市群空气质量数据误判的情况相对于其他城市要严重。
以京津冀城市群所有城市不同日期的空气污染数据作为随机变量的原始数据计算相关系数。设变量 分别为AQI指数、PM2.5浓度、PM10浓度、CO浓度、NO2浓度、SO2浓度,得到的相关系数矩阵如表一。
参考文献: (References)
[1] 张鹏.基于主成分分析的综合评价[D].南京理工大学,2004.
[2] 丁镭.中国城市化与空气环境的相互作用关系及EKC检验[D].中国地质大学,2016.