基于R语言的城市PM2.5影响因素分析
2019-07-03解蕾狄光智
解蕾 狄光智
摘 要:以R语言为数据分析的工具,基于相关分析和回归分析方法,对太原市PM2.5的影响因素进行分析。研究PM2.5与其他气态污染物之间的关系,探讨各气态污染物在PM2.5二次合成中的贡献;建立PM2.5和PM10的回归模型,方便通过PM10对PM2.5进行预测。结果显示:(1)太原市区空气污染物中,PM2.5和PM10相关性最强;(2)PM2.5和PM10回归分析得到回归模型为PM2.5=0.63PM10-11.76(R2=0.8427),回归方程拟合度较好;(3)PM2.5和其他气态污染物多元线性回归模型为PM2.5=0.24SO2+20.08CO+11.54(R2=0.4844),拟合度检验效果一般,考虑三者之间还有其他因素的影响。
关键词:R语言;数据分析;相关分析;回归分析
中图分类号:TP315.69 文献标识码:A
Abstract:Using R language as a tool for data analysis,based on correlation analysis and multiple linear regression analysis methods,the paper analyzes the influencing factors of PM2.5 in Taiyuan City,studies the relationship between PM2.5 and other gaseous pollutants,and explores the contribution of gaseous pollutants in secondary synthesis.The regression model of PM2.5 and PM10 is established to facilitate the prediction of PM2.5 through PM10.The results show:the correlation between PM2.5 and PM10 is the strongest among the air pollutants in Taiyuan;the regression model achieved through the regression analysis on PM2.5 and PM10 is PM2.5=0.63PM10—11.76(R2=0.8427),with high fitting degree;the PM2.5 and other gaseous pollutants multivariate linear regression model is PM2.5=0.24SO2+20.08CO+11.54(R2=0.4844).The test results are general,considering the influence of other factors.
Keywords:R language;data analysis;correlation analysis;regression analysis
1 引言(Introduction)
PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物。它的直径还不到人的头发丝粗细的1/20。虽然PM2.5只是地球大气成分中含量很少的组成,但它对空气质量和能见度等有着重要的影响。与较粗的大气颗粒物相比,PM2.5由于粒径小,富含大量有毒、有害物质,且在大气中停留时间长、输送距离远,因而对人体健康和大气环境质量影响更大,是导致心脑系统和呼吸系统的损伤,增加患癌症的风险,以及雾霾产生的主要因素[1-3]。
本研究通过python编写接口程序,获取太原市九处国控监测点,2014年3月至2018年2月的PM2.5及其他污染指标数据。通过对近四年的数据进行统计分析,探讨太原市PM2.5形成的影响因素。此研究将为太原市相关管理部门和人员,对城市规划建设、城市环境治理和生态文明建设工作提供合理有效的科学参考。
2 R语言简介(Introduction to R language)
R是一种用于统计分析计算及图形化展示的开源软件,同时也是一种编程语言,它广泛应用于农业、林业、商业、工业、政府部门、医药和科研等众多涉及数据分析的领域,随着近几年数据挖掘、大数据等概念不断发展,R作为数据分析的利器也越来越多地被人关注[4-6]。
3 方法及原理(Methods and principles)
为了研究PM2.5和其他大气污染物和气象条件之间的关系,根据变量类型,在本研究中主要用到了二元定距变量的相关分析。二元定距变量的相关分析通过计算定距变量间两两相关的相关系数,对定距变量两两相关程度进行分析[7]。
4 分析过程(Analysis process)
4.1 PM2.5与其他污染物的关系
为了了解PM2.5和其他各污染物之间的关系,采用Pearson相关系数检验,从表1可以看出,PM2.5和PM10,PM2.5和SO2,PM2.5和CO之间有较强的线性相关性,相关系数分别为0.92、0.66、0.66,相伴概率P值均小于0.05,說明两两之间相关性很显著。PM2.5和PM10线性相关性最强,说明二者具有相似的污染源。除臭氧之外PM2.5和其他污染物的相关系数介于0.56至0.92,说明臭氧污染对PM2.5影响不大,太原市的PM2.5污染除一次排放之外,气态污染物的二次化学合成也占一定比重。
4.2 PM2.5与PM10的回归分析
我国对PM10的监测研究起步较早,由于空气质量的恶化和雾霾事件的频发,对PM2.5的关注是从近几年才开始,对PM2.5的监测区域和监测点数都有所限制,所以研究PM2.5和PM10之间的关系,探索分析二者之间的回归模型,对于PM2.5的预测和研究有重要的意义。
4.3 PM2.5与其他气态污染物的关系
PM2.5的来源比较复杂,除了土壤扬尘、植物花粉等自然源外,太原市的PM2.5污染只要是人为源,从之前的区域监测点数据对比,以及太原市空气污染物主成分分析可以看出,太原市的PM2.5污染源主要是以工业源和交通源。按照形成方式来看,PM2.5又分为一次排放和二次合成,由于工业过程和燃烧排放的气态前体污染物通过大气化学反应生成二次颗粒物。
通过相关性检验发现PM2.5和SO2、CO两种气态污染物之间关系最大,说明SO2和CO在PM2.5的二次合成中贡献较大,根据两年的样本数据,对PM2.5和CO、SO2进行多元回归,得出回归方程。
5 实例分析代码(Analysis code)
6 结论(Conclusion)
太原市区空气污染物中,PM2.5和PM10相关性最强,另外PM2.5和SO2、CO两气态污染物之间也有较强的相关性,
说明太原市PM2.5污染除一次排放之外,气态污染物的二次合成也占一定的比重。PM2.5和PM10回归分析得到回归模型为PM2.5=0.63PM10-11.76(R2=0.8427),回归方程拟合度较好;PM2.5和其他气态污染物多元线性回归模型为PM2.5=0.24SO2+20.08CO+11.54(R2=0.4844),拟合度检验效果一般,考虑三者之间还有其他因素的影响,PM2.5的形成除了气态污染物的二次合成,主要还有区域污染物的一次排放。
参考文献(References)
[1] Jihua Tan,Leiming Zhang,Xueming Zhou,et al.Chemical characteristics and source apportionment of PM2.5 in Lanzhou,China[J].Science of the Total Environment,2017,601-602:1743-1752.
[2] Ryou H G,B J H,Kim S.Source apportionment of PM10 and PM2.5 air pollution,and possible impacts of study characteristics in South Korea[J].Environmental Pollution,2018,240:963-972.
[3] Li R,Hardy R,Zhang W,et al.Chemical Characterization and Source Apportionment of PM2.5 in a Nonattainment Rocky Mountain Valley[J].Journal of Environmental Quality,2018,47:238-245.
[4] 李子伊.基于Excel和R语言的成绩统计分析——以福建省某中学期中、期末英语考试成绩为例[J].英语教师,2017,17(24):44-51.
[5] 周芸韬.基于R语言的大数据处理平台的设计与实现[J].现代电子技术,2017,40(02):53-56.
[6] 武茗馨.基于R语言的金融大数据审计应用研究[D].南京审计大学,2017.
[7] 李雄英.基于R语言的统计教学应用初探[J].高教学刊,2017(01):50-51.
[8] 董健卫,陈艳美,孟盼,等.回归分析与基于MIV的RBF神经网络在PM2.5的相关因素分析中的应用[J].数学的实践与认识,2017,47(10):127-136.
[9] 张红,董小刚,李群.PM2.5浓度影響因素的主成分回归分析[J].长春工业大学学报,2017,38(02):105-110.
[10] 杜续,冯景瑜,吕少卿,等.基于随机森林回归分析的PM2.5浓度预测模型[J].电信科学,2017,33(07):66-75.