基于大数据统计分析的全国PM2.5污染特征研究
2018-09-10任鹏举江帅王磊
任鹏举 江帅 王磊
文章采用大数据分析,对2018年春节期间全国370个城市的环境空气质量数据进行收集、处理与分析。因应用于传统环境分析的方法已无法完成对数据的分析,因此文章构建了无监督聚类、主成分分析(PCA)降维,核主成分分析(KPCA)降维等算法对数据进行分析,最后运用核化线性降维算法以及K均值聚类,划分出五类城市进行分析,减少了影响因素的缺失现象。
1.全国PM2.5数据概括
目前随着经济的发展,中国的环境污染问题也日趋严重,各省市出现空气严重污染的现象,空气污染已经成为了一个特别严重的问题。其中PM2.5是中国大部分城市的主要空气污染物,PM2.5粒径较小,表面积较大,易附带有毒物质,可随着人的呼吸进入人体内,导致各种疾病,对人体危害较大。
2.地区性差异影响因素分析
2.1全国空气质量数据的统计分析
本文针对已获取的空气质量数据进行处理,对环境污染物的来源进行解析,选取了全国370个城市的PM2.5、PM10、SO2、NO2、CO以及O3为数据特征,并希望通过探究不同特征之间的相关性强弱,从而更好地寻找出数据之间潜藏的有价值的信息。
2.1.1采用协同过滤的方法进行相关性分析
协同过滤是在信息过滤和信息推荐中大受欢迎的技术,与传统的基于内容过滤直接分析内容不同,分析数据之间的相似性,在数据的群组中找到指定的相似的数据,可以形成系统中不同数据组的相似性预测。本文采用协同过滤的方式得出了全国所有城市PM2.5与SO2、NO2、CO、PM10和O3之间的相关性。
2.1.2区域分析概述
2018年春节期间,就全国整体情况而言,PM2.5与NO2、CO相关性最为明显。这两者都与汽车尾气排放,工业生产有关。但考虑到春节期间的情况,工业生产不会对数值造成太大的影响,可以推断出在此期间造成PM2.5污染的主体是汽车尾气排放。
2.1.3分析总结
通过对具体城市数据分析发现单纯的依靠行政区域与地理因素对全国进行划分处理并不可取,所得出的数据仅表示这一区域的整体情况,对于该区域的所有城市并不具有代表性。因此这里只采用分析总结方式对全国数据进行处理分析。
2.2聚类分析
使用K均值聚类法进行分析时,随机确定了K个中心点,选取全国所有城市的SO2、PM2.5、PM10、CO、NO2和O3六项空气质量数据为特征,分配给最临近的中心点,待分配完成之后,聚类中心就会移到分配给该聚类的所有节点的平均位置处,然后整个分配过程重新开始。
2.3主成分分析
主成分分析是最常用的一种降维方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质。核心在于PCA认为数据集中的主成分,从而将多个原特征在此维度进行线性组合。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量。
2.4核化线性降维
核化线性降维是基于核技巧对线性降维方法进行“核化”。它可以有效处理高维输入、改变各种核函数方法的性能、针对不同的应用选择不同的核函数和算法。
3.结束语
应用相关性分析发现PM2.5与区域经济增长所依賴的生产方法,城市居民的生活方式和自然环境有较大关系。
采用大数据分析,对2018年春节期间全国370个城市的环境空气质量数据进行分析。通过构建聚类、主成分分析、核化线性降维等算法应用于空气质量数据,得到了较好的分析结果。为环境的大数据分析提供了概念的指引。为环境科学研究工作人员提供了一种技术手段。
应用聚类分析将全国370个城市划分为长江三角洲,珠江三角洲,中部城市,北方城市为代表的五种类型城市。并发现长江三角洲与珠江三角洲地区的PM2.5与NO2、SO2的相关性出现较为特殊现象,这有待进一步的研究。