基于主成分分析的空气质量指标预测模型
2019-01-23
(广东财经大学 经济学院 广东 广州 510320)
引言
我国经济高速发展的同时,也伴随着大量的环境问题,雾霾这一名词的出现,也标志着我国由于工业化的进程对环境的造成了显著影响。生活环境的变化,给人们的衣食住行都带来了一系列的不便。其中,空气质量变成人们日益关注的指标。因此,针对空气指标的研究变得具有现实意义。寻找影响AQI的合理算法成为本文的主要研究方向。
对广州市的各项空气指标做简单的散点图可以看出,各项指标在第一季度的数值较高,之后呈现下降趋势。各项空气质量指标存在季节性变动。大气环境污染影响着人们的健康生活,因此对AQI进行建模能够为人们提供一个实时可查询的信息。进而对这些环境指标的来源进行分析,对于环境保护存在指导意义。
一、数据的收集与整理
本文数据来源于中国空气质量在线监测分析平台历史数据。选取了2018年1月1日到2018年9月22日每天逐个观测时间点的数据,将各个时间点的均值作为当天的值。对于有规律的缺失数据进行批量删除。进而得到每天各个指标的平均值。
通过对各个变量画散点图、以及做相关性分析后发现,变量AQI和变量PM10、PM2.5、SO2之间有很强的相关性。AQI是通过一定的规则由PM2.5计算得出,因此,这也解释了它们之间存在很强相关性的原因。在不满足多元线性回归的基本假定的情况下,因此,排除AQI对CO、NO2、O3、PM10、PM2.5、SO2这几个变量进行主成分分析。
二、主成分分析原理
主成分分析的原理是,变量越多,对事物特征的反应就越完整、准确,但同时大量描述同一事物特征的变量数据叠加在一起可能造成信息严重重复,甚至会掩盖事物内部的真正规律。主成分分析的作用就是从现有的众多变量中,得出若干个起主导作用的综合指标,并且可以判定这些综合指标对所研究的事物或问题所起作用的大小。通过主成分的研究,既可以抓住原始变量所表达的重要信息,又减少了需要关心的变量数量,使得实际的应用和操作得到简化。
(一)主成分分析的定义与计算
假设某待分析的数据中每个完整的观测有P个变量,分别用X1,X2,…,Xp表示,这个P个变量构成了p维的随机向量X=(X1,X2,…,Xp)。每一个观测对应值是随机变量X的一个取值。为随机向量X的协方差阵。那么根据高等代数的理论可知,一定存在正交矩阵U,使得:
U′∑U=Λ
其中Λ为对角矩阵diag(λ1,λ2,...,λp),并且λ1≥λ2≥...≥λp≥0。
这时对X进行如下线性变换,使得:
Y=U′X
三、结果及分析
首先对数据进行标准化处理,再对数据进行主成分分析,得出的结果如下:
本操作过程主要由SAS软件实现。
从相关矩阵的特征值可以得出,对应于特征值4.21的这成分能解释70.17%的变异;对应于特征值1.10的主成分能解释88.53%的变异;对应于特征值0.35的主成分能解释94.41%的变异。前三个主成分能解释的变异比例达到了94.41%。
因子模式
根据相关系数矩阵的特征值可以写出前三个主成分得分:
Factor1=0.81100*CO+0.93247*NO2+0.18133*O3+0.96572*PM10+0.95701*PM2_5+0.89547*SO2
Factor2=-0.37813*CO-0.10038*NO2+0.95694*O3+0.11084*PM10-0.00859*PM2_5+0.14285*SO2
Factor3=0.41664*CO-0.05077*NO2+0.21703*O3-0.03667*PM10+0.02601*PM2_5-0.35668*SO2
主成分的个数为3个,通过原始变量的线性组合得到主成分。第一主成分PM2_5、PM10指标的系数较大,这三个指标起主要作用,因此,我们可以把第一主成分看做由细微颗粒所组成的反应环境质量的颗粒指标。在第二主成分中,O3、CO指标的影响大,可以看做碳氧综合指标。在第三主成分中,CO、SO2的系数较大,远远超过其他指标的影响,可以看做碳硫综合指标。
(一)主成分回归
利用三个主成分对AQI进行回归。
R方= 0.8977,表示回归模型能够解释响应变量89.77%的变异。三个主成分对应的P值都小于0.0001,则其系数都是显著不为0。即各个系数都经过了假设检验且显著不为0。
预测的回归模型为:
从主成分Y表达式的系数可以看出:Y主要受O3和PM2.5的影响。