基于均值化主成分分析法的天津市空气质量影响因素分析
2018-05-16刘树东
李 栋,刘树东,刘 榕
(天津城建大学 计算机与信息工程学院,天津 300384)
人们平时所说的雾霾,是两种物质的混合体,即雾和霾.雾是大量悬浮在空气中的小水滴,属于正常的自然现象.而霾的组成很丰富,其中最主要的组成部分是燃烧产生的二氧化硫,氮氧化物以及各种可吸入的颗粒物,其中可吸入的颗粒物对人体危害是最为严重的.可吸入颗粒物的大小约为10微米,它经常堆积在人体的上呼吸道,会被鼻子内的毛发拦截;而其他小一点的颗粒物,鼻毛无法阻挡,约5微米的小颗粒就可以进入呼吸道的深部;大气中直径小于2.5微米的细颗粒物,即PM2.5,会直接进入到人体的细支气管并堆积在肺泡中,影响肺部的正常换气功能,从而引发呼吸道的炎症,并且可以携带大量病毒或者重金属污染物和致癌物质,导致引发各种疾病,使人间接死亡[1].
随着我国城镇化节奏的加剧,空气污染问题的解决迫在眉睫,尤其京津冀地区的大气质量令人堪忧.据统计2016年天津市全年重度污染天数达29天,轻度污染天数达全年的三分之一,PM2.5、PM10、NO2平均浓度均超过国家标准值.其中,PM2.5平均浓度为69 μg/m3,超标 0.97倍;PM10平均浓度为 103 μg/m3,超标 0.47倍.重污染天气的形成与污染排放、地形等因素密切相关.就天津市而言,这里人口密集,城市高层建筑集中,重工业发达,同时冬季能源消费量巨大,能源消费结构不完善,分析该地区雾霾成因并对雾霾天气的状况做出相应的对策显得极为重要[2].近几年来,国内外学者对大气环境质量评价投入了很多的精力,提出了多种评价方法,取得了一系列的研究成果.
目前环境评价领域的很多研究者一直致力于寻找一种可靠性高、评价结果准确的方法,但由于评价体系的复杂性,研究者仍在对已有的评价方法不断地改进以提升性能,在实际应用中各种方法与模型还需要进一步的验证.为有效解决天津市空气质量问题,需要对空气质量环境做出科学的评价,并分析主要污染物以及实际影响空气质量的因素.据此,本文采用改进的主成分分析法对天津市空气质量指数AQI以及实际影响空气质量的六大监测指标PM2.5、PM10、NO2、CO2、CO、O3进行降维处理,去除之间的相关性给空气质量评价带来的影响,保留了原始数据的全部信息,消除了各指标量纲之间的差异,提高了分析的精度[3].
1 传统主成分分析法
1.1 基本原理
主成分分析法是把原来多个变量通过线性变化为少数几个综合变量的一种统计分析方法,将原来众多的具有一定相关性的因子x1,x2,…,xp(比如p个指标),通过降维处理成一组较少个数的综合变量Zm来代替原始预测因子,大大减少分析过程中的计算工作量,并且消除了原始因子之间的相关性.
1.2 计算步骤
(1)数据标准化.为消除由于原始数据差异过大,量纲不同带来的影响,对原变量进行标准化处理.假设有n组数据,每组数据共有p个变量因子,这样就构成了一个n×p阶的矩阵,即
通过公式(2)进行中心标准化处理生成标准矩阵Z,即
式中分别为第 j个因子的样本均值和样本标准差.
(2)建立相关系数矩阵,即
解样本相关矩阵R的特征方程|R-λIp|得p个特征根 λ1,λ2,…,λp以及对应的单位特征向量 αi.
(3)计算主成分贡献率并确定主成分,即
式中:主成分的方差贡献率αi用来反映原始变量因子包含信息量的大小,一般取累计贡献率达80%~95%的特征值 λ1,λ2,…,λm所对应的第一,第二,…,第 m个主成分,即F1,F2,…,Fm中m的确定是通过方差累计贡献率G(m)来确定,即
(4)计算主成分综合得分.原变量因子xj在诸主成分Fi上的荷载lij反映各主成分与原因子之间相互关联程度,即
计算样本在m个主成分上的得分,即
计算综合变量PCA,得
其中:综合变量PCA是评价是否为雾霾天的主要依据,即BP神经网络的输入.
1.3 主成分分析法的应用
在实证问题研究中,为了全面、系统地分析问题,必须考虑众多影响因素,在多元统计分析中也称为变量.因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠.在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多.主成分分析正是适应这一要求产生的,是解决这类问题的理想工具.
同样,在科普效果评价过程中也存在着这样的问题.科普效果是很难具体量化的,在实际评价工作中,通常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点.如上所述,主成分分析法正是解决这一问题的理想工具.因为评价所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素.根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合.这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使研究者在研究复杂的科普效果评价问题时,通过对主分量的重点分析,达到对原始变量进行分析的目的.
2 均值化的主成分分析法
传统的主成分分析法就是将这p个指标的问题转化成p个指标的线性组合问题,从而得到一些新的指标 F1,F2,F3,…,Fm(m≤p),且保留主要信息量来反映原指标的信息.由于选取主成分的同时,需要消除各个指标之间的相关性,每个主成分的系数平方和为1,即
各主成分之间相互独立,主成分的方差依次递减,则重要性依次递减[4].由此可知,原始数据不仅仅只包含各指标间相互影响程度的信息,而且还包括各指标离散程度的差异信息.由于传统的主成分分析法为消除由于原始数据的量纲不同带来的影响,对原指数据采用标准化处理,标准化处理后的各指标之间的方差均等于1,进而也丢失了各指标间的离散程度上的差异信息,提取后的主成分不能准确地反映原始数据包含的全部信息.基于此,本文选择均值化处理原始数据,即通过公式(10)对原矩阵进行均值化处理,生成均值化矩阵Z′=(Zij)p×p.原变量通过均值化处理过程如下式
式中为第j个因子的样本均值.然后计算均值化矩阵Z′的样本协方差矩阵S=(Sij)p×p.样本协方差处理过程如下式
式中为第i个因子的样本均值.然后根据协方差矩阵进行主成分分析,可以得出,均值化处理后的数据不改变原指标间的相关系数,同时也没有丢失各指标间的离散程度差异对所选取的主成分的影响[5].
3 实例分析
3.1 数据选取
本文选取实际影响天津市空气质量的6种污染物细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)日均浓度作为评价指标[6].监测数据样本来源于2016年全年天津市天津环境保护局对6项指标的实际监测的日均浓度值,共365组数据.各项指标的部分监测数据如表1所示.
表1 天津市雾霾因子监测原始数据 μg·m-3
3.2 主成分提取
按照2.2节中主成分分析的步骤,根据公式(10)计算协方差矩阵以及相关系数矩阵,分别得到由传统主成分分析法以及均值化主成分分析法提取的各因子之间的相关系数矩阵,如表2、表3所示.
表2 传统主成分分析法提取的相关系数矩阵
表3 均值化主成分分析法提取的相关系数矩阵
由表2、表3对比可知,各指标之间具有相关性,且由均值化主成分分析法提取的各成分相关系数相关性更加明显.由此可知,均值化主成分分析法不仅消除了原始数据量纲之间的差异并且保留了原始数据的全部信息,根据公式(4)计算相关系数矩阵的特征值、特征向量和累计贡献率见表4[7].因子载荷矩阵见表5.
表4 解释总方差
表5 因子载荷矩阵
从表4可以看出,前两个主成分的贡献率达86.274%,已经大于85%,可以代表原始数据绝大部分的信息,所以可以确定主成分个数为2个[8].根据公式(6)、(7)可得出两个主成分与各个变量之间的线性组合分别为
将各主成分得分与对应的方差贡献率加权得到的总和,即为综合变量PCA,且
3.3 结论分析
从表5可以看出,第一主成分F1与PM2.5、PM10、SO2、NO2、CO日均浓度值成正相关,与O3成负相关,其中与NO2日均浓度的相关系数达到0.924,呈高度相关,所以第一主成分主要代表了 PM2.5、PM10、NO2、CO日均浓度的变化情况.第二主成分与SO2成正相关,相关系数达0.739,与O3成负相关,所以第二主成分代表了SO2与O3的变化情况.根据均值化主成分分析的结果可知,天津市空气污染物主要为PM10、NO2,其次为PM2.5、SO2,属于典型的煤烟型污染.其中,以汽车尾气为主要来源的氮氧化物污染为影响天津市全年空气质量的主要污染物,而可吸入颗粒物的污染也是重要因素,这说明天津市空气质量污染源主要还是汽车尾气、燃料油燃烧、燃煤、施工带来的扬尘、运输以及各类施工带来的二次扬尘.同时由于天津市地处平原,能源结构单一,市区内高层建筑密集,阻碍空气对流运动,导致存在静风现象和逆温层,大量可吸入颗粒物以及细颗粒物悬浮在空中,不利于短时间扩散,从而使得空气污染程度加重,出现雾霾天气[9].同时,通过对天津市各项空气质量污染物的月变化趋势分析可知,1月、11月、12月各项污染物的均值均高于其它月份,6—8月雾霾污染程度较轻,可吸入颗粒物日均浓度均小于其它月份,主要污染物为O3.这是因为冬季天气寒冷,空气相对干燥,采暖措施单一以及燃气改造等道路施工等未进行有效的抑尘,出现大风天气的时候,加重了空气污染程度.另外,随着经济的发展,人们生活的普遍提高,私家车数量剧增,排放的汽车尾气量逐渐增多也是导致空气环境质量下降的重要因素[10].
3.4 控制途径
天津市的空气污染主要表现为污染来源复杂,汽车尾气污染、扬尘污染、煤烟型污染等多种污染并存的特点,同时不利的气象条件以及城市高楼密集等多因素影响不利于污染扩散.随着我国经济的全面发展,控制空气环境污染是构建和谐社会的重中之重,对于天津这样一个经济相对发达的城市,空气环境的改善将是一个缓慢且艰难的过程.现提出以下防治措施,以期对改善天津市空气质量起到一定作用.
(1)控煤.加快建设高污染燃料禁燃区,改燃并网燃煤锅炉,积极发展可以替代的清洁能源,改善能源结构中煤的比重,大力发展可再生能源,严格控制市区内煤烟排放.
(2)控车.加快老旧车淘汰,强化机动车污染治理,大力发展城市交通,城市交通的落后必然会导致私家车的剧增.
(3)控尘.建立健全的扬尘在线监测系统和视频监控,严禁秸秆燃烧,严禁渣土污染,建立健全的空气污染环境的法律法规,加大执法力度.
(4)控工业污染.实施重点工业企业脱硫、脱硝和挥发性有机物治理,推行燃气锅炉低氮燃烧改造,同时着力削减燃气设施氮氧化物的排放.
(5)建立完善的雾霾监测系统.虽然陆续一些城市、机构都建立了相应的雾霾监测系统以实现对雾霾的实时监测,但从雾霾的严重程度引发的环境安全危机可以看出,环保机构在监测方面做的仍是不够完善的.现在,随着雾霾监测逐渐走向系统化,国家也应建立严格的规章制度,保障雾霾监测系统市场化;并对污染源严格监督控制,建立完善的雾霾监测系统,实现对雾霾的实时监测,为政府有关部门防治雾霾提供有效的数据支撑.
4 结语
本文利用均值化的主成分分析法对实际影响天津空气质量的六大污染因子进行特征提取,分析提取到的各主成分,得出天津市空气污染主要来源于汽车尾气、燃料油燃烧、燃煤、施工带来的扬尘、运输以及各类施工带来的二次扬尘等.针对各类污染提出了一系列防治措施,希望能对改善天津市空气质量提供支持.
参考文献:
[1]侯琼煌,杨 航.基于三次指数平滑模型的雾霾天气分析与预测[J].环境保护科学,2014,38(6):73-77.
[2]孙永鹏.天津市环境空气污染状况及控制措施探析[J].科技论文与案例交流,2014,15(8):80-81.
[3]YU H L,WANG C H.Retrospective prediction of intraurban spatiotemporal distribution of PM2.5in Taipei[J].Atmospheric Environment,2010,44(25):3053-3065.
[4]VOUKANTSIS D,KARATZAS K,KUKKONEN J,et al.Intercomparison of air quality data using principal component analysis,and forecasting of PM10and PM2.5concentrations using artificial neural networks,in Thessaloniki and H elsinki[J].Science of the Total Environment,2011,409(7):1266-1276.
[5]苗亚男.基于卡尔曼滤波的ARIMA-GM雾霾预测及扩散消失模型研究[D].吉林:吉林大学,2016.
[6]周松林,茆美琴,苏建徽.基于主成分分析与人工神经网络的风电功率预测[J].电网技术,2011,35(9):128-132.
[7]ZHOU Binbin,DU Jun.Forecast of low visibility and fog from NCEP[J].Current Status and Efforts,Pure and Applied Geophysics,2011,169:895-909.
[8]VARDOULAKIS S,KASSOMENOS P.Sources and factors affecting PM10lecels in two European cities:implications for local air quality management[J].Atmospheric Environment,2008,42(17):3949-3963.
[9]丁 卉,刘永红,曹生现.基于模糊-灰色聚类方法的城市空气质量评价研究[J].环境科学与技术,2013,36(S2):374-379.
[10]陈 辉,厉 青,杨一鹏.基于分形模型的城市空气质量评价方法研究[J].中国环境科学,2012,32(5):954-960.