基于岭回归的空气质量影响研究现状
2014-09-04姚景雷永佳
姚景++雷永佳
摘要:综述了空气质量影响分析的研究现状,介绍了岭回归分析的原理及模型建立,指出了消除环境质量影响因素间的共线性作用是岭回归分析研究的方向,
关键词:空气质量;IPAT;岭回归;
近几十年中,关于环境质量的影响分析,尤其是环境质量与经济增长的关系研究成了大量文献关注的焦点。其中既有定性研究也有定量研究,除了常用的空气质量预测扩散模型外,定量研究的统计方法有多元回归、因子分析、聚类分析等。
1研究现状
(1)环境库兹涅茨曲线分析方法
对于环境质量与经济增长的关系,国内外学者已做了大量研究,且多数研究是基于EKC假说,单纯得研究了经济增长对环境质量的影响,而忽略了人口、产业结构、能源类型等相关因素的共同作用。刘敏等应用EKC模型对北京市和房山区1995—2003年的环境污染和经济增长进行了实证分析[1]。高明等运用1986—2009年福建省经济发展和环境质量指标的时间序列数据,建立EKC模型,对福建省的经济发展和环境污染之间的关系进行了定量分析[2]。
(2)基于IPAT方程的多元回归分析方法
相比于EKC假说,由Ehrlich.P 和J.Holdren提出的IPAT方程考虑了更多影响环境质量的因素[3]。王立猛等基于该模型分别采用能源消费总量和能源消费产生的污染作为环境压力指标,分析了人口数量、富裕度、能源强度和能源消费的选择行为对中国环境的影响[4]。
(3)因子分析方法
K.Madhavi Latha与K.V.S.Badarinath运用因子分析方法对城市区域大气悬浮颗粒的影响因素进行了探讨,并提出了区域空气污染的治理建议。Xue Song Wang等应用主成分分析对城市区域重金属污染的影响因素进行了综合归类分析,并以中国苏州为例进行了实证研究。朱晓华等则根据主成分分析法定量分析了江苏省生态环境质量变化的驱动机制问题[5]。
(4)灰色关联分析方法
灰色关联分析是灰色系统理论的一个重要内容,它通过系统因素统计数据序列几何关系的比较来分析多因素间的差异性和关联程度,从而找到各因素间的影响关系及影响系统行为的主要因子。王素萍等通过灰色关联度分析的方法,得出太原市大气环境质量的改善主要与城市基础设施的建设、面污染源的有效控制有关[6]。赵勇等通过对郑州市大气环境中NO2的监测和分析,运用灰色关联分析方法定量分析了影响郑州市NO2变化的因素[7]。
(5)数据挖掘方法
数据挖掘方法主要有神经网络,遗传算法,模糊数学,粗糙集等数学分析方法。但它们不是独立存在的,因为各有优劣,所以在数据挖掘中常常组合使用。
武鹏程应用神经网络和遗传算法等数据挖掘方法,建立了空气污染影响因素的遗传神经网络模型,利用MATLAB软件,定量分析了武汉市空气污染的影响因素 [5]。
2岭回归分析及IPAT方程
2.1 岭回归分析
Horel(1970)提出的岭回归分析是一种改良的最小二乘法,专用于数据分析的多重共线性有偏估计,自变量之间的是近似线性关系就是多重共线性。岭回归分析方法是最小二乘法无偏性的舍弃,通过部分信息和精度的损失代价换取更符合实际的回归系数,与最小二乘法相比,增强了对病态数据的抗受性。目前岭回归技术已经较成熟得应用于经济、医学、化学计量学等方面,如高素英等运用该技术对改革开放以来河北省经济增长的影响因素作了详细而深入的实证研究[8]。郭洁等基于该技术探讨了不同膳食因素与城市居民血脂水平间的关系[9]。
2.2 IPAT方程
IPAT方程是1971年由Ehrlich.P 和J.Holdren提出的环境压力等式,即I=P×A×T, 其中I为环境压力(Environmental Impact)、P为人口数(Population)、A为富裕度(Affluence,通常以单位人均GDP表示)、T为技术(Technology,以单位GDP产出的环境压力衡量)。该方程并非简单的数学乘法运算,它表示I是由P、A、T三种因素共同影响决定的,作为四者关系阐述的一个概念性框架被广泛应用于对人与环境相互关系复杂性和多样性的定量研究中。
因I与P、A、T均为1:1比例关系,该方程也存在着许多局限性,即在保持其他因素不变的情况下, 因变量对各个自变量的弹性恒等于1。随后众多学者在此基础上做出了许多改进,如Waggoner和Ausubel将单位GDP产出所需消费资源量(C)和消费单位资源产生的环境压力(T)引入,对IPAT等式进行重构得I=P×A×C×T。徐忠民等提出ImPACTS模型,用S和m分别代表了社会发展和管理的作用。这些扩展虽然都是对环境压力等式的改进,但仍然存在难以定量的问题。Dietz和Rose提出的STIRPAT模型很好的解决了这一问题,该模型将IPAT等式表示成随机形式:I=aPbAcTde (1),对该等式两边同时取对数后lnI=lna+blnP+clnA+dlnT+lne (2)式中a为模型系数,b、c、d为各影响因素的指数,e为误差项。该式很好得反映了环境压力与人口、富裕度、技术间的线性关系。
2.3模型的确定
以STIRPAT模型为基础,其中可以分别选取SO2、NO2、PM10排放量等作为环境空气质量指标表示I,用人口数量表示P,A为单位人均GDP,为了更全面地研究影响空气质量的深层因素,可以将T扩展为机动车保有量T1、年燃煤量T2、产业结构(第二产业产值占总产值的比重)T3、能源结构T4(天然气消耗占总能源的比重)、污染减排T5(污染物去除率)。因此,研究模型确定如下:
lnI=lna+blnP+clnA+d1lnT1+ d2lnT2+d3lnT3+d4lnT4+d5lnT5+ lneendprint
2.4岭回归原理及其步骤
解释变量的相关矩阵X的行列式在自变量之间存在共线性时近似为零,此时最小二乘法估计将失效。岭回归就是将岭参数k(0 岭回归分析方法步骤包括3步: ①多重共线性诊断:常见的诊断方法有自变量相关系数矩阵诊断法、条件数与特征分析法、容忍值法、方差膨胀因子(VIF)诊断法。可在SPSS软件中运用VIF诊断法对自变量因子进行诊断。 ②参数k值的选取:在实际应用中岭参数的确定必须依赖于样本,因为在岭回归中要通过未知参数β来确定参数k。目前还没有公认最优的选择岭回归参数的方法,常见的方法主要是残差平方和方法、岭迹法和方差扩大因子法,可用MATLAB软件作岭迹图来确定k值。 ③模型的建立:βk=(X′X+kI)-1X′Y 式中: βk是回归系数向量的岭回归估计;X为标准化后的矩阵; 0 3 结论和建议 以上研究都证实了岭回归技术在处理多重共线性问题上的独特优势,而在共线性问题非常严重的环境领域该技术的应用却还不够成熟和普遍。影响环境质量的各因素关系错综复杂,普遍存在于自变量间的近线性关系,大幅降低了估计值的稳定性和精确性,有些回归系数在回归方程高度整体显著时出现正负号倒置,通不过显著性检验,得不到该方程合理的解释,削弱了回归方程的应用意义。运用岭回归技术消除环境质量影响因素间的共线性作用,更科学得获取环境质量与经济增长等影响因素间的真实关系,对于改善环境质量、协调环境经济和谐发展有着重要意义。 参考文献 [1]刘敏,王书肖,段雷.北京市和房山区环境污染与经济增长的关系研究[J].环境保护科学,2007,(1). [2]高明,余明妹,胡存华.福建省经济发展与环境质量变化关系的分析[J].科技和产业,2011,(8). [3]Chertow M R. The IPAT equation and its variants: changing views of technology andenvironmental impact [J].Journal of Industrial Ecology, 2000,4(4):13-30. [4]王立猛,何康林.基于STIRPAT模型分析中国环境压力的时间差异以1952—2003年能源消费为例[J].自然资源学报,2006,(6). [5]武鹏程.基于数据挖掘的城区空气质量影响因素分析及实证研究[D].中国地质大学,2008. [6]王素萍,王凯.城市大气环境质量主要影响因素分析[J].重庆环境科学,2002,24(3):17-18. [7]赵勇,孙中党,李有.郑州市大气环境中的NO2污染与灰色预测[J].安全与环境学报,2002,2(4):38一41. [8]何强,吕光明.基于IPAT模型的生态环境影响分析---以北京市为例[J].中央财经大学学报,2008,(12). [9]王素萍,王凯.城市大气环境质量主要影响因素分析[J].重庆环境科学,2002,24(3):17-18.