基于多元线性回归方程安顺市四季AQI预报模型的建立与效果评估
2022-01-25曹青吴哲红陈贞宏徐良军
曹青 吴哲红 陈贞宏 徐良军
摘 要:对安顺市2015—2019年包括日平均气温、平均相对湿度、平均本站气压、日照时数等18个地面气象观测要素和污染累积基础(前一日AQI值)与当日AQI作相关性分析,选用强相关因子建立四季多元線性逐步回归模型,运用等级评分、准确率、标准化平均误差(NME)等6种参数对4个模型预报效果进行评估。得出以下主要结论:四季AQI与气象要素值均表现出明显相关关系,春、夏季预报效果优于秋、冬季,四季AQI预报模型均可以满足实际运用需求。
关键词:AQI;相关性;多元线性回归;效果评估
中图分类号:X513 文献标识码:A
Abstract:Correlation analysis was conducted for 18 meteorological observation elements,including daily average temperature,average relative humidity,average atmospheric pressure,sunshine duration,and pollution accumulation basis(AQI of the previous day)and AQI of the current day in Anshun from 2015 to 2019,and a multiple linear regression model was established with strong correlation factors.Six parameters,such as grade score,accuracy and normalization mean error(NME),were used to evaluate the prediction effects of the four models.The main conclusions are as follows:AQI in four seasons shows obvious correlation with meteorological element values,the forecast effect of spring and summer is better than that of autumn and winter,and the forecast model of AQI in four seasons can meet the practical application requirements.
Keywords:AQI;correlation;multiple linear regression;effect assessment
安顺市作为中国优秀旅游城市,空气环境质量是影响旅游发展关键因素之一[1]。通过对空气质量与气象条件的关系研究,可以依据对有关气象要素的预报在一定程度掌握空气质量发展趋势[2]。
国内外学者开展了许多相关研究,对各类模型进行对比分析,叶斯琪等[3]阐述了统计模型在城市空气质量预报中的应用优势,结果表明:多元回归模型平均准确率在4种模型中最高;宋丹等[4]运用多元线性逐步回归和BP神经网络方法,对贵阳市2015—2016年AQI建立模型,结果表明回归模型优于BP神经网络与CUACE模式;Shams等[5]使用2015年每日空气污染指数和气象要素建立空气污染指数多元回归预测模型,显示与非线性模型相比,多元逐步回归模型预测AQI的效果较好;Gogikar[6]对在印度阿格拉地区2011—2015年建立的PM2.5预报模型,得出多元线性回归优于其他两种模型的结论。
本文对安顺市2015—2019年每日地面气象要素与当日空气质量指数(AQI)作相关性分析,建立多元线性逐步回归模型,并检验模型预报准确率,对模型预报效果进行评估。
1 数据来源与分析
1.1 数据采集
日气象观测数据来自安顺国家基本气象观测站,该站为集成式新型自动气象站,在每日气象观测要素值中选出连续性较好且对气象条件具有代表性的因子共18个,分为8类,其中平均气温、日最高气温、日最低气温作为气温类代表因子,平均湿球温度、平均相对湿度、平均露点温度、平均水汽压作为湿度类代表因子,平均风速、最大风速、最大风速的风向(正北向记为1,顺时针每30°记为1个整数,以最接近方向记为整数1到12)表征风要素,平均本站气压、日最高本站气压、日最低本站气压、平均海平面气压表征气压要素,降水量、平均总云量、最小能见度、日照时数则各自表征降水情况、云量、能见度和日照辐射情况。
每日AQI值由安顺市4个国控空气监测站点6种大气污染物(SO2、NO2、O3、CO、PM2.5、PM10)每日24小时浓度均值计算得出。
1.2 数据分析方法
1.2.1 相关性分析
相关分析主要是研究两个变量间线性相关程度的强弱,即密切程度。本文主要使用了Pearson与Spearman系数,Pearson系数主要用于定距变量(间隔变量)间相关分析,计算公式(1)如下:
Spearman系数主要用于定序变量间相关分析,计算公式如下:
1.2.2 多元线性回归方程
在线性回归中,如果有多个自变量与因变量呈线性关系,则称为多元线性回归分析,多元线性回归的数学模型为:
其中ε表示由于随机误差或其他因素的变化引起的y的线性变化部分,其余部分表示由于x的变化引起的y的变化部分。根据相关数据求得线性方程后,再对方程进行F、t检验。
1.2.3 模型效果评估
等级评分用于衡量对空气质量等级预报准确率:
等级评分=RARA+RB+RC+RD+RE+RF×100%(4)
其中RA表示预报等级正确的天数,RB、RC、RD、RE、RF分别表示预报等级绝对误差为1~5级的天数[4]。
准确率用于评价预报值与实测值之间量化差异[7]:
准确率=1-预测值-实测值实测值×100%(5)
标准化平均偏差(NMB)反映的是模型预报值与实测值的平均偏离程度:
其中cf表示模型预报值,c0表示实测值。
标准化平均误差(NME)表示两者之间平均绝对误差:
均方根误差(RMSE)表示模型预报值与实测值偏离程度,越接近0,表示预测效果越好[8]:
Pearson相关系数(R)来评价模型预报值与实测值变化趋势的相关程度与拟合效果,越接近1,拟合效果越好,R的计算见公式(1)。
2 结果与讨论
2.1 四季AQI相关性分析
除选用18个日气象观测要素值外,将前一日AQI值作为浓度基础的代表自变量。作相关性分析,结果如表1,其中“**”表示双侧检验的显著性结果Sig值小于0.01,两者呈强相关关系,“*”表示双侧检验的显著性结果Sig值大于0.01小于0.05,两者呈较强相关关系,其余表示两者相关性较弱。
四季AQI与气象要素值均表现出明显相关关系:春季随着气温类别因子、日照时数和前一日AQI值的升高,空气质量越差;AQI随着气压类别因子、湿度、降水量、云量的增大而减小,空气质量变好;偏东方向的最大风速风向能使春季空气质量得到改善。夏季随着日最低气温、湿度类别因子、风速、降雨量、云量的增大而减小,空气质量得到改善,且偏西方向最大风速风向有利于大气污染的扩散。秋季AQI随着日最高气温、气压类别因子、日照、前一日AQI增大,空气质量呈下降趋势;随着湿度类别因子、风速、降水量和云量的增大,空气质量好转。与冬季AQI随湿度、平均水汽压、风速、降水量、云量的增大而降低,随着气温类别因子、气压类别因子、最小能见度、日照、前日AQI的增大而增大。
2.2 四季AQI预报模型的建立
选定18个因子与前一日AQI值作为自变量,当日AQI值为因变量开展分析。除去个别含缺测数据的天数,春季共有460组数据,运用SPSS软件,选取400组数据作相关性分析并建模,60组数据对模型预报效果进行评估;夏季共460组数据,其中400组建模,60组检验;秋季455组数据,400组建模,55组检验评估;冬季450组数据,400组做分析、建模,50组对模型进行检验。运用Excel中RAND函数对数据打乱,随机选取各季分别用于建模与检验的数据。
运用SPSS软件建立四季AQI预报模型分别为:
Y(春)=90.312-0.690E+0.370S+0.945R-0.001Q
Y(夏)=128.141+0.389S-0.708E-3.992C+1.710B-0.618J-2.640H
Y(秋)=94.185+0.506S-0.644E-7.491H-0.258O
Y(冬)=122.444+0.456S-0.833E-7.248H-0.001Q-1.103O
对四季模型进行F、t检验,F显著性检验值均小于0.05,可知模型回归效果高度显著,对各回归系数t检验显著性高,表明各因子回归系数可用,综上,模型显著性高,可作为预报方程。
2.3 模型预报效果评估
从模型评估结果(表2)来看,春季等级评分稍低,未达70%,其余季节均在70分以上,主要原因是春季AQI在临界值50左右的天数较多,预测值凡超过50则被记入等级预报有偏差的天数,造成等级评分较低;NMB除秋季外均体现出预测值偏高于观测值,但总体偏差低于10%;NME在15%左右,NME与RMSE秋、冬季均高于春、夏季,但RMSE均小于20mg·m-3;四季模型预测值与实测值相关系数高于0.7,在置信度为0.01时显著相关。从评估结果来看,四季模型均可以满足实际预报需求。
3 结论
(1)四季均与AQI呈强相关关系的有5个因子:日最高气温、平均相对湿度、降水量、日照时数和前一日AQI值。四季随着日最高气温、日照时数、前一日AQI值的升高,大气污染物之间进一步反应,空气质量呈下降趋势;而降水量、平均相对湿度、云量的增大,对大气污染物起到湿沉降作用,同时抑制了光化学反应,空气质量趋于好转。
(2)对建立的四季模型预报效果进行评估,等级评分在68%~85%,准确率在70%~85%,NMB在-0.5%~7%,NME在15%~32%,RMSE在8.5%~17%,R在0.708~0.925,春、夏季预报效果优于秋、冬季,四季AQI预报模型均可以满足实际运用需求。
参考文献:
[1]伍小飞.安顺城市旅游发展潜力评价[J].合作经济与科技,2017,32(06):42-43.
[2]张岳军,张怀德,朱凌云,何俊琦,韩照宇,冯坤.太原市PM2.5预报统计修正模型及其应用检验[J].环境科学研究,2018,31(07):1207-1213.
[3]叶斯琪,黄思远,陈多宏,李红霞,徐伟嘉,谢敏,沈劲,汪宇,潘月云,嵇萍.统计模型在城市空气质量预报中的应用[J].环境工程,2018,36(S):309-314.
[4]宋丹,夏晓玲,何玉龙,张蕾,杜正静.贵阳市空气质量预报方法与效果检验[J].气象与环境科学,2019,42(01):95-102.
[5]Shams R,Jahani A.Evaluation of the validity of multiple regression models in forecasting the air quality index(AQI)of Tehran[C].2018.
[6]Gogikar P,Tripathy M R,Rajagopal M,Paul K K,Tyagi B.PM2.5 estimation using multiple linear regression approach over industrial and non-industrial stations of India[J].Journal of Ambient Intelligence and Humanized Computing,2020,12(3):2975-2991.
[7]張婷.秦皇岛市空气质量预报方法研究[D].沈阳:东北大学资源与土木工程学院,2014.
[8]沈劲,钟流举,何芳芳,陈多宏.基于聚类与多元回归的空气质量预报模型开发[J].环境科学与技术,2015,38(02):63-66.
作者简介:曹青(1989— ),女,汉族,贵州贵阳人,硕士,助理工程师,研究方向:大气环境。