基于多元线性回归算法的雾霾预测模型的研究
2019-05-23谈进忠赵信一
李 悦,谈进忠,陈 鹏,赵信一
(乌鲁木齐气象卫星地面站,新疆 乌鲁木齐830011)
雾是大量微小水滴浮游空中,常呈乳白色,使水平能见度小于1.0 km[1],雾是一种自然现象,空气中水汽氤氲,雾虽然以灰尘作为它的凝结核,但总体是无毒无害;霾是大量极细微的干尘粒等均匀地浮游在空中,使水平能见度<10.0 km的空气普遍浑浊现象。霾使远处光亮的物体微带黄、红色,使灰暗的物体微带蓝色[2]。霾的核心物质是悬浮在空气中的烟尘和灰尘等物质,是由空气中的微小尘粒、硫酸盐、硝酸盐粒子、有机碳氢化合物等可吸入颗粒物组成。雾霾是雾与霾的混合物[3-4],雾霾能直接进入并且能够粘附在人的呼吸道和肺叶中,直接危害人体健康[5-7]。大量研究表明,雾霾天气的形成机理主要是:空气中的沙尘、粉尘、工业排放、汽车尾气等和二次气溶胶粒子,空气中的水汽也起着重要作用,直接影响着二次粒子的增大与散射率的变化[8]。张小曳等[9]研究发现,PM10质量浓度中有超过50%为二次气溶胶,而且二次气溶胶的形成和PM10的浓度变化受天气条件影响很大。近年乌鲁木齐市及周边人口的快速增长,汽车保有量的逐年攀升,米东工业区的飞速发展,车辆、工业排放源量的增加,PM2.5成为近年污染的主要问题[10-11]。乌鲁木齐冬季大气层结稳定,逆温层厚、持续时间长,频次高,冬季出现逆温频率在86%以上[12-13],风速较小,气象条件导致大气污染物不易扩散[14]。在冬季大气层结极为稳定的前提下,随着空气中PM2.5的浓度逐步加大,雾霾天气也在逐渐加重[15]。在不考虑扩散条件的前提下,选择污染物排放浓度因子研究乌鲁木齐污染物排放对大气污染的贡献,进一步认识控制排放的重要性,预测未来大气污染强度,对有效防治重污染实施积极措施意义重大。孟兆佳[16]、付倩娆[17]等研究了利用多元回归方法建立雾霾预测模型取得了较好的效果,其中付倩娆通过多元线性回归建立了PM2.5含量预测模型,并将气象要素作为雾霾的判断标准,利用多元线性回归对北京未来1 d、3 d及一周的PM2.5的含量进行较为精确的预测。本文试图通过对乌鲁木齐市大气环境监测站点数据进行多元线性回归分析,利用MATLAB建立动态预测模型,选择逐日PM2.5、PM10、SO2、NO2、CO的量值作为影响乌鲁木齐雾霾天气的主要因子,研究雾霾天气预测方法,输出次日的污染指数分级,发现有较好的拟合度和预测准确率,能够对雾霾天气提前预警,对提出防范措施具有较重要的参考价值。
1 研究区概况及数据来源
乌鲁木齐三面环山,东北低、西南高,呈簸箕形,冬季盛行东北风,特殊的地形地貌以及气象因素使得乌鲁木齐冬季风速为全年最小,冬季平均风速仅2.3 m/s,1月平均风速不足2 m/s,冬季大气层结极为稳定,逆温出现频率高达87%~92%[18-19],逆温频次高,强度强,混合层高度低,持续时间长,近地面风速小而主导风向不稳定,污染物扩散能力差,利于积累[13、18],这样的气象条件极其不利于污染物的扩散,在强逆温天气持续稳定的天气条件下,污染物将不断积累,空气质量也将急剧恶化[18]。
本文选用的环境数据包括AQI(Air Quality Index,简称 AQI)实时数据、PM2.5小时值、PM10小时值、SO2小时值、NO2小时值、CO小时值、O3小时值,数据来源为新疆环境保护厅网站http://www.xjepb.gov.cn/和千人计划PM2.5特别防治小组信息平台(真气网)https://www.zq12369.com/,使用 java语言开发设计相关污染物浓度数据自动采集程序,采集了该网站2013—2015年乌鲁木齐市的所有环境监测站点数据。
2 乌鲁木齐市冬季大气污染因子间的关系分析
2.1 冬季AQI与污染因子间的关系分析
图1 AQI与污染物浓度因子相关分析
木尼拉·阿不都木太力甫[20]研究发现,2013—2016年乌鲁木齐市大气中PM2.5和PM10呈上升趋势,为首要污染物;NO2和SO2呈下降趋势,但变化趋势均不显著。污染负荷系数排序为PM2.5>PM10>NO2>SO2。SO2负荷系数最小并且有明显下降趋势,说明“煤改气”能源结构的调整对SO2浓度的降低起到了积极作用。在同样的扩散条件下,污染物因子的排放浓度和积累过程是重污染天气形成的主要原因。利用乌鲁木齐环境监测站2013年11月15日—2014年3月30日及2014年11月15日—2015年3月30日,2个冬季逐日AQI日平均值和日最大值分别与对应日的 PM2.5、PM10、CO、NO2、SO2日平均值和日最大值做相关分析(图1),PM2.5和PM10的日平均和日最大值与AQI相关最为密切,R2分别为0.846 5、0.595 9 和 0.779、0.829,其次是 CO,SO2、NO日平均值和日最大值与AQI也存在较为明显相关性关系,R2分别为 0.4259、0.1939、0.1958 和 0.275、0.201 1、0.108 9,均通过了α=0.01的显著性水平检验,这也说明影响乌鲁木齐污染指数的最主要是因子是 PM2.5、PM10和 CO。
2.2 冬季PM2.5与其他污染物浓度的相关分析
用乌鲁木齐环境监测站2013年11月15日—2014年3月30日及2014年11月15日—2015年3月30日PM2.5和PM10的日平均值分别与对应日CO、NO2、SO2的日平均值做相关分析(图 2),可以看出 PM2.5和 PM10与 CO、NO2、SO2相关十分密切,R2分别为 0.624、0.471 1、0.2571 1 和 0.588、0.471、0.281 1,均通过了α=0.01的显著性水平检验,说明在稳定不利于扩散的天气条件下,各种污染物同步积累增加,同时,空气中的细颗粒、工业废气、汽车尾气等与水汽结合形成二次粒子,使得PM2.5粒子增多加重雾霾天气。
2.3 冬季污染物浓度与次日AQI相关分析
为了分析污染排放因子对未来24 h空气质量的影响,分别用前1 d的污染因子PM2.5、PM10、CO、NO2、SO2浓度和AQI值与当天的AQI值分析其相关关系(图3),可见前1 d的污染排放因子和AQI与当天的AQI存在显著的相关关系,R2分别为0.503、0.433、0.332、0.359、0.203 和 0.531。在扩散条件没有发生大的变化前,也就是在没有强天气破坏稳定的大气层结前,污染物在大气中积累将加重次日的大气污染。因此,可以用污染排放浓度因子估测未来24 h的AQI值范围。
3 预测模型建立及测试
3.1 雾霾天气统计预测分析
雾霾天气的形成是由多种气候和环境因子综合作用形成的,例如大气稳定度、混合层厚度、温度、湿度、风向、风速,以及污染物 PM2.5、PM10、CO、NO2、SO2等排放量,由于乌鲁木齐冬季大气层结极为稳定,逆温频次高,强度强,混合层高度低,持续时间长,近地层风速小,近地面主导风向不稳定,使得污染源排放的污染物在近地层堆积混合[13]形成大量的二次气溶胶粒子,造成较严重的雾霾天气。大气环流、局地气象条件不易人为控制,而污染源排放是人为可控的[8-9,21-22],为了分析各种不同大气污染物排放量对乌鲁木齐大气污染、雾霾天气的影响,对乌鲁木齐市2013—2015 年冬季逐日 PM2.5、PM10、CO、NO2、SO2浓度数据与次日污染指数AQI进行回归分析,建立对应的预测模型,并利用预测模型对2013、2014年的污染指数进行拟合度测试,对2015年的数据进行试报测试,发现多元线性回归模型在雾霾天气预测中具有较好的拟合效果和预测效果。
Y 为因变量,X1,X2,...XK为自变量,当自变量与因变量之间成线性关系时,多元线性回归模型可表示为[23]:
图 2 PM2.5、PM10与 CO、SO2、NO2浓度相关分析
图3 前一天污染物浓度因子和AQI与当天AQI相关分析
其中,a0为常数项,b1、b2...bk为回归系数。
在式(1)中XK代表影响雾霾天气形成的污染物浓度因子,y代表污染指数(AQI),选择乌鲁木齐市环境监测站点2013年11月15日—2014年3月31日、2014年11月15日—12月30日逐日的AQI指数和前一日(T-1 日)PM2.5、PM10、CO、NO2、SO2浓度数据进行统计分析计算建模,使得预测数据与实际数据误差尽量小。
3.2 雾霾天气预测模型训练过程
利用多元回归分析方法和MATLAB编程工具编写雾霾统计预测系统软件,系统自动获取大气污染物浓度数据,输出次日污染指数。传统多元回归分析预测方法依赖大样本数,采用固定的回归预测模型,而本系统采用起报日之前60 d的数据作为样本,进行多元线性回归分析,不断改进更新模型,既保证了预测的精度,又无需大量的样本数据,还可以及时调整预测因子,建立了雾霾天气预测模型训练流程(图 4)。
图4 雾霾天气预测模型训练流程图
雾霾天气预测模型训练过程主要包括以下步骤:
(1)历史气象环境数据采集;
(2)对采集到的数据进行归一化处理,消除不同数据度量标准的差别;
(3)将第2步形成的数据分成训练集和测试集两部分;
(4)利用多元线性回归算法进行训练,模型计算利用MATLAB;
(5)模型测试,并根据测试结果对模型进行参数优化。
3.3 数据处理
分别选取乌鲁木齐市2013年11、12月和2014年 1、2、3、11、12 月雾霾天气 PM2.5、PM10、SO2、NO2、CO日平均数据作为训练正例样本,再选取同时期等数量的晴好天气作为反例样本,正例样本和反例样本共同组成了训练集,再选取2015年1、2、3月雾霾天气和晴好天气作为测试样本,训练集准备好后,需对训练集进行数据归一化处理,利用(2)式对数据进行处理。
经过归一化处理后的数据全部在 [0.2,0.9]之间。数据要形成MATLAB能够处理的数据格式,每行数据的格式为:第一个数据为1或-1,代表雾霾天气和非雾霾天气,后面为6个经归一化处理后的PM10、PM2.5、SO2、NO2、CO 指标数据。
3.4 模型计算
利用MATLAB对模型进行计算,将处理好的X,Y数据矩阵导入 MATLAB,导入完成后在MATLAB 的 命 令 窗 口 输 入 [b,bint,r,rint,stats]=regress(Y,X,alpha),此时,MATLAB 将对数据进行计算,其中,b代表回归系数,bint代表回归系数区间估计,r表示残差,rint表示置信区间,stats表示用于检验回归模型的统计量,alpha表示显著性水平。
3.5 模型测试
模型计算完成后,代入2015年数据进行测试,2015年1—3月乌鲁木齐雾霾天气共发生17次,选取这17 d前一天数据进行测试,同时再随机选取2015年1—3月中任意17 d的晴好天气作为测试数据,经测试,模型准确度达到85%左右,图5为雾霾天气测试结果,图6为非雾霾天气测试结果。
通过以上预测试验对比,测试结果与实际值取得了较好的拟合效果,实验证明用多元线性回归算法对雾霾天气进行预测是一种有效的雾霾预测辅助手段。
图5 雾霾天气实际值与预测值对比结果
图6 非雾霾天气实际值与预测值对比结果
4 结论
(1)乌鲁木齐市大气污染指数与前一天的PM10、PM2.5、SO2、NO2、CO 浓度有密切的相关关系,在大气层结稳定的冬季,细颗粒排放是雾霾天气的决定因素,在没有强天气系统破坏逆温层时,由于地形和水平风速小的原因,前几天污染物积累,前一天的污染排放直接影响当天和第二天的大气环境,当相对湿度在80%左右时,形成雾霾天气,本项工作建立的多元线性回归模型和预测系统软件在雾霾天气预测中有较好的预测水平,能够在冬季雾霾天气预测业务中应用。
(2)通过对模型的试验测试发现,当不同影响因子之间呈线性关系时,多元线性回归算法计算的预测值具有较高准确度,在呈非线性关系时计算出的预测值精确度则较低,因此,后期还需研究非线性关系数据的计算模型,与多元线性回归算法进行对比,选择出具有更高拟合度预报准确度的预测算法。