基于BP神经网络的河北中南部空气质量预报研究
2019-06-12王式功杜亮亮
张 珺,王式功,杜亮亮, 王 娜
(1.兰州大学 大气科学系,甘肃 兰州 730000; 2.河北省邯郸市气象局,河北 邯郸 056001;3.河北省保定市气象局,河北 保定 071000;4.遵义院士工作中心 气候环境与医疗康养重点实验室,贵州 遵义 563000)
清洁的空气是人类赖以生存的基本环境条件。随着社会经济的发展,人类社会消耗了大量能源,呈现出空气污染物种类和浓度的增加,许多国家和地区面临着包括PM2.5、PM10、O3、氮氧化物(NOx)、CO、SO2等有害物质浓度增加的问题,空气污染已成为影响人类健康的重要因素,备受社会和公众的普遍关注[1-4]。
21世纪以来,随着社会经济的飞速发展,自然资源被大量消耗而引发的环境问题已成为当下许多发展中国家亟待解决的焦点问题。河北中南部煤炭、钢铁等重工业的能源发展结构使得大量污染物的排放,导致该地区重污染天气频发[5-7]。近年来,气象部门充分发挥了技术优势,对河北中南部区域环境气象实施了有效监测,通过对大气污染特征分析,以期找出相关的气象因素,进而提升河北中南部地区监测、预报重污染天气的准确率,减少雾霾、空气污染给人类生产生活带来的不利影响。
近年来,针对河北中南部空气污染的问题,国内专家也开展了很多研究[8-10]。王丛梅等[11]对河北中南部2013年1月空气重污染的成因分析表明:地形特点是重污染形成的一个重要影响因素,稳定的偏西气流翻越太行山后与平原的偏东风容易形成辅合,在辅合线附近易造成污染物的累积,造成污染加重。刘晓慧等[12]通过对河北中南部2014年的2次重污染天气成因分析指出,均压场和静稳的天气形势不利于空气污染物的扩散,结合卫星火点和污染源分析表明,2014年10月河北中南部重污染过程中本区域及周边区域的秸秆燃烧加重了污染。
以往对河北中南部空气污染的研究大多围绕空气污染特征和气象条件进行,且研究的污染物大多为3种左右,但对最近几年6种主要污染物浓度特征及空气质量预报的研究较少。本文以河北中南部石家庄、邢台为例,利用BP神经网络对不同城市分季节建立空气污染物浓度的预报模型,并对预报结果进行了对比检验,可为政府科学决策大气污染防治提供技术支持。
1 资料与方法
1.1 资料来源
本文选用的资料主要包括空气污染的监测资料和气象资料,空气污染监测资料来自河北省环保厅所公开资料,资料时间为2013年1月~2015年12月,包括石家庄、邢台主城区环境监测站PM2.5、PM10、SO2、NO2、CO、O3等6种主要污染物的日平均浓度和小时平均浓度资料,以及石家庄、邢台所辖区78个空气质量监测站的AQI日均值;空气质量预报所用资料的测定时间为2013年1月~2016年12月。气象资料来自河北省气象局整编资料,为同期石家庄、邢台主城区的地面气象观测站气温、气压、风、降水、相对湿度、日照时数等常规观测资料及高空资料。
1.2 分析方法
利用逐步回归分析法对污染物浓度及气象因素进行多元逐步回归分析,为空气质量预报因子的筛选奠定基础;利用BP神经网络法,构建空气污染物相邻两日浓度差值的预报模型。
2 河北中南部空气污染物浓度预报模型的建立
利用BP神经网络的功能和特点,构建了空气污染物相邻两日浓度差值的预报模型,以石家庄和邢台为例,选取了PM2.5、PM10、SO2、CO、NO2、O3等6种空气污染物对预报模型进行设计。
2.1 预报模型设计
本研究构建了基于相关性较好的初始样本机制的BP神经网络预报模型,利用这一预报模型实现了空气污染物相邻两日浓度差值的预测。由于相邻两日的污染物浓度具有一定的连续性,预报浓度差值可保持其连续性,且污染物浓度本身存在一个背景浓度,在背景浓度一定的情况下,预报相邻两日浓度差值比直接预报污染物浓度误差更小,预报模型的稳定性更高。该模型的原理:以前一日污染物浓度和相关性较好的气象因子作为模型输入因素,对空气污染物相邻两日浓度差值进行预测,通过此模型预报出的浓度差值,加上前一日污染物浓度的实测值,即可预报出未来一日污染物浓度。
空气污染物相邻两日浓度差预测值算法:输入参数,对样本进行优化筛选,选出最优样本,在进行训练前先将样本数据归一化到[-1,1]区间,然后从最优的样本中选出训练样本和测试样本,选取最优训练样本建立BP神经网络并进行误差测试,然后根据平均相对误差及平均绝对误差指标,选择最优预测模型[13-14]。输入归一化后的相关因子,将得到的输出结果进行数据反归一化处理,得出预测值。空气污染物相邻两日浓度差预测值算法如图1所示。
2.2 动态样本筛选参数
根据历史相关性样本筛选机制的基本原理,所建立的样本筛选主要涉及到利用各类气象要素因子与历史不同空气污染物所作的相关性比较;以石家庄和邢台为例,利用SPSS软件对气象要素日均值与同期污染物相邻两日浓度差值进行多元逐步回归分析,根据逐步回归的结果,进行相关性的判定,从而挑选出相关性强的气象因子。PM2.5、PM10、SO2、NO2、CO浓度为日均值(0:00~23:00点)的浓度数据,O3为最大8 h滑动平均浓度数据,选取平均气温X1、最高气温X2、最低气温X3、降水量X4、平均气压X5、平均相对湿度X6、最小相对湿度X7、平均风速X8、最大风速X9、日照时数X10、静稳指数X11、混合层高度X12、地表通风系数X13等气象因子。
通过石家庄和邢台在不同季节空气污染物相邻两日浓度差值与气象因子的逐步回归结果得出,相关性最好的气象因子为平均气温,其次依次为降水量、平均气压和混合层高度。由于不同季节不同污染物相关性好的气象因子各有不同,不再一一列举。对气象要素日均值与污染物相邻两日浓度差值进行多元逐步回归的结果将为确定神经网络空气质量预报样本的选取及输入气象参数的确定提供参考。
图1 预测模型算法流程图
2.3 BP神经网络模型输入的方法
2.3.1 数据处理 采用的输入数据主要为2014~2016年逐日的污染物浓度和气象数据;以3~5月为春季;6~8月为夏季;9~11月为秋季;12月、1~2月为冬季;其中前一日的污染物浓度、气温、平均气压、相对湿度、风速、日照时数、混合层高度、地表通风系数、静稳指数等因子都采用均一化处理;降水量按照降水等级进行输入[15],无降水时等级记为0、小雨记为1、中雨记为2、大雨记为3、暴雨记为4、大暴雨记为5、特大暴雨记为6、小中大雪均记为1、暴雪记为2。
2.3.2 输入因子 根据历史相关性对比,最终挑选出相关性较好的因子进行输入,由于各个城市各季的相关性程度不同,故不同城市、不同季节、不同污染物输入的气象因子也不同。
2.3.3 BP神经网络结构 BP神经网络层数选取时涉及到输入层、输出层和隐藏层的选取,输入层个数的确定取决于所选择的因子,此处选择与污染物相关性较好的气象因子,有n个输入神经元,输入层个数就为n。隐藏层个数通过试验得到,试验方案[16-18]为:首先从历史样本数据中挑选出训练样本与测试样本,其中主要通过训练样本建立初始网络映射,随后再将输入层映射到输出层。测试样本则为确定最佳隐藏层节点个数起到调试模型的作用。本文将某一种污染物相邻两日浓度差值作为模型输出,所建立的BP神经网络模型的输出层为1。所建立的6种污染物的BP神经网络结构如表1~表4所示。
表1 BP神经网络结构(春季)
2.4 预报结果实例分析
采用本文所建立的历史相关性样本筛选机制的BP神经网络预报模型,分别对石家庄、邢台进行预报。
表2 BP神经网络结构(夏季)
表3 BP神经网络结构(秋季)
表4 BP神经网络结构(冬季)
2.4.1 预报结果的评价指标 本文主要采用以下2种指标对预报结果进行分析,分别为平均绝对误差MAE、平均相对误差MRE。以下为平均绝对误差和平均相对误差的计算公式:
上式中,prei为污染物浓度预测值,moni为污染物浓度监测值。
2.4.2 结果分析
2.4.2.1 春季预报结果 由表5可知,石家庄站点春季空气污染物预报结果的平均相对误差(MRE)分布在0.09~0.42的范围内。其中以O3的平均相对误差最小,为0.09;SO2次之,为0.23;PM2.5最差,为0.42。平均绝对误差(MAE)中以CO最大,这与CO自身的背景浓度较大有关,PM10次之。
表5 石家庄春季空气污染物相邻两日浓度差值预测结果的误差统计结果
由表6可知,邢台站点春季空气污染物预报结果的平均相对误差(MRE)分布在-0.03~0.38的范围内。其中以PM10的平均相对误差(MRE)最小,为-0.03;PM2.5次之,为0.08;NO2最差,为0.38。平均绝对误差(MAE)中仍以CO最大;其次为PM10。
2.4.2.2 夏季预报结果 由表7可知,石家庄站点夏季空气污染物预报结果的平均相对误差(MRE)分布在-0.23~0.25的范围内。其中以CO的平均相对误差最小,为0.02;PM10次之,为0.03;PM2.5最大,为0.25。平均绝对误差(MAE)中以CO最大;其次为O3。
表6 邢台春季空气污染物相邻两日浓度差值预测结果的误差统计结果
表7 石家庄夏季空气污染物相邻两日浓度差值预测结果的误差统计结果
由表8可知,邢台站点夏季空气污染物预报结果的平均相对误差(MRE)分布在-0.21~0.72的范围内。其中以PM10的平均相对误差最小,为0.05;NO2次之,为0.08;SO2最差,为0.72。平均绝对误差(MAE)以CO最大;其次为PM10。
表8 邢台夏季空气污染物相邻两日浓度差值预测结果的误差统计结果
2.4.2.3 秋季预报结果 由表9可知,石家庄站点秋季空气污染物预报结果的平均相对误差(MRE)分布在-0.09~0.26的范围内。其中以PM10的平均相对误差(MRE)最小,为-0.09;O3次之,为0.12;SO2最差,为0.26。平均绝对误差(MAE)以CO最大;其次为PM10。
由表10可知,邢台站点秋季空气污染物预报结果的平均相对误差(MRE)分布在-0.35~0.24的范围内。其中以PM10的平均相对误差(MRE)最小,为0.02;CO次之,为-0.03;SO2最差,为-0.35。同样,平均绝对误差(MAE)仍以CO最大;其次为PM10。
表9 石家庄秋季空气污染物相邻两日浓度差值预测结果的误差统计结果
表10 邢台秋季空气污染物相邻两日浓度差值预测结果的误差统计结果
2.4.2.4 冬季预报结果 由表11可知,石家庄站点冬季空气污染物预报结果的平均相对误差(MRE)分布在-1.17~1.75的范围内。其中以O3的平均相对误差最小,为0.05;PM10次之,为0.09;CO最差,为1.75。平均绝对误差(MAE)以CO最大;PM10次之。
表11 石家庄冬季空气污染物相邻两日浓度差值预测结果的误差统计结果
由表12可知,邢台站点冬季空气污染物预报结果的平均相对误差(MRE)分布在-1.02~1.83的范围内。其中以NO2的平均相对误差最小,均为0.19;CO最差,为1.83。同样,平均绝对误差以CO最大;PM10次之。
表12 邢台冬季空气污染物相邻两日浓度差值预测结果的误差统计结果
综上所述:2个站点中不同污染物在不同季节的预报效果不同,石家庄站点春、冬季O3的平均相对误差(MRE)最小,夏季CO的平均相对误差最小,秋季PM10的平均相对误差最小;邢台站点春、夏、秋季PM10的平均相对误差最小,冬季NO2的平均相对误差最小。平均绝对误差(MAE)中,石家庄和邢台CO、PM10都较大。
2.4.2.5 空气质量等级和首要污染物预报准确率检验 利用石家庄和邢台2017年1月2日~2月28日(1月1日缺测)相关气象数据和污染物浓度,以冬季空气质量预报模型为例进行检验。
图2和图3分别为对石家庄和邢台不同污染物预报得到的预测值与监测值的折线图,实线为不同污染物相邻两日浓度差实测值,虚线为不同污染物相邻两日浓度差预测值。
图2 石家庄冬季空气污染物相邻两日浓度差的监测值与预测值曲线
对比冬季各类曲线图可以发现,模型在预报各类污染物相邻两日浓度差值的极值点时效果欠佳,但趋势走向较为准确。正是由于各种污染物的突变值导致模型的预测增加了难度[19-20],很难准确预测出污染物相邻两日浓度差值极值的出现,但是对于污染物相邻两日浓度差值的变化趋势可以较为清晰地表示出来,增加了模型的可用性。
图3 邢台冬季空气污染物相邻两日浓度差的监测值与预测值曲线
对石家庄和邢台冬季空气污染物相邻两日浓度差监测值与预测值(图2、图3)间的相关系数进行了统计(表13),结果表明:石家庄PM2.5的相邻两日浓度差监测值和预测值的相关系数最大,为0.79;石家庄O3的相关系数最小,为0.55。
表13 石家庄和邢台冬季空气污染物相邻两日浓度差监测值与预测值间的相关系数
通过冬季空气质量模型预报出的各污染物相邻两日浓度差值,加上前一日污染物浓度得出各污染物的预报浓度,再利用单个污染物空气质量指数(IAQI)运算公式,将各污染物浓度转化为单个污染物的空气质量指数(IAQI),对空气质量等级预报准确率和首要污染物预报准确率进行检验,检验结果如下。
石家庄SO2的等级预报准确率最高,为94.3%;O3的等级预报准确率次之,为92.7%;CO的等级预报准确率较高,为89.1%;PM2.5、PM10的等级预报准确率分别为87.7%和82.9%,处于中等水平;NO2的预报等级率略低,为80.5%。邢台的SO2等级预报准确率为92.0%;O3的等级预报准确率也较高,为90.0%;NO2和CO的等级预报准确率较高,分别为91.2%和87.7%;PM2.5和PM10的等级预报准确率分别为81.2%和82.5%。
SO2和O3的等级预报准确率高与冬季该污染物浓度较低有关,由监测值计算出的IAQI均维持在一至二级范围内,所以预报的等级准确率较高。PM2.5和PM10的等级预报出现错误大多出现在中度至重度污染这个范围,因为冬季空气污染较重,1~2月PM2.5和PM10的浓度较高,空气质量有一半为中度污染以上,从空气质量指数(AQI值)来看,中度污染的AQI范围为151~200,重度污染的AQI范围为201~300,可以看出,中度污染AQI下限值与重度污染AQI下限值仅差50,因此,PM2.5和PM10在中度至重度污染这个范围内等级预报易报错。
对首要污染物的预报准确率进行检验得出,石家庄首要污染物预报的准确率为82.4%,邢台首要污染物预报准确率为87.7%。
3 结论与讨论
以空气污染物相邻两日浓度差值为预报量,基于BP神经网络构建了空气污染物浓度预报模型。利用以前一日污染物浓度和气象要素日均值为气象因子的预报模型进行预报,以冬季空气质量模型为例,对空气质量等级预报准确率进行检验,结果表明,石家庄和邢台SO2、O3等级预报准确率均为90%以上,PM2.5、PM10的等级预报准确率均为80%以上;首要污染物预报准确率均为80%以上。总体上,石家庄的空气质量等级预报准确率好于邢台,首要污染物预报准确率石家庄略差于邢台。在冬季的空气质量预报中,需要根据历史上对应的空气污染状况,对其预报结果进行适当的人工订正。