基于人工神经网络集合预报的济南市臭氧预报方法
2022-06-23孙凤娟田勇孙开争付华轩张文娟李敏吕晨
孙凤娟 ,田勇,孙开争,付华轩,张文娟,李敏,吕晨
(山东省济南生态环境监测中心,山东 济南 250101)
全球臭氧(O3)污染已经存在较长的历史,近年来随着经济的快速发展,NOx、VOCs排放量持续增加[1],导致二次污染物O3浓度逐年升高[2-3],臭氧污染不仅会造成巨额经济损失,对人体健康也具有一定危害[4-6]。2013—2020年,全国及重点区域O3污染问题呈加剧态势,且具有“时间长、范围大”的污染扩散特点,在PM2.5浓度仍未实现全面达标的背景下,我国大气污染防治转向了以PM2.5和O3为主的“二次污染”治理,因此亟需及时、准确的O3预报模型,以应对城市O3预报和污染防治策略的新要求[7-8],减轻O3污染对人民群众健康的危害。
空气质量预报方法分为统计模型和数值模式两类[9],目前数值模式在京津冀及周边地区、长三角、珠三角等地得到了较好地应用[10],但数值模式方法预报结果的优劣很大程度上依赖于模型输入的排放源清单的精度[11]。由于建立高精度、高分辨率排放源清单难度大、模式运行复杂且计算量庞大,数值预报方法应用难度较大[12]。统计预报模型以污染物浓度数据及气象观测资料为基础,通过多元线性回归法、神经网络法、决策树法等统计方法建立污染物和气象因子之间的数值关系模型,具有运算量小、使用方便、不需要污染源排放清单、经济高效等优点[13-14],已成为许多研究者普遍使用的方法[15-17],在区域、地级市及区县空气质量预报中得到广泛应用[18-19]。但传统的数值预报和统计预报均是“单一”的决定论的预报,而由于观测的不准确以及资料分析、同化中引入的误差,我们所得到的气象场资料总是含有不确定性,即实际大气的真正状态永远也不可能被完全精确地描述出来,模拟所用的气象场也仅仅是实际大气可能出现情况的一个可能的解[20],同时由于排放因子、水平活动等数据存在较大不确定性以及排放清单更新滞后的影响,排放清单存在较大不确定性[21]。集合预报是一种为了体现初值不确定性并将扰动的随机性系列化的方法,相对于单一预报,集合预报可以得到“一群”预报值,从而可以提供一定事件的发生概率,便于预报员进行决策分析,提高预报正确率。
目前,采用随机扰动方法进行的集合预报多用于温度、风、降水等[22-25]气象模拟预报中,针对空气质量模拟预报的研究较少。针对这一情况,本研究收集了2013年—2020年5月—9月共40个月济南市O3日最大8 h滑动平均值与气象条件,建立了人工神经网络O3预报模型,并将神经网络模型与集合预报方法相结合,设计并实现了基于集合预报方法的神经网络预报模型,改进了单一人工神经网络模型的固定性,降低了预报结果的随机性,为O3预报方法研究开拓了新思路,为有效开展O3污染防治工作提供了决策支持。
1 数据与方法
1.1 资料数据
环境空气质量监测资料来源于山东省济南生态环境监测中心发布的2013年—2020年5月—9月11个国控点全市平均O3浓度数据,为保持数据一致性,均采用标况数据;气象资料来源于美国国家环境预报中心(national centers for environmental prediction,NCEP)提供的FNL(final operational global analysis)再分析资料,时间分辨率4次/d,水平分辨率为1°×1°,垂直分辨率为26层[26],提取北京时间8:00一个时次的气象数据。
1.2 研究区域
济南市作为省会城市,位于山东省中西部,南依泰山,北跨黄河,背山面水,地处鲁中南低山丘陵与鲁西北冲积平原的交接带上,地势南高北低,呈浅碟状,特殊的地形条件导致其空气质量状况受气象条件变化影响显著。济南是全国74个重点城市中空气污染最为严重的城市之一,由于经济高速发展,能源、交通(特别是城市汽车尾气)规模的扩大、城市人口的膨胀、大型工业开发区的发展等人为活动使污染物排放量不断增加,污染范围不断扩大,城市环境空气呈现出典型区域性大气复合污染特征,O3对空气质量的影响程度逐年增加,已成为夏秋季影响大气优良率的重要因素。
济南市2013—2015年O3污染略有减轻(图1(a)),2016—2019年O3污染呈逐年加重趋势,2016年O3轻度污染及以上天数为59 d,2019年增至112 d,2020年O3污染天数略有减少,为104 d,但O3重度污染天数近年来明显增多,2017—2020年O3重度污染分别为2、3、5和7 d。伴随全球变暖及城市化进程导致的城市热岛效应加剧,济南市O3污染出现的月份整体出现提前现象(图1(b)),2018年3月出现O3污染5 d,2019年3月出现O3污染2 d;O3污染过程(持续污染超过2 d)和最长持续时间整体上也呈上升趋势,O3污染最长持续时间18 d,出现在2019年6月,2020年7月初和8月底出现连续2 d的O3重度污染。
图1 济南市2013—2020年O3污染状况Fig.1 O3 pollution status in Jinan during 2013 to 2020
1.3 数据处理
对于神经网络模型,原始数据集的好坏直接决定了预测结果的准确性,数据传输误差、设备故障等都会影响原始数据集,必须对原始O3浓度数据及气象数据集进行删除空值、异常值等数据清洗工作,才能有效地提升神经网络模型的预测精度。
1.4 评估方法
将模拟输出的结果与观测值采用两分类法进行统计分析,当事件发生时为“有”,事件未发生时为“无”[27]。模拟结果检验方法包括准确率(PC)、TS评分(TS)、空报率(F)、漏报率(PO)、预报偏差(B)及命中率(POD),如式(1)~(6)所示。
(1)
(2)
(3)
(4)
(5)
(6)
式中:NA为击中天数,表示预报发生O3污染,实况也发生的O3污染的天数;NB为漏报天数,表示预报不发生O3污染,但实况发生O3污染的天数;NC为空报天数,表示预报发生O3污染,但实况未发生O3污染的天数;ND为反击中天数,表示预报不发生O3污染,实况也未发生O3污染的天数。可以看出,PC数值范围为0~1,理想值为1,用以表示所有预报正确的比率;TS评分数值范围为0%~100%,理想值为100%,用以定量评价对O3污染的预报效果;F数值范围为0%~100%,理想值为0%,用以表征O3污染空报比率;PO数值范围为0%~100%,理想值为0%,用以表征O3污染漏报比率;B数值范围为0~+∞,理想值为1,用以反映预报NA事件过多或过少的倾向;POD数值范围为0~1,理想值为1,用以表征O3污染事件中被正确预报的概率[28]。
2 实验设计
2.1 模拟因子筛选
2.1.1 气象因子筛选
气象条件是决定一次空气污染能否形成的重要因素[29],本研究提取FNL数据,并计算得到共103组气象因子数据,分别计算其与O3日最大8 h滑动平均值(简称:O3-8 h浓度)相关性,同类气象因子选取相关性最高的一组,最终选取相关性最高的整层相对湿度(RHclm)、地面温度(TMPsfc)、 整层可降水(PWATclm)、整层云水(CWATclm)、1 000 hPa垂直速度(VVELprs-1 000)、500 hPa纬向风(UGRDprs-500)、10 m经向风(VGRD10 m)、风向(WD)等8组气象因子。
图2 O3-8 h浓度与不同气象因子关系Fig. 2 Relation between the O3-8 h concentration and different meteorological factors
图2(续)
分析这8组气象因子和O3-8 h浓度关系可以看出(图2),O3-8 h浓度与地面温度相关性最高,呈明显正相关关系,其次为整层相对湿度,呈明显负相关关系,其相关性分别为0.504和-0.463,与风向的相关性最差,为-0.181,且偏北风时O3-8 h浓度水平相对较高,可能是由于夏季偏北风时天况多较好,太阳辐射增强,加之济南特殊的南高北低的地形,增强了O3的生成及本地累积。
2.1.2 污染物因子筛选
由于前期空气污染物的累积程度直接影响后期的空气污染程度[30],同时考虑实际预报制作时间限制,选取前一日14时6种污染物质量浓度。同时,光化学氧化剂Ox(NO2+ O3)是大气氧化能力的主要指标之一[31],代表着大气氧化能力的强弱。因此,统计分析前一日14时PM10、PM2.5、SO2、NO2、CO、O3及Ox浓度水平与当日O3-8 h浓度相关性,发现O3-8 h浓度与14时O3及Ox浓度均存在较好的相关性(图3),相关系数分别达到0.501、0.465。
图3 O3-8 h浓度与前一日14时 O3、Ox浓度散点图Fig.3 Scatter diagram of the O3-8 h concentration and O3 and Oxconcentration at 14 o′clock on the previous day
2.2 人工神经网络模型搭建
多层感知器(multi-layer perceptron,MLP)也叫人工神经网络(artificial neural network,ANN),是一种运算模型,旨在模拟神经系统构造与功能进行数据处理,从信息处理角度对人脑神经元网络进行抽象模拟,由大量的节点(或称神经元)相互联接构成,通过不断调整模拟神经元之间链条的权值,使得整个网络可以较好地拟合训练数据的关系。
本文构建的人工神经网络包含2个隐含层,第一个隐含层均包含1 000个神经元,第二个隐藏层包含500个神经元,最优化方案采用拟牛顿法,惩罚系数0.000 1,最大迭代次数1 000次。同时,根据上文分析结果,分别设计三套模拟方案,使用2013—2019年共1 071组样本进行模拟训练,对比不同方案的训练效果,选取相关性最高的一套方案(表1)。方案一选取RHclm、TMPsfc、PWATclm、CWATclm、VVELprs-1 000、UGRDprs-500、VGRD10 m、WD共8类气象因子,训练结果与监测结果相关性为0.761,为显著相关;方案二在方案一基础上加入前一日14时的光化学氧化剂Ox浓度数据,相关性明显提高,为0.801;方案三在方案二基础上加入前一日14时O3小时浓度数据,相关性为0.826,最终选取方案三作为神经网络训练最终方案,模型训练结果较好(图4)。
表1 三种方案与O3-8 h监测值的相关性Table 1 Correlations between monitoring and simulated values of three schemes
图4 2013年—2019年5月—9月O3-8 h浓度监测值(实线)及模拟值(虚线)Fig.4 Monitoring values (solid line) and neural network simulation values (dotted line) of O3-8 h during May to September of each year,starting from 2013 and ending with 2019
2.3 人工神经网络集合预报模型搭建
与单一的确定性预报相比,通过提供定量的概率预报,集合预报可以给出多种可能性及其发生的概率,能为预报员提供包括不确定性在内的更多预报信息[32]。通过集合成员预报结果的分布可以计算出O3-8 h浓度各等级出现的概率,包含了该集合预报系统所能提供的所有信息。
本文集合预报方法采用随机扰动法,即经典的蒙特卡罗法,对2020年5月—9月153组因子进行随机扰动,产生15组相互独立的随机扰动气象场,连同原始气象场,共16组气象场,人工神经网络模型方案采用上文选取的方案三,最终得到16组O3-8 h浓度模拟结果。根据《HJ633-2012环境空气质量指数(AQI)技术规定》[33],将O3-8 h浓度模拟结果换算为对应的空气质量分指数(IAQIP)及空气质量指数类别,得到优、良、轻度污染、中度污染、重度污染、严重污染6个类别分别对应的概率,选取预测比例最高的两个类别作为预测类别,与实测O3-8 h分指数类别进行对比,并做准确率(PC)、TS评分(TS)、空报率(F)、漏报率(PO)、预报偏差(B)及命中率(POD)检验,对人工神经网络集合预报(ENF)的预测效果和精度进行评价。
3 实例验证与结果分析
3.1 实例验证
3.1.1 人工神经网络模型验证
将2020年5月—9月共153组测试集数据输入模型进行计算,预测O3-8 h浓度结果与实际监测值之间相关系数达到0.665,为显著相关。监测值与预测值对比情况如图5所示,O3-8 h浓度预测值与监测值变化趋势呈现较好的一致性,但污染较重时段尤其是重污染时预测值较监测值偏低。2020年共出现O3重度污染7 d,分别为6月4日、6月6日、6月10日、7月7日—8日、8月29日—30日,该模型对6月4日—10日、7月7日—8日及8月29日—30日污染过程预测效果较好,能够明显地反映出O3污染累积、持续及快速消散的不同阶段,但预测浓度均偏低。
图5 2020年5月—9月O3-8 h浓度监测值及模拟值Fig.5 Monitoring values and neural network simulation values of O3-8 h during May to September 2020
3.1.2 人工神经网络集合预报模型验证
图6给出了16组O3-8 h浓度模拟值箱线图。可以看到,成员间的离散度很高,集合中位数变化趋势与监测值趋势基本一致,且监测值数据56%落入10百分位值至90百分位值区间内。
根据16组O3-8 h浓度模拟结果,对比人工神经网络集合预报及单一人工神经网络预报的PC、TS、F、PO、B及POD检验结果可以看出(表2),ENF整体准确率较NF明显提高,O3污染漏报率明显减少,O3污染命中率明显提高,O3污染空报率较NF略有增加,B为1.26,大于1,表明ENF对O3污染预报有过多倾向,而NF则有过少倾向。
表2 人工神经网络集合及单一人工神经网络预报结果检验Table 2 Test results of the ensemble neural network and neural network prediction
3.2 典型案例分析
2020年7月3日—9日济南市经历了一次O3典型污染过程,3日,降水过程,O3浓度最低,之后天况转好,气温升高,O3生成加快,O3污染逐步加重,7日—8日,气温达到最高,O3达到重度污染水平,9日,弱降水过程,O3缓解,本次O3污染过程结束。
以2020年7月3日—9日O3重污染过程为例(图7),可以看出ENF及NF对本次污染过程的预报趋势均较好,但污染累积阶段,相较于NF,ENF能够更好地反映出污染的迅速累积上升,对于O3污染最重的7日、8日,ENF 预测的O3-8 h浓度中位数更高。7月3日—7日污染累积阶段,监测值均落入10百分位值至90百分位值区间内,8日污染持续阶段,ENF 预测结果略低,9日污染消散阶段ENF预测结果下降趋势落后于监测值。主要是由于参与模型训练的2013—2019年共1 071组数据中,O3重度污染天数仅有11 d,训练样本数量的不足导致对O3重度污染过程的预报偏差较大,后续伴随参与训练的样本数增多,这种偏差将得以弥补。
注:图中数值从上到下分别标注10百分位值、中位数、90百分位值,星号表示离散点。图7 2020 年7月3日—9日各集合成员O3-8 h预测箱线图分布特征Fig.7 Box plot of O3-8 h simulation values for each member forecast during July 3 to 9, 2020
3 结论
(1)人工神经网络方法预测O3-8 h浓度结果与实际监测值之间相关系数达到0.665,为显著相关,两者变化趋势呈现较好的一致性,但污染较重时段尤其是重污染时预测值较监测值偏低。
(2)与单一人工神经网络预报相比,集合预报准确率明显提高,O3污染漏报率明显减少,O3污染命中率明显提高,O3污染空报率较单一预报略有增加,人工神经网络集合预报对O3污染预报有过多倾向,而单一人工神经网络预报则有过少倾向。通过提供定量的概率预报,人工神经网络集合预报可以给出多种可能性及其发生的概率,能为预报员提供包括不确定性在内的更多预报信息,对于提高O3预报准确率具有较高的参考价值,该模型具有一定的实际应用及推广价值。
(3)以2020年7月3日—9日一次O3重污染过程为例,与单一人工神经网络的确定性预报相比,人工神经网络集合预报能够更好地反映出污染的迅速累积上升及持续过程,但由于训练样本数量的不足,导致对O3重度污染过程的预报偏差仍然较大,后续伴随参与训练的样本数增多,这种偏差将得以弥补。