APP下载

基于随机森林的臭氧浓度精细时空预测研究

2023-04-29孙瑞冯春莉

环境科学与管理 2023年7期
关键词:徐州市

孙瑞 冯春莉

关键词:徐州市;随机深林;时空序列;臭氧预测

中图分类号:X511 文献标志码:A

前言

近年来,徐州市PM2.5等污染物浓度呈现显著下降趋势。但是,臭氧浓度却在不断升高,臭氧成为徐州市春夏季大气污染控制的重要对象。

目前,大量环境空气自动站点、气象和卫星遥感站点均已积累了较长时间序列的观测数据,为我们提供了非常有价值的、描述当时地表综合环境特征的变量。如果能基于深度学习算法,学习并建立这些时空影响因素与大气污染物浓度间的对应关系,则可构建时间序列预测模型,通过对特定时段预测值和实测值的对比,定量评估人为措施的效用,或被用于对未来的预测,以辅助环境管理部门做高精度大气污染预警。王馨陆等利用多元线性回归模型和随机森林模型对成都市臭氧和PM2.5预测,均表现出相对最佳的预报性能。蔡旺华运用机器学习方法预测臭氧浓度,预报等级准确率达到90%。丁愫等利用决策树模型对徐州市臭氧进行预报,预报准确率高于75%。

利用大气、气象、卫星遥感等数据,建立高精度臭氧时间序列预测模型,对未来臭氧浓度及时空动态变化进行预测,以期基于历史时间序列数据对未来臭氧浓度进行预报,在空间上锁定高污染浓度区域及其影响因素,探究污染来源及其形成机制,对大气污染防治、预警等工作提供数据基础及技术支持。

1数据来源与方法

1.1数据来源

研究利用徐州市7个国控站点、省控监测站点、网格化站点观测的六参数(SO2、NO2、PM10、CO、O3、PM2.5)小时数据,该数据均来自徐州环境监测中心。逐小时地面气象观测数据来自气象站,其中气象数据主要包括温度、湿度、风向、风速、气压和太阳辐射等。地理类变量包括植被指数、湿度指数、道路密度、到道路的距离、坡度、到市中心的距离、X坐标、Y坐标;其中道路数据来自高德地图,X坐标和Y坐标分别为所在位置的UTM投影坐标,植被指数和湿度指数均基于美国地质调查局网站下载的Landsat 8遥感影像计算得到,坡度变量基于美国地质调查局的SRTM DEM数据计算得到。人口变量来自美国橡树岭国家实验室,空间分辨率为1千米。站点观测数据用于模型建立和验证前首先按照HJ 633-2012及HJ 663-2013进行质量控制,质量控制中剔除明显异常值同时尽可能保证可用数据量。

1.2预测方法

随机森林是一种集成学习的方法,集成学习包括bagging算法和boosting算法,是目前使用较为广泛的一种机器学习方法,该方法在大气污染物时空预测中的应用也较多。随机森林是集成学习bagging算法中的一种方法,它的各个弱分类器之间没有关联,可以进行并行拟合。国内外大量的理论和应用研究从不同的角度证明了随机森林模型的准确性,该模型对数据集中的异常值及噪声具有良好的包容度,是目前公认最好的机器学习模型之一。

研究首先使用随机森林方法利用2019年一2020年徐州市167个站点的小时臭氧浓度进行建模,去除异常情况后共16000个小时,得到了每个小时对应的随机森林模型和空间分布图。随机森林方法中有许多参数设置,如分类器的个数、最大特征数目、最大深度,在构建模型前需要选择最优的参数。随机森林在建立决策树时对于训练集进行有放回的抽取,对于每棵树大约有三分之一的训练集没有参与该树的生成,从而得到袋外误差,研究利用随机森林的袋外误差选取最优参数,即计算袋外误差最低的参数组合为最优参数。

1.3模型评价

研究针对每个小时建立一个模型,即每小时167个站点的臭氧浓度空间预测结果。为检验预测结果,对模型精度进行评价。模型精度评价指标:决定系数(R2)、均方根误差(RMSE)、平均绝对误差(MAE),评估模型预测的准确性。以下为各统计量度指标的定义公式如下:

2结果与分析

目前,大气污染防治工作进入到精细化管理的新阶段,需要更加及时、科学、精准的空气质量预测预报。为提供更好的短期突发污染与长期污染预测分析,分别选取2小时及月度进行预测,研究预测准确性。

2.1预测2小时臭氧浓度效果

研究选取2019年3月1日00时-2019年6月20日23时各监测点臭氧小时浓度数据及2019年3月1日00时-2019年6月20日23时的小时气象数据使用随机森林方法利用气象变量、地理类变量、人口变量和其他相关污染物变量训练小时臭氧浓度空间预测模型。在建模时计算了每个小时的变量重要性,并利用袋外误差选取了最优参数。在对臭氧浓度进行时空预测,采用以下建模流程:选取每天最大8小时滑动平均中对应的最大8个小时的臭氧浓度,以七天为周期,学习七天内的徐州市近地面最大8小时臭氧浓度与相应时间、相应位置的气象数据和N02数据间的非线性关系,从而获取臭氧的空间预测模型,将第八天的气象数据N02数据、地形数据、土地利用数据、社会经济数据、道路数据作为预测因子代人该模型,从而得到第八天内的臭氧浓度空间分布结果。在机器学习后使用该模型对徐州市桃园路站点和农科院站点的未来2小时臭氧浓度进行预测。在具体操作上,使用臭氧监测站点前12小时的臭氧浓度数据和未来2小时的气象数据,预测未来2小时的臭氧浓度。输入数据首先按时间顺序排序,然后将其等分为10份,每次选取其中1份作为测试集,其余9份作为训练集和验证集。使用训练集和验证集训练模型,使用测试集验证模型精度,共训练10个模型,分别验证不同测试集下模型的预测效果。以下为预测结果与观测结果的对比。(见图1、图2)

预测结果表明,系统在对未来2小时进行预测时,展示了优秀的预测能力,预测结果能与实际观测结果较好地吻合,波动趋势基本相同,R2可达0.8~0.9。模型预测精度均值约为RMSE=13μg/m3,MAE =12μg/m3。(见表1)

2.2预测月度臭氧浓度效果

在对2小时臭氧预测时,效果较好,为验证长期预测效果,对徐州市2020年8月的臭氧浓度空间预测结果如图3和图4所示(由于8月19日的臭氧监测站点缺失值较多,因此不参与建模)。图3中ModelR2为建模精度,CV R2为交叉验证精度,HV R2为独立验证精度。徐州市2020年8月份的建模精度在0.7~0.9左右;交叉验证精度在0.2~0.9左右,且大部分位于0.6以上;独立验证精度在-1.2~0.7左右,其中存在两天是负值的情况,该两天可能存在较大的异常导致结果较差,大部分结果位于0.4~0.6之间。图4为建模点30天的RMSE和MAE统计结果,其中同样存在RMSE和MAE较高的几天,但大部分RMSE低于6μg/m3,MAE低于4μg/m3

根据时间序列预测结果,可以利用随机森林空间插值进行高精度空间制图,选取2020年8月9日和8月11日的结果进行空间制图,空间分辨率为30米。分布图可以精细地展示出徐州市臭氧浓度的空间分布情况。局部存在较高值,可以根据空间分布情况,对于高值区进行污染的过程、成因、影响因素进行重点分析。(见图5)

3结论

通过融合地面、遥感及气象等多源数据,以徐州市167个站点为例建立基于随机森林空间插值的臭氧精细空间预测模型,该模型可以通过变量的重要性来显示每个预测因子变量的贡献。研究发现,利用模型对未来2小时臭氧浓度进行预测,模型展示了优秀的预测能力,波动趋势基本相同,R2可达0.8-0.9,预测精度均值约为RMSE=13μg/m3,MAE=12μg/m3。利用模型对1个月臭氧浓度进行预测,除部分异常值外,趋势大致相同,大部分RMSE低于6μg/m3,MAE低于4μg/m3。此外,研究得到的是日空间图的真实预测精度,预测结果较传统插值方法有很大提高。同时,利用随机森林空间插值进行高精度空间制图,可以精细地展示出徐州市臭氧浓度的空间分布情况,从而为臭氧污染防治、预警等工作奠定方法基础。

猜你喜欢

徐州市
徐州市深入开展“拆牌、破网、清通道”专项行动
徐州市奋力推动全行业百日攻坚行动
2015—2020年徐州市农业用地时空变化分析
徐州市超前研判 做好春节安全防范
徐州市开展“我为群众办实事”实践活动
禅 悟
徐瑞银
融合·互动——徐州市商聚路小学景观设计
基于Rs和GIs技术的徐州市生态环境状况监测与评价
徐州市工程咨询中心