APP下载

基于多变量随机森林模型的空气污染过程分析及应用

2022-12-30张玲玲张亚一章许云

环境科技 2022年6期
关键词:风向时空站点

张玲玲,张亚一,盛 夏,章许云,吴 剑

(江苏环保产业技术研究院股份公司,江苏 南京 210019)

0 引言

空气污染对人类健康和社会发展均具有显著的负面影响[1]。根据2020年环境公报,全国337个城市环境空气质量超标率达43.3%,累计发生严重污染345 d,重度污染1 152 d,其中,以PM2.5,PM10,O3为首要污染物的天数分别占重度及以上污染天数的77.7%,22.0%和1.5%,空气污染形势严峻。

目前,空气质量观测主要以地面监测形式为主[2-3],我国虽已建成覆盖全国主要城市的监测网,但受监测站地理位置和数量的限制,无法对整体区域的污染程度进行评估。相对而言,卫星遥感技术不受地面监测站点选址的限制,空间覆盖范围广、时空分辨率高,但卫星传感器受云雾等不利天气、设备故障等影响大,数据易缺失和出错,所获得的数据与近地面实际差异较大,难以真实反映人类活动对环境的影响[4-5]。线性统计模型广泛应用于近地面NO2,O3和PM2.5等浓度的模拟,但该模型纳入的参数较少,精度低,无法捕获污染物浓度与更多参数之间的复杂关系。

随着机器学习的快速发展,非线性机器学习模型被广泛应用,其中,随机森林作为一种新型的非线性机器学习模型,可高效处理多变量和大数据量的问题,具有运算效率高、数据挖掘能力强及预测精度高等特点,被成功用于反演区域空气污染物时空分布。游介文等[6]基于随机森林算法、融合多源地理要素开展了近地面NO2浓度空间分布模拟研究,模型精度高,月均模型整体拟合度R=0.85。MARM等[7]构建了高性能随机森林模型,以1 km的空间分辨率估算2005年~2017年中国PM2.5日平均浓度和O3日最大值8 h平均浓度,PM2.5的每日、每月和每年平均模型拟合R2值分别为0.85,0.88和0.90,O3~8h拟合R2值分别为0.77,0.77和0.69。目前,非线性机器学习模拟近地面污染物浓度的方式多针对大尺度区域,极少用于城市街道等小尺度的污染过程分析,本研究利用随机森林模型,耦合气象变量、地理变量、社会经济变量等,选择南京市北部区域进行空气污染过程研究和实践,为机器学习模型在城市街道污染防治工作中的应用提供参考。

1 观测区概况及研究方法

1.1 观测区概况

南京市为重要的工业企业集中区,尤其长江沿岸,环境污染指标浓度较高,以南京北部六合区某区域为观测区,该区域位于南京、扬州主城区之间,且邻近多个工业集中区。监测点位见图1。

图1 观测区位置及对比区域空气监测站点分布

1.2 数据来源

本研究中空气质量数据包含国控站、省控站、区(县)站点数据。其中,国控站数据来源于中国环境监测总站的全国城市空气质量实时发布平台(https://air.cnemc.cn:18007/),省控站数据来源于江苏省环境监测中心,区(县)数据来源于南京大气自动监测数据业务平台。

气象数据来自欧洲中期天气预报中心(ECMWF)ERA5的0.25°×0.25°逐小时气象数据,并综合考虑污染物的产生、扩散、消散机制及以往模拟研究的经验,在数据可得的前提下,纳入2 m露点温度、2 m温度、下行短波辐射、低云量、中云量、高云量、地表温度、地表辐射、降水量、地面气压、100 m U风分量、100 m V风分量、10 m U风分量、10 m V风分量。同时,考虑到气象对污染物浓度影响的滞后性,研究还纳入了滞后1 h的气象变量。

纳入模型的地理类参数包括高程、人口、GDP、夜间灯光数据,均来自于中国科学院资源环境科学数据中心(http://www.resdc.cn),使用2013年DMSP/OLS夜间灯光、2019年人口和GDP数据代表2021年情况。

1.3 模型建立

随机森林算法是由BREIMAN L[8]在2001年提出的基于决策树的高阶机器学习算法,基本思想为构造一定数量的决策树并按照一定准则对决策树进行组合生成随机森林。由于多层随机过程的存在,使得随机森林可随机生成几百甚至上千棵决策树,并保证每次构建的决策树均可能因随机性而不同,可用于模拟多重非线性关系,构成复杂的随机森林模型[9]。

本研究对所有参数数据进行预处理后,获得2021年江苏省5 km×5 km分辨率下逐小时参数数据集,随机选择其中90%的数据作为训练集,使用Python 2.7的scikit-learn库基于十折交叉验证算法建立随机森林模型,通过网格参数寻优实现最优参数的选择。最终模型参数设置如下:最大深度(max_depth)设置为55,决策树个数(n_estimators)设置为250,时间分辨率为每小时,空间分辨率为5 km×5 km。具体流程见图2。

图2 污染物时空分布模拟流程

1.4 模型验证方法

根据模型中的变量重要性排序,挑选重要性排序在前的变量建立最终模型,对未进入模型建立过程10%的数据进行模拟,通过线性拟合模型计算决定系数(R2)验证模型性能,并进一步计算均方根误差(RMSE)和平均绝对误差(MAE)评估模型性能。

2 结果与讨论

2.1 模型拟合和验证

随机森林最终模型对验证集数据进行模拟结果见图3。由图3可知,随机森林模型估算的PM2.5,PM10,NO2,O3时均浓度与地面实测值吻合度整体较高,R2值分别达到0.82,0.85,0.77和0.89,其中,O3浓度模拟R2最优,PM10浓度次之。

图3 污染物时均浓度预测的随机森林模型验证结果散点

随机森林模型性能参数RMSE和MAE情况见表1。由表1可知,PM2.5,PM10,NO2,O3的RMSE值分别为10.68,23.01,9.38,14.29μg/m3,MAE值分别为6.25,11.50,6.27,9.95μg/m3。NO2和PM2.5的R2值虽然较PM10和O3低,但RMSE,MAE值偏小,模型的稳定性更高。

表1 不同污染物预测的随机森林主模型模拟精度

2.2 颗粒物污染过程分析

2021年3月29日~31日,南京市发生了连续重污染过程,期间,观测区的空气质量指数(AQI)均值为172,共出现2次明显的污染过程,首要污染物均为PM10,浓度变化情况见图4。由图4可知,3月29日6:00起,观测区PM10质量浓度开始出现波动,浓度数值呈上升趋势,当日21:00时达到395μg/m3后回落。3月30日3:00,PM10质量浓度降至90μg/m3后随即上升,期间质量浓度最高达576μg/m3,污染过程持续至31日中午逐渐消退。PM10浓度高值期间,PM2.5浓度虽同步波动,但整体稳定,污染特征以沙尘污染为主。对比各区域的空气环境监测站点,观测区与其它区域站点的PM10浓度变化趋势基本一致。

图4 观测区与其它区域PM10浓度变化

基于随机森林算法模拟南京及周边区域的PM10浓度时空分布等值线结果见图5。由图5可知,2021年3月29日~31日污染整体表现为区域型。污染期间,区域的主导风向为东北风,位于观测区上风向的六合冶山站率先受到污染气团的传输影响,且PM10浓度在所有站点中最高,位于观测区下风向的江宁彩虹桥站受到的区域传输影响最小,该站点PM10浓度波动相对滞后。洁净空气的输入有利于降低站点的污染指标浓度,30日3:00左右,风向由东北风转为东风,东侧空气相对洁净,东风环境下南京市各站点PM10浓度均大幅下降。但随着污染扩散和风向的进一步转变,各站点又再次受污染气团影响,PM10浓度再次上升,且污染过程持续至31日中午,南京东北部站点空气质量率先转好。

图5 2021年3月29日~31日PM10浓度时空分布等值线

2.3 NO2污染过程分析

2021年1月12日~15日,观测区的NO2浓度波动明显,变化情况见图6。由图6可知,共出现3次持续的浓度高值(1月12日17:00~13日9:00,1月13日19:00~14日11:00,1月14日18:00~15日9:00),且多集中在夜间。

图6 2021年1月12日~15日NO2浓度变化

对比观测区与其它区域站点NO2浓度变化,12日13:00起,观测区NO2浓度不断升高,而仙林大学城站同时段的NO2浓度数值波动较弱,污染发生期间的污染物时空分布等值线见图7。由图7可知,观测区NO2浓度主要受上风向的主城区影响,而非大范围的区域污染传输。13日15:00起,南京市多个站点NO2浓度变化趋势较一致,均出现大幅上升,整体表现为区域型污染。14日12:00,随着大气扩散条件好转,区域NO2浓度下降,18:00左右再次迅速上升。日间,部分NO2参加光化学反应被消耗,而夜间难以被转化,且湿度增大、气压变低、风速减弱等导致空气扩散条件变差,使得NO2积聚,浓度升高。15日12:00后,随着污染消散,各站点浓度降至正常水平。

图7 2021年1月12日~15日NO2浓度时空分布等值线

2021年2月6日~7日,受主城区及附近工业区共同影响,观测区NO2夜间浓度较高,监测结果见图8。由图8可知,6日18:00起,观测区NO2浓度上升,浓度高值持续至7日12:00。对比观测区与南京市、扬州市部分站点,除北侧的马鞍街道外,草场门、奥体中心、扬州仪征红旗闸的NO2浓度数值变化趋势较一致。

图8 2021年2月6日~7日NO2浓度变化

2021年2月6日~7日NO2时空分布等值线见图9。由图9可知,6日夜间风速较低,积聚的NO2消散慢,7日上午进一步受早高峰、工业企业生产等影响,NO2浓度凌晨回落后有所上升,扬州仪征红旗闸站NO2质量浓度升高至120μg/m3,远高于周边站点,此时风向为东北风,污染可能传输至下风向的观测区及南京部分其它地区。

图9 2021年2月6日~7日NO2浓度时空分布等值线

SO2浓度变化可侧面表征工业生产现状,扬州仪征红旗闸站邻近工业集中区,不同区域的NO2和SO2浓度关系对比见图10。由图10可知,对比污染时段观测区和上风向扬州仪征红旗闸站SO2浓度变化,2个站点的SO2浓度变化趋势较一致,且扬州仪征红旗闸站SO2浓度明显高于观测区,可进一步明确7日上午观测区NO2浓度升高为受工业排放影响。

图10 不同区域的NO2和SO2浓度变化

3 结论

(1)基于多变量随机森林模型的建立可较好地模拟近地面PM2.5,PM10,NO2,O3时均浓度,模型R2值分别达到0.82,0.85,0.77和0.89。NO2和PM2.5的R2值虽然较PM10和O3低,但RMSE,MAE值偏小,模型的稳定性更高。

(2)2021年3月29日~31日,南京市发生了连续的重污染过程,首要污染物为PM10,通过随机森林模型模拟江苏省范围PM10时均浓度时空分布更直观地展现污染变化过程。污染期间主导风向为东北风,污染整体表现为区域型,观测区站点PM10浓度随污染扩散和风向转变的影响显著,污染过程持续至31日中午,南京东北部站点空气质量率先转好。

(3)2021年1月12日~15日,观测区的NO2浓度波动明显,共出现3次持续的浓度高值,且多集中在夜间,结合污染物时空分布模拟图,观测区NO2浓度除受夜间扩散条件减弱等因素影响外,主要受上风向主城区的污染传输。

(4)2021年2月6日~7日,污染物时空分布模拟图显示观测区NO2浓度高值受主城区及附近工业区共同影响,尤其是7日上午,观测区上风向的扬州仪征红旗闸站NO2质量浓度升高至120μg/m3,远高于周边站点。当时风向为东北风,污染传输至下风向的观测区,对比观测区与扬州仪征红旗闸站SO2浓度波动,进一步确定污染源为工业排放。

猜你喜欢

风向时空站点
跨越时空的相遇
镜中的时空穿梭
基于Web站点的SQL注入分析与防范
2017~2018年冬季西北地区某站点流感流行特征分析
玩一次时空大“穿越”
首届欧洲自行车共享站点协商会召开
自然与风Feeling Nature
怕被人认出
时空之门
行业统计带来哪些风向?