基于多维多步长LSTM网络的区域AQI预测研究*

2022-10-28刘颖陈旭东周觅郑乃瑞陈元橼

工业安全与环保 2022年10期

刘颖陈旭东周觅郑乃瑞陈元橼

（1.西南交通大学地球科学与环境工程学院，成都 610031；2.重庆工商大学计算机科学与信息工程学院，重庆 400067；3.重庆高新区飞马创新研究院，重庆 400051）

0 引言

大范围、长时间、高浓度空气污染频发，严重影响人们生产生活及身体健康。定量描述空气质量状况对于地区空气污染预防及制定相应对策意义重大。目前空气质量预测模型可分为机理模型和统计模型2类［1］。机理模型即通过对大气污染形成的机理，污染物的传输和扩散过程进行建模，代表性模型有社区多尺度空气质量模型（CMAQ）［2-3］、嵌套网格空气质量预报模式系统（NAQPMS）［4］、区域性气象和化学预报模型（WRF-Chem）［5］。但由于其机理复杂，建模难度大，且排放源、气象场和理化过程参数具有不确定性，预测精度难以提升［6-7］。统计模型通过对历史数据的学习与分析，挖掘数据内在特征，得到污染物浓度变化规律，并基于当前的状态对未来给出比较合理的预测［8］。统计模型不用考虑复杂的物理化学过程，建模过程相对简单，受到许多研究者的关注。

常见的AQI统计预测模型有多元回归模型，时间序列模型，神经网络模型等。非神经网络模型需要做出假设分析，在众多特征因子与预测结果中挖掘相应的数学关系，有一定的主观性；神经网络模型能够像人脑一样自动学习相关的特征，建立相应的预测模型，但现有研究大多没有考虑时序特征。随着深度学习成为机器学习的新方向，循环神经网络因其在时序数据分析中具有更强的适应性，开始应用于空气质量的预测，其中应用最广泛的是长短期记忆神经网络（LSTM，Long-Short Term Memory）。

但是上述基于LSTM的空气质量预测模型仅考虑了污染物历史浓度来预测空气质量，忽略了气象条件对污染物传递、扩散的影响。所以本研究根据历史气象要素和历史AQI指数，提出了一种基于时间多步长的多维LSTM网络模型。

1 研究对象与方法

1.1 数据概况

研究采集2017年1月1日至2020年11月30日重庆市空气质量指数和空气污染物浓度与气象要素数据，共15个输入变量（SO2、NO2、PM10、PM2.5、O3、CO气温、相对湿度、风力等级、风速、气压、能见度、降水量、平均总云量）。

1.2 模型建立

1.2.1 LSTM简介

LSTM是一种改进的时间RNN，关键是细胞状态，将信息从上一个单元传递到下一个单元，通过“门”来控制丢弃或增加信息，从而实现遗忘或记忆的功能，如图1。

这3个门分别为遗忘门、输入门和输出门：

1）遗忘门：

2）输入门：

式（2）是input gate layer的输入，式（3）是tanh层向量生成，式（4）是将前两部分信息结合起来对cell状态的更新。

3）输出门：

式（5）是过滤后的信息，式（6）是tanh层处理。

1.2.2 基于多步长的多维LSTM模型建立

将2017年1月1日至2019年12月31日数据作为训练集，2020年1月1日至2020年11月30日数据作为测试集S。

式中，xti为输入数据，表示前i个时刻的气象要素数据和AQI指数，yt为预测输出数据研究日的AQI指数。

式中，yi为AQI实测值，为AQI预测值，m为预测样本数量。

1.2.3 模型训练调参步骤

基于时间多步长的多维LSTM模型的训练调参步骤如下（基于keras Tensorflow框架的python实现）：

1）根据特征变量与AQI指数相关性分析结果，筛选出最重要的特征变量作为输入，训练多维LSTM模型。

2）用MinMaxScaler函数将数据样本归一化。

3）设置LSTM网络基本结构，首先采用单层的隐藏层，设置hidden_size=30，采用keras框架默认的初始化学习率learning rate=0.01，设置迭代次数Epoch=200，batch_size=16。

4）在步骤2）设置的基本网络结构上进行训练，使用网格调参方式确定learning rate、hiden_size、hiden_layer、dropout的最优参数组合。

5）在步骤4）的基础上，调整预测所用的时间步长，设置time_step分别为（2，3，4，5，6，7，8，9，10），训练并预测，观察输出值收敛曲线和预测结果反归一化后的loss。确定最优的时间步长数（时间步长的取值表示为提前几日的气候要素和空气污染物浓度）。

2 AQI指数影响因素分析及特征变量筛选

2.1 AQI指数与特征变量关系分析

重庆市2017年1月1日至2020年11月30日各空气污染物浓度、气象要素和空气质量指数AQI的时间序列变化趋势见图2。由图可见，AQI指数呈现出较强的季节性。AQI指数除与臭氧这一特征变量物无明显规律外，与其他5项空气污染物浓度的走势呈现较强的一致性，尤其与PM10和PM2.5的变化曲线高度重合。AQI指数除与气压变化规律相似外，AQI指数与其他7项气候要素均负相关，尤其与能见度和降水量负相关性较强。

2.2 相关性分析与特征变量筛选

为进一步定量分析气候要素和空气污染物浓度指数特征变量对AQI指数的影响，研究计算了AQI与各特征变量的pearson相关系数，如图3所示。AQI指数与6项空气污染物浓度都呈现出正相关性，大小排序为PM10>PM2.5>CO>SO2>NO2>O3；AQI指数除与气压呈现出非常弱的正相关性以外，与其他7项要素均呈现出较强负相关性，其排序为能见度>总降水量>平均温度>湿度>风级>风速>平均总云量。

根据相关性分析，采用多维LSTM网络基本架构筛选对AQI指数预测精度最高的特征变量，不同变量输入的模型精度如表1所示。可见采用PM10、PM2.5、能见度、总降水量、湿度、平均温度和历史AQI作为特征变量来构建多维多步长LSTM网络来进行空气质量指数AQI的预测精度最高。

表1 不同输入变量模型的精度对比

3 实验结果与分析

3.1 多维多步长LSTM网络预测结果分析

当设置LSTM网络为单层隐含层、隐含层神经单元数为50，学习率learning rate=0.000 1时达到较好收敛曲线。在此基础上设置时间步长训练模型，预测精度如表2所示。

表2 模型预测精度评价

从表2分析可知，当time_step=7，模型的预测效果达到最优，RMSE=12.206 0，MAE=9.403 0。模型训练与测试曲线如图4所示，当训练到150 Epoch后无论是训练集数据还是测试集数据其损失曲线收敛到区域平稳，训练数据顺利稳定在0.061 1左右，测试集数据损失稳定在0.046 7左右。此时，AQI预测值与真实值对比如图5。