基于门控循环单元和图神经网络的PM2.5预测

2022-05-12王彤彤张静怡

现代计算机 2022年5期

曹旺，王彤彤，张静怡

（四川大学电子信息学院，成都 610065）

0 引言

随着科学技术的迅速发展，人类创造了空前丰富的物质财富。但与此同时也导致自然资源的过度消耗以及污染物的大量排放，致使空气污染的问题加剧。空气污染对人体的身体健康有极大的危害，而空气污染物中以PM2.5 为主。PM2.5 是指大气中直径小于或等于2.5 μm的颗粒物。

虽然PM2.5 只是地球大气成分中含量很少的组分，但它对空气质量和能见度等有重要的影响。与较粗的大气颗粒物相比，PM2.5 粒径小，面积大，活性强，易附带有毒有害物质，且在大气中的停留时间长、输送距离远，因而对人体健康和大气环境质量的影响很大。因此，实现对PM2.5 浓度进行有效的预测已成为热点研究方向。然而，空气质量的变化受多种复杂因素的影响，包括气候变化、交通情况、城市空间分布等。因此，我们需要考虑相关的地理信息（如距离、海拔），大气信息（如温度、湿度、风向），以及有相关产能结构的城市区域。

与已有的气象预报相比，PM2.5的准确预测较为困难。近几年。国内外对PM2.5 的预测进行了许多尝试。如Huang等使用基于经验模态分解的GRU 神经网络对地面监测点PM2.5 浓度预测。Zhou 等利用GRU 方法对大气污染物浓度进行预测，通过GRU模型，根据春、夏、秋、冬四个季节训练4个模型，并利用相应的测试集评价4个模型对相应季节PM2.5的预测效果，通过反复实验和不断调整模型参数，分析比较了模型的预测误差和预测精度，验证了该方法的可行性和优越性。Tao 等利用一维卷积网络和双向GRU的深度学习模型对空气污染进行预测，它结合了一维卷积神经网络和双向GRU 神经网络。利用UCI机器学习库中的北京PM2.5数据集进行了案例分析。将CBGRU 模型的预测结果与传统模型进行了比较，结果表明CBGRU 模型的预测误差更小，预测性能更好。

Xie 等利用CNN-GRU 对PM2.5 进行的预测研究，基于卷积神经网络（CNN）和门控循环单元（GRU），提出一种能够自动提取多站多模态空气质量数据时空特征的PM2.5 预测模型。并建立了基于该模型的PM2.5 预测系统。该系统模型首先以无锡城区不同监测站的空气质量因子和天气因子时间序列构建的多个二维（2D）矩阵为输入，自动提取并融合具有CNN 结构的多站多模态数据的局部变化趋势和空间相关特征。从CNN 得到的结果输入到GRU 网络，以进一步捕获空气质量数据的长期依赖特征。分析比较与传统模型的预测误差，验证了该方法的可行性和优越性。

然而，现有的预测方法存在许多不足之处。基于GRU 的方法可以考虑一定程度的时间依赖性和空间依赖性，但无法精确捕捉测试站点之间的位置关系，因而无法精准预测PM2.5 的传输扩散。再如CNN-GRU，它只能处理基于图像的输入数据，不能专门对于空间依赖性建模，因而无法综合考虑到相关的地理信息和大气信息。

不同于以上的方法，较为有效的预测方式是利用气象数据以及空间信息中城市的互相影响，因此建立有效的图结构作为输入有着重大的意义。为了处理基于图的数据，我们构建了图神经网络与循环神经网络结合的方法，将城市间的风向表征为图的连边。不仅能够利用GNN 网络学习城市之间空间信息的依赖关系，在利用GNN 网络对节点空间信息进行更新的基础上，能够利用GRU 网络捕捉学习PM2.5 在时间维度上的长期依赖特征。结合这两个模块的网络模型有助于对数据时序上的特征和空间上的领域特征信息进行训练学习，以此实现有效的预测。

但注意到GRU 中的输入和之前的状态只在门中进行信息交互，而在进入模块之前缺少信息沟通，这可能会导致上下文信息在一定程度上的缺失。因此本文的工作在于对于传统的GRU 网络，将输入与上一步隐藏层的输出进行相互调制，使GRU 的输入和之前的状态在进入模块之前迭代一定的次数进行信息交互，提升信息上下文的联系，使GRU 的转移函数受到上下文的影响作用，以期望加强网络建模的性能以及泛化性。对于真实数据集，我们设置了改进版网络与原网络的比较实验，对于真实数据集进行建模测试，证明了所提出的方法相比于先前网络在预测准确度方面获得了显著的提升，从而证明了改进的GRU的有效性。

1 图神经网络

图神经网络是一种直接作用于图结构上的神经网络。由于其可以对图节点之间依赖关系进行建模的强大功能，得到了越来越广泛的应用。图网络结构如图1所示。

图1 图网络结构

我们使用=（，，）表示图结构，其中表示图结构中的城市节点，表示城市节点之间相互作用的边，表示城市节点之间的邻接矩阵。我们将图结构的节点数据表示为∈R ，其中是图网络中的节点个数，是节点的全部特征信息。包含节点的PM2.5数据和其他辅助信息，将的PM2.5 数据信息记作X∈R ，将的辅助信息记作X∈R ，所以= P+P。我们将时刻的图数据表示为X，我们使用先前个小时的数据去预测未来个小时的数据。公式表述为：

在每次的图结构数据更新迭代中，每个节点通过图结构聚合相邻节点的信息进行更新。通常聚合信息的方法包括求和、平均、最大值或基于注意力机制的方法。

根据图1 的结构，网络的每次迭代过程中，图结构中的每个节点根据其邻居的特征信息利用聚合函数更新自身的节点信息，处理过程参考图2。与只考虑节点信息的GCN 不同，这里我们采用GNN 来传递城市节点之间的信息，考虑了任意相关节点对于目标节点的影响，从而学习到了各个城市节点的PM2.5 在风向影响下的相互传输，得到了城市之间的PM2.5 空间水平扩散的情况。

图2 图神经网络节点更新示意图

2 循环神经网络

2.1 门控循环单元

循环神经网络（recurrent neural network，RNN）是一种随着时间维度方向重复调用的网络结构，会记忆之前的信息，刻画当前输出与之前信息的依赖性。在例如语音识别，文字翻译等领域具有广泛应用。

图3 中，表示输入层，表示隐藏层，表示输出层。表示隐藏层和输出层之间的权重矩阵，表示输入层和隐藏层之间的权重矩阵，表示前一时刻的隐藏层和当前时刻的隐藏层之间的权重矩阵。网络在时刻接收到输入x之后，隐藏层的值是s，输出值是o。且s的值不仅仅取决于x，还取决于s。RNN 的计算方法如下：

图3 RNN网络结构示意图

其中，式（2）的g为隐藏层到输出层的激活函数，式（3）中的f为隐藏层到隐藏层的激活函数。

虽然RNN可以获取并处理时间序列的全部信息，但随着训练层数的增加，对输出起重要作用的还是最后输入的信息，而更早的序列信息只能起到辅助作用，这也就是会出现遗忘早期信息的问题。为了解决RNN 存在的问题，人们引入了门控机制。

Hochreiter 等于1997年首次提出了长短记忆单元（long-short term memory，LSTM），LSTM解决了标准RNN 中的梯度消失以及梯度爆炸问题，并同时保留序列的长期信息，LSTM 在长期的发展中也有了不少改进，如GRU，Peephole LSTM、 BI-LSTM、 ConvLSTM 以及 Mogrifier LSTM 等。与LSTM 门控机制相似，门控循环单元（gated recurrent unit，GRU）也是循环神经网络中的一种门控机制，目的也在于解决RNN 的梯度消失以及梯度爆炸问题，并同时对序列信息长期记忆，是2014年由Cho 等提出的。GRU 在许多诸如语音识别的序列任务上与LSTM 相比同样出色，不过它的参数比LSTM 少，仅包含重置门和更新门。在LSTM 的基础上，减少了一个门控，在保证计算精度的同时减轻了硬件的计算量和计算时间成本。GRU 的网络结构如图4所示。

图4 门控循环单元结构

图4中的各个关键点的作用如下所述：

2.2 具有信息交互的门控循环单元（MGRU）

图5 信息交互示意图

注意到在GRU 中，当前的输入x是和之前的状态h相互独立的，它们只在门中进行交互，在这之前缺乏交互，这可能会导致上下文信息的丢失。为此，本文让输入和状态首先进行交互，增强上下文信息的显著输入特征并减少次要特征，期望增强网络建模建模的泛化能力并提升训练效果。

主要方法是，在原始GRU 计算之前，交替地让x和h相互调制，公式表达为

这里式（8）中，x'和h'是x和h经过函数的信息相互调制之后得到的更新值。算法公式如下：

3 基于信息交互的门控循环单元和图卷积网络的混合模型（MGRU-GNN）

为了提高预测准确性，我们通过图结构来学习PM2.5 信息在水平方向迁移和扩散的过程。GNN 在提取数据的空间相关性上具有独特优势，选取各个城市作为图结构的节点，利用GNN 来记录PM2.5 从周围城市到目标城市的空间扩散情况，汇总节点的相邻节点对目标节点的影响来计算节点之间的信息依赖关系权重。经过图网络不断的迭代学习，目标节点在不断的更新过程中学习并获取到了其他节点的信息。而后利用信息交互的门控循环单元网络在聚合图结构空间信息的基础上模拟PM2.5 在时间维度上的扩散过程。

我们选取了全国空气污染较为严重的184个城市，预测时主要利用的信息有PM2.5 历史数据，降水情况，风速，空气湿度，城市地点信息等数据，将数据抽象如图6所示。

图6 城市数据信息示意图

将图6的数据表示为具体的图数据结构，如图7的，，…，X所示，构建MGRU-GNN 混合模型，网络模型的整体结构如图7所示。

图7 信息交互的门控循环单元和图卷积网络的混合模型示意图

在MGRU-GNN 模型中，GNN通过在迭代训练过程中对节点之间的空间依赖关系进行训练学习。根据学习到的节点之间的信息依赖程度设置邻接矩阵的权重。由于MGRU模型输入参数与GNN 的输出存在差异，在GNN 网络之后便设有全连接层进行特征空间变换，在保留数据特征信息的同时调整数据维度来配合MGRU 网络的使用。通过MGRU与GNN的配合作用，使得MGRU在获得空间信息的更新同时也获得了输入序列的长期依赖关系的学习，实现了PM2.5的长期预测。

4 实验与分析

4.1 数据集

国家从13年开始陆陆续续建立了在大大小小的城市建立了雾霾气象监测站，每隔3小时进行一次采集，提供了大量的数据。数据集由生态环境部提供，生态环境部负责建立健全生态环境基本制度，环境污染防治的监督管理，生态环境监测等工作；气象数据包括风向、降雨、空气湿度、温度等数据；空间地理信息是各个城市中监测站的位置来表征城市的位置。

为了检验模型捕捉长期依赖关系的能力，本文选择了覆盖中国污染严重地区的京津冀地区的184个城市作为研究对象。构建选取区域范围内2016-9-1—2017-1-31 的秋冬季真实数据集，重点关注秋冬季节的原因在于秋冬季供暖系统的使用会增加空气污染的情况。在构造图结构的过程中我们使用图结构，利用风向构建图结构的边属性，不仅关注节点的变化情况，也关注节点之间信息的流向，特别是城市之间的PM2.5 具有双向传输的特点，因此我们使用图结构GNN。

我们使用了三种类型的数据：PM2.5历史数据和气象数据和空间信息。数据集划分为三个部分，选取50%为训练数据，25%为验证数据、25%为测试数据。

4.2 实验设置

为验证网络的有效性，我们将不同网络在相同的数据集下进行对比分析。为了公平比较，我们给每个比较的模型提供相同的参数输入和硬件环境。本文的实验环境是在一台操作系统为Ubuntu16.04 的工作站上，CPU 是一个Intel Xeon E5-1650 v4 六核处理器，主频为3.6 GHz，内存32 GB，GPU 为Nvidia Geforce GTX 1080 Ti，显存11 GB。

在本文的预测模型中，我们选择一种最常用的回归损失函数，均方误差（），为训练过程中的损失函数，选择自适应学习率算法RMSprop 来作为网络参数的优化器。训练过程中的样本数batch_size 为32，训练次数epochs 为150 次，并且添加提前停止机制Early Stoping，若连续多次迭代时的误差不发生变化，则提前停止训练防止过拟合。

本文采用均方根误差（）和平均绝对误差（）两个评价指标，和通过反映模型预测值与真值之间的误差来衡量预测精度。计算公式如下：

4.3 结果分析

在给定历史PM2.5 浓度数据及和未来24 小时的天气预报数据的情况下，预测未来24 小时的PM2.5 数据，并计算各种模型的预测性能。我们对以下几种网络模型进行测试对比：

（1）多层感知器（multilayer perceptron，MLP），是一种前馈人工神经网络模型，典型的MLP 由多层神经网络构成，其将输入的多个数据集映射到单一的输出的数据集上。

（2）长短期记忆网络（long short-term memory，LSTM），主要针对序列的时间维度变化进行建模。

（3）图卷积网络和长短期记忆网络（GCNLSTM），是图卷积网络（graph convolutional network，GCN）和LSTM 相结合，实现对时间维度和空间维度的情况进行建模。但是GCN 没有考虑到节点之间信息互相更新的过程，对PM2.5空间传输这一特性信息的利用受到限制。

（4）门控循环单元和全连接层（GRU-FC），在GRU 之后连接一层全连接层（fully connected layers，FC）。

（5）图神经网络和门控循环单元（GNNGRU），使用图网络与原始GRU 的结合，对时间维度和空间维度的情况进行建模，并且利用到了PM2.5在空间维度水平迁移的特性。

各种网络模型的预测结果如表1所示。

表1 不同模型的预测结果对比

通过预测结果的对比，可以看出MLP、LSTM、GRU 的效果是并不理想的，这是由于这三种网络模型本身设计结构的瓶颈，导致在学习节点之间的空间传输特性方面受到限制。其中MLP 网络存在学习速度慢，容易陷入局部极值的缺点，因此对于数据的学习可能会不够充分；LSTM和GRU虽然在一定程度上缓解了梯度消失的情况，但对于太长的序列学习能力还是略显不足，另外对于空间传输特性学习能力的欠缺导致预测效果不佳；GCN-LSTM 虽然能实现对时间维度和空间维度的特征都进行学习。但是GCN 只能抽取图中节点的拓扑信息，对PM2.5 空间传输这一特性的信息使用受到限制，因此效果不佳；GRU-FC 是GRU 拼接全连接层，全连接层相当于一个特征空间变换，可以把有用的信息提取整合，再加上激活函数的非线性映射，然而由于空间信息利用的不足，效果依然不佳；对比现有网络，可以发现我们的MGRU-GNN 在对时间维度的特征进行长期学习记忆的同时也利用空间信息更新了城市节点的信息，通过数据可以看出预测效果最佳。

对于空间信息以及对MGRU 的利用，实验如下：

表2 验证改进的GRU对模型的影响

上表以和分别为均方根误差及平均绝对误差衡量指标，记录不同网络在相同数据集以及相同硬件环境下的预测表现。通过上方图表的记录，可以看出，加入空间信息对于预测PM2.5浓度准确性的作用。

通过对比GRU 与MGRU、GRU-GNN 与MGRU-GNN 的预测结果，可以看出，相比于使用原始GRU 模块，替换为MGRU 模块之后，预测能力更强、误差更小。GRU-GNN 与MGRUGNN 的结果对比可以看出，RMSE 指数有6%～7%的进步，MAE 指数5%～6%的进步。因此可以证明，本文对于GRU 网络的改进相比原始网络具有更好的优越性。