基于深度学习的大数据空气污染预报

2015-07-13尹文君张大伟严京海张超李云婷芮晓光

中国环境管理 2015年6期

关键词：深度学习大数据

尹文君，张大伟，严京海，张超，李云婷，芮晓光

（1.IBM中国研究院，北京 100193；2. 北京市环境保护监测中心，大气颗粒物监测技术北京市重点实验室，北京 100048）

基于深度学习的大数据空气污染预报

尹文君1，张大伟2*，严京海2，张超1，李云婷2，芮晓光1

（1.IBM中国研究院，北京 100193；2. 北京市环境保护监测中心，大气颗粒物监测技术北京市重点实验室，北京 100048）

摘要为了更好地反映环境污染变化趋势，为环境管理决策提供及时、全面的环境质量信息，预防严重污染事件发生，开展城市空气质量预报研究是十分必要的。本文针对环境大数据时代下的城市空气质量预报，提出了一种基于深度学习的新方法。该方法通过模拟人类大脑的神经连接结构，将数据在原空间的特征表示转换到具有语义特征的新特征空间，自动地学习得到层次化的特征表示，从而提高预报性能。得益于这种方式，新方法与传统方法相比，不仅可以利用空气质量监测、气象监测及预报等环境大数据，充分考虑污染物的时空变化、空间分布，得到语义性的污染物变化规律，还可以基于其他空气污染预测方法的结果（如数值预报模式），自动分析其适用范围、优势劣势。因此，新方法通过模拟人脑思考过程实现更充分的大数据集成，一定程度上克服了现有方法的缺陷，应用上更加具有灵活性和可操作性。最后，通过实验证明新方法可以提高空气污染预报性能。

关键词空气污染预报；深度学习；深度信念网络；大数据

引言

随着我国可持续发展理念认知的不断深入，在大力开展经济建设的同时，生态文明建设也日益加强。环境污染的防治成为国家发展建设中的一项重要工作，其中的大气污染防治更是成为重中之重。

当前，我国面临非常严峻的大气污染形势。2015 年6月公布的由环保部组织编写的《2014中国环境状况公报》披露，我国开展空气质量新标准监测的161个地级及以上城市中，空气质量达标的城市仅有16个（约9.9%）；首批开展PM2.5监测的74个城市中，不达标的高达66个（约89.2%），PM2.5浓度的年均值（64μg/m3）更是超过了世界卫生组织空气质量导则值的6倍。为了应对当前大气污染形势，国家陆续出台了一系列的政策法规。2013年9月，国务院发布《大气污染防治行动计划》，明确了空气质量评价主要污染物的短期改善目标。2015年8月，中华人民共和国第十二届全国人民代表大会修订通过了《中华人民共和国大气污染防治法》，该法自2016年1月1日起施行。显然，大气污染防治已经成为国家发展战略中的一个重大课题。

在国务院部署的大气污染防治十条措施①2013年6月14日，国务院总理李克强主持召开国务院常务会议，部署大气污染防治十条措施。中，除从根源上减少大气污染物的排放等措施，政府对重污染天气的应急处理也被强调。空气污染预报对于政府应急管理重污染天气有着重要意义，不仅能警示公众合理回避高污染天气，还能为政府实施重污染企业限产限排、机动车限行等恰当的减缓大气污染应急措施提供时间裕量。同时，空气污染预报也是实现科学决策、综合管理环境以加强空气污染防治的有效技术手段，是将相关环境监测信息快速转化为空气污染防治决策依据的重要形式。正因如此，空气污染预报受到国家的高度重视，根据《国务院关于印发大气污染防治行动计划的通知》（国发〔2013〕37 号）的要求，京津冀、长三角、珠三角区域于2014年年底前完成区域、省、市级重污染天气监测预警系统建设，其他省（区、市）、副省级市、省会城市于2015年年底完成。空气污染预报作为重污染天气监测预警系统中核心的功能，其预报准确性对整个系统的作用有着重要的影响。空气污染预报是一项复杂的系统工程，如何提高预报准确性是当今大气污染防治领域研究的热点与难题。

尽管空气污染预报方法在近几十年取得了长远的发展[1]，但仍存在不足。深度学习是近年来人工智能领域提出的一种新颖的机器学习方法。深度学习能通过训练大数据，挖掘、捕捉大数据之间的深层联系，提高分类和预测准确性，是一种有效的大数据处理方法。另外，深度学习模型的训练较快，且随着训练样本的增加，能呈现出比一般方法更优地性能成长性。基于深度学习的空气污染预报模型能较好地克服已有预报方法的不足，原因如下：①近年来，随着国家对环境监测的重视和投入的增大，大量空气污染物实时监测数据得到长期积累，包括空气污染物浓度、气象条件等。在环境大数据背景下，深度学习技术可以利用整合海量的、多来源的环保数据，利用充足的观测数据作为训练样本，保证基于深度学习的空气污染预报模型具有较高的准确性。②深度学习模型能深度挖掘影响污染物浓度的各因子之间内在的数据关系，建立起较为准确的空气污染物浓度与影响因子之间复杂机制模型的代理模型。深度挖掘提取高级的、语义的空气质量变化的模式和规律，有机融合多种模型及专家知识，实现有效的空气质量分析。③深度学习模型具有较强的扩展性，通过合理设置输入因子的方式，能将其他方法集成到该模型中，能在一定程度上避免单一空气污染预报模型的缺陷和不确定性，提高预报准确度。基于上述原因，本研究基于环境大数据，提出一种有效的基于深度学习的大数据空气污染预报模型。

1 空气污染预报研究进展

空气污染预报是根据过去空气污染物排放情况以及次日的气象条件、大气扩散状况、地理地貌等因素，来预测次日该地区的空气污染程度[1]。空气污染预报方法可分为潜势预报、数值预报和统计预报。

潜势预报是基于天气预报的“二次预报”，通过设定天气形势和气象指标临界值作为预报依据，预报可能影响空气污染物扩散和稀释的特有的气象条件[3]。由于潜势预报不考虑污染源因素，又与天气预报的准确度相关，一般预报准确度不高。目前，潜势预报通常不独立使用，而是与其他方法配合使用。

数值预报是一种以空气动力学理论为基础，基于物理化学过程的确定性预报方法，利用数学方法建立大气污染浓度在空气中的稀释扩散的数值模型，通过计算机高速计算来预报大气污染物浓度在空气中的动态变化[1]。国外空气污染预报工作起步较早，目前国际上已经开发出多种数值预报的空气质量模型，如欧拉模型中的城市大气质量模型（urban airshed model, UAM)[4]、区域多尺度空气质量模型(community multiscale air quality, CMAQ）[5]。近二十年来，国内研究者也陆续开发出一批数值预报模型。中国科学院的雷孝恩[6]建立了对流层高分辨率化学预报模型，该模型可预报对流层内多种气体污染物的时空分布及演变过程。中国气象科学研究院的徐大海[7]建立了大气平流扩散的非静稳多箱模型，该模型可以预报空气污染潜势和污染指数。中国科学院大气物理研究所的王自发[8]建立了嵌套网格空气质量预报系统，该系统利用中尺度气象数值模型得到未来天气形势，同时考虑污染排放源情况，结合嵌套网格空气质量预报系统，最终给出空气质量预报结果。中国气象局沈阳大气环境研究所[9]在气象中尺度数值预报模型MM5和ADMS城市模型大气扩散模型的基础上，分析城市空气污染数值预报要素，结合污染源排放清单，建立了城市空气质量预报系统。数值预报方法存在以下不足：①数值预报方法往往适合区域性的空气污染预测，而对于城市范围的空气污染预测，由于复杂的地面流场和湍流结构，难以准确估计城市边界层大气的物化过程，使得预测效果并不尽如人意；②数值预报需要十分翔实的污染源资料，由于实际中难以获得，通常采用简单假设或者忽略的方式，导致数值预报准确性受限；③数值预报方法计算复杂度高，预测计算耗时较长（通常需要6～12h）[2]，致使预报时效性不强。由于理论上的不足以及应用条件的高要求，数值预报方法有待进一步的完善。

统计预报不依赖于污染物的物理、化学与生态过程，通过分析空气污染相关的输入-输出资料的统计规律，对未来趋势进行预测。统计预报由于具有快捷、简单的特点，受到许多研究者的关注。经典的统计预报方法包括时间序列分析[10]、多元回归模型[11-12]、神经网络模型[13-16]等。统计预报方法存在以下不足：①时间序列分析法和多元回归模型法由于对空气污染变化做了较多的假设，并简化了较多的影响因子，使得方法的预报准确性不高。②人工神经网络模型由于大量可用的训练数据导致过拟合的现象，神经网络的泛化能力有待提高。此外，由于空气污染涉及大量影响因子，合理确定网络结构的过程较为复杂，且复杂网络的训练耗时较长。③无法对多来源的数据（结构化、非结构化）进行有效融合与分析，无法实现对海量数据的有效全量分析。

2．深度学习预报模型

深度学习[17]是指基于样本数据通过一定的训练方法得到包含多个层级的深度网络结构的机器学习过程。深度学习模型分为前馈深度网络、反馈深度网络和双向深度网络。深度信念网络是一种经典的双向深度网络，被广泛应用于图像分类、语音识别等领域[18]，具有较强的分类、预测能力。因此，本文基于深度信念网络提出空气污染预报模型。

2.1 深度信念网络

深度信念网络（deep belief network, DBN）是由多层限制玻尔兹曼机(restricted Boltzmann machine, RBM)网络和一层反向传播（back-propagation, BP）网络组成的，如图1所示。在深度信念网络中，上一层RBM网络经过学习得到的特征输出作为下一层的输入，使每层能更好地抽象出上一层的特征，逐层提取数据特征。而顶层的BP网络以RBM网络提取的特征作为输入，用于分类或者预测。

图1 深度信念网络结构

RBM由可视层V和隐层H构成，如图2所示。可视层用于输入特征数据，隐层用于特征检测器。可视层与隐层层内各节点彼此之间无连接，即每个节点取值相互独立。隐层各节点只能随机取值0或者1，同时全概率分布P（V, H）满足玻尔兹曼分布，通过全概率分布可以确定条件分布p（h|v）和p（v|h）。当输入v时，通过p（h|v）可以得到隐层h，而得到隐层h之后，通过p（v|h）又能得到可视层，通过调整参数，使得从隐层得到的可视层v'与原来的可视层v一样，即得到隐层为可视层的另外一种表达。因此，隐层可以作为可视层输入数据的特征。

RBM在给定模型参数（θ）条件下的联合分布为：

其中，i,j为节点；Wij为可视层单元和隐层单元之间的连接权值；bi和aj为偏置量。

BP神经网络由输入层、隐层和输出层三层神经元组成，其结构如图3所示。DBN中的BP网络可以理解为有监督学习的分类器。

图2 RBM结构

图3 BP网络结构

2.2 基于DBN的空气污染预报模型

2.2.1 模型结构

DBN结构由第一层RBM可视层节点数量、输出量个数、DBN网络深度（RBM网络层数），以及各层隐层节点数确定。

第一层RBM可视层节点数量由输入样本特征数量决定。本研究中，空气污染预报考虑过去一天的空气污染情况、过去一天和预报的污染物扩散条件等一共输入64个样本特征。其中，过去一天的污染物情况，包括PM2.5、PM10、SO2、CO、NOx和O3六种监测污染物浓度的平均值，以及空气质量指数（air quality index, AQI）平均值。污染物扩散条件主要考虑空间上垂直各层的风速、风向、湿度、温度和气压等。本文的空气污染预报针对国家空气环境监测的六种空气污染物PM2.5、PM10、SO2、CO、NOx和O3，每种污染物根据标准有各自的等级。

DBN网络深度对模型性能影响较大。研究证明，若RBM层数增加，则DBN的建模能力增强，更高层的隐层可能挖掘出更抽象的特征表示，提高网络的预测性能[19]；但过多的层数，可能导致DBN的泛化能力降低，容易出现过拟合现象[20]。

DBN每个隐层节点数对模型的性能也有一定的影响[20]，指出节点数过少，则模型挖掘数据信息性能不强；节点数过多，则也容易出现过拟合现象。

2.2.2 模型训练

DBN模型的训练分为预训练和微调两步。

第1步：分别单独无监督地训练每一层 RBM 网络，通过非监督贪婪逐层方法预训练获得生成模型的权值，确保特征向量映射到不同特征空间时，都尽可能多地保留特征信息。RBM 的训练过程，实际上是通过确定权值求出一个最能产生训练样本的概率分布。也就是说，求一个分布，使得在这个分布下训练样本的概率最大。

第2步：DBN最后一层的BP网络，接收RBM的输出特征向量作为输入特征向量，有监督地训练分类器。每一层RBM网络调整自身层内的权值，确保该层特征向量映射达到最优，而整个 DBN 的特征向量映射并没达到最优，所以BP网络将错误信息自顶向下传播至每一层RBM，微调整个DBN网络。

3 仿真结果

本文采用2014年及2015年1～9月北京市空气质量数据作为试验数据，其中，2014年及2015年1～7月的数据作为训练DBN预报模型的训练数据，8月的数据作为可行性验证数据，且以9月的数据作为预报测试数据。

本文分别采用相关系数(Corr)和平均绝对误差（MAE）作为评价指标。相关系数的计算公式如下：

其中，n为预测样本点数；Ri和Pi分别为测试样本点空气污染物的实际平均浓度和预测平均浓度；和R分别为Ri的均值和标准差；和P分别为Pi的均值和标准差。

平均绝对误差的计算公式如下：

为了合理地设置DBN的网络深度，我们研究DBN层数{2,3,4}对模型预测性能的影响，设置每个隐层节点数为100。以平均绝对误差MAE作为评价指标，研究结果如图4所示。从图4可知，DBN网络深度对空气污染预报准确性的影响不大，总体上三层结构模型的预报性能最优。本研究中，DBN网络深度对预报性能的影响不大，主要是由于大量的训练数据，提供了充足的数据信息，使得较少的RBM层数也能对数据特征进行深度挖掘。

图4 DBN层数对预测性能的影响

基于上述研究结果，我们采用三层的DBN模型，进一步研究隐层节点数对模型预测性能的影响，分别设置每层隐层节点数为50、100、200，同样以MAE作为评价指标，研究结果如图5所示。从图5可知，当隐层节点数取100时，模型的整体预测性能最优。因此，本研究最终将采用三层DBN模型，每个隐层节点数设为100。

图5 DBN隐层节点数对预测性能的影响

为了验证所提方法的准确性，将DBN预报模型与经典的机器学习预测模型线性回归（linear regression，LR）、神经网络（neural network，NN）、支持向量机（support vector machine，SVM）、随机森林（random forest，RF）以及自回归积分滑动平均模型（autoregressive integrated moving average model，ARIMA）进行比较，比较结果如表1和表2所示。

从表1和表2可知，基于DBN的预报模型的预测性能在相关系数和平均绝对误差两个评价指标下都明显优于其他经典预测模型。这表明，基于深度学习的预报模型相对其他经典预报方法而言，能深度挖掘输入样本特征，提取影响污染物浓度的主要因素，降低样本中噪声的影响，从而具有较高的预报准确度。

考虑到北京城市空气质量在采暖季和非采暖季特征差异较大，为进一步验证基于深度学习预报模型在不同环境下的性能，本文以2014年数据作为训练数据，分别针对2015年1、2月（采暖季）和7月（非采暖季）的空气质量进行预测测试，预报结果如表3至表6所示。在1、2月份由于光强较弱，O3浓度相对较低，波动小，预测难度小；但是由于采暖季燃煤等污染排放强度大、逆温等不利扩散条件频繁，空气污染物浓度更高、波动更大，除O3外，其他污染物预测难度变大。表3至表6显示，即使在高污染情况下，DBN也依然保持了很好的预测性能，而其他传统模型性能显著下降。

表1　 2015年9月空气污染预测的相关系数

表2　2015年9月空气污染预测的平均绝对误差

表3　2015年1、2月空气污染预测的相关系数

表4　 2015年1、2月空气污染预测的平均绝对误差

表5　2015年7月空气污染预测的相关系数

表6　2015年7月空气污染预测的平均绝对误差

4 结论

本文针对环境大数据，探讨了大数据处理技术在环保领域的应用，提出了一种基于深度学习的大数据空气污染预报方法。该方法基于深度信念网络，建立过去一天的空气污染物浓度、空气污染物天气扩散条件、预测的次日天气等输入特征量与六大监测空气污染物浓度之间的统计模型。利用环境大数据对模型进行训练，充分挖掘空气质量监测大数据中的语义特征，实现基于环境大数据的空气污染预报。通过与经典的机器学习预测方法基于相关性和平均绝对误差评价指标的比较，验证了DBN模型在空气污染预报的有效性。研究表明，基于深度学习的预报方法能较好地克服传统空气污染预报方法的缺点，尤其在大数据背景下，能更好地挖掘空气质量监测大数据的价值，提高环境大数据的应用效果。

参考文献

[1] 任万辉, 苏枞枞, 赵宏德. 城市环境空气污染预报研究进展[J]. 环境保护科学, 2010, 36(3): 9-11.

[2] 王勤耕, 夏思佳, 万祎雪, 等. 当前城市空气污染预报方法存在的问题及新思路[J]. 环境科学与技术, 2009, 32(3): 189-192.

[3] 张美根, 韩志伟, 雷孝恩. 城市空气污染预报方法简述[J].气候与环境研究, 2001, 6(1): 113-118.

[4] Scheffe R D, Morris R E. A review of the development and application of the Urban Airshed model[J]. Atmospheric Environment. Part B. Urban Atmosphere, 1993, 27(1): 23-39.

[5] Byun D W, Ching J K S. Science Algorithms of the EPA Models-3 Community Multiscale Air Quality (CMAQ) Modeling System[R]. EPA/600/R-99/030, Office of Research and Development, US Environmental Protection Agency, 1999.

[6] 雷孝恩, 韩志伟, 张美根, 等. 城市空气污染数值预报模式系统[M]. 北京: 气象出版社, 1998: 1-15.

[7] 徐大海, 朱蓉. 大气平流扩散的非静稳多箱模型与自洁能力预报[C]// 第五届全国风工程及工业空气动力学学术会议论文集. 张家界: 中国空气动力学会, 1998.

[8] 王自发, 谢付莹, 王喜全, 等. 嵌套网格空气质量预报模式系统的发展与应用[J]. 大气科学, 2006, 30 (5): 778-790. [9] 杨洪斌, 李英志, 邹旭东, 等. 城市空气污染数值预报的技术关键[J]. 环境保护与循环经济, 2009, 29 (11): 42-45.

[10] Hsu K -J. Time series analysis of the interdependence among air pollutants[J]. Atmospheric Environment. Part B. Urban Atmosphere, 1992, 26 (4): 491-503.

[11] Cardelino C, Chang M, John J S, et al. Ozone predictions in Atlanta, Georgia: analysis of the 1999 ozone season[J]. Journal of the Air & Waste Management Association, 2001, 51 (8): 1227-1236.

[12] 周势俊, 宋煜, 吴士杰. Kalman滤波法在城市空气污染预报中的应用[J]. 中国环境监测, 2000, 16(4): 50-52.

[13] Viotti P, Liuti G, di Genova P. Atmospheric urban pollution: applications of an artificial neural network (ANN) to the city of Perugia[J]. Ecological Modelling, 2002, 148 (1): 27-46.

[14] 周秀杰, 苏小红, 袁美英. 基于BP网络的空气污染指数预报研究[J]. 哈尔滨工业大学学报, 2004, 36 (5): 582-585.

[15] 俞卫忠, 陈建. BP人工神经网络模型在城市空气污染预报中的应用[J]. 污染防治技术, 2013, 26 (3): 55-57.

[16] 王国胜, 郭联金, 董晓清, 等. 深圳市区空气污染的人工神经网络预测[J]. 环境工程学报, 2015, 9 (7): 3393-3399.

[17] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18 (7): 1527-1554.

[18] 吕启, 窦勇, 牛新, 等. 基于DBN模型的遥感图像分类[J].计算机研究与发展, 2014, 51 (9): 1911-1918.

[19] Larochelle H, Bengio Y, Louradour J, et al. Exploring strategies for training deep neural networks[J]. Journal of Machine Learning Research, 2009, 10: 1-40.

[20] Le Roux N, Bengio Y. Representational power of restricted Boltzmann machines and deep belief networks[J]. Neural Computation, 2008, 20 (6): 1631-1649.

Deep Learning based Air Pollutant Forecasting with Big Data

Yin Wenjun1, Zhang Dawei2*, Yan Jinghai2, Zhang Chao1, Li Yunting2, Rui Xiaoguang1

（1.IBM Research - China, Beijing 100193; 2. Beijing Key Lab of Atmospheric Particle Matter Monitoring, Beijing Municipal Environmental Monitoring Center, Beijing 100048）

Abstract:It is necessary to do research about urban air quality forecasting to better refl ect the changing trend of the air pollution and provide prompt and complete environment quality information for environment management decision, as well as to avoid serious air pollution accident. For the urban air quality forecasting in the era of environmental big data, this paper proposes a novel method based on deep learning. Via simulating neural connecting structure of human brain, the deep learning method transforms the feature representation of data in the original space to a new feature space with semantic feature, and obtains hierarchical feature representation automatically to improve the performance of forecasting. Due to the merits of the deep learning, compared with traditional methods, the deep learning based model can not only utilize the environmental big data, including the air quality monitoring, weather monitoring and forecasting, and consider the spatiotemporal change and spatial distribution of air pollutant sufficiently to get the semantic change regulation of air pollutant, but also analyze the scope of its application, advantages and disadvantages based on results of other air quality forecasting methods (such as, numerical forecasting model). Therefore, the deep learning based method realizes the comprehensive integration of big data via simulating the thinking progress of human brain. The novel method is of fl exibility and feasibility for application, and overcomes the weak of the existing forecasting methods. Finally, the numerical test demonstrates that the novel method can improve the performance of air pollutant forecasting.

Keywords:air pollutant forecasting; deep learning; deep brief network; big data

中图分类号：TP391

文献标识码：A

文章编号：1674-6252（2015）06-0046-07:

基金项目：环保公益性行业科研专项（201409005）；国家科技支撑计划课题（2014BAC23B03）。

作者简介：尹文君（1976—），男，博士，主要从事环境科学与认知计算等研究。

*责任作者：张大伟（1978—），男，高级工程师，博士，主要从事环境科学与工程研究。