APP下载

基于双向误差传播多层神经网络的监测盲区工业废气分布分析方法

2018-07-25汪利伟王小艺白玉廷卢雨田

计算机应用 2018年5期
关键词:盲区权值废气

汪利伟,王小艺*,王 立,白玉廷,卢雨田

(1.北京工商大学计算机与信息工程学院,北京100048; 2.北京理工大学自动化学院,北京100081)

(*通信作者电子邮箱sdwangxy@163.com)

0 引言

社会经济的迅猛发展在改善生活质量的同时带来了严重的环境污染问题,尽管大气问题近年得到了重视,但城市大气污染仍面临严峻形势。2016年全国338个地级及以上城市中仅有24.9%的城市空气质量达标,其余254个城市空气质量全部超标[1];而相关研究表明,工业气体污染已占据大气总污染量的70%左右[2],成为我国大气环境污染的主要来源。

工业园区是工业集约化生产的典型组织方式,其一般由多种类型企业组成,占地面积大,在开展工业废气监测时面临大气污染物种类较多和监测范围广等问题。通过有限的监测点分析某些盲区的废气分布情况是工业园区废气监测中需要解决的重要问题之一。以往工业园区废气污染分布研究中广泛应用的是数值机理模型,主要包括高斯烟团模型[3-4]和高斯烟羽模型[5-6]等:刑晶晶等[7]利用高斯烟羽模型对工业区空气质量进行了评估,以源强作为输入利用基础高斯模型得出了空气质量评估报告;周洪文等[8]在煤田火区气态污染物扩散影响区域模拟研究中,利用改进高斯模型模拟地面自然风下扩散面积分布情况,为当地治理煤区大气环境提供依据;武丽君等[9]利用高斯烟团模型研究了多种污染源作用下的城市PM2.5图形绘制,对PM2.5扩散趋势作了直观展示;同时,高斯烟团模型和高斯烟羽模型也被用在在原油泄漏[10]、垃圾焚烧[11]和水稻花粉扩散面积[12]等问题的研究中。

高斯模型为代表的数值机理模型尽管较为成熟且被广泛应用,但模型本身明显的缺陷无法忽视。一方面模型建立过程中特征参数的给定依赖人为经验,易造成模型鲁棒性差、误差累积等问题;另一方面模型主要适用于定点单污染源,且无法模拟动态变化过程。为弥补机理模型的不足,部分学者探索了数据驱动下的废气分析方法,如基于时间序列的空气质量分析[13]、基于多元线性回归和支持向量机的大气污染物浓度预测[14]、基于 BP(Back Propagation)神经网络[15-17]的大气环境分析以及基于时间序列和神经网络组合[18]的气体浓度预测模型等。

对工业园区的实际调研发现,由于企业自身利益、管理政策等原因,工业园区内的部分工厂内部无法布设监测点,而工厂内部是废气监测和管理的重点区域,现有的气体分布分析方法尚且无法解决此问题。本文首先提出了监测盲区工业废气分布分析的总体解决思路,即利用边界监测数据推理盲区的废气分布;提出了双向误差传播多层神经网络(Bidirectional Error Multi-layer Neural Network,BEMNN)对边界与盲区气体分布关系进行建模;利用某工业园区的实际数据对本文所建立的网络进行训练和测试,实验结果验证了所提方法的可行性和准确性。

1 基于BEMNN的废气分布分析方法

1.1 问题描述

监测点的布设是进行气体监测的首要工作,最常用的基本原则是根据不同管理区域的重要性布设监测点;但在实际监测工作中发现,工业园区内的企业出于自身利益考虑会拒绝布设监测点,或对监测点作出人为影响干扰或破坏等,造成数据采集不准确或无法采集,同时由于管理体系建制及政策法规不完善等原因,无法从管理层面解决此问题。为此,对工业园区分布状况进行深入了解后,提出一种“边界监测-盲区推理”的解决思路,图1为此方法中监测点的布设示意图。根据实际监测需求,选取3~6个边界监测位置点获取监测数据,通过神经网络对边界监测点与盲区点之间的关系进行建模;在实际应用时利用建立的神经网络可以通过边界监测点数据推理出盲区的废气分布情况。

在“边界监测-盲区推理”监测方案基础上对拟解决的问题进行表述。已知m个边界监测点,即〈l1,l2,…,lm〉,每个监测点均有相同时间间隔Δt和时间长度T的气体浓度监测数据序列 Dli。拟求取非线性关系 f,其表示从〈Dl1,Dl2,…,Dlm〉到盲区监测点z相同时间条件下气体浓度Dz的映射关系。本文提出BEMNN对此非线性关系f进行回归分析。

1.2 BEMNN模型构建

BEMNN以多层网络结构和误差双向传播以主要特点,其结构如图2所示。

一方面,在网络结构设计中,网络在纵向上共分为两层:第一层网络由输入层和隐层组成,每层中的元素根据监测点数量分为m组,每组中有n个输入节点和k个隐层节点;第二层由中间输出层和最终输出层组成,中间输出层节点数等同于监测点数m。另一方面,在网络学习方法中,根据训练和测试两种情形的设定,对应产生误差的双向传播过程。

图1“边界监测-盲区推理”监测布点示意图Fig.1 Distribution schematic diagram of monitoring points in“monitoring in boundary and inference of dead zone”

图2 BEMNN结构Fig.2 Architecture of BEMNN

学习方式明显区别于传统的神经网络结构,其对信息的处理采取了多级分层的双向处理方式。首先通过m组的单层输入对不同的训练样本选择BEMNN结构中的第一层网络进行学习,根据第二层的中间输出层与参考值的比较产生反向传播的误差,进而对第一层网络连接权值进行更新;然后进行中间输出层到最终输出层的训练学习,此时的误差将转化为不同节点融合的权重,最终集成学习结果得到园区内部未知盲区的废气污染气体浓度。

1)网络结构。

在图2所示的网络结构中,x0=-1,输入向量为X=(x1,x2,…,xi,…,xn)T,y0= - 1,输出向量为 Y=(y1,y2,…,yj,…,ym)T,输出层输出向量为 O=(o1,o2,…,ok,…,om)T,期望输出向量 d=(d1,d2,…,dk,…,dm)T。输入层到隐层之间的权值矩阵 V=(v1,v2,…,vj,…,vm),隐层到输出层之间权值用 W=(w1,w2,…,wk,…,wi)。

2)误差反向传播学习。

对于输出层有:

当网络输出与期望输出不等时,存在输出误差:

由式(8)可以看出,误差是各层权值的函数,调整权值可以改变误差,显然调整权值的原则就是使误差不断减小,即:

其中:η指学习速率,是一个给定的常数,0<η<1。

具体的权值调整算法,对于输出层均有j=0,1,2,…,m,k=1,2,…,l,对于隐层均有 i=0,1,2,…,n,j=1,2,…,m。

对于输出层和隐层分别可以改为:

对输出层和隐层各定义一个误差信号:

得到最终的权值调整计算公式

3)误差正向传播学习。

求出各层新的权值以后在转向正向传播过程。

设 z0= - 1,输入向量 Z=(z1,z2,…,zN)T,输出向量Op=(o1,o2,…,os)T,输入到隐层的权值矩阵 M=(m1,m2,…,me)T,隐层到输出层的权值 C=(c1,c2,…,ct)T,考虑到第一层网络输出结果的不一致性,需要对初步设定权值矩阵双向调整,实际输入样本的权值调整值:

否则,将逆输入样本方向调整值:

当网络输出与期望输出不等时,存在输出误差,当计算期望精度达到学习次数时,计算结束,否则进行反向传播。

对于输出层和隐层分别可以改为:

1.3 基于BEMNN的废气分布分析算法

根据“边界监测-盲区推理”监测方案,利用BEMNN建立监测盲区工业废气分布分析算法,算法描述如下,对应算法流程如图3所示。

图3 算法流程Fig.3 Algorithm flow

监测盲区废气分布分析算法:通过边界布点,获取主要监测指标和监测数据,对每一组监测数据〈l1,l2,…,ln〉通过BEMNN 求得与〈Dl1,Dl2,…,Dln〉之间的非线性关系 f。

输入:n个监测点监测指标,文中以5个监测点4个监测指标为例;

输出:工业园区内部盲区气体浓度回归计算值。

1)针对园区分布调研,确定监测方法和实际监测布点,选取实际利用的监测数据作预处理;

2)将各个监测点监测数据利用BEMNN第一层进行训练,将5组单层数据分别输入到网络第一层独立模块,调整相关参数使之达到最好的预期效果,同时不同组数据之间的交互训练作误差反算确定模型稳定性和输入参数的校正;

3)将监测点训练后的稳定数据,作为第二层网络的5组单独输入,得到盲区位置的气体浓度值,同时这里误差反算一方面修改输入系数保证模型输出的准确性,而且可以返回到第一层网络对输入重新调整,实线数据输出结果对输入参数的选择。

2 实验与结果

2.1 实际问题、数据来源以及参数选择

根据工业园区内某些区域无法直接监测问题,运用本文所提方法进行实验。以某工业园区为实验场地,选取某化工厂为研究范围。在数据采集阶段,在该工厂周边8个方向的不同距离布设8个监测点,同时经过协调在工厂内部放置1个临时的移动监测点,该临时移动监测点仅用于实验阶段,后续日常运行中该点无法运行。数据采集阶段所布设的9个监测点地理位置分布如图4所示。

图4 监测点地理位置分布Fig.4 Location of monitoring points

在实际监测中,边界监测点一般为5个左右,因此在本实验中,对布设的8个边界监测点与盲区内部点的相关性进行分析,计算7天内各点与盲区内部点的相关性,结果如表1所示。

表1 监测点相关性分析Tab.1 Correlation analysis among monitoring points

根据表1相关性计算结果,最终选取以最小共同尺度为基准且相关性最大的5个边界监测点和网络模型推算工厂内部废气情况,选取的5个监测点位置分布如图5所示。

图5 最终监测点位置分布Fig.5 Distribution of final monitoring points

实验阶段采集的数据包括大气稳定度、湿度、风速、风向和气体浓度5项指标,监测了1月份连续7天(每10分钟记录一次)的二氧化硫气体浓度变化数据,共有1680组。

2.2 网络训练与测试

本实验中有5个边界监测点,因此在本文提出的BEMNN中设置5组并行网络结构,每组网络结构中根据4项监测指标(大气稳定度、湿度、风速和风向)确定4个输入节点,每组中的隐层节点数为8个。

在训练过程中,选取1344组作为训练数据,将其输入设计完成的BEMNN中,训练参数设置如表1所示。在训练时,除5个单层网络训练稳定外还随机进行相互的模块化训练,避免单一数据随机性引起的参数误差,每个子模块输出稳定结果后将其作为下一层BEMNN的输入,此时的训练除了正常的误差选择外,输出结果反向作用于输入参数,实现结果对输入的选择,是以往网络结构所没有的。当BEMNN满足既定训练目标时,认为此时的网络已满足实际数据的变化需求,在此条件下,选取两部分数据作为测试数据对网络进行测试。其中,第一部分测量数据包括82组数据,第二部分测量数据包括254组数据,根据输出值和测量值进行准确率比较。同时,建立传统BP单层网络,经过参数调节使其达到较好效果,与传统BP网络的回归结果作对比分析。

表2 两种网络训练参数设置与对比Tab.2 Training parameter setting and contrast of two networks

2.3 实验结果

2.3.1 模型评价指标

为衡量BEMNN模型的稳定性和准确性,选取一些模型对指标进行评价,本文选取相对误差。规定为Pi真实值,Oi为回归拟合值,δ为实际相对误差,一般用百分数表示,则各评价指标定义如下:

相对误差按式(26)计算:

用药方法:观察组烧伤患者在无菌条件下应用0.9%盐水冲洗创面,再采用1:2000的洗必泰冲洗,再以生理盐水冲洗创面,随后根据创面的大小合理使用磺胺嘧啶银锌霜均匀涂抹在患者烧伤创面处,采用暴露法或包扎疗法治疗。对照组患者治疗步骤同观察组,对照组药物使用1%磺胺嘧啶银霜。

平均绝对误差是所有观测值与测试值的绝对值的平均。平均绝对误差由于差值被绝对化,不会出现正负相抵的情况,能够更好地反映误差的真实情况。

2.3.2 模型回归结果

实验选取了两组数据分别对BEMNN进行测试,第一组为240组,第二组为96组,如图选取336组数据分别作为对两种网络的测试数据,实验结果如图6所示。

均方根误差是测试值与真实值偏差平方和与观测次数比值的平方根,对于异常误差反应灵敏,能够很好地反映回归计算精度。均方根误差计算方式如下:

图6 BEMNN测试结果Fig.6 Test results of BEMNN

从图中可以看出,除少量数据外,实际值与回归值跟随效果比较好,实际值与回归值的比值非常接近于1,能够满足计算准确度的要求。

图7所示是各点推理结果的误差曲线,可以看出通过对模型参数的不断改进后,各组误差都能控制在准确度要求范围内,总体维持在8%左右,在工业园区盲区气体分布推理上取得较好效果,验证了BEMNN的有效性。

图7 BEMNN测试误差Fig.7 Test errors of BEMNN

同时,两组数据的平均相对误差分别为8.88%、8.5%,该网络在处理不同数据时均表现出近似水平的误差,表明该网络具备基本的适应性。如表3所示,在保证平均绝对误差MAE <28.83 μg,均方根误差 RMSE <45.62 μg的同时误差率较传统BP网络降低4个百分点左右,准确性进一步得到验证。

表3 模型回归结果评价对比Tab.3 Evaluation of model results

3 结语

针对现有模型大多基于定点单污染源进行预测,无法体现其动态性,传统的数值机理模型特征参数过于依赖人为经验会导致鲁棒性差、误差积累等问题,本文首先提出了监测盲区工业废气分布分析的总体解决思路,利用边界监测数据推理盲区废气分布,即“边界监测-盲区推理”;提出了双向误差传播多层神经网络(BEMNN),对边界与盲区气体分布关系进行建模;通过利用衡水市环保部提供的监测数据并对BEMNN进行训练和测试。实验结果:平均绝对误差MAE<28.83 μg,模型均方根误差 RMSE < 45.62 μg,相对误差控制在8%左右,验证了本文方法的可行性和准确性。模型较好地解决了废气污染监测盲区内部无法布点问题,为废气污染时空分布分析研究提出了一种新的研究思路,为城市居民健康、预测预警防范和环境治理提供了理论支撑。

本文提出BEMNN双层结构,包含两个反向和一个正向的误差传播过程,在收敛速度、误差精度和拟合率上较传统网络均有提高,同时增加了输出结果对输入变量的筛选,可适用于更多含有复杂不确定因素的其他预测研究。同时与单层BP网络相比:能够在训练次数大幅度减少的情况下,达到相同的精度要求;而在训练次数相同的情况下,相对误差率降低了4个百分点左右。

初步对数据驱动下的“边界监测-盲区推理”方法进行了探索,目前初期数据量相对较少,精确度有待进一步提高,在后续研究中需要利用更为丰富的数据对模型进行训练,提高网络模型的通用性和长期稳定性。

猜你喜欢

盲区权值废气
一种融合时间权值和用户行为序列的电影推荐模型
盲区50米
船舶废气脱硫蒸发冷却器数值模拟
有机废气处理方法探讨
液吸汽提法处理粘胶废气中二硫化碳的研究
CONTENTS
土壤修复过程中的废气控制与治理
交叉感应环线通信盲区分析和应对
产能不足、去向不明,危废监管盲区依然存在
基于权值动量的RBM加速学习算法研究