APP下载

基于GA-BP神经网络大气中PM2.5软测量研究

2014-06-07郑海明商潇潇

计量学报 2014年6期
关键词:权值适应度遗传算法

郑海明, 商潇潇

(华北电力大学机械工程系,河北保定 071003)

基于GA-BP神经网络大气中PM2.5软测量研究

郑海明, 商潇潇

(华北电力大学机械工程系,河北保定 071003)

大气中PM2.5质量浓度变化具有较强的非线性特性,传统的软测量方法很难对其做出准确的计量监测。针对传统BP神经网络易陷入局部最小值的缺陷,将遗传算法和BP神经网络相结合建立了GA-BP神经网络软测量模型,将该模型应用到大气PM2.5质量浓度的计量监测中,并与传统BP神经网络模型的监测结果进行对比,结果表明经过遗传算法优化后的模型具有更好的非线性拟合能力和更高的监测精度。

计量学;遗传算法;GA-BP神经网络;PM2.5监测;软测量

1 引 言

近年来,我国中东部地区冬季出现持续的雾霾天气,使得PM2.5污染问题受到了人们的普遍关注。PM2.5是指悬浮在大气中空气动力学直径小于或等于2.5μm的颗粒物,虽然在大气成分中含量较少,但却是引起大气能见度降低的重要原因。PM2.5主要来源于化石燃料的燃烧,如汽车尾气及工业燃煤等含有大量有毒有害物质,对人体健康有较大的危害性[1]。因此,对城市中的PM2.5进行实时监测势在必行。目前我国对PM2.5的监测尚处于研究起步阶段,监测手段还不完善、设备安装费用较高,设备维修等耗费大量人力物力,所以对PM2.5软测量技术的研究有很大发展空间。

城市中PM2.5的浓度受该地区地形地貌、排放源地点、排放速率、气象等因素的影响,具有较强的非线性特性,传统的软测量方法很难对其进行准确监测[2]。BP神经网络具有较强的自学习、自组织、自适应能力,理论上可以逼近任意连续函数,特别适合于研究具有多因素性、不确定性、随机性、非线性和随时间变化特性的对象,但该模型存在收敛速度慢且容易陷入局部最小值的缺点[3],针对遗传算法具有较强的全局搜索能力,容易得到全局最优解的特点,本文建立基于遗传算法优化BP神经网络的GA-BP软测量模型对大气中的PM2.5质量浓度值进行监测。

2 BP神经网络基本原理

BP神经网络是神经网络中应用最广的一种多层前馈神经网络。在若干神经网络模型中,80%~90%的神经网络模型采用了BP网络或它的变形形式。它既是前向网络的核心部分,也是神经网络的精华[4]。

BP神经网络结构包括输入层、隐含层和输出层,其中隐含层可以是一层或多层。上下层之间实现全连接,而同一层神经元之间无连接,其结构见图1。

图1 3层BP神经网络结构图

BP神经网络学习算法是训练神经网络经典的学习算法,其本质是通过神经网络各层之间连接权值、阈值的调节,从而实现网络的实际输出向期望输出的逼近。过程如下[5,6]:

隐含层中第i个神经元的输入为

式中,f1为输入层到隐含层的传递函数;w1ij为权值;b1i为阈值;xj为网络输入;j为输入层神经元个数。

输出层第k个神经元的输出为

式中,f2为隐含层到输出层的传递函数;w2ki、b2k为两层之间的权值、阈值。

误差函数为

式中,tk为第k个神经元的期望输出。

隐含层第i个输入到输出层第k个输出的权值、阈值变化为

式中η为学习速率。

同理,输入层第j个输入到隐含层第i个输出的权值、阈值变化为

权值、阈值修正表达式为

BP神经网络对初始权值、阈值的选取较为敏感,初始权值、阈值的选取将影响网络收敛的速度和精度,因此合理选择初始权值和阈值非常重要。而BP神经网络在训练之初各层的连接权值和阈值被初始化为[0,1]间的随机值,这种未经优化的随机值会使BP神经网络的收敛速度慢且容易陷入局部最小值。

3 遗传算法基本原理

遗传算法(Genetic Algorithm,GA)是一种基于自然选择和基因遗传学原理的全局优化概率搜索算法。它将“优胜劣汰,适者生存”的生物进化原理引入待优化参数形成的编码串群体中,按照一定的适应度函数及一系列的遗传操作对个体进行筛选,从而使适应度值好的个体被保留组成新的群体,新群体不仅包含了上一代的信息,并且引入了新的优于上一代的个体。经过反复循环,直至满足一定的条件为止[7]。

GA-BP神经网络是用遗传算法优化BP神经网络的初始权值和阈值,其基本思想就是用个体代表网络的初始权值和阈值,个体值初始化的BP神经网络的预测误差作为该个体的适应度值,通过选择、交叉、变异操作寻找最优个体,即最优的BP神经网络初始权值和阈值。由于该算法从许多点开始并行操作,而非局限于特定一点,在解空间应用概率法则进行高效启发式搜索,因而可以有效地防止搜索过程中陷入局部最优解[8~10]。具体过程如下:

种群规模的大小直接影响到遗传算法的收敛性和计算效率。规模太小容易收敛到局部最优解,规模太大会降低计算速度。种群规模可根据实际情况设定为10~200之间。染色体编码方式为实数编码,每个个体均为一个实数串,由神经网络全部的权值和阈值组成。即染色体长度N为

式中:H为输入层节点数;R1为隐含层节点数;R2为输出层节点数。

(2)适应度函数

根据个体得到BP神经网络的初始权值和阈值,输入训练样本训练BP神经网络,达到设定的精度后预测网络输出,将网络输出和期望输出的绝对误差和作为个体适应度值,计算公式为

式中:n为网络的输出层节点数;yi为网络第i个节点的期望输出;oi为第i个节点的预测输出;k为系数。

(3)选择操作

艾莉知道,她的男人突然降临。男人从反光镜里偷觑着她,眼神虽直,却不乏柔情。艾莉白他一眼,却怒不起来。男人约四十多岁,眼睛很亮,鼻子很挺,下巴很翘,嘴巴很方。艾莉在公司门前下车,倚着玉兰树点一根香烟——尽管下了辞职的决心,但她需要酝酿辞职的勇气。出租车在灰色的烟雾里绕一个圈子,驶往来时方向,男人摇开车窗,冲她挥了挥手。艾莉再白男人一眼,嘴巴却笑起来。

遗传算法选择操作有轮盘赌法、锦标赛法等多种方法,本文选择轮盘赌法,即基于适应度比例的选择策略,每个个体i的选择概率pi为

式中:Fi为个体i的适应度值,由于适应度值越小越好,所以在个体选择前对适应度值求倒数;k为系数;N为种群个体数目。

(4)交叉操作

由于个体采用实数编码,所以交叉操作方法采用实数交叉法。第k个染色体mk和第l个染色体ml在i位的交叉操作如下

式中b为[0,1]间的随机数。

(5)变异操作

选取第i个个体的第j个基因mij进行变异,变异方法如下

式中:mmax为基因mij的上界;mmin为基因mij的下界;r为[0,1]间的随机数;r2为随机数;g为当前迭代次数;Gmax为最大进化次数。

将遗传算法得到的最优个体对BP神经网络初始权值和阈值赋值,用训练样本训练网络模型后监测PM2.5的浓度,GA-BP软测量模型具体算法流程见图2。

图2 GA-BP软测量模型算法流程图

4 GA-BP软测量模型的构建

本文数据选择华北某市空气质量自动监测站公布的大气污染物小时浓度数据,包括SO2、NO2、PM10、PM2.5以及同时期的气象局实时气象数据,包括气温、气压、湿度、风向、风速。将SO2、NO2、PM10、气温、气压、湿度、风向、风速8个影响因子作为模型的输入数据,同时期的PM2.5质量浓度值作为模型的输出数据建立PM2.5实时监测的软测量模型。由于所组成的整个数据系列中不同数据的量级、量纲存在很大差异,所以需要对数据进行归一化预处理,使归一化后的数据处于0~1之间。归一化公式为

式中:xmax、xmin为每组因子变量的最大值和最小值;xi、x′i分别为归一化前后的数据。

模型选用具有1个隐含层的3层BP网络,由于选取8个影响因子作为模型的输入数据,PM2.5质量浓度数据作为模型的输出数据,所以,网络模型输入层神经元数为8,输出层神经元数为1,隐含层神经元数根据经验选取11,建立结构为8-11-1的神经网络模型。输入层到隐含层的传递函数为logsig函数,隐含层到输出层的传递函数为purelin函数,网络的学习算法采用LM训练法trainlm。最大训练次数设置为5 000,训练目标误差设置为0.000 01,训练最小梯度设置为10-7。

遗传参数设置如下:种群规模选取20,遗传迭代次数为20,交叉概率取0.3,变异概率取0.1。实验程序均在Matlab软件环境下编写。图3为遗传算法在迭代寻优过程中进化代数与适应度值变化曲线,由图3可以看出,经过20代的遗传迭代,适应度函数下降的陡度比较大,说明遗传算法的应用取得了既定的效果,可以快速寻找到全局最优点附近。

图3 进化代数与适应度值变化曲线

经过20次迭代,得到最优的权值和阈值如下

将遗传算法优化后得到的最优权值、阈值作为BP网络的初始权值、阈值进行网络模型的训练。选取254组数据作为网络模型的训练数据。训练结果见图4,由图4可看出训练模型输出值与训练目标输出值曲线拟合良好。图5为训练模型输出值与目标值的相关性分析图,输出值与目标值的相关系数达0.982 93,说明模型经过训练后性能良好可以用于测试样本值的监测。

图4 训练结果输出拟合曲线

图5 训练结果相关性分析图

5 监测结果分析

训练结束后应用已训练好的模型对PM2.5质量浓度进行监测。将25组影响因子数据输入已训练好的模型,得到输出结果后进行反归一化即可得PM2.5质量浓度的监测值。监测结果见图6、图7。

图6 软测量模型监测PM2.5质量浓度的拟合曲线

图7 GA-BP模型监测结果相关性分析图

由图6、图7可看出,经遗传算法优化后的GABP软测量模型的监测结果曲线与实际值曲线拟合效果良好,监测值与实际值的相关系数达0.98823。与BP网络模型比较,GA-BP模型监测精度稳定,各个样本处监测值与实际值没有出现过大偏差,总体拟合精度明显好于BP模型。BP模型在第1、6、7、16、17、24样本处监测结果与实际值偏差较大,而GA-BP模型在这些样本处的监测结果都比较理想。二者监测效果对比见表1。

表1 GA-BP模型与BP模型监测效果对比

由表1可见,BP模型的最大相对误差达133.63%,GA-BP模型的最大相对误差只有56.78%,两模型的平均相对误差相差9.2%,说明模型经过遗传算法优化后的监测精度有了明显的提高。由图6和表1可发现,在第24个样本处,两种模型的监测效果均不理想,BP模型的相对误差达133.63%,遗传BP模型的相对误差达56.78%,分析原因为第24个样本处PM2.5质量浓度在整个样本中数值偏低,说明模型在监测偏低值时误差较大,具有一定的局限性。

6 结 论

由于大气中的PM2.5质量浓度受到多种因素的影响表现出强烈的不确定性,将神经网络应用到PM2.5监测中具有极大的可行性。针对传统BP神经网络模型存在易陷入局部极小值和收敛速度慢的问题,建立了基于遗传算法优化的GA-BP神经网络软测量模型,将GA-BP模型应用于PM2.5质量浓度的监测中并与BP网络模型的监测结果进行了比较。实验结果表明与传统BP网络模型比较,经过遗传算法优化后的GA-BP神经网络软测量模型监测精度提高了9.2%,且在整体样本的监测中均没出现过大的监测误差,表明该模型对PM2.5质量浓度的监测具有更好的非线性拟合能力和更高的监测精度。但发现在样本值偏低处模型的监测精度偏低,在今后的研究中希望通过有效的手段使该模型具有更高的推广能力。

[1] 郭清彬,程学丰,侯辉,等.冬季大气中PM10和PM2.5污染特征及形貌分析[J].中国环境监测,2010,26(4):55-58.

[2] Baker K R,Foley K M.A nonlinear regression model estimating single source concentrations of primary and secondarily formed PM2.5[J].Atmospheric Environment,2011,45(22):3758-3767.

[3] 李松,罗勇,张铭锐.遗传算法优化BP神经网络的混沌时间序列预测[J].计算机工程与应用,2011,47(29):52-55.

[4] 傅荟璇,赵红.MATLAB神经网络应用设计[M].北京:机械工业出版社,2010.

[5] 武常芳.基于B-P神经网络方法的西安市四季PM10浓度预报模型研究[D].西安:西安建筑科技大学,2007.

[6] Saad EW,Wunsch D C.Neural network explanation using inversion[J].Neural Networks,2007,20(1):78-93.

[7] MATLAB中文论坛.MATLAB神经网络30个案例分析[M].北京:北京航空航天大学出版社,2010.

[8] 刘艳华.基于遗传神经网络的西安市采暖季PM10污染浓度预报研究[D].西安:西安建筑科技大学,2009.

[9] Ashena R,Moghadasi J.Bottom hole pressure estimation using evolved neural networks by real coded ant colony optimization and genetic algorithm[J].Journal of Petroleum Science and Engineering,2011,77(3-4):375-385.

[10] 赵宏,刘爱霞,王恺,等.基于GA-ANN改进的空气质量预测模型[J].环境科学研究,2009,22(11):1276-1281.

Study on Atmospheric PM2.5 Soft Sensor Based on GA-BP Neural Network

ZHENG Hai-ming, SHANG Xiao-xiao
(Department of Mechanical Engineering,North China Electric Power University,Hebei,Baoding 071003,China)

Because of the varying concentration ofatmospheric PM2.5 have strongnonlinear characteristics,traditional soft sensormethods are difficult tomake accuratemeasuring and monitoring.According to traditional BP neural network is easy to fall into local minimum,BP neural network is combined with genetic algorithm to establish the GA-BP neural network soft sensor model.The model is applied to the monitoring of the atmospheric concentration of PM2.5,and compared with the results of themonitoring of the traditional BP neural network model,the results show that the genetic algorithm optimization model has a better non-linear fitting ability and highermonitoring accuracy.

Metrology;Genetic algorithm;GA-BP neural network;PM2.5monitoring;Soft sensor

TB99

A

1000-1158(2014)06-0621-05

10.3969/j.issn.1000-1158.2014.06.22

2013-05-06;

2014-08-13

国家自然科学基金(11174078);河北省自然科学基金(E2012502046);中央高校基本科研业务费专项资金(12MS102)

郑海明(1972-),男,江西乐安人,华北电力大学副教授,主要从事光机电应用技术、工业固定污染源烟气连续排放监测等研究。Zhaim@21cn.com

猜你喜欢

权值适应度遗传算法
改进的自适应复制、交叉和突变遗传算法
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
一种基于改进适应度的多机器人协作策略
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于权值动量的RBM加速学习算法研究
基于遗传算法和LS-SVM的财务危机预测
基于多维度特征权值动态更新的用户推荐模型研究
基于空调导风板成型工艺的Kriging模型适应度研究