t分布受控遗传算法优化BP神经网络的PM2.5质量浓度预测
2015-10-12于文柱王玉娟郑永杰田景芝
荆 涛,李 霖,于文柱,王玉娟,郑永杰,田景芝
1.齐齐哈尔大学 化学与化学工程学院,黑龙江省 齐齐哈尔 161006
2.齐齐哈尔环境监测站,黑龙江 齐齐哈尔 161000
我国的PM2.5二级标准:年平均质量浓度为35 μg/m3,日均为75 μg/m3[1]。PM2.5主要来源包括煤、石油、汽油、柴油、木材的燃烧,冶炼厂和钢铁厂的高温工业生产过程,汽车排放和生物质燃烧以及植物花粉等[2]。PM2.5能够散射和吸收光线,造成能见度降低,且浓度越高,能见度越小[3]。PM2.5也可沉积在个人的呼吸道内,引起肺部疾病、心脏疾病和过早死亡[4-5],且其本身可以吸附大量有害物质,对身体造成危害[6]。因此为了有效保护人类身体的健康,更好地反映大气污染实时状况,开展空气预报是十分必要的[7],这可以对可能出现的污染状况及时采取措施,降低空气污染所带来的危害。
空气污染物浓度的预测方法主要分为确定性方法和经验方法。确定性方法[8]需要详细的污染来源、排放量的动态信息、排出气体的化学组成和大气边界层的物理过程等信息,这些条件往往难以完全获取,因此需要近似和简化模型。经验方法需要收集大量的监测数据,建立污染物浓度与多种气象要素或环境因子的线性或者非线性的统计关系,输出值相对较少,且模型构建简单。经验方法比确定性方法更节省时间,且具有更高的精度。常用的经验方法有多元线性回归、神经网络、基因表达式编程算法(GEP)、遗传-BP神经网络(BP-GA)等。张本光等[9]对山东省疟疾高发地区发病率与气象因子进行多元逐步回归分析,证明了多元逐步回归分析适用于多元因素线性关系的预测中。周丽等[10]建立了北京地区PM2.5的粒子浓度与气象要素的多元线性回归方程。多元线性回归不能体现影响因素与PM2.5质量浓度之间的非线性关系,所建立的模型预测结果不准确。刘小生等[11]用基因表达式编程算法(GEP)建立PM2.5质量浓度的预测模型,预测结果表明,用GEP建立的模型预测准确度比较高。白鹤鸣等[12]用BP神经网络对空气污染指数预测模拟研究,证明了利用BP神经网络预测模型对PM2.5浓度的预测也是可行的。Gianluigi等[13]用人工神经网络模型预测地中海西部2个监测站点的PM10浓度,结果表明,当地的气象要素和空气质量起源是模型预测的关键性因素,且用神经网络模型对颗粒物的预测结果比较理想。Grivas等[14]用 4 个网络模型(MLPf、GA-MLP、MLPnomet、MLR)预测每日PM10质量浓度,预测准确度为MLPf>GA-MLP>MLPnomet>MLR,结果表明,取全部影响因素比用遗传算法筛选后的因素作为输入变量的结果更加准确,具有气象因素的模型预测结果比去除气象因素后的神经网络模型预测结果更优越,人工神经网络模型比多元线性模型对颗粒物的预测结果更加准确。Lovro等[15]用人工神经网络预测空气中的污染物(NO2、O3、CO、PM10),预测精度O3>NO2>CO>PM10,结果表明,用人工神经网络模型预测空气中颗粒物PM10的浓度还是有缺陷的,因此模型应该加以改进以提高其预测精度。BP神经网络具有陷入局部极值、收敛速度慢等缺点,因此BP神经网络并不能获得准确的颗粒物PM2.5质量浓度的实时预测。遗传算法是一种全局优化算法,能够找出复杂、多波峰,不可微向量的全局最优解,利用遗传算法来优化BP神经网络的初始权值能够保证比较高的概率得到全局最优解。阳其凯等[16]建立了遗传算法优化BP神经网络(BP-GA)模型对西安市PM2.5质量浓度进行预测,结果表明,运用此模型基本实现对PM2.5质量浓度的实时预测,然而大量数据的预测准确度低于少量数据。
汤海波等[17-18]建立了气象因子与空气污染物及空气污染指数之间的回归方程,结果表明,利用气象要素对空气污染物预测具有良好的效果。周势俊等[19]用Kalman方法结合气象要素实现了大连市的空气污染预报,也证明了用相应的气象要素基本可以实现空气污染物的预测。本文采用t分布变异的思想提出一种t分布受控遗传算法,结合t分布受控遗传算法和BP神经网络算法来对PM2.5质量浓度进行模拟预测,拟建立提高PM2.5预测准确度更优的模型。选取相关的气象要素,再结合实际的测试条件,选择大气压、温度、湿度、风速、风向及 SO2、NO2、O3、CO 的浓度作为预测模型的影响因素。
1 t分布受控遗传算法优化BP神经网络
1.1 t分布受控遗传
传统遗传算法进化过程为种群的初始化(随机分布 Xi个体,i=1,2,3,…,N),适应度计算(个体评价),选择操作(群体更新)、交叉操作(更新个体)和变异操作(更新个体)。其中变异操作可增加种群的多样性,使算法避免陷入局部最优,提高求解速度和精度。但传统算法的变异操作过于简单,本文将t分布思想引入变异操作中,提出一种t分布变异方法。
t分布是一种变异扰动性能较优的方法,遗传算法的变异部分,有用高斯分布和柯西分布改进的[20],基于柯西分布的邻域产生小扰动的能力相对于高斯分布有所下降,而产生大扰动的能力有所增强。t分布结合了高斯分布的邻域小扰动能力与柯西分布的大扰动能力,经过t分布变异的个体比高斯分布及柯西分布更加容易跳出局部最优,提高算法的全局搜索能力[21]。图1为t分布、标准高斯分布和标准柯西分布的对比曲线图。
图1 标准柯西分布、t分布、标准高斯分布概率密度函数曲线
受控衰减算子Φ计算方法见式(1),表示受控衰减的过程。
式中j是迭代次数,Φ的值随着j的值增大而减小,说明随着迭代次数的增加,受控衰减算子逐渐消亡。
t分布受控遗传变异对遗传个体Xi进行t分布变异,执行t分布变异后的遗传个体,计算方法见式(2)。
式中t(G)为t分布变量。
1.2 遗传进化交叉
传统遗传算法中交叉概率Pc控制着交叉算子使用频率,交叉概率越高,群体中结构变化的引入就越快,但已获得的优良基因结果的丢失速度也相应提高,而交叉概率太低则可能导致搜索阻滞。本文将交叉算子中引入受控衰减算子Φ,使交叉概率在受控衰减算子的控制下执行。
对遗传个体 Xi按交叉概率进行受控交叉,计算方法见式(3)。
1.3 t分布受控遗传算法
在t分布受控遗传算法中,t分布受控遗传变异取代传统遗传变异,受控遗传交叉取代传统遗传交叉,具体算法流程见图2。
图2 t分布受控遗传算法
1.4 基于t分布受控遗传算法的BP神经网络模型(BPM-TCG)
BPM-TCG采用t分布受控遗传算法对BP神经网络的权值和阈值进行优化,再将其赋予BP神经网络中进行训练和预测,以提高BP神经网络结果的准确性。BPM-TCG见图3。
图3 BPM-TCG
1.5 BP神经网络模型中参数的设定
1.5.1 网络层数的选择
BP神经网络是通过输入层到中间层、再到输出层来训练计算的。隐含层层数增多,会使结果更准确,但却会增加训练时间及其训练的复杂度,而采用3层BP神经网络能够实现从m'维到n'维的任意映射[22]。考虑到采取3层BP神经网络可以满足所需的精度要求,同时又能减少训练时间,故隐含层的数目确定为1。本文网络层数总共分为3层:输入层1个,隐含层1个,输出层1个。采用Matlab2011软件建立1个隐含层的3层BP神经网络。
1.5.2 传递函数的选择
输入层tansig;隐含层tansig;输出层purelin。
1.5.3 训练函数的选取
通过实验结果进行对比分析,选择训练函数为trainscg。
1.5.4 网络中各层的节点数选取
输入层神经元数目为9(相应的影响因素)。输出层神经元数目为1,即PM2.5的质量浓度。
隐含层神经元数目太小,神经网络不具备足够的鲁棒性,数目太大会导致训练时间长,可能导致过度拟合。隐含层节点数的范围由经验公式(4)决定[23]。
式中:n1为隐含层节点数;n为输入层节点数;m为输出层节点数;a为常数,1≤a≤10。
严鸿等[24]证明了BP神经网络隐含层单元数在其经验公式基础上扩大,可以寻得最优值。因此,采用式(4)得到隐含层节点数并将其扩大,在扩大的范围内寻找最优解。
2 结果与讨论
2.1 实验数据
实验数据来源于2014年3—5月齐齐哈尔大学监测点每小时的PM2.5质量浓度及其对应的影响因素(温度、湿度、大气压、风速、风向)和气体污染物(SO2、NO2、O3、CO)浓度。
对监测数据进行预处理:去除气体污染物浓度中的负值和零,去除由仪器所带来的偶然误差;如果某组数据缺少一项影响因素或PM2.5质量浓度,则在模型中去除这组数据。筛选后的数据用Excel随机打乱,以保证样本的无序性,数据输入模型前,先对数据进行归一化处理,减小由数据量纲引起的误差。训练样本和预测样本以5∶1的比例选取(总样本数为1 990,训练样本数为1 659,预测样本数为331)。
2.2 隐含层节点参数选取
隐含层节点数选取原则:以训练样本相关系数r'及预测样本相关系数r越大、精度越小、均方根误差越小越好的原则选择最佳隐含层节点数。由表1可知,隐含层节点数为18~24时,训练样本和预测样本各种性能参数都在向最优解接近。24个节点和25个节点数对比,训练样本相关系数相差不大,而预测效果中25个节点数更优于24个节点数,因此考虑训练样本和预测样本各性能参数,25个节点比24个节点具有更优的解。隐含层节点数大于25时,训练样本的相关系数增大,预测样本的相关系数反而降低了,陷入了过拟合的状态。综合考虑,隐含层节点数选择25。
表1 隐含层节点数结果
2.2.2 3种预测模型实验结果
BP神经网络模型、BP-GA模型、BPM-TCG模型预测结果分别见图4、图5、图6。
图4 BP神经网络模型的预测结果
图5 BP-GA模型的预测结果
图6 BPM-TCG模型的预测结果
从图4(a)、图5(a)、图6(a)可见,BPM-TCG模型中的预测值最接近真实值,预测值和真实值数据点基本重合。从图4(b)、图5(b)、图6(b)可见,3种模型的相关系数 r:BPM-TCG>BP-GA>BP,BPM-TCG相对于BP和BP-GA模型来说,预测相关系数有了很大提高,且BPM-TCG模型结果中的数据点都集中于期望值1∶1附近,拟合直线与期望值1∶1非常接近,预测结果最好;BP模型预测结果中拟合直线与期望值1∶1偏离程度较大,预测结果最差。
利用这3个模型对预测样本中超过GB 3095—2012规定的PM2.5质量浓度二级标准的高浓度污染物进行预测,预测结果如图7所示。由图7可知,这3种模型中,高污染物浓度的相关系数从大到小顺序依次为BPM-TCG>BP-GA>BP,BPM-TCG模型对高污染物浓度的预测更为准确。
图7 3种模型的高污染物浓度的预测结果
2.2.3 3种预测模型对比分析
3种模型性能参数如表2所示,表2中均方根误差(RMSE)和平均绝对误差(MAE)都以μg/m3为单位计算得到。
表2 各模型性能参数
从表2可知,3种模型的预测结果中相关系数r从大到小顺序依次为BPM-TCG>BP-GA>BP;高污染物浓度的预测相关系数r1从大到小顺序依次为BPM-TCG>BP-GA>BP;均方根误差从大到小顺序依次为BPM-TCG<BP-GA<BP;平均绝对误差从大到小顺序依次为BPM-TCG<BPGA<BP。
BP-GA模型是以GA优化BP网络的初始权值,避免BP神经网络陷入局部极小问题,以达到优化网络的目的,来提高模型的预测精度。对比表2中BP-GA模型和BP模型的性能参数的结果可知,BP-GA模型优于BP模型,充分体现了利用传统遗传算法来搜索BP神经网络的初始权值比单一BP网络模型更能够获得全局最优解。
BPM-TCG模型是用t分布改进传统GA的变异操作部分,再用改进的GA来搜索BP网络的初始权值,以得到更加准确的预测结果。对比表2中 BPM-TCG模型和 BP-GA模型可知,BPMTCG模型各预测性能参数均优于BP-GA模型,这充分体现了结合高斯分布和柯西分布的t分布变异的优越性,BPM-TCG模型比传统的BP-GA模型能得到更优解,对PM2.5质量浓度的预测结果更加准确。
3 结论
1)对比 BPM-TCG、BP-GA、BP 3种模型预测结果可知,BPM-TCG的相关系数r=0.900 8最大,均方根误差10.51最小,平均绝对误差8.10最小,高污染物浓度的预测相关系数r1=0.883 5最大,证明BPM-TCG模型的拟合效果优于BP神经网络模型和BP-GA模型,BPM-TCG模型更能挖掘出PM2.5质量浓度与其影响因素之间的非线性映射关系。
2)BPM-TCG模型对所有样本和高污染物样本的预测相关系数分别为0.900 8、0.883 5,BPMTCG不仅对普通的污染物浓度具有很好的预测准确度,对高污染物浓度也具有很高的预测准确度,证明所选取的气象因素及其气体污染物浓度能够很好地体现PM2.5质量浓度的实时变化情况,BPM-TCG模型对PM2.5质量浓度的准确预测,为PM2.5的预防和治理提供依据。
[1]GB 3095—2012 环境质量空气标准[S].
[2]任海燕.认识 PM2.5[J].中国科技术语,2012,14(2):54-56.
[3]王晨波.PM2.5浓度对能见度影响分析[J].科技信息,2013,(15):439-440.
[4]Pui D Y H,Chen S C,Zuo Z.PM2.5in China:Measurements,sources,visibility and health effects,and mitigation[J].Particuology,2014,13:1-26.
[5]Pascal M,Falq G,Wagner V,et al.Short-term impacts of particulate matter(PM10,PM2.5~10,PM2.5) on mortality in nine French cities[J].Atmospheric Environment,2014,95:175-184.
[6]张文丽,徐东群,崔九思.空气细颗粒物(PM2.5)污染特征及其毒性机制的研究进展[J].中国环境监测,2002,18(1):59-63.
[7]佟彦超.中国重点城市空气污染预报及其进展[J].中国环境监测,2006,22(2):69-71.
[8]Honoré C,Rouil L,Vautard R,et al.Predictability of European airquality: Assessmentof 3 yearsof operational forecasts and analyses by the PREV’AIR system[J]. Journal of GeophysicalResearch:Atmospheres,2008,113(D4):1-19.
[9]张本光,赵长磊,卜秀芹,等.山东省疟疾高发地区发病率与气象因子的多元逐步回归分析[J].中国人兽共患病学报,2013,29(3):257-261.
[10]周丽,徐祥德,丁国安,等.北京地区气溶胶PM2.5粒子浓度的相关因子及其估算模型[J].气象学报,2003,61(6):761-768.
[11]刘小生,李胜,赵相博,等.基于基因表达式编程的PM2.5浓度预测模型研究[J].江西理工大学学报,2013(5):1-5.
[12]白鹤鸣,沈润平,师华定,等.基于BP神经网络的空气污染指数预测模型研究[J].环境科学与技术,2013,36(3):186-189.
[13]de Gennaro G,Trizio L,Di Gilio A,et al.Neural network modelforthe prediction ofPM10daily concentrations in two sites in the Western Mediterranean[J].Science of The Total Environment,2013,463:875-883.
[14]Grivas G,Chaloulakou A.Artificial neural network models for prediction of PM10hourly concentrations,in the Greater Area of Athens,Greece[J].Atmospheric Environment,2006,40(7):1 216-1 229.
[15]Hrust L,Klaic Z B,Krizan J,et al.Neural network forecasting of air pollutants hourly concentrations using optimised temporal averages of meteorological variables and pollutant concentrations[J]. Atmospheric Environment,2009,43(35):5 588-5 596.
[16]阳其凯,张贵强,张竞铭,等.基于遗传算法与BP神经网络的PM2.5发生演化模型[J].计算机与现代化,2014(3):15-18.
[17]汤海波,肖培平,杨文增,等.菏泽市气象因子与空气质量相关性研究与应用[J].中国环境监测,2006,22(5):75-78.
[18]邱粲,曹洁,王静,等.济南市空气质量状况与气象条件关系分析[J].中国环境监测,2014,30(1):53-59.
[19]周势俊,宋煜,吴士杰.Kalman滤波法在城市空气污染预报中的应用[J].中国环境监测,2000,16(4):50-52.
[20]吴华伟,陈特放,黄伟明等.一种新的约束优化遗传算法及其工程应用[J].计算机应用研究,2013,30(2):367-370.
[21]周方俊,王向军,张民等.基于t分布变异的进化规划[J].电子学报,2008,36(4):667-671.
[22]Nielsen R H. Counterpropagation networks[J].Applied Optics,1987,26(23):4 979-4 984.
[23]Zhuo L,Zhang J,Dong P,et al.An SA-GA-BP neural network-based color correction algorithm for TCM tongue images[J].Neurocomputing,2014,134:111-116.
[24]严鸿,管燕萍.BP神经网络隐层单元数的确定方法及实例[J].控制工程,2009(增刊2):100-102.