基于BP神经网络的水体叶绿素a浓度预测模型优化研究
2019-06-24蒋定国全秀峰李飞刘伟
蒋定国 全秀峰 李飞 刘伟
摘要:利用自动监测数据,采用神经网络对水体中叶绿素a含量进行预测,是水体中叶绿素a含量预测的主要手段之一。但受梯度下降法局部搜索的限制,传统BP神经网络模型预测精度和稳定性均存在问题。鉴于此,引入全局搜索的思维进化算法优化BP神经网络权值、阈值,提高叶绿素a预测效率;并采用偏导方法对预测模型输入因子敏感性进行分析,精简模型输入因子。结果表明:在叶绿素a 的BP神经网络预测模型中,引入思维进化算法可显著提高网络训练稳定性和精度,预测精度波动范围从[0.364,0.978]提高至[0.917,0.983],平均预测精度从0.950提高到0.968。利用Dimopoulos敏感性分析将模型输入因子从12因子精简为8因子后,平均预测精度从0.968降至0.962,预测精度波动范围从[0.917,0.983]变为[0.921,0.976],预测模型稳定性更好;在输入因子数目均为8条件下,基于Dimopoulos方法敏感性分析结果筛选出的输入因子组合平均预测精度明显高于基于主成分分析法筛选出的输入因子组合。研究可为基于BP神经网络叶绿素a预测模型输入因子优化提供参考,提高模型预测的稳定性。
关键词:叶绿素a;BP神经网络;思维进化算法;敏感性分析;优化
中图分类号:X824文献标志码:A
开放科学(资源服务)标识码(OSID):[TP蒋定国.TIF]
Abstract:Combining automatic monitoring data and neural network method is one of the main methods to predict the chlorophyll-a concentration in waterbody.However,the prediction accuracy and stability of the traditional BP neural network model are questionable due to the limitations of the local search with the gradient descent method.To solve this problem,the global search algorithm EMA was used to optimize BP neural network weights and thresholds to improve the chlorophyll-a prediction efficiency.The partial derivative method was used to analyze the sensitivity of the input factor in prediction model,and then to simplify the number of input factors.The results showed that EMA could significantly improve the stability and accuracy of network training in the BP neural network prediction model for chlorophyll-a concentration.The prediction accuracy ranged from [0.364,0.978] to [0.917,0.983],and the average prediction accuracy improved from 0.950 to 0.968.The predictive model was more stable using Dimopoulos sensitivity analysis to reduce the model input factor from 12 to 8.The average prediction accuracy decreased from 0.968 to 0.962 and the prediction accuracy ranged from [0.917,0.983]to [0.921,0.976]. Under the condition that the number of input factors was 8,the average prediction accuracy with the input factors selected by the sensitivity analysis of Dimopoulos method was significantly higher than that with the input factors based on traditional PCA method.The study results can provide reference for input factor optimization based on BP neural network on chlorophyll-a prediction model to improve the stability of model prediction.
Key words:chlorophyll-a concentration;BP neural network;EMA;sensitivity analysis;optimization
水體叶绿素a含量变化机理复杂,是表征水体富营养化程度的重要特征指标[1]。对水体中叶绿素a含量预测及其影响因子研究,可为水污染防治以及水生态环境控制措施建制提供关键依据[2]。其研究方法,可基于自动监测数据本身分析,也可基于数据构建预测模型分析。但相对前者,叶绿素a相关控制措施及控制标准难以确定,而基于预测模型讨论和分析水体叶绿素a的影响因素,更能直观体现其内在联系,为水体叶绿素a的控制措施研究提供参考。
目前,通过自动监测数据,利用神经网络的非线性逼近能力构建叶绿素a预测模型已成为水体叶绿素a含量预测的主要手段之一[3]。例如,裴洪平等[4]利用西湖湖心采样数据,成功构建BP神经网络预测模型,实现了对叶绿素a含量的短期变化趋势预测;Hou等[5]利用滇池40个采样点数据,基于三层前向BP神经网络,实现了对滇池的叶绿素a含量预测。然而,针对叶绿素a变化机理复杂体系,BP神经网络受梯度搜索算法的限制,易陷入局部最优[6],结果稳定性差。现有研究表明,耦合优化算法,增强神经网络的稳定性,是提高叶绿素预测效率有效途径,卢志娟等[7]通过小波分析分解叶绿素a原始序列为低频、高频数据集,再基于BP神经网络独立预测后汇总预测值,平均误差显著缩小;姚志红等[8]基于遗传算法,构造新的平衡交叉算子,结合神经网络实现了藻类生长的高效预测。
此外,神经网络训练效率不仅与网络结构密切相关,同时还受样本质量制约[9],能表达叶绿素a变化信息且冗沉较少的样本因子输入更能提高神经网络泛化能力,保证叶绿素预测精度。但基于BP神经网络的“黑匣子”模型[10],很难解释输出输入的响应机制,明确预测模型参数的具体敏感程度,进行因子输入优化。预测模型的输入往往是大量相关指标,增加了样本随机性,给BP神经网络训练带来可变性,出现预测精度不高[11]、稳定性差问题,同时,不必要的数据采集,也增大了样本监测布施成本,造成经济浪费。
鉴于此,本文在BP神经网络构建的叶绿素a预测模型中,引入思维进化算法优化权值、阈值,提高叶绿素a预测精度及模型稳定性;以基于网络结构的Dimppoulos敏感性分析方法,进行模型灵敏度分析,对比常用的主成分分析法,探讨叶绿素a相关因子敏感性,优化模型因子输入,为水体叶绿素a含量预测效率提高,藻华生态防治措施制定提供参考。
1 叶绿素a预测模型构建
1.1 BP神经网络预测模型
BP神经网络是由Rumelhart和McClelland等1986年提出的一种多层前馈式网络,因其具有良好的泛化能力以及非线性映射能力而被广泛应用于藻华预测领域[12]。本文采用三层前馈神经网络构建叶绿素a含量预测模型[13],基本结构如图1所示。采用tansig函数为隐含层传递函数,purelin函数为输出层线性传递函数,learngdm函数为阈值学习函数;B1为隐含层神经元阈值矩阵,B2为输出层神经元阈值矩阵。
图2为基于BP神经网络的叶绿素a预测结果,叶绿素a的平均预测精度0.95(图2(b)),但模型稳定性较差,10 000次循环训练中26.98%概率陷入局部最优(Q1以下)。显然,这与BP神经网络依据梯度下降算法收敛权值有关[14],针对水体叶绿素a含量变化复杂机理体系,非线性结构深度学习模型,误差平面存在多个局部最优点(鞍点);其局部搜索方式,决定了网络训练易陷入局部最优[15]。
2 神经网络权值、阈值优化
2.1 思维进化算法优化
为了提高网络训练稳定性及预测准确性,采用思维进化算法[16](Mind Evolutionary Algorithm,EMA)进行权值、阈值优化。思维进化算法是一种启发式全局高效搜索算法,继承了遗傳算法的“群体”、“进化思想”[17],其基本原理是:随机截取一定规模个体,依据评价得分决胜出“优胜”、“临时”子种群,并迭代完成群体内部的局部“趋同”竞争以及群体间的全局“异化”竞争,直至运算收敛,输出最优个体。
叶绿素a预测模型中,思维进化算法采取如下步骤进行。
(1)映射编码。
依据BP神经网络拓扑结构,映射解空间到编码空间,编码长度S由神经网络各层神经元数目确定,记为S=n×K+2K+1;其中,n为神经网络输入层神经元数,即叶绿素a含量相关因子数目,K为隐含层神经元数目。
(2)初始种群生成。
选取神经网络训练集输出值均方误差的倒数,记为个体与种群得分函数;解空间中随机生成若干个体,依据得分最高筛选M个优胜个体以及N个临时个体,依据筛选个体确定中心,邻近检索形成种群大小一定的初始优胜子种群、初始临时子种群。
(3)种群内部趋同竞争。
子种群内部,个体依据得分最高成为优胜个体的局部竞争,记为趋同过程,以个体最高得分为所在子种群得分,直至所有子种群不再生成新的优胜个体,趋同结束。
(4)种群之间异化竞争。
子种群之间,种群依据得分最高成为优胜种群的全局竞争,记为异化过程。[KG-*4]当临时子种群得分高于优胜子种群,则取代前者,释放原有优胜种群,异化结束后重新迭代,计算至运算收敛,获取全局最优个体得分。
(5)解析最优个体。
解码最优个体即为优化的神经网络权值、阈值,编码长度S的前n×K个编码为输入层与隐含层间权值,紧后K个编码为隐含层与输出层权值,再后K个编码为隐含层神经元阈值,最后1个编码为输出层神经元阈值。
基于MEA-BP神经网络的叶绿素预测模型结构见图3。
2.2 MEA-BP神经网络训练
依据叶绿素a预测模型中神经网络的拓扑结构,确定思维进化算法中参数设置。其中,映射编码长度169,设置子种群规模100,优胜、
临时子种群数各12。同样在1 400余组有效数据种选取1 000组为训练数据,400组作为验证数据;神经网络其它参数不变,基于MEA-BP神经网络的叶绿素a含量预测效果见图4,具有较好预测效果,训练精度0.983、仿真精度0.979。
2.3 模型预测精度分析
以叶绿素a含量为预测值,12项相关因子为输入变量,固定神经网络其它参数不变,对优化后的MEA-BP神经网络进行10 000次循环仿真,验证思维进化算法对神经网络权值、阈值的优化效果,绘制的叶绿素a预测精度分布见图5。
图5结果显示:优化模型预测精度符合正态分布,平均预测精度0.968,预测精度波动范围[0.917,0.983]。对比基础BP神经网络预测精度波动范围[0.364,0.978],波动区间缩减了89.3%,基于MEA-BP神经网络的叶绿素a预测精度分布集中性更高。显然,基于MEA-BP神经网络优化了权值、阈值,有效避免了网络训练易陷入局部最优的弊端,模型稳定性更好。
3 因子敏感性分析
3.1 Dimppoulos敏感性分析原理
采用基于偏导的Dimppoulos敏感性分析方法[18],进行模型灵敏度分析,探寻叶绿素含量变化的主敏感因子,为优化预测模型因子输入提供参考。Dimppoulos敏感性分析视训练结束的神经网络为系数明确的函数表达式,继而对输出变量求得输入变量的一阶偏导值,记为该输入变量的敏感值。
单样本中,本文叶绿素a含量各相关因子敏感值如下[19]:
3.2 基于偏导的敏感性分析讨论
基于Dimopoulos敏感性分析结果如图6所示:叶绿素a含量对pH值最为敏感,水汽压、溶解氧、水温及氨氮次之,最低气温、相对湿度、海平面气压及化学需氧量再次之,而对降雨量、极大风速与光强三项指标敏感性最弱。而张亚等[20]现有研究表明,于桥水库叶绿素a含量变化与硝酸盐氮含量密切相关,同时氨氮值的变化会显著影响pH升降;显然,基于Dimopoulos因子敏感性秩序具有合理性,可作为叶绿素a含量变化主因子探讨的参考依据。
4 模型输入因子精简
4.1 输入因子精简方案设置
依据Dimopoulos因子敏感性秩序,参考敏感值由小到大逐个增加剔除的输入变量,调整输入参数数目,设置不同因子输入精简方案。固定叶绿素预测模型其它设置不变,进行1 000次基于神经网络循环训练。不同输入参数调整方案精简结果见表1。
如表1所示,预测精度随Dimopoulos敏感性秩序精简因子同趋势变化。剔除光强、极大风速、降雨量及化学需氧量四项指标,叶绿素预测精度依旧保持较高精度0.96;其中,光强、极大风速及降雨量3项指标累积剔除时,预测精度基本不变,表明光强、极大风速及降雨量不是叶绿素a含量变化的主敏感因子。
4.2 输入因子精简方案选择
绘制平均预测精度与输入因子数目相关曲线,
见图7,叶绿素a预测精度与输入因子数目符合Logistic分布,输入数目8时正是预测精度曲线拐点,预测精度不随输入因子数增加而持续显著提高,确定精简光强、极大风速、降雨量及化学需氧量为输入因子精简方案。因子精简后(8因子输入),预测精度波动幅度缩减16.7%,模型稳定性更好。
4.3 精简方案合理性验证
水体叶绿素a含量预测中,常以主成分分析法(PCA)确定神经网络预测模型的因子输入[21],为了进一步验证基于Dimopoulos精简因子的合理性,依据主成份抽取比例确定的因子敏感性秩序设置精简因子对照方案[22]。主成分分析中因子贡献秩序(由大到小)依次为:pH、水汽压、相对湿度、降雨量、化学需氧量、光强、溶解氧,总解释方差91.7%。对比Dimopoulos敏感性分析,基于7项PCA主因子添加剩余相关因子,探讨叶绿素a预测模型8因子输入合理性。基于PCA主因子输入方案的预测精度分析见表2。
如表2所示,随着输入因子增加,叶绿素a预测精度呈现不同程度提高;添加的因子敏感值(水温、氨氮)越高,预测精度涨幅越大。8因子组合下,Dimopoulos筛选的因子组合平均预测精度普遍高于基于PCA确定的因子组合,验证了Dimopoulos因子敏感性秩序的合理性。而基于PCA主因子输入训练神经网络,叶绿素a初始预测精度较低(93.5%),可能与PCA只截取方差较大因子为主成份有关,遗漏了部分信息而不适合水体叶绿素a含量高精度预测要求。
5 结论
本文基于BP神经网络构建了于桥水库叶绿素a预测模型,引入思维进化算法优化网络訓练权值、阈值,提高模型预测精度和模型稳定性;并以Dimopoulos偏导敏感性分析,对比常用的主成分分析法,研究叶绿素a预测模型输入因子敏感性,探讨了精简因子输入提高预测效率合理性,确定因子输入。通过本文研究得到如下结论。
(1)传统BP神经网络构建叶绿素a预测模型稳定性差,网络训练易陷入局部最优,预测精度波动幅度大。
(2)叶绿素a预测模型中,引入思维进化算法优化BP神经网络权值、阈值,可保证有效预测精度,显著提高模型稳定性。
(3)精简冗沉因子输入能有效提高神经网络训练效率,且对比主成分分析法,基于Dimopoulos敏感性分析更能为叶绿素a预测模型输入因子确定提供参考。
本文仅在权值、阈值上考虑了神经网络的优化,没有深入研究网络拓扑结构和参数设置对预测精度影响,应进一步研究神经网络结构设置提高训练效率。
参考文献(References):
[1] H KANSON L,MALMAEUS J M,BODEMER U,et al.Coefficients of variation for chlorophyll,green algae,diatoms,cryptophytes and blue-greens in rivers as a basis for predictive modelling and aquatic management[J].Ecological Modelling,2003,169(1):179-196.DOI:10.1016/S0304-3800(03)00269-2.
[2] ELIK K.Predicting chlorophyll-a concentrations in two temperate reservoirs with different trophic states using Principal Component Regression (PCR)[J].Oceanological & Hydrobiological Studies,2018,47(1):1-9.DOI:10.1515/ohs-2018-0001.
[3] XIAO X,HE J Y,HUANG H,et al.A novel single-parameter approach for forecasting algal blooms[J].WATER RESEARCH,2017,108(1):222-231.DOI:10.1016/j.watres.2016.10.076.
[4] 裴洪平,罗妮娜,蒋勇.利用BP神经网络方法预测西湖叶绿素a的浓度[J].生态学报,2004,24(2):246-251.(PEI H P,LUO N N,JIANG Y.Applications of back propagation neural network for predicting the concentration of chlorophyll-a in West Lake[J].ACTA Ecologica Sinica.2004,24(2):246-251.(in chinese)) DOI:10.3321/j.issn:1000-0933.2004.02.012 .
[5] HOU G X,SONG L R,LIU J T,et al.Modeling of Cyanobacterial Blooms in Hypereutrophic Lake Dianchi,China[J].Journal of Freshwater Ecology,2004,19(4):623-629.DOI:10.1080/02705060.2004.9664743.
[6] GORI M,TESI A.On the problem of local minima in backpropagation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1992,14(1):76-86.DOI:10.1109/34.107014.
[7] 卢志娟,朱玲,裴洪平,等.基于小波分析与BP神经网络的西湖叶绿素a浓度预测模型[J].生态学报,2008,28(10):4965-4973.(LU Z J,ZHU L,PEI H P,et al.The model of chlorophyll-a concentration forecast in the West Lake based on wavelet analysis and BP neural networks[J].ACTA Ecologica Sinica.2008,28(10):4965-4973.(in chinese)) DOI:10.3321/j.issn:1000-0933.2008.10.042.
[8] 姚志红,孔海南,靳志成,等.改进遗传神经网络及其在水体富营养化和藻类生长预测中的应用[J].上海交通大学学报,2008,42(2):262-265.(YAO Z H,KONG H N,JIN Z C,et al.Improved genetic neural network and its application in forecasting of rich nourishment of water and blue-green algae[J].Journal of Shanghai Jiao Tong University,2008,42(2):262-265.(in chinese)) DOI:10.16183/j.cnki.jsjtu.2008.02.024.
[9] 吕光建,张新燕,陈杰,等.神经网络训练样本优化方法研究[J].电子世界,2014,22(2):411-412.(LYU G J,ZHANG X J,CHEN J,et al.Research on neural network training sample optimization method[J].Electronics World,2014,22(2):411-412.(in chinese)) DOI:10.3969/j.issn.1003-0522.2014.22.399.
[10] [ZK(#]GOH A T C.Back-propagation neural networks for modeling complex systems[J].Artificial Intelligence in Engineering,1995,9(3):143-151.DOI:10.1016/0954-1810(94)00011-S.
[11] 劉翔.BP算法的改进及其应用[D].太原:太原理工大学,2012.(LIU X.Research on improving BP algorithm and ITS aplication[D].Taiyuan:Taiyuan University of Technology,2012.(in chinese))
[12] KELBLE C R ,ORTNER P B ,BOYER J N,et al.Phytoplankton bloom status:Chlorophyll a biomass as an indicator of water quality condition in the southern estuaries of Florida,USA[J].Ecological Indicators,2009,9(6):S56-S67.DOI:10.1016/j.ecolind.2008.11.013.
[13] MOHAMMAD R,MAHSA J R.Artificial neural network approaches to the prediction of eutrophication and algal blooms in Aras Dam,Iran[J].Ulūm-i Bihdāshtī-i rān,2015,3(1):25-32.
[14] WANG J,WEN Y,GOU Y ,et al.Fractional-order gradient descent learning of BP neural networks with Caputo derivative[J].Neural Networks,2017,89(12):19-30.DOI:10.1016/j.neunet.2017.02.007.
[15] CHOI B,LEE J H,KIM D H.Solving local minima problem with large number of hidden nodes on two-layered feed-forward artificial neural networks[J].Neurocomputing,2008,71(16):3640-3643.DOI:10.1016/j.neucom.2008.04.004.
[16] WANG W X,TANG R C,LI C,et al .A BP neural network model optimized by Mind Evolutionary Algorithm for predicting the ocean wave heights[J].Ocean Engineering,2018,162(15):98-107.DOI:10.1016/j.oceaneng.2018.04.039.
[17] ZHAO Y F,REN X H,HU Y,et al.CNC thermal compensation based on mind evolutionary algorithm optimized bp neural network[J].World Journal of Engineering and Technology,2016,4(1):10,39-44.DOI:10.4236/wjet.2016.41004.
[18] DIMOPOULOS Y,BOURRET P,LEK S.Use of some sensitivity criteria for choosing networks with good generalization ability[J].Neural Processing Letters,1995,2(6):1-4.DOI:10.1007/BF02309007.
[19] DIMOPOULOS I,CHRONOPOULOS J,CHRONOPOULOU-SERELI A,et al.Neural network models to study relationships between lead concentration in grasses and permanent urban descriptors in Athens city (Greece)[J].Ecological Modelling,1999,120(2):157-165.DOI:10.1016/S0304-3800(99)00099-X.
[20] 張亚.浅水型富营养化水库三维水动力及水质数值模拟研究与应用[D].天津:天津大学,2014.(ZHANG Y.Development and application of three-dimensional hydrodynamic and water quality model in a shallow eutrophic reservoir[D].Tainjin:Tainjin University,2014.(in chinese))
[21] MOHAMMAD Z K .Principal component analysis (PCA) for estimating chlorophyll concentration using forward and generalized regression neural networks[J].Applied Artificial Intelligence,2014,28(1):16-29.DOI:10.1080/08839514.2014.862771.
[22] ZHOU L G,MA W C,ZHANG H,et al.Developing a PCA-ANN model for predicting chlorophyll a concentration from field hyperspectral measurements in Dianshan Lake,China[J].Water Quality,Exposure and Health,2015,7(4):591-602.DOI:10.1007/s12403-015-0175-5.