APP下载

基于PLS-GA-Elman算法的病虫害预测

2017-01-04张芳群包晓敏

浙江农业科学 2016年12期
关键词:发生量虫害遗传算法

张芳群,包晓敏

(浙江理工大学信息学院,浙江杭州 310000)

基于PLS-GA-Elman算法的病虫害预测

张芳群,包晓敏

(浙江理工大学信息学院,浙江杭州 310000)

针对农业中虫害受多种复杂因素的影响及发生量预测问题非线性、样本少、特征变量多的特点,结合偏最小二乘回归(PLS)、遗传算法(GA)与Elman神经网络,建立了虫害发生量的PLS-GA-Elman预测模型。通过PLS回归算法对影响因素进行特征提取后,将降维变量输入Elman模型,并运用GA对Elman建模中的权值和阀值进行优化。通过实例分析表明该模型预测准确性高,能有效地预测虫害的发生量。同时为验证算法的有效性,与PLS算法、Elman神经网络算法、基于GA的Elman神经网络算法(GA-Elman)、基于GA的BP神经网络算法(GA-BP)进行比较。

Elman神经网络;偏最小二乘法;遗传算法;PLS-GA-Elman算法

病虫害对农作物的产量有重要影响[1]。作为农业大国,如果病虫害大面积发生,会给社会带来严重的影响,做好病虫害防治工作对促进我国农业的可持续发展意义重大[2]。病虫害防治的一个重要工作就是做好预测,病虫害的发生受到多种复杂因素的影响,例如环境因素、天敌数量、气象因素等[3],因此,病虫害的预测实际上是一个多输入、单输出或多输出、输入量之间相互影响的非线性问题[4]。

随着现代科技的发展,为提高病虫害发生量的预测精度,传统的预测理论方法、灰色系统理论、神经网络理论等被引入到病虫害发生量预测中,并在提高虫害发生量预测精度上取得了一定的效果。其中,神经网络在处理非线性问题和大规模计算时有比较强大的功能[5]。Elman神经网络是一种动态网络,具有适应时变特性的能力[6],但是Elman网络是以BP为基础进行的改进[7],与BP网络一样,Elman网络存在学习速度慢、易陷入局部极小的问题[8]。同时神经网络有太多的特征变量输入时,会妨碍网络的收敛,甚至最终影响预测精度[9],因此,需要从大量的特征变量中提取最有用的特征[10]。由于影响病虫害的因素之间存在着相互作用,变量的提取要在不影响样本间相关性的情况下进行。偏最小二乘回归(PLS)在对输入变量多、数据量又较少的样本进行主成分提取时,能尽可能多的携带原始数据的变异信息和保证变量之间的相关性[11-12]。遗传算法(GA)是一种自适应全局优化概率搜索算法,可归纳为遗传运算(交叉与变异)和进化运算(选择)2种运算过程。用遗传算法(GA)的全局寻优能力对Elman网络进行优化,能克服寻优中的盲目性,避免局部收敛的发生,使网络性能得到极大的改善。为此,本研究选用偏最小二乘回归(PLS)进行特征提取、遗传算法(GA)优化权值和阀值后的Elman网络,建立了PLS-GA-Elman多元变量虫害发生量预测模型。以实例进行分析,并与PLS、Elman、GAElman、GA-BP预测模型进行比较,为提高虫害发生量预测精度提供了有效途径和方法。

1 材料与方法

以陕西地区1988—2013年玉米螟虫害为例,表1中数据为玉米螟虫与气象因子的发生程度关系,其中x1为5月份的平均气温,x2为5月份的平均降水量,x3为6月份的平均气温,x4为6月份的平均降水量,x5为7月份的平均气温,x6为7月份的平均降水量,x7为8月份的平均气温,x8为8月份的平均降水量,x9为9月份的平均气温,x10为9月份的平均降水量,y为玉米螟虫发生量。将表1中数据分为训练集和测试集2个部分,以1988—2008年的数据作为训练集,以2009—2013年的数据作为测试集。其中x1、x2、x3、x4、x5、x6、x7、x8、x9、x10作为网络输入,y作为网络输出。

表1 玉米螟虫与气象因子关系

2 结果与分析

2.1 PLS回归分析

由于选用的是年虫害发生量的有关数据,预测模型的输入变量是10个,且存在相关性,用于实验的样本数据不多,所以用PLS对样本数据进行主成分提取,PLS模型的建模步骤如下:

1)对自变量组x和因变量组y进行标准化,分别为E0、F0。

2)从E0中提取第1个成分t1,t1=E0w1,残差矩阵E1,E1=E0-t1a1T。其中,w1为矩阵最大特征值所对应的特征向量,a1为E0对 t1的回归系数,a1=E0Tt1/||t1||2。

3)以E1代替E0重复步骤2),得到w2、t2、a2;E2依次类推。

4)用交叉有效性来确定提取成分个数。一般认为如果在第h步,若有Qh2<0.097 5,则可停止成分的提取;若Qh2≥0.097 5,表示第h步提取的第th成分的边际贡献显著,继续第h+1步计算。

根据上面的步骤,在E0中提取第2成分t2,交叉有效性Qˆ2=0.395 1>0.097 5,提取第3成分t3,交叉有效性Qˆ2=-0.270 4<0.097 5;故提取3个成分即可满足。通过数据标准化的逆过程,可得到原始因变量y对自变量x的偏最小二乘回归方程:

y=593.590 9+3.361 3x1-0.371 2x2-0.377 70x3+ 0.383 8x4-6.310 4x5+0.353 7x6-16.323 1x7-0.208 9x8+2.951 8x9-0.453 4x10。

2.2 基于GA的Elman神经网络模型

本文中的Elman网络的反馈层采用tansig函数,输出层采用线性函数purelin,Elman神经网络模型如图1所示。其中:

a1(k)=tansig(IW1.1×p+LW1.1×a1(k-1)+b1);

a2(k)=purelin(LW2.1×a1(k)+b2。

图1 Elman神经网络模型

GA-Elman算法的具体实现步骤:

2)由网络结构确定遗传算法的个体长度,所有权值和阀值组成一个个体,多个个体组成种群。

3)由个体得到初始的权值和阀值,选取测试集数据的预测输出和期望输出之间的误差绝对值和的倒数作为适应度函数:

式中,yi是期望输出值,ti是预测输出值,n是测试集样本数目。

4)采用轮盘赌法,即依据每个个体的相对适应度来确定个体被选中的概率,每个个体的选择概率:

式中,f(xi)为第i个个体适应度值,n为种群个体数目。

5)采用实数交叉法,以交叉概率pc对个体ak和al进行交叉操作,产生新个体ak’和a1’,即在第k个染色体ak和第l个染色体al在j位以杂交概率pc进行杂交,其中pc为[0,1]间的随机数,公式如下:

6)对第i个个体的第j个基因aij进行变异,变异操作方法如下:

式中,amax为基因aij的上界,amin为基因aij的下界,r2为一个随机数,g为当前迭代次数,Gmax为最大进化次数,r是[0,1]间的随机数。

7)产生新一代种群。

8)重复3)到7),直到设定最大代数。

9)通过遗传算法得到的最优值优化Elman神经网络的权值和阀值,训练达到精度或训练次数则结束。

2.3 虫害发生量预测模型建立与结果

偏最小二乘回归能在样本个数较少以及自变量存在严重相关性的条件下进行建模,且模型对实际的解释能力更强[13]。PLS通过提取主成分很好地解决了变量间的共线性[14],但PLS算法主要使用线性逼近得到结果,其预测精度往往不如GAElman模型,因而将2种方法有机地结合起来可以显著提高GA-Elman模型对虫害发生量预测模型的运行效率和预测精度。PLS-GA-Elman模型先用PLS提取主成分,t1,t2,t3,…,th代替初始驶入变量x1,x2,x3,…,xn,然后利用GA改进的Elman进行学习和训练,建立虫害发生量预测模型,模型流程如图2所示。

图2 PLS-GA-Elman虫害发生量预测模型流程

对于训练样本,将主成分t1、t2、t3及因变量y输入到Elman中进行拟合,采用GA算法对权值和阀值进行优化,初始种群为10,最大进化次数100,交叉概率0.2,变异概率0.1。

将5组测试样本输入到建立的PLS-GA-ELMAN模型中得到预测结果见表2。为进一步比较该模型的有效性,本文还运用同样的数据建立了虫害发生量PLS模型、Elman模型、GA-Elman模型、GABP模型和PLS-GA-Elman模型,并对测试样本进行预测。由表2可以看出,几种模型的预测结果均能较好地预测未来的发生趋势。总体来说,PLSGA-Elman预测模型能够较好地接近实际值,并且平均相对误差较其他模型小,表明该预测模型的精度能够满足实际需求。

3 小结

在PLS算法的基础上,结合GA优化的Elman神经网络算法提出了PLS-GA-Elman组合神经网络模型。PLS在对数据信息进行分解和筛选、提取对预测变量解释性最强的综合变量的同时,顾及与因变量的相关程度[15],而神经网络又具有较强的非线性处理问题的能力,Elman神经网络在BP神经网络的基础上增加了反馈功能。GA-Elman模型能加快神经网络的收敛速度,避免其陷入极小点。所以将PLS与GA优化后的Elman神经网络有机结合的模型,能够较好地拟合非线性预测问题。实例分析结果表明,PLS-GA-Elman模型精度较高,具有较好的泛化能力,为农业虫害发生量的预测提供了一个科学有效的方法。

表2 虫害发生量预测结果与误差分析

[1] 杨洁.基于本体的柑橘病虫害知识建模及推理研究[D].武汉:华中师范大学,2014.

[2] 刘红皊.基于WebGIS与RS理论的农业病虫害预测预报[D].南昌:南昌大学,2014.

[3] 张沙沙.稻麦主要病虫的CBR预测模型参数优化及知识库构建[D].合肥:安徽农业大学,2013.

[4] 冯慧敏,闫巍,李雪非.基于Choquet积分的非线性虫害预测[J].湖北农业科学,2013,52(22):5485-5487.

[5] 梁烨妮.人工神经网络的发展及应用[J].硅谷,2014(12):3.

[6] 吴泽志,傅佳.Elman神经网络改进模型在脑膜炎诊断中的应用[J].计算机工程与应用,2014,50(3):221-226.

[7] 潘少伟,梁鸿军,李良,等.改进PSO-BP神经网络对储层参数的动态预测研究[J].计算机工程与应用,2014,50(10):52-56.

[8] 孙艳梅,苗凤娟,陶佰睿.基于PSO的BP神经网络在压力传感器温度补偿中的应用[J].传感技术学报,2014(3):342-346.

[9] 丁世飞,贾伟宽,许新征,等.基于PLS的Elman神经网络算法研究[J].电子学报,2010,38(s1):71-75.

[10] 贾伟宽,丁世飞,许新征,等.基于Shannon熵的因子特征提取算法[J].模式识别与人工智能,2011,24(3):327-331.

[11] 尤艳丽,周敬宣,李湘梅.基于偏最小二乘法的武汉市生态足迹模型及驱动力研究[J].湖北农业科学,2014,53(19):4751-4756.

[12] 葛彦鹏.基于偏最小二乘法的火电机组关键参数预测模型研究[D].北京:华北电力大学,2013.

[13] 石琳,李志玲,崔桂梅.基于偏最小二乘回归的高炉铁水硅含量模型[J].内蒙古大学学报(自然科学版),2010,41(4):427-430.

[14] 陈高波.年用电量预测的PLS-LSSVM模型[J].计算机工程与应用,2010,46(25):223-225.

[15] 丁世飞,靳奉祥,史忠植.基于PLS的信息特征压缩算法[J].计算机辅助设计与图形学学报,2005,17(2):368-371.

(责任编辑:侯春晓)

S431.9

:A

:0528-9017(2016)12-2082-04

文献著录格式:张芳群,包晓敏.基于PLS-GA-Elman算法的病虫害预测[J].浙江农业科学,2016,57(12):2082-2085.

10.16178/j.issn.0528-9017.20161250

2016-06-06

公益性行业(农业)科研专项(201203036)

张芳群(1991-),女,河南周口人,硕士研究生,主要从事农业虫害预测研究,E-mail:896689196@qq.com。

猜你喜欢

发生量虫害遗传算法
基于眼高刻槽数预测松褐天牛发生量分析
桃树主要虫害及防治方法
不用农药也能治虫害
浅析白三叶的虫害防治
行道树香橼主要虫害及其防治
六盘山地区落叶松红腹叶蜂发生量对温度与降水的响应研究
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
基于改进的遗传算法的模糊聚类算法