基于深度学习的小麦蚜虫预测预警

2018-04-09王秀美牟少敏邹宗峰时爱菊

江苏农业科学 2018年5期

王秀美，牟少敏，邹宗峰，时爱菊

(1.山东农业大学信息科学与工程学院，山东泰安 271018； 2.山东农业大学农业大数据研究中心，山东泰安 271018；3.山东省烟台市农业技术推广中心植保站，山东烟台 264001； 4.山东农业大学化学与材料科学学院，山东泰安 271018)

小麦是我国主要的粮食作物，种植面积遍及全国各省，其中以河南省和山东省的种植面积较大。小麦的产量和品质对于我国国民经济发展具有重要意义，而小麦蚜虫是危害小麦产量和品质的主要虫害之一。为有效防治小麦蚜虫的危害，保障小麦产量及品质，国内外专家学者对其进行了长期的研究。肖志强等发现，气象因素与小麦蚜虫的发生具有一定的相关性，并建立了气象数据与小麦蚜虫的回归预测模型[1-2]。目前，Logistic回归[2]、神经网络[3]、支持向量机[4]等浅层学习模型已用于小麦蚜虫的预测预警。但是浅层学习模型对输入特征的依赖性很强并且其特征转换能力有限，很难对复杂的回归问题进行有效拟合。

随着大数据时代的到来，如何从海量数据中获取更有价值的信息，成为农业大数据的关键。深度学习(deep learning)借助多隐层的学习结构实现从原始数据中自动提取更有价值的信息，从而更好地体现了数据的价值，成为农业大数据挖掘强有力的技术支撑[5-6]。目前，深度学习在人脸识别[7]和语音识别[8]领域中取得了突破性的进展，但其如何应用于农业虫害的预测预警尚未见报道。

浅层学习模型对特征的依赖性很强，而深度学习通过多隐层的网络结构可以自动学习更加复杂有效的特征。本研究首次将深度学习用于小麦蚜虫的短期预测，结果表明，与浅层学习模型相比，深度学习回归模型能够对小麦蚜虫的影响因子进行有效的特征学习，进一步提高对小麦蚜虫预测的准确率，从而为农业生产者提供及时、准确的预警信息，降低小麦蚜虫对小麦的危害。

1　小麦蚜虫预测原理

小麦蚜虫的预测分为长期、中期、短期预测，其中短期预测的使用范围最广，期限为7～10 d。对小麦蚜虫的发生量进行短期预测，使农业生产者能够及时掌握小麦蚜虫未来的发生情况，并采取相应的防治措施。构建小麦蚜虫短期预测模型的过程如下：(1)数据获取。通过田间采集或农业物联网传感器等获取与小麦蚜虫发生相关的数据。(2)数据预处理。对获取的小麦蚜虫相关数据进行统计分析以及特征选择或特征变换。(3)建立预测模型。利用预处理后的数据构建小麦蚜虫短期预测模型，并对未参与模型构建的小麦蚜虫数据进行预测。(4)模型评价。利用评价指标对模型的预测效果进行评价。小麦蚜虫的发生与多种因素有关，使用传统的浅层学习模型对小麦蚜虫进行预测时对特征的要求较高。深度学习模型能够从数据中自动提取更加有效的特征，在一定程度上减少人工提取特征的复杂过程，并且能够提高小麦蚜虫预测的准确率。

1.1　数据来源与预处理

本研究使用的小麦蚜虫百株蚜量数据通过人工采集统计获得，人工采集和计数的过程中均有可能存在误差。发生程度是根据百株蚜量的数值所在范围得到，其表示范围较大，误差相对较小。因此，发生程度成为衡量小麦蚜虫危害的重要指标。小麦蚜虫数据为1978—2013年小麦蚜虫的百株蚜量，数据来源于山东省烟台市植保站和《山东省农作物病虫预测预报观测数据集》。小麦蚜虫短期预测模型将小麦蚜虫的百株蚜量作为预测因子，发生程度则根据百株蚜量(y，头)所在的数值范围得到，发生程度分级标准为1级(y≤500)、2级(5003 500)。

气象数据来源于国家气象信息中心。本研究将预测日期前1周的小麦蚜虫百株蚜量作为其虫源基数，与气象因素共同构成影响因子，共15个。本研究共222条试验数据，其中180条作为训练集，42条作为测试集。

小麦蚜虫预测模型的试验数据影响因子较多，各影响因子的单位以及数值范围不同，为避免不同量纲数据之间相互影响，对影响因子进行归一化处理。

1.2　模型评价指标

为检验小麦蚜虫预测模型的拟合能力以及泛化能力，使用预测模型对测试集进行预测，并对训练集进行回代检验。分别使用均方根误差(root mean square error，简称RMSE)、平均绝对误差(mean absolute error，简称MAE)、平均绝对百分误差(mean absolute percentage error，简称MAPE)对小麦蚜虫百株蚜量的预测结果进行评价，评价指标计算公式如下：

(1)

(2)

(3)

使用准确率(accuracy，简称AC)对小麦蚜虫发生程度进行评价，按照预测发生程度与实际发生程度相同准确率为100%，前后相差1级准确率为50%，相差2级及以上准确率为0进行计算，其表达式如下：

(4)

式中：M表示实际与预测发生程度相等的样本个数；D表示实际与预测发生程度相差1级的样本个数；N表示训练集或测试集总样本个数。

2　基于深度学习的小麦蚜虫短期预测模型

对小麦蚜虫的发生量及发生程度进行准确及时的预测预报能够为小麦蚜虫的防控防治提供支持，本研究使用深度信念网络构建小麦蚜虫百株蚜量的短期预测模型，并根据发生程度分级标准预测小麦蚜虫的发生程度。

2.1　受限玻尔兹曼机

玻尔兹曼机(boltzmann machine，简称BM)是一种基于能量函数的神经网络模型，它构建的模型具有完备的物理解释和数学基础，但其学习算法较复杂[9]。为简化玻尔兹曼机的学习过程，Smolensky提出了受限玻尔兹曼机[10](restricted boltzmann machine，简称RBM)。RBM由可见层和隐藏层组成，层间节点全连接，层内节点无连接，并且可见层与隐藏层节点都是二元变量，即每个节点只取0或1这2种状态。RBM模型结构简单、表示能力强、易于推理[11]，其结构如图1所示，其中v表示可见层的状态向量；h为隐藏层的状态向量。

对于1个有n个可见层节点，m个隐层节点的RBM模型，使用vi表示第i个可见层节点的状态，hj表示第j个隐层节点的状态，vi，hj∈{0，1}通过能量函数E定义状态(v，h)的概率分布：

(5)

式中：θ={Wij，ai,bj}是RBM模型的参数集合；Wij是可见节点i与隐层节点j的连接权值；ai、bj分别表示可见层节点、隐层节点的偏置值。

当可见层节点的状态确定时，可以通过公式(6)得到隐层节点的状态值：

(6)

由于RBM是对称的二部图模型，当给定隐层节点的状态值时，可由公式(7)得到可见层节点的状态值：

(7)

因此，可见层v与隐藏层h的联合概率分布为：

(8)

其中，Z(θ)为归一化因子。

RBM模型的目的是求解使得联合概率分布p(v,h|θ)最大的θ值。

利用马尔科夫链求解RBM模型是一种费时的方法，其收敛速度难以保证。为保证求解RBM模型的收敛速度，使用对比散度(contrastive divergence，简称CD)算法进行RBM模型的训练。CD算法是Hinton等针对RBM提出的一种快速学习算法[12]，它通过一步吉布斯采样得到隐层的近似，在确定隐层节点的状态后，通过式(7)重构可见层，继而重构隐藏层，利用重构误差调整参数集。CD算法训练RBM网络的具体步骤描述如下：(1)确定隐藏层节点数m，学习率ε，最大训练周期T1，并随机初始化网络参数集θ0={W0,a0,b0}。(2)将输入赋值给可见层的状态向量v0，并利用公式(6)计算隐藏层的状态向量h0；然后利用公式(7)、(6)分别计算可见层和隐藏层的重构v1和h1。(3)利用公式(9)对参数集θt进行更新，得到参数集θt+1，其中t表示当前迭代次数。(4)当t+1

Wt+1=Wt+ε[p(h0=1|v0,θt)(v0)T-p(h1=1|v1,θt)(v1)T]；
at+1=at+ε(v0-v1)；
bt+1=bt+ε[p(h0=1|v0,θt)-p(h1=1|v1,θt)]。

(9)

2.2　深度信念网络

深度信念网络(deep belief nets，简称DBN)由Hinton等于2006年首次提出，由多层RBM和1层BP(back propagation)网络组成[5]。相比于传统浅层神经网络，深度信念网络优势在于通过逐层无监督预训练解决了多层神经网络因随机初始化网络权值参数导致的易陷入局部最优难题，并且这种逐层训练的策略有效地解决了直接训练多层神经网络的高复杂度难题。DBN的多隐藏层结构可以对输入特征进行多次变换，并且当前层可以对其前一层网络产生的错误信息进行弱化。DBN模型结构如图2所示。

DBN模型的训练主要分为2个阶段：无监督预训练和有监督微调。其具体训练过程如下：(1)将输入层V0和第1个隐藏层H1看作第1个RBM，记为RBM1，利用输入数据v0进行RBM1的训练。训练完成后，在RBM1的隐藏层得到原输入的1种表示，记为h1；(2)将h1作为RBM2可见层的输入，进行RBM2的训练。训练完成后，通过H2得到原输入的另一种表示h2；(3)以此类推，逐层进行RBM模型的训练，直到RBMl训练完成。(4)将RBMl训练完成后得到的h1作为顶层BP的输入，进行顶层BP训练，并将顶层训练的误差逐层往下传，微调各层的连接权值。

2.3　基于深度信念网络的小麦蚜虫预测模型

目前将深度学习用于回归预测的研究相对较少，对于结构化数据集的回归预测多数是选用2个隐层[13-14]。原因有2方面：一是对于大多数结构化数据集，已进行了数据预处理和特征选择，模型的输入输出之间相关性较高；二是深度学习的层数越多，涉及的参数也就越多，需要更多的数据进行参数学习，当数据量有限时，多隐层模型进行参数学习的效果较差。由于小麦蚜虫数据较少，因此选取有2个隐藏层的深度信念网络进行训练。

基于DBN的小麦蚜虫短期预测过程如下：(1)数据预处理。对影响因子进行归一化处理，提高预测模型输入与输出的相关关系。(2)设置模型参数。输入层节点个数为影响因子数16，输出层节点数设为1，2个隐藏层的节点则根据经验选取多组不同的节点进行试验，选取更适合小麦蚜虫的隐藏层节点数。(3)无监督逐层预训练。使用训练集数据对2个RBM逐层进行无监督学习，使每个RBM达到局部最优。(4)有监督微调。进行BP神经网络的训练，并将误差逐层反向传播，微调各层参数。(5)预测。使用构建的深度信念网络预测模型对测试集小麦蚜虫的百株蚜量进行预测，并根据分级标准得到小麦蚜虫的发生程度。

3　结果与分析

为验证模型的有效性，分别在国际标准数据集(university of californiairvine，简称UCI)和山东省小麦蚜虫数据集上进行预测试验。使用的深度学习回归模型为2个隐藏层的DBN，记为DBN2，并将其与支持向量回归(support vector regression，简称SVR)以及BP网络进行对比测试。

3.1　UCI数据集试验

从UCI数据集中选取4个回归预测数据集(表1)。本研究使用DBN2、SVR和BP神经网络对4个UCI数据集进行回归预测，并使用RMSE、MAE、MAPE对预测结果进行评价，评价结果见表2至表4。对评价指标RMSE、MAE绘制折线图(图3、图4)。由于yacht数据集的MAPE值比其他数据集明显较大，为避免较小的数值在折线图中显示不清晰，将MAPE值的纵坐标值取对数，其对应的折线图如图5所示。

表1　UCI数据集

表2　不同预测模型的均方根误差

表3　不同预测模型的平均绝对误差

表4　不同预测模型的平均绝对百分误差

由表2、表3和图3、图4可以看出，DBN2预测模型的RMSE和MAE在4个UCI数据集上均小于SVR和BP网络，说明DBN2模型的预测能力较强。与BP网络相比，DBN2的优势在于通过无监督预训练对网络权值进行初始化，使得该模型性能比较稳定。SVR通过核函数将样本从原空间映射到高维空间，但是该过程仅能对特征进行1次特征变换，而DBN2能够通过2个隐藏层对原输入数据进行2次特征变换，使其更有利于预测。

由MAPE的计算公式可以看出，由于MAPE以预测因子的实际值作为分母，当预测因子数值较小时，即使实际值与预测值的误差不大，也会导致整个分式的数值较大。yacht数据集的预测因子的最小值为0.01，而其他3个数据集的预测因子的最小值均大于1.00，这是yacht数据集的MAPE值明显大于其他3个数据集的主要原因。

在UCI数据集的预测试验中，DBN2模型的误差最小，也是最稳定的。在数据集yacht和airfoil上，SVR预测模型的RMSE、MAE、MAPE均大于BP网络，且从折线图也可以看出，SVR预测模型的稳定性比BP网络好，BP网络的预测误差波动较大与其随机初始化参数有关。

3.2　小麦蚜虫短期预测试验

使用DBN2构建小麦蚜虫百株蚜量预测模型，小麦蚜虫百株蚜量的预测结果如图6所示，其发生程度预测结果如图7所示。

由图6、图7可以看出，对于测试集样本，DBN2的预测结果与真实值非常接近，对于发生程度较大的情况也能很好地预测。为了进一步验证DBN2模型的效果，将其与SVR、BP网络进行对比试验。采用RMSE、MAE、MAPE对小麦蚜虫百株蚜量的预测误差进行计算，使用AC计算发生程度的预测准确率，结果见表5和表6。

由表5可以看出，对于小麦蚜虫百株蚜量的预测，BP网络和DBN2的拟合能力相差不大，均优于SVR。但是，对测试集进行预测时，DBN2明显比SVR和BP网络的预测误差小。

表5　小麦蚜虫百株蚜量的预测误差

表6　小麦蚜虫发生程度的准确率

注：M表示小麦蚜虫发生程度的实际值与预测值相等的样本个数；D表示实际值与预值相差1级的样本个数。

由表6可以看出，DBN2对于小麦蚜虫发生程度的预测准确率为82.14%，高于SVR以及BP网络。对训练集样本进行回代检验发现，DBN2模型的回代准确率达到90.56%。说明基于DBN2的小麦蚜虫发生程度预测模型的拟合能力以及泛化能力均较好。

通过对小麦蚜虫的百株蚜量以及发生程度进行预测并进行回代检验发现，BP网络的学习能力最好，但是泛化能力最差；SVR的学习能力较差，但是泛化能力较好；DBN2模型的学习能力与BP网络差距不大，但是其泛化能力最好，明显优于BP网络。与DBN2模型相比，BP网络泛化能力差，一方面是因为参数的随机初始化，使其易陷入局部最优，容易过拟合；另一方面其隐藏层只有1层，对特征的变换效果不理想。

通过在UCI数据集以及小麦蚜虫数据集的回归预测试验，结果表明，DBN2模型是3种模型中预测误差最小，泛化能力最强的。SVR使用核函数以及结构风险最小化原则使其在小样本、非线性问题中有许多优势，但是深度信念网络模型通过逐层无监督预训练对参数进行初始化，在一定程度上减小了因经验风险最小化而导致的真实风险与实际风险差距较大的问题，提高了其泛化能力，而且深度信念网络可以通过增加隐藏层的层数对原特征进行多次特征变换，使其能够有效地解决非线性问题。

4　结论

深度信念网络通过多隐层的结构对特征进行深度变换，进而实现特征的自动提取。将深度信念网络用于回归预测领域可以提取与预测因子相关性较高的特征，有利于提高回归预测的准确性。本研究将深度信念网络用于UCI数据集以及小麦蚜虫的短期预测，结果表明，DBN2预测效果优于SVR和BP网络，深度学习为虫害短期预测预警提供了一种可行的方案。随着大数据的不断发展，获取海量的小麦蚜虫数据，使用层数更多的深度信念网络模型对小麦蚜虫进行预测，可以进一步提高虫害预测的准确率。

参考文献：

[1]肖志强，陈俊，樊明，等. 陇南山区小麦蚜虫发生气象条件及程度预测模型[J]. 安徽农业科学，2009，37(33)：16419-16422.

[2]Henderson D，Williams C J，Miller J S. Forecasting late blight in potato crops of southern idaho using logistic regression analysis[J]. Plant Disease，2007，91(8)：951-956.

[3]靳然，李生才. 基于小波神经网络的麦蚜发生量预测研究[J]. 天津农业科学，2015，21(4)：127-131.

[4]张永生. 支持向量机在害虫预测预报中的应用[J]. 现代农业科技，2009(14)：147-148.

[5]Hinton G E，Osindero S，Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation，2006，18(7)：1527-1554.

[6]Bengio Y，Delalleau O. On the expressive power of deep architectures[C]// International Conference on Algorithmic Learning Theory. Berlin：Springer-Verlag，2011：18-36.

[7]Sun Y，Wang X，Tang X. Deeply learned face representations are sparse，selective，and robust[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2015：2892-2990.

[8]Engio Y，Courville A，Vincent P. Representation learning：a review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35(8)：1798-1828.

[9]Srivastava N，Salakhutdinov R. Multimodal learning with deep boltzmann machines[J]. Journal of Machine Learning Research，2012，15(8)：1967-2006..

[10]Welling M，Hinton G E. A new learning algorithm for mean field boltzmann machines[C]//International Conference on Artificial Neural Networks，Berlin：Springer-Verlag，2002：351-357.

[11]冯通. 基于深度学习的航空飞行器故障自助检测研究[J]. 计算机仿真，2015，32(11)：119-122.

[12]Hinton G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation，2002，14(8)：1771-1800.

[13]Bai Y，Chen Z Q，Xie J J，et al. Daily reservoir inflow forecasting using multiscale deep feature learning with hybrid models[J]. Journal of Hydrology，2015，532：193-206.

[14]郑毅，朱成璋. 基于深度信念网络的PM2.5预测[J]. 山东大学学报(工学版)，2014，44(6)：19-25.