基于对抗式生成网络的农作物病虫害图像扩充

2020-06-11林胜巩名轶牟文芊董伯男

电子技术与软件工程 2020年3期

林胜巩名轶牟文芊董伯男

（山东农业大学信息科学与工程学院山东省泰安市 271000）

1 引言

由加拿大Goodfellow博士于2014年提出的对抗式生成网络（Generative Adversarial Networks，GAN）[2]弥补了传统概率生成模型的不足，如最大使然估计、马尔可链等方法在建立模型时存在的需要大量先验知识（如大量样本）和拟合模型所需计算量庞大的问题，由于其优越性，近年得到快速发展。Goodfellow将GAN与变分自编码器（Variational Auto-Encoder,VAE）[3]和信念网络（Belief Nets,BF）[4]等作对比，GAN的优点如下：

（1）与VAE相比，GAN没有引入任何决定性偏置(deterministic bias)，变分方法引入决定性偏置,因为他们优化对数似然的下界，而不是似然度本身，从而导致了VAE生成的实例比GAN更模糊。

（2）相比玻尔兹曼机和GSN，GAN生成实例的过程只需要模型运行一次，而不是以马尔科夫链的形式迭代多次。

（3）GAN因不需要在采样序列生成不同的数据，因此比完全明显的信念网络(NADE,PixelRNN,WaveNet)等更快的产生样本。

理论上GAN可以逐渐逼近任何概率分布，若判别器训练良好，生成器可以生成与真实样本几乎相同的分布，它能够有效地解决建立自然性解释数据的生成难题，丰富生成样本的多样性。目前，GAN在图像和视觉领域得到了广泛的研究和应用,并延伸至语音和语言处理等方面。

GAN 也存在一些问题，包括优化过程中存在不稳定性、可解释性差和很难达到纳什均衡等。但作为深度学习领域一种新的生成模型也受到研究者的广泛关注，并提出多种改进模型[5,6]。深度卷积对抗式生成网络（Deep convolutional GAN，DCGAN）[7]是继GAN之后比较好的改进，通过改进网络结构，成功解决GAN不易训练的问题并拓展了维度。

2 对抗式生成网络

2.1 基本原理

生成式对抗网络包含捕获数据分布的生成器G和估计样本来自训练数据的概率的判别器D。两者的训练过程是一个极小极大博弈问题，连着通过相互对抗最终达到纳什均衡[8]。GAN的基本模型如图1所示，随机噪声Z通过生成器G生成接近真实数据分布Pdata（x）的样本G(z)，判别器D判断输入样本是真实数据x还是生成数据G(z)。可以证明在任意函数G和D的空间中，存在唯一的解决方案，使得G重现训练数据分布，而D=0.5。

图1：GAN基本模型

图2：DCGAN生成器

图3：真实茶叶病害图像

判别器和生成器的训练过程可以用一个值函数V（D,G）来表示，并把问题表示成公式（1）的极小-极大问题。

2.2 DCGAN基本原理及特点

DCGAN将卷积运算的思想引入到生成模型中来做无监督训练，利用卷积网络强大的特征提取能力，提高了生成样本质量收敛速度，有效解决对抗式生成网络在无监督学习方面的不足。DCGAN模型有以下特点：

（1）该网络模型去除全连接层，直接用卷积层连接生成器和判别器的输入和输出层。

（2）取消所有特征提取层（pooling），在Generator网络中使用转置卷积进行上采样，在Discriminator网络中用加入stride的卷积代替pooling。

（3）在Generator网络中使用Relu作为激活函数，最后一层使用tanh，在Discriminator网络中使用LeakyRelu作为激活函数。

（4）在Generator和Discriminator上都使用batchnorm批标准化一定程度上解决初始化差的问题、帮助梯度传播到每一层、防止Generator把所有的样本都收敛到同一个点。

经典DCGAN的生成器如图2所示。

3 基于深度对抗式生成网络的农作物病虫害图像的生成

基于深度卷积生成式对抗网络生成图像通常需要四个步骤：

（1）收集和预处理训练数据；

（2）基于深度卷积对抗式生成网络构建生成器和判别器；

（3）训练生成器和判别器；

（4）利用训练好的生成网络生成农作物病虫害图像。

3.1 病虫害图像预处理

该实验病虫害图像由本团队在多个农作物生长周期期间采集的包括茶叶、小麦、花生等十几种农作物的几十种病虫害的近万张图片。该实验计划以茶叶病虫害图像为真实图像，并对其进行归一化处理，将其处理为256×256像素，得到训练样本如图3所示。

3.2 DCGAN网络模型建立

DCGAN的生成器模型如图4所示，100维噪声作为输入，通过一个全连接层进行维度转换成（8,8,512）的三维张量，之后通过两个卷积核为3×3像素步幅为2的转置卷积层输出（32，32，128）的三维张量，经过卷积核为3×3像素步幅为4的转置卷积层，输出再次经过3×3像素步幅为2的转置卷积层输出（256，256,3）的三维张量，tanh激活，即生成一个图像样本。

DCGAN的判别器模型结构如图4所示，判别器以（256,256,3）的三维张量作为输入，经过一个卷积核为3×3像素步幅为2的卷积层输出维（128,128,32）的三维张量，然后经过卷积核为3×3像素步幅为4的卷积层，输出再次经过两个卷积核为3×3像素步幅为2的卷积层输出（4,4,512）的三维张量，最后通过一个全连接层输出1维的结果。

图4：生成器结构

图5：生成器和判别器损失函数

图6：生成茶叶病害图像

3.3 DCGAN模型训练

本论文工作基于深度卷积对抗式生成网络实现农作物病虫害图像的扩充，训练时使用Adam方式进行梯度下降，学习率为：learning_rate=0.001，mini-batch为128，每层的输出结果进行批量归一化（Batch Normalization，BN）[9]处理，使图像数据分布一致，增加训练网络模型更加容易和稳定。生成器的转置卷积层中使用Relu函数作为激活函数，判别器中卷积层使用LeakRelu函数作为激活函数，迭代200个周期，输出图像大小为（256,256,3）。

3.4 实验结果分析

由图5可以看出DCGAN生成器和判别器在训练初期由于各自的生成能力和判别能力都较弱,损失函数值变化较大。但随着训练次数的增加，生成器和判别器的能力逐渐增强，判别器和生成器的损失函数Loss在逐步下降，最终两者在较小的范围内波动。这也表明该模型训练正常，未发生异常情况。最终生成茶叶病害图像如图6所示。

4 结束语

DCGAN结合了CNN和GAN模型各自的优点，可以从物体或场景图像数据集中学习到多维深层次表征。本文基于Tensorflow深度学习框架设计图像生成模型，利用生成式对抗网络强大的生成能力建立完备的农作物病害图像数据库，提高我们的农业病害图像的基数，为农作物病害图像集的建立提供有力的数据支持。同时生成的数据可用于图像识别，提高图像识别的准确率。该工作对于农业的信息化现代化具有重要意义。