基于ConvNeXt-T神经网络的大棚水稻病虫害识别

2024-01-01张超，李丹

南方农业 2023年20期

张超，李丹

（1.吉林化工学院信息与控制工程学院，吉林吉林 132022；2.吉林农业科技学院电气与信息工程学院，吉林吉林 132101）

大棚水稻种植技术代表着农业领域的一项前沿实践，通过将水稻种植移入大棚这一受控环境中，实现对光照、病虫害等因素的精准调控。这不仅有助于提高水稻的产量和质量，同时能够有效地管理病虫害，减少对农药的依赖，促进农业的可持续发展。

现如今，深度学习的快速发展为检测植物病虫害提供了有效帮助，但依然存在缺陷。目前大部分的病虫害数据集都是利用相机等设备在实验大棚内拍摄处理后获取的静态图像。然而，处于大棚环境下的农作物常受亮度和摇摆运动等因素影响，降低了模型对病害特征的提取效率[1]。同时，现场拍摄获取的数据集样本量偏少，容易导致训练过程中过拟合，导致模型对病虫害识别的准确度下降[2]。

基于上述问题，本文提出了一种基于ConvNeXt-T神经网络结构的水稻病虫害识别模型。通过增加高斯噪声、随机遮挡和旋转等数据预处理方法来增加数据集的复杂性以模拟实验大棚中不同因素对检测的影响，将获取的4 268 张水稻害虫图像扩展到21 340 张，使得神经网络模型在训练过程中增强泛化能力和鲁棒性。通过中心裁剪等数据增强方法，来解决训练中易出现的过拟合现象。

1 数据集

1.1 实验数据

本次研究所用初始水稻数据集拍摄于吉林农业科技学院实验大棚，含有四种不同类型的病虫害图像，其中白叶枯病图像有1 584 张、水稻细菌性条斑病图像1 440 张、褐斑病图像1 600 张和水稻东格鲁病毒病图像1 308 张，水稻病虫害初始数据集共5 932 张图像。将图像尺寸（像素）统一裁剪为224×224 大小并以.jpg的格式进行保存[3]。

1.2 数据处理

为了模拟实际大棚光照、风吹及叶片之间的相互遮掩等复杂环境问题，本文利用图像预处理的方式进行环境模拟，如图1 所示。通过添加高斯噪声、随机亮度、旋转角度和随即遮掩的数据预处理分别模拟环境中可能发生的画面模糊、光照强度变化、大风干扰及叶片之间相互遮掩的情况，并将数据集样本数量从5 932 张扩充到21 340 张来防止训练过程拟合，使得模型获取更多复杂环境中的疾病特征，提高模型验证的准确性[4]。

图1 数据预处理图像样本

2 模型建立

2022 年1 月，Facebook AI Research 和UC Berkeley联合发表的一篇文章提出了ConvNeXt纯卷积神经网络。对比2021 年提出的Swin Transformer 模型，ConvNeXt 在相同的浮点运算数（floating point operations，FLOPs）下具有较高的准确率[5]。ConvNeXt 网络根据不同阶段（stage）重复堆叠块个数的不同共分为5 个版本，分别为ConvNeXt-T、ConvNeXt-S、ConvNeXt-B、ConvNeXt-L和ConvNeXt-XL。每个版本对应的通道数及网络块（Block）个数如表1 所示。

表1 ConvNeXt 不同版本的参数

相较于ResNet 每个stage 中大约1 ∶1 ∶2 ∶1的Block 个数比例，ConvNeXt 采用Swin-T 的1 ∶1 ∶3 ∶1 比例，准确率相比之前有所提升。在结构方面也与ResNet 的Block 有差异，ConvNeXt 网络将Block 中depthwise conv 模块上移，并将其3×3 的卷积核改成7×7，用Transformer 中常用的激活函数GELU 和归一化LN（Layer Normalization）替代RELU和BN（Batch Normalization），同时减少激活函数和归一化在Block 中的使用，这使得准确率再次提升。

ConvNeXt 网络在整体结构的其他方面与以前的经典网络也有所不同。对于一般卷积神经网络，最初的下采样模块一般都是由卷积核大小为7×7 且步距（stride）为2 的卷积层及一个步距为2 的最大池化层组成；而ConvNeXt 网络则采用Swin Transformer 模型常用的卷积核为4×4、步距为4 的卷积层构成模型中最初的下采样，替换后准确率又有所提升。本文将利用ConvNeXt-T 神经网络进行水稻病虫害识别的研究，其结构图如图2 所示。

图2 ConvNeXt-T 网络结构图

3 结果与分析

3.1 实验环境

本次研究所用电脑系统为Windows 10 ×64 位，内存为80 G，CPU 为AMD EPYC 9654，并配备一张RTX 4090 的显卡。采用Python 编程语言，pytorch 深度学习框架进行建模。

3.2 实验参数

在本研究中，模型使用了自适应优化算法（Adaptive Gradient）。输入图像的尺寸大小为224×224，批量大小（Batch size）为8，遍历次数（epochs）为50，初始学习率（lr）为0.000 5，权重衰减（wd）为0.05，并且将病虫害识别的平均准确率作为模型评价的指标。

3.3 实验成果

为了体现ConvNeXt-T 网络模型的准确性和稳定性，图像传输到模型之前，随机抽取增强扩充过的数据集中每种病虫害图像的20%作为测试集，剩余的80%作为训练集。利用相同的训练集在AlexNet、VGG16、GoogLeNet、ResNet34 及ConvNeXt-T 中进行训练，各网络在训练集上的准确率如图3 和表2 所示，ConvNeXt-T 准确率最高，达到了99.86%，其识别精度曲线也高于其他网络模型，收敛速度也快于其他模型。在相同的增强扩充数据集下，AlexNet、VGG16、GoogLeNet、ResNet34 在训练集上准确率分别为98.64%、99.14%、99.64%、98.96%，分别比ConvNeXt-T 网络低1.22、0.72、0.22、0.90 个百分点。因此，可以证明ConvNeXt-T 神经网络在水稻病虫害识别上比其他网络结构的可行性更高。

表2 各模型训练准确率

图3 水稻病害训练集在各网络上的准确率

4 结语

如今，深度学习为大棚水稻病虫害的识别提供了有效的方法，神经网络模型的成熟有助于系统准确地对水稻病虫害进行分类处理，提高粮食产量。研究表明，本文所用基于ConvNeXt-T 的水稻病害识别模型对大棚中水稻病虫害具有较高的识别精度及稳定性。该模型能够通过对不同的病虫害图像进行学习，获取更多的特征信息来适应复杂的环境干扰，使得模型识别精度大大提高。在水稻病虫害识别模型训练过程中，通过数据预处理和数据增强，使得模型准确率到达99.86%，与AlexNet、VGG16、GoogLeNet、ResNet34相比分别提高了1.22、0.72、0.22、0.9 个百分点，基于ConvNeXt-T 神经网络的水稻害虫识别模型具有优越的性能。本研究同时为背景复杂、数据集过小、有效特征提取困难等关键问题提供了一种可行的研究方法和重要参考。