基于ConvNeXt-T神经网络的大棚水稻病虫害识别
2024-01-02张超李丹
张超 李丹
摘 要 大棚水稻种植是我国农业发展过程中重要的种植形式,大棚中水稻病虫害的及时发现和预防能够显著提高水稻产量。深度学习模型在图像识别方面表现出色,可以用于监测大棚内水稻植株的生长状况,快速识别病害和虫害。但数据集的采集易受各种环境因素的影响,导致数据集中有用图像数目过少,训练易过拟合并且难以提取有用特征。针对以上问题,提出了一种基于ConvNeXt-T神经网络的水稻病虫害识别模型。对数据集采用镜像、裁剪等数据增强及增加高斯噪声、随机亮度、随机遮掩等数据预处理,将获取的5 932张水稻害虫图像扩展到21 340张,在ConvNeXt-T神经网络模型中进行训练,来识别水稻种植中最常见的4种病害(白叶枯病、水稻细菌性条斑病、褐斑病、水稻东格魯病毒病)。训练结果表明,在相同的实验环境下,与经典的AlexNet、GoogLeNet、ResNet34及VGG16网络相比,ConvNeXt-T神经网络性能最佳,病害识别准确率最高(99.86%)。其优秀的识别精度能够为大棚水稻病虫害的预防提供有力的帮助。
关键词 大棚水稻种植;深度学习;ConvNeXt-T;数据增强;数据预处理
中图分类号:S435.11 文献标志码:A DOI:10.19415/j.cnki.1673-890x.2023.20.013
大棚水稻种植技术代表着农业领域的一项前沿实践,通过将水稻种植移入大棚这一受控环境中,实现对光照、病虫害等因素的精准调控。这不仅有助于提高水稻的产量和质量,同时能够有效地管理病虫害,减少对农药的依赖,促进农业的可持续发展。
现如今,深度学习的快速发展为检测植物病虫害提供了有效帮助,但依然存在缺陷。目前大部分的病虫害数据集都是利用相机等设备在实验大棚内拍摄处理后获取的静态图像。然而,处于大棚环境下的农作物常受亮度和摇摆运动等因素影响,降低了模型对病害特征的提取效率[1]。同时,现场拍摄获取的数据集样本量偏少,容易导致训练过程中过拟合,导致模型对病虫害识别的准确度下降[2]。
基于上述问题,本文提出了一种基于ConvNeXt-T神经网络结构的水稻病虫害识别模型。通过增加高斯噪声、随机遮挡和旋转等数据预处理方法来增加数据集的复杂性以模拟实验大棚中不同因素对检测的影响,将获取的4 268张水稻害虫图像扩展到21 340张,使得神经网络模型在训练过程中增强泛化能力和鲁棒性。通过中心裁剪等数据增强方法,来解决训练中易出现的过拟合现象。
1 数据集
1.1 实验数据
本次研究所用初始水稻数据集拍摄于吉林农业科技学院实验大棚,含有四种不同类型的病虫害图像,其中白叶枯病图像有1 584张、水稻细菌性条斑病图像1 440张、褐斑病图像1 600张和水稻东格鲁病毒病图像1 308张,水稻病虫害初始数据集共5 932张图像。将图像尺寸(像素)统一裁剪为224×224大小并以.jpg的格式进行保存[3]。
1.2 数据处理
为了模拟实际大棚光照、风吹及叶片之间的相互遮掩等复杂环境问题,本文利用图像预处理的方式进行环境模拟,如图1所示。通过添加高斯噪声、随机亮度、旋转角度和随即遮掩的数据预处理分别模拟环境中可能发生的画面模糊、光照强度变化、大风干扰及叶片之间相互遮掩的情况,并将数据集样本数量从5 932张扩充到21 340张来防止训练过程拟合,使得模型获取更多复杂环境中的疾病特征,提高模型验证的准确性[4]。
2 模型建立
2022年1月,Facebook AI Research和UC Berkeley联合发表的一篇文章提出了ConvNeXt纯卷积神经网络。对比2021年提出的Swin Transformer模型,ConvNeXt在相同的浮点运算数(floating point operations,FLOPs)下具有较高的准确率[5]。ConvNeXt网络根据不同阶段(stage)重复堆叠块个数的不同共分为5个版本,分别为ConvNeXt-T、ConvNeXt-S、ConvNeXt-B、ConvNeXt-L和ConvNeXt-XL。每个版本对应的通道数及网络块(Block)个数如表1所示。
相较于ResNet每个stage中大约1∶1∶2∶1的Block个数比例,ConvNeXt采用Swin-T的1∶1∶3∶1比例,准确率相比之前有所提升。在结构方面也与ResNet的Block有差异,ConvNeXt网络将Block中depthwise conv模块上移,并将其3×3的卷积核改成7×7,用Transformer中常用的激活函数GELU和归一化LN(Layer Normalization)替代RELU和BN(Batch Normalization),同时减少激活函数和归一化在Block中的使用,这使得准确率再次提升。
ConvNeXt网络在整体结构的其他方面与以前的经典网络也有所不同。对于一般卷积神经网络,最初的下采样模块一般都是由卷积核大小为7×7且步距(stride)为2的卷积层及一个步距为2的最大池化层组成;而ConvNeXt网络则采用Swin Transformer模型常用的卷积核为4×4、步距为4的卷积层构成模型中最初的下采样,替换后准确率又有所提升。本文将利用ConvNeXt-T神经网络进行水稻病虫害识别的研究,其结构图如图2所示。
3 结果与分析
3.1 实验环境
本次研究所用电脑系统为Windows 10 ×64位,内存为80 G,CPU为AMD EPYC 9654,并配备一张RTX 4090的显卡。采用Python编程语言,pytorch深度学习框架进行建模。
3.2 实验参数
在本研究中,模型使用了自适应优化算法(Adaptive Gradient)。输入图像的尺寸大小为224×224,批量大小(Batch size)为8,遍历次数(epochs)为50,初始学习率(lr)为0.000 5,权重衰减(wd)为0.05,并且将病虫害识别的平均准确率作为模型评价的指标。
3.3 實验成果
为了体现ConvNeXt-T网络模型的准确性和稳定性,图像传输到模型之前,随机抽取增强扩充过的数据集中每种病虫害图像的20%作为测试集,剩余的80%作为训练集。利用相同的训练集在AlexNet、VGG16、GoogLeNet、ResNet34及ConvNeXt-T中进行训练,各网络在训练集上的准确率如图3和表2所示,ConvNeXt-T准确率最高,达到了99.86%,其识别精度曲线也高于其他网络模型,收敛速度也快于其他模型。在相同的增强扩充数据集下,AlexNet、VGG16、GoogLeNet、ResNet34在训练集上准确率分别为98.64%、99.14%、99.64%、98.96%,分别比ConvNeXt-T网络低1.22、0.72、0.22、0.90个百分点。因此,可以证明ConvNeXt-T神经网络在水稻病虫害识别上比其他网络结构的可行性更高。
4 结语
如今,深度学习为大棚水稻病虫害的识别提供了有效的方法,神经网络模型的成熟有助于系统准确地对水稻病虫害进行分类处理,提高粮食产量。研究表明,本文所用基于ConvNeXt-T的水稻病害识别模型对大棚中水稻病虫害具有较高的识别精度及稳定性。该模型能够通过对不同的病虫害图像进行学习,获取更多的特征信息来适应复杂的环境干扰,使得模型识别精度大大提高。在水稻病虫害识别模型训练过程中,通过数据预处理和数据增强,使得模型准确率到达99.86%,与AlexNet、VGG16、GoogLeNet、ResNet34相比分别提高了1.22、0.72、0.22、0.9个百分点,基于ConvNeXt-T神经网络的水稻害虫识别模型具有优越的性能。本研究同时为背景复杂、数据集过小、有效特征提取困难等关键问题提供了一种可行的研究方法和重要参考。
参考文献:
[1] 樊湘鹏,周建平,许燕,等.基于改进卷积神经网络的复杂背景下玉米病害识别[J].农业机械学报,2021,52(3):210-217.
[2] ZHANG J, HUANG Y, PU R, et al. Monitoring plant diseases and pests through remote sensing technology: a review[J]. Comput Electron Agric,2019,165:104943.
[3] SETHY P, BARPANDA N, RATH A, et al. Deep feature based rice leaf disease identification using support vector machine[J]. Comput Electron Agric,2020,175:105527.
[4] WU H,WIESNER HANKS T,STEWART E L,et al.Autonomously detecting plant disease symptoms directly from aerial images[J].Plant Phenotype J,2019,2(1):1-9.
[5] LIU Z, MAO H, WU C, et al. A ConvNet for the 2020s[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA:IEEE, 2022:11966-11976.