简单三维注意力机制水稻病害识别模型

2023-12-02王忠培董伟朱静波谢成军

江苏农业科学 2023年20期

王忠培　董伟　朱静波　谢成军

摘要：准确、快速地识别水稻病害并及时采取防治措施，是减少水稻产量损失和提高水稻质量的有效途径之一。以生产上常见的6种水稻病害为研究对象，提出一种简单的三维注意力机制水稻识别模型。不同于通道注意力或空间注意力方法将研究对象特征分开考虑而导致研究对象本身固有的三维特性丢失的现象，本研究借鉴人类观察物体时将观察主体作为三维整体考虑的特点，提出算法。不同于SimAM算法将输入图像中的激活像素人为设置＋1作为正样本、不激活像素设置-1作为负样本的假定，本研究不对输入图像的每个像素作人为硬性阈值的设定，而是保留其本身输入特征大小；这种设定不会破坏研究对象本身的固有属性，更符合研究主题自身的特性。研究结果表明，在自建水稻病害识别数据集达到的最高准确率为98.6%，比SimAM算法提高0.84百分点；相比经典网络模型ResNet50、MobileNetV2、EfficientNet_B0、DenseNet分别提高1.71、1.93、1.93、0.84百分点；相比通道注意力机制模型 SENe、ECA模型分别提高1.20、1.28百分点，表明本模型能够为自然环境下水稻病害的智能识别提供技术支持。

关键词：水稻病害；识别；三维注意力；注意力机制

中图分类号：TP391.41文献标志码：A

文章编号：1002-1302（2023）20-0186-07

水稻是我国第二大粮食作物，种植面积约占我国耕地面积的1/4，水稻产量关系到国计民生。水稻病虫害对水稻产量产生重要影响。据农业技术推广中心的预报，2023年预计水稻病虫害发生 7 733.3万次/hm2，同比增加25.1%；其中，“三虫两病”（稻飞虱、稻纵卷叶螟、二化螟、纹枯病、稻瘟病）发生6 720万次/hm2，同比增加29.0%［1］。因此，准确识别病虫害并及时进行防治，有助于减少水稻产量的损失。

近年来，卷积神经网络（convolutional neural networks，CNN）技术由于其性能的优越性，已经在计算机视觉领域获得大量的应用，在农业领域也得到学者的关注并取得良好的效果。赵立新等使用迁移学习方法，实现棉花病虫害的智能识别［2］。樊湘鹏等将迁移学习的方法应用到葡萄叶片病害识别［3］。刘斌等将深度可分离卷积和通道混洗ALS模块引入轻量化模型ShuffleNetV2，提出轻量化识别模型ALS-Net，模型大小只有 1.64 MB，但识别精度达到99.43%，可实现移动端苹果叶病害的实时识别［4］。张善文等将可变形卷积神经网络引入VGG-16模型，解决识别对象大小、形态、姿态变化等问题［5］。Espejo-Garcia等使用迁移学习的方法，基于EfficientNetB4模型在自建数据集上进行微调，可以实现作物营养缺乏症状的诊断［6］。营养缺乏症可以实现作物早期诊断，避免重大性农业损失。Peng等为解决稻田杂草和水稻的相似性问题，提出基于RetinaNet的WeedDet模型，该模型的mAP值为94.1%，比基准模型RetinaNet提高5.5%的准确率［7］。由以上研究可知，深度学习技术在农业方面的应用主要包括迁移学习方法、卷积神经网络技术及深度可分离卷积、可变形卷积神经网络等技术。

随着研究的深入，一些学者针对卷积神经网络提出通道注意力机制。Hu等首先提出的SENet网络模型取得2017年ILSVRC（imagenet large scale visual recognition challenge）竞赛图像分类子任务中的第1名，并且top-5的错误率相对于2016年的第1名提升了大约25%，证明通道注意力机制具备有效性［8］。Zhao等使用迁移学习结合注意力机制提出DTL-SE-ResNet50模型，该模型主要将SENet方法引入ResNet50模型［9］。Zhao等将改进的块注意力模块（convolutional block attention module，CBAM）引入网络，实现对玉米、土豆、西红柿病害叶片的分类识别，3种作物的整体识别准确率达到99.55%［10］。赵辉等将高效通道注意力机制（efficient channel attention，ECA）引入DenseNet-121网络结构，并应用到田间杂草识别任务，改进后模型的平均识别准确率提高了2.09百分点，为智能除草机器人的开发奠定了技术基础［11-12］。孙俊等将轻量型坐标注意力机制引入MobileNet-V2模型，并將分组卷积引入模型，实现田间农作物叶片病害的识别［13］。甘雨等将坐标注意力机制（coordinate attention，CA）引入EfficientNet网络结构，提出了一种改进的轻量化作物害虫识别模型 CA-EfficientNet［14-15］。宋怀波等将挤压激发块（Squeeze-and-Excitation block）和非局部块（Non-Local block）这2种注意力方法引入YOLO v4网络模型，提出一种改进的YOLO v4-SENL模型，在苹果幼果的检测任务中可以达到96.9%的平均检测精度［16-17］。

以上研究表明，现阶段注意力机制在农业方面主要使用通道注意力的应用方法，部分使用通道注意力结合空间注意力机制方法，鲜有应用三维注意力机制。本研究提出一种简单的三维注意力实现方法，不改变输入图像特征的固有属性，通过对输入图像的三维整体乘以激活函数获得三维图像每个像素的激活值，将获得的激活值乘以输入图像以获得输入图像的三维注意力。同时探讨不同激活函数对算法性能的影响，结果表明Sigmoid激活函数可以获得最好的性能，最终选取Sigmoid函数作为本研究激活函数。

1 数据集

本研究以常见6种对水稻产量影响较大的病害作为研究主体，分别是水稻胡麻斑病、水稻白叶枯病、水稻细菌性条纹病、稻曲病、稻瘟病。为了真实反应自然场景，所有病害图像均使用佳能单反相机在田间直接拍摄。

6种主要水稻病害的部分示例如图1所示。6种病害的样本量如表1所示，共计 6 938 幅病害图像。由表1可知，这些病害样本量分布具有不平衡性，比如稻瘟病的样本量是水稻纹枯病的近4倍。

2 简单三维注意力机制

2.1 三维注意力机制

当前注意力机制实现主要有2种方法：通道注意力、空间注意力。通道注意力只能激活通道相关特征，空间注意力只能激活物体二维空间特征，而人在观察物体时是按照物体固有的三维特性作为观察目标，因此三维注意力机制更符合人类观察物体的特点。Yang等提出一种被称为SimAM的三维注意力機制实现方式［18］。SimAM模型基于神经学理论，将神经学的空间抑制性转化为二分类问题，实现三维注意力机制［19］。该模型是一种无参模型，且二分类的优化可以求出一个简单的闭式解，可以实现快速计算以及可解释性。

Webb等的研究结果证明，被激活的神经元通常会抑制周围的神经元，这种特性被称为空间抑制性［19］。空间抑制性说明被激活的神经元应该被赋予较高的权重，而在它周围的神经元被赋予较低的权重。为了实现该特性，需要将激活神经元和非激活神经元进行区分，一种简单的方法是将其转换为简单的分类任务。因此，定义如下损失函数：

（1）

式中：et表示能量方程；y表示标签；yt表示目标的真实标签；yo表示除了目标之外的标签。 t^=wtt+bt中，t表示目标神经元；wt表示权重；bt表示偏置。x^i=wtxi+bt中，xi表示输入特征的第i个神经元，输入特征表示为X∈RC×H×W，其中，X表示经过卷积神经网络提取的特征，C、H、W分别表示输入特征的信道数、高度、宽度，R表示实数集合。M=H×W，表示神经元的总数目，这里表示输入图像的像素总数，i表示（H×W-1）个值的总和。

为了简单起见，将激活神经元设置为＋1，其周围的神经元设置为-1，即yt设置为＋1，yo设置为-1。同时为提高泛化能力，添加正则项，可得到最终的损失函数：

（2）

公式（2）是一个凸函数，因此有简单的闭式解：

其中，μt表示除了激活神经元之外的其他神经元的平均值，σt表示除了激活神经元之外的其他神经元的方差值。

最终可以求得公式（2）的最小值为：

（3）

公式（3）既是公式（2）的最小值，其中，μ^=1／M∑M／i=1xi，σ^2=1／M∑M／i=1（xi-μ^）2。e*t表示求得的最小能量值，值越小表明神经元t与周围神经元的区别越大；当输入的是图像时，表示激活的像素值和周围的像素值之间的区别越大。所以，每个神经元的重要性可以通过1/e*得到，该值表示了每个像素的权重大小，然后经过Sigmoid函数作一次非线性化处理再乘以输入图像，就能得到图像每个像素的激活值大小，最终实现图像的三维注意力机制。

（4）

式中：X表示输入的图像或者特征值 X～表示经过Sigmoid激活以后的值，E表示对e*分别在空间维度和信道维度进行计算后的值。

2.2 简单三维注意力机制

2.2.1 网络整体结构

本研究提出的简单三维注意力机制模型是以ResNet50模型为基础，整体的网络结构如图 2-A所示。

输入图像首先经过1个卷积层，该卷积层的卷积核大小设置为（7×7），padding大小设置为3，stride设置为2，然后经过16个被称为BottleNeck的单元。其中第1个BottleNeck的层数是3层，输出大小设置为256；第2个BottleNeck的层数是4层，输出大小设置为512；第3个BottleNeck的层数是6层，输出大小设置为1 024；第4个BottleNeck的层数是3层，输出大小设置为2 048。最后输入1个全连接层，最终得出每个类别的概率值。

2.2.2 BottleNeck结构

BottleNeck的结构设置如图 2-B所示。分别由（1×1）卷积、（3×3）卷积、简单三维注意力机制、（1×1）卷积相连接，并使用残差的方式和初始输入连接。

2.2.3 简单三维注意力机制

Yang等提出的SimAM算法对输入图像的三维结构实现整体操作，同时借助神经学理论，将每一个像素转换为二分类问题。受到SimAM算法的启发，本研究提出一种简单的三维注意力机制实现方法。SimAM算法为了实现每个像素的激活值，需要设置正负样本并通过二分类算法求解，例如将正样本设置为＋1，负样本设置为－1。本研究认为这种假定是一种硬性阈值设置的方式，不符合每个像素的真实值大小。本研究不对每个像素的标签做硬性假定，而是保留每个像素的实际值，经过一个激活函数就可以得到每个像素的权重大小，将得到的激活值乘以输入图像，如公式（5）所示。

（5）

公式（5）是对输入图像的整体操作，是一种三维注意力机制实现方式，保留了原始输入图像特征的固有属性大小，没有作人为预设假定，更能真实反映输入图像本身的固有属性。

3 试验设置

3.1 试验环境

本研究使用Pytorch软件进行仿真。电脑配置为：CPU，Intel i7-9700@3.00 GHz；GPU，英伟达GeForce RTX2060，显存大小为6 GB。

3.2 试验参数设置

将数据集划分为训练集、验证集，各占80%、20%；并将批处理大小设置为16，一共迭代训练100次。本研究使用SGD优化器，优化器学习率设置为0.001，动量因子（momentum）设置为0.9，权重衰减系数（weight_decay）设置为0.005。

3.3 数据预处理方法

为了保证训练的稳定性，需要对图像做归一化处理，即对图像的R、G、B这3个通道分别减去均值并除以标准差。均值和标准差的值分别设置为（0.485、0.456、0.406）和（0.229、0.224、0.225），以上均值和标准差由ImageNet数据集中所有图像计算所得。

因为模型训练要求输入的图像尺寸一致，先将图像的短片大小调整为256像素，再从图像中心选取（224×224）像素作为训练图像的输入尺寸。

4 试验结果与分析

为了公平性，对比分析的所有算法都以ResNet50作为基础网络进行仿真試验。

4.1 本研究算法与SimAM模型对比试验

因为SimAM算法是三维注意力机制模型，而本研究算法是另一种三维注意力机制模型，所以需要对这2种模型进行对比分析。2组试验所有参数设置一致，经过100次迭代后，在验证集上的识别准确率曲线如图3所示。

由图3可知，经过50次训练后，本研究所提算法的准确率就开始优于SimAM，而且随着训练的进行，这种趋势一直保持，证明了本研究算法的优越性和稳定性。

2种算法的最高准确率以及对应出现的轮次如表2所示。本研究模型比SimAM模型的最高准确率提高0.84百分点。证明虽然本研究算法简单，但因没有破坏三维物体固有的属性特点，反而优于较为复杂的SimAM算法。

4.2 不同激活函数对比试验

为了验证本研究算法的性能表现，尝试使用不同的激活函数进行对比试验。现阶段已提出的激活函数包括：ReLU、ReLU6、PReLU、LeakyReLU、RReLU、ELU、SELU、CELU、GELU、SiLU、Mish、Softplus、Sigmoid、Tanh等。通过查看以上激活函数的图形，可以将其分为三大类：将ReLU、ReLU6、PReLU、LeakyReLU、RReLU统一称为ReLU系列；ELU、SELU、CELU、GELU、SiLU、Mish称为ELU系列；而将Softplus、Sigmoid、Tanh划分为其他系列，因为这3种激活函数既有相似特性又有不同特点，比如Softplus、Sigmoid在0轴时，其对应的激活值不等于0，Sigmoid、Tanh将激活值限定在一个区间内，Sigmoid将激活值限定在［0，1］区间，Tanh将激活值限定在［-1，1］区间。本研究从以上激活函数类别中选取有各自特点的函数进行仿真验证，经过100轮训练后，识别率结果如图4所示。

由图4可知，使用Sigmoid激活函数取得了最好的结果，而且一直保持优于其他激活函数。使用Tanh激活函数取得了第3位的效果。相反，ReLU系列以及ELU系列的效果是最差的，说明以上2个系列的激活函数不适应于本研究模型。

为了做进一步分析，对不同激活函数在验证集上的最高识别准确率以及对应的轮次进行比较（表3），结果表明，Sigmoid激活函数最适用于本研究算法。

4.3 不同网络模型性能对比试验

为了验证本研究算法的性能优势，与三维注意力机制SimAM模型和通道注意力机制模型SENet、ECA模型［12］做对比；并同时与经典网络模型ResNet模型［20］、MobileNetV2模型［21］、DenseNet模型［22］、EfficientNet模型［23］做对比试验。为保证对比的公平性，所有试验参数设置一致。各模型经过100次训练后，识别准确率如图5所示。

试验结果表明，本研究提出的模型性能是最好的，而表现最差的是EfficientNet_b0模型。同时，本研究模型优于2个通道注意力机制模型SENet、ECA模型，证明了三维注意力机制模型优于单纯的通道注意力机制方法。

为了进一步分析各模型的准确率，分别统计了各模型的最高准确率以及对应的轮次。

从表4可以看出，8种模型的最高准确率都在96%以上，本研究提出的模型取得了98.60%的最高准确率，比ResNet50、MobileNetV2、EfficientNet_b0、DenseNet模型分别提高1.71、1.93、1.93、0.84百分点，比通道注意力机制模型SENet、ECA模型分别提高1.20、1.28百分点。本研究的模型优于一些经典网络模型和通道注意力机制模型，证明三维注意力机制具有优越性。

4.4 水稻病害识别结果定性分析

混淆矩阵常用来对模型性能做可视化分析，展示每类水稻病害的识别准确率情况。图6为6种常见水稻病害的分类混淆矩阵。

图6中，横坐标编号代表每种水稻病害的ID：10000表示水稻胡麻斑病；10017表示水稻白叶枯病； 10018表示水稻纹枯病； 10021表示水稻细菌性条斑病；10046表示稻曲病；10047表示稻瘟病。对角线上的数字表示预测正确的个数，非对角线上的数字表示预测为其他类别的数目。比如，水稻细菌性条斑病在测试集上一共有298幅图像，被正确预测的有293幅，5幅水稻细菌性条斑病被预测为其他病害，其中有2幅被预测为水稻胡麻斑病，剩余的3幅分别被预测为水稻白叶枯病、水稻纹枯病、稻瘟病。

4.5 水稻病害识别结果定量分析

为了对每种水稻病害做定量分析，本研究选用以下评价指标：精度、召回率、特异度、F1得分、平均准确率。

精度P（Precision）公式定义为：

（6）

精度表示正样本的数量有多少被正确预测。公式（6）中：TP（true positive）称为真正类，表示样本的真实值为正且预测值也为正的数量；FP（false positive）称为假正类，表示样本的真实值为负却被预测为正样本的数量。

特异度S（Specificity）公式为：

（7）

特异度表示真实标签是负样本同时也被预测为负样本的数量与真实负样本标签的数量比例。公式（7）中TN（true negative）称为真负类，表示样本的真实标签为负且预测值也为负类的数量。

召回率R（Recall）公式为：

（8）

召回率也称之为查全率，表示预测正确的正样本占所有真实正样本标签的比例，值越大表示模型的预测能力越好。公式（8）中FN（false negative）称为假负类，表示样本的真实标签是正类却被预测为负类。

F1得分的公式为：

（9）

精度和召回率是一对矛盾的指标，当精度高时召回率往往偏低，而精度低时召回率往往偏高。F1得分综合考虑了精度和召回率，其核心思想是提高精度和召回率的同时，也希望两者之间的差异尽可能小。

准确率Acc（Accuracy）的公式为：

（10）

表示预测正确的样本数占总样本数的比例。但是当正、负样本不均衡时，该指标有一定的缺陷。

根据以上定义，分别计算出每种水稻病害的精度、召回率、特异度、F1得分、平均准确率，结果如表5所示。

表5结果表明，精度最低的是水稻白叶枯病（96.9%），召回率最低的是水稻纹枯病（98.1%），特异度各病害差别不大，F1得分最低的是水稻纹枯病（96.7%），其次是水稻白叶枯病（96.9%）。该模型对水稻白叶枯病和水稻纹枯病的识别效果不太好。

5 结论

为了快速准确地识别水稻病害，本研究针对6种常见水稻病害提出一种简单的三维注意力机制识别模型。首先自建水稻病害数据集，然后针对通道注意力机制以及空间注意力机制的不足，提出三维注意力机制识别模型。不同于SimAM方法将输入图像的每个像素按照硬性阈值来划分正负样本的做法，本研究不对每个像素做人为划分而是保留图像本身的固有属性，这种方法更符合图像本身的特性。通过对比分析，本研究算法的最高准确率可以达到98.6%，相对于SimAM算法提高了0.84百分点。同时，相对于通道注意力模型SENet、ECA模型，本研究算法分别提高1.20、1.28百分点，证明三维注意力机制具备相对优越性，表明本研究模型可以有效解决大田复杂环境下水稻病害的识别问题。

参考文献：

［1］刘杰，曾娟，杨清坡，等. 2023年全国农作物重大病虫害发生趋势预报［J］. 中国植保导刊，2023，43（1）：32-35.

［2］赵立新，侯发东，吕正超，等. 基于迁移学习的棉花叶部病虫害图像识别［J］. 农业工程学报，2020，36（7）：184-191.

［3］樊湘鹏，许燕，周建平，等. 基于迁移学习和改进CNN的葡萄叶部病害检测系统［J］. 农业工程学报，2021，37（6）：151-159.

［4］刘斌，贾润昌，朱先语，等. 面向移动端的苹果叶部病虫害轻量级识别模型［J］. 农业工程学报，2022，38（6）：130-139.

［5］张善文，许新华，齐国红，等. 基于可形变VGG-16模型的田间作物害虫检测方法［J］. 农业工程学报，2021，37（18）：188-194.

［6］Espejo-Garcia B，Malounas I，Mylonas N，et al. Using EfficientNet and transfer learning for image-based diagnosis of nutrient deficiencies［J］. Computers and Electronics in Agriculture，2022，196：106868.

［7］Peng H X，Li Z H，Zhou Z Y，et al. Weed detection in paddy field using an improved RetinaNet network［J］. Computers and Electronics in Agriculture，2022，199：107179.

［8］Hu J，Shen L，Sun G.Squeeze-and-excitation networks［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23，2018，Salt Lake City，UT，USA.IEEE，2018：7132-7141.

［9］Zhao X ，Li K Y，Li Y X，et al. Identification method of vegetable diseases based on transfer learning and attention mechanism［J］. Computers and Electronics in Agriculture，2022，193：106703.

［10］Zhao Y，Sun C D，Xu X，et al. RIC-Net：a plant disease classification model based on the fusion of Inception and residual structure and embedded attention mechanism［J］. Computers and Electronics in Agriculture，2022，193：106644.

［11］趙辉，曹宇航，岳有军，等. 基于改进DenseNet的田间杂草识别［J］. 农业工程学报，2021，37（18）：136-142.

［12］Wang Q L，Wu B G，Zhu P F，et al. ECA-net：efficient channel attention for deep convolutional neural networks［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.June 13-19，2020.Seattle，WA，USA.IEEE，2020：11531-11539.

［13］孙俊，朱伟栋，罗元秋，等. 基于改进MobileNet-V2的田间农作物叶片病害识别［J］. 农业工程学报，2021，37（22）：161-169.

［14］甘雨，郭庆文，王春桃，等. 基于改进EfficientNet模型的作物害虫识别［J］. 农业工程学报，2022，38（1）：203-211.

［15］Hou[KG*2]Q[KG*2]B，Zhou[KG*2]D[KG*2]Q，Feng[KG*2]J[KG*2]S.[KG*2]Coordinate attention for efficient mobile network design［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.June 20-25，2021.Nashville，TN，USA.IEEE，2021：13713-13722.

［16］宋怀波，江梅，王云飞，等. 融合卷积神经网络与视觉注意机制的苹果幼果高效檢测方法［J］. 农业工程学报，2021，37（9）：297-303.

［17］Wang X L，Girshick R，Gupta A，et al. Non-local neural networks［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23，2018.Salt Lake City，UT，USA.IEEE，2018：7794-7803.

［18］Yang L，Zhang R Y，Li L，et al. Simam：a simple，parameter-free attention module for convolutional neural networks［C］//International conference on machine learning. PMLR，2021：11863-11874.

［19］Webb B S，Dhruv N T，Solomon S G，et al. Early and late mechanisms of surround suppression in striate cortex of macaque［J］. The Journal of Neuroscience，2005，25（50）：11666-11675.

［20］He K M，Zhang X Y，Ren S Q，et al. Deep residual learning for image recognition［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.June 27-30，2016.Las Vegas，NV，USA.IEEE，2016：770-778.

［21］Sandler M，Howard A，Zhu M L，et al. MobileNetV2：inverted residuals and linear bottlenecks［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23，2018.Salt Lake City，UT.IEEE，2018：4510-4520.

［22］Huang G，Liu Z A，van Der Maaten L，et al. Densely connected convolutional networks［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.July 21-26，2017.Honolulu，HI.IEEE，2017：4700-4708.

［23］Tan M，Le Q. Efficientnet：rethinking model scaling for convolutional neural networks［C］//International conference on machine learning. PMLR，2019：6105-6114.

收稿日期：2023-01-31

基金项目：国家自然科学基金（编号：32171888）。

作者简介：王忠培（1981—），男，安徽金寨人，博士，助理研究员，研究方向为智能农业技术。E-mail：wangzhongpei@aaas.org.cn。

通信作者：董伟，硕士，副研究员，研究方向为植物保护信息化技术。E-mail：dongwei@ aaas.org.cn。