APP下载

基于坐标注意力机制与Focal-EIOU 的茶叶叶片病害检测

2025-02-15黎英涛魏霖静

软件工程 2025年2期
关键词:注意力机制目标检测

摘 要:针对复杂自然环境中茶叶病害的检测问题,提出一种创新的检测模型,旨在为茶叶病害的精确识别提供有力支持。模型设计中,增加了小目标检测层,提升了对微小目标的检测;引入了CA(CoordAttention)注意力机制,增强模型对细节信息的捕捉能力;采用Focal-EIOU损失函数进一步优化算法模型;替换主干网络MobilevitV2,提升了模型的性能。实验结果表明,在同等条件下,与YOLOv8n原模型相比,本研究提出的优化算法实现了平均精度均值3.5百分点的提升,准确率达到91.6%。这些改进措施有效地提高了茶叶病害检测的准确率,而且为茶叶病害检测提供了坚实的理论基础和技术支撑。

关键词:目标检测;注意力机制;损失函数;Yolov8n

中图分类号:TP391 文献标志码:A

0 引言(Introduction)

茶叶,作为全球广受欢迎的饮品,其产量常受到多种病害的侵害。因此,对茶叶叶片病害进行精确的检测,能确保茶叶产业的持续健康发展。传统的病害检测[1]依赖于专家的经验,这一过程不仅耗时费力,而且受主观因素影响较大。然而,随着计算机视觉和深度学习技术的发展,自动化的茶叶叶片病害检测系统应运而生,为茶叶病害的快速、准确识别提供了全新的解决方案。近年来,深度学习技术[2]在目标检测领域展现出巨大的潜力,尤其是卷积神经网络在图像识别方面取得了显著成就。其中,目标检测算法如YOLO系列[3-4],因其在实时性和准确性方面具备较大的优势而被广泛应用于各类视觉任务。李书琴等[5]提出的植物叶片病害识别方法,在自建的苹果叶片病害数据集上达到了1.52%的低识别错误率。高伟锋[6]提出的基于YOLOv8的柑橘病虫害识别系统,在实际环境中的识别准确率达到了预期的效果。戚玲珑等[7]提出了改进的YOLOv7目标检测模型,通过特征分离合并思想对MPConv(混合路径卷积)模块进行改进,并使用SIOU优化损失函数,显著提高了模型的检测效果。许德刚等[8]提出引入上下文增强模块,旨在提升模型提取多尺度目标细节信息的能力。郭磊等[9]提出了基于改进YOLOv5的小目标检测算法,提高了小目标的检测精度。可见,卷积神经网络在目标检测领域的出色表现,已被广泛融入人们的日常生活当中[10]。尽管当前的目标检测方法已取得了显著成效,但是在精度上仍有待进一步提升。针对茶叶叶片病害的识别挑战,本文基于YOLOv8模型提出了改进的检测模型,为茶叶病害的精确识别[11]提供了坚实的理论基础。

1 材料与方法(Materialsandmethods)

1.1 样本采集

本文采用的实验数据均为自行采集。为了全面模拟茶叶生长过程中可能遭遇的不同天气条件,实验挑选了在晴朗和雨后[12]两种不同天气状况下拍摄的图片(图1)。实验数据集中的茶叶叶片病害图片,列举了典型的茶叶病害,包括藻叶斑病、云纹叶枯病及灰枯病等。经过筛选和整理,最终用于实验的茶叶病害图片数量为3600张,为模型的训练和验证提供了数据支持。

1.2 数据集构建

为确保茶叶叶片病害图片数据能高效地应用于模型训练和验证,采用标注工具LabelImg对3600张图片进行了精确的标注。在构建数据集时,将茶叶叶片病害图片数据集分为训练集和验证集,两者的比例为8∶2。这样的比例划分,保证了模型在训练过程中能够接触到足够多的样本,同时保留了一部分数据用于评估模型的性能。茶叶叶片病害数据集的构建和划分如表1所示。

2 识别模型构建(Recognitionmodelbuilding)

2.1 YOLOv8概述

YOLOv8代表了目标检测领域的一项重大突破,延续并优化了YOLO家族一贯的单次预测框架,实现了对图像中多个对象的快速定位和精确分类。YOLOv8的强大性能得益于其采用的高级卷积神经网络结构和尖端的训练技术,这些创新使得该算法在保持高速处理的同时,还能提供更高的检测准确率,而且在对小型目标的检测上也展现出了更细致的信息捕捉能力。这一进步使得YOLOv8在处理复杂场景和微小目标时更加得心应手,极大地推动了目标检测技术的发展。YOLOv8的设计团队深入考虑了多样化的应用场景,并推出了5个不同的配置版本,分别是YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x。这些版本在维持统一的核心架构的同时,灵活调整了模型的深度和宽度两个核心维度,以适应多样化的性能需求和硬件资源约束。从YOLOv8n到YOLOv8x,模型的残差结构数量呈递增趋势,这使得模型在特征提取和信息融合方面的能力得到逐步增强。随着模型复杂度的提升,YOLOv8系列模型在目标检测任务上展现出越来越高的精度。

2.2 改进YOLOv8n算法

为了提升茶叶叶片病害检测的精确度,减低漏检率,本文对YOLOv8n模型进行了以下4项改进。

(1)添加探测头,增加小目标检测层,提高了模型对小病害区域的识别能力。

(2)集成CoordAttention注意力机制,增强了模型对关键特征的定位。

(3)使用Focal-EIOU损失函数提高预测边界框的准确性。

(4)替换主干网络为MobileViT-V2,提升了模型处理高分辨率图像的效率。

综上所述,改进后的网络总体结构图如图2所示。

2.2.1 添加探测头,增加小目标检测层

茶叶叶片上的病害如藻叶斑病等,通常以小目标的形式出现,其早期识别对保护茶叶健康生长非常重要。为了更好地检测这些小病害,本文对YOLOv8n模型进行了改进,增强了对小目标的检测能力。原YOLOv8模型在处理640×640像素的图像时,通过3个特征层检测不同尺寸的目标。然而,最大特征图仅为80×80像素,限制了对微小病害的有效检测。因此,本文新增了一个160×160像素的特征层,专门用于检测微小病害,提高了模型的检测精度[13]。在本文的改进方案中(图2),新增的小目标检测层被清晰地用虚线标注出来。

2.2.2 添加注意力机制

CA机制的独特之处在于它能够识别和区分不同的空间方向,即坐标,从而生成具有坐标感知能力的特征图。与传统的注意力机制相比,CA在进行注意力分配时,不仅深入考虑了输入数据的特征信息,而且还融入了每个像素点的空间位置信息。这种结合特征和位置信息的方法,使得CA能够更加精准地捕捉到图像中的局部细节和全局结构,在空间关系的理解上具有更高的准确性和敏感度。本文引入了CA机制,旨在应对目标检测领域中的一些挑战。改进后的网络总体结构图(图2)中特别标注的黑框部分展示了CA注意力机制的应用。CA 注意力机制的融入,不仅增强了模型对目标的空间定位能力,而且提高了模型在复杂环境下的识别性能。CoordAttention 结构图如图3所示。

为了提升注意力模块在捕捉精确位置信息和远程空间交互[14]方面的能力,本文提出了一种新的策略,通过分解全局池化操作,不仅保留了全局信息,而且增强了模型对空间关系的敏感度,实现了对特征的一维编码操作,其具体过程如公式(1)所示:

2.2.3 改进损失函数

在YOLO目标检测模型的核心机制中,损失函数扮演着至关重要的角色。一个好的损失函数能够促进模型更快地收敛,并且在面对复杂的目标检测任务时,能够提高模型的泛化能力和鲁棒性。通过不断优化损失函数,可以使模型在训练过程中更加聚焦于预测准确性的提升,从而在实际应用中达到更高的检测精度。随着深度学习技术的不断进步,对损失函数的研究和改进将成为进一步提升目标检测模型性能的关键路径。YOLOv8使用CIOU作为损失函数,CIOU损失函数定义如公式(8)至公式(12)所示:

其中:A、B 分别为锚框和真实框;IOU 为锚框和真实框的交并比;ρ2(b,bgt)为预测框与真实框中心点的欧式距离,b 表示预测框的中心点,bgt表示真实框的中心点;c 为能够包含预测框与真实框最小闭包区域的对角线距离;ρ2(b,bgt)/c2 优化了IOU的问题;a 用于平衡比例;v 为描述预测框与真实框之间长宽比的一致性参数[15]。

传统的IOU函数虽然在衡量预测框与真实框之间的重叠程度方面发挥了作用,但是仍存在一定的局限性。为此,本文引入了Focal-EIOU损失函数,这是一种在YOLOv8中采用的改进型IOU损失函数,进一步提升了预测边界框与真实边界框之间相似度的衡量精度。Focal-EIOU的核心优势主要体现在以下3个关键方面的优化:首先,通过最小化预测框与真实框的中心点欧式距离,提升了边界框的定位精度;其次,通过对宽度和高度的差异施加惩罚,确保预测框在形状上更加贴合真实框;最后,将损失函数与能够包含预测框和真实框最小闭包区域的对角线距离[16]相结合,使得损失函数对于目标对象的尺寸和位置更加敏感。Focal-EIOU的参数示意图如图4所示。

其中:A 为真实框,B 为预测框,C 为A 和B 的最小封闭框;ρ2(A,B)为A、B 中心点的距离,A'为A 点中心点,B'为B 点中心点;c 为最小封闭框C 的对角线长度,w、h 为A、B、C3个框的宽和高。Focal-EIOU 的计算公式如公式(13)至公式(15)所示:

其中:γ 为控制异常值抑制程度的参数;β 用于控制曲线的弧度;e为自然常数;x 代表真实值与预测值的差值;D为一个常数;ρ2(wA ,wB )和ρ2(hA ,hB )分别为宽的差的平方和高的差的平方。Focal-EIOU的公式可表示为

LFocal-EIOU=IOUγLEIOU (16)

2.2.4 替换主干网络

MobileViT-V2作为基于Transformer架构的先进轻量级深度学习模型[17],致力于在降低计算和内存需求的同时,维持较高的目标检测性能;其核心优势在于经过精心调优的网络结构和参数设置,MobileViT-V2不仅保持了优异的检测准确率,而且显著提升了处理速度。通过引入创新的激活函数和改进的层归一化技术,进一步提升了模型的效率与准确度。MobileViT-V2结构图如图5所示。

图5中Linear是指一个全连接层,用于将提取的特征映射到最终的输出上;ReLU是一种常用的激活函数;ContextScores 是上下文信息输入序列中各个元素之间关联程度的指标;ContextVector是一个向量,包含了输入数据的上下文信息。

3 实验结果和分析(Testresultsandanalysis)

3.1 实验环境

本文构建了一个高性能的计算环境,以确保网络模型训练的高效性和稳定性。为此,选择了远程服务器AutodL作为计算平台,并配备了RTX4090显卡。深度学习框架为PyTorch2.2.1,模型开发语言为Python。以YOLOv8n作为基础网络架构,并采用了官方提供的预训练权重文件进行模型的初始化。网络模型训练参数设置中,将初始学习率设定为0.01,并设置模型进行300轮训练,每批次处理64个样本,以此优化模型的参数。

3.2 评价指标

为了全面评估改进后网络模型的有效性,采用准确率(Precision,P)、召回率(Recall,R)和平均精度均值(mAP50)作为模型性能的最终评价指标[18]。计算公式可表示为

这些指标能够全面反映模型在目标检测任务中的表现,包括其精确识别目标的能力以及覆盖所有正样本的能力。其中,TP 为模型预测为正样本且与真实标注匹配的检测框数量;FP 为模型预测为正样本但与真实标注不匹配的检测框数量;FN 为模型未能检测到的真实标注数量;N 代表模型能检测出目标的种类数量[19]。

3.3 实验结果与分析

3.3.1 不同损失函数的对比实验

为了验证损失函数Focal-EIOU在目标识别准确性方面的优势,本文设计了一项对比实验。在相同条件下,将Focal-EIOU与当前主流的CIOU和SIOU进行了全面比较,通过实验评估Focal-EIOU损失函数在目标检测任务中的实际效果,不同损失函数对YOLOv8n检测性能的影响如表2所示。从表2中的数据可知,采用Focal-EIOU作为损失函数时,模型的平均精度均值(mAP50)均高于CIOU和SIOU的平均精度均值,有力地证明了Focal-EIOU在边界框回归任务中的优越性能。具体而言,Focal-EIOU不仅提升了模型对目标对象的识别精度,而且显著增强了模型的定位能力,也证实了其在提升模型性能方面的有效性[20]。基于上述试验数据和分析,本文选择Focal-EIOU作为替换的损失函数,以确保在目标识别任务中实现更高的准确率。

3.3.2 不同主干网络的对比实验

为了评估MobilevitV2主干网络的性能,本文进行了对比实验,将其与C2f和ScConv主干网络进行了比较。通过严谨的实验流程和全面的性能评估,实验获得了翔实和可靠的结果(表3)。从表3中可以看到,当采用MobilevitV2作为主干网络时,模型的平均精度均值(mAP50)相较于采用C2f作为主干网络的原模型的平均精度均值提升了2.5百分点,并且比使用ScConv作为主干网络的模型高出了1百分点。这一性能的提升,证明了MobilevitV2在本文目标检测任务中的优越性。基于以上实验结果和分析,本文选择采用MobilevitV2作为主干网络,旨在确保模型在茶叶叶片病害检测任务中达到最佳性能。

3.3.3 消融实验

为了验证所提出的改进模型在目标检测任务中的准确性与有效性,本文设计了6组实验,旨在深入探究各个改进模块对模型整体性能的具体影响。在实验中,采用了简洁明了的标记———“√”符号指示某项改进措施已被应用。通过这种方法,能够直观地追踪每项改进的实施效果,并精确衡量其对模型性能的贡献。消融实验结果如表4所示,从表4中可以清晰地观察到,相较于原始的YOLOv8n模型,本文提出的改进方法在平均精度均值上实现了3.5百分点的提升。具体而言,通过添加探测头并增加小目标检测层,模型的检测精度得到了显著提升,能够更加敏锐地识别茶叶叶片上的微小病害。同时,引入注意力机制增强了模型对目标重要特征的关注度,提升了模型对病害特征的捕捉能力。在损失函数方面,经过改进的损失函数有助于模型在训练过程中更准确地学习目标的真实边界,从而提高了预测的准确性和可靠性。通过替换主干网络,实现对模型整体性能的全面提升,从而在目标检测任务中实现更高的准确率。

根据表4中的数据得到了不同改进点的mAP50变化曲线(图6)。从图6中可以清晰地观察到YOLOv8n及其改进模型在训练过程中的性能演变。原始的YOLOv8n模型随着训练轮次的递增,其mAP50表现出了逐步的提升,但在训练的后期,增长速度明显放缓,达到了一个性能的平台期。改进点A增加了探头(YOLOv8n-A模型),相比于原模型,其在训练初期的mAP50有更快的增长速度,表明增加探头对于提升模型性能起到了积极的作用。然而随着训练的持续,mAP50的增长速度开始放缓,整体性能仍然维持在一个较高的水平。改进点B 引入了注意力机制(YOLOv8n-B模型),在训练初期与原模型的性能相近,但在某个训练阶段之后,其mAP50开始显著提升,并最终超过了原模型。这一现象表明注意力机制在训练的后期开始发挥其优化效果,显著增强了模型的检测能力。改进点C 替换了损失函数(YOLOv8n-C模型),其mAP50曲线始终高于原模型,并且提升速度较快。这一现象表明替换损失函数对于提高模型的性能具有显著效果,这种提升在整个训练过程中保持了较高的稳定性。改进点D 替换了主干网络(YOLOv8n-D模型),其在训练初期也显示出显著的性能提升,但随着训练的深入,mAP50的增长速度减缓,出现波动,这可能是新替换的主干网络在初期对模型有正面影响,但随着训练的持续进行,需要进一步调整学习率与优化器,以避免初选过拟合或不适应的问题。改进点E 融合了所有改进点(YOLOv8n-E模型),其在训练过程中的mAP50曲线不仅是最高的,而且增长趋势相对平稳。这一结果表明,以上的各项改进措施能够有效地提升模型的整体性能,并确保了模型在训练过程中的稳定性。综上所述,通过不同改进点的mAP50变化曲线,可以看到每项改进对YOLOv8n模型性能的具体影响。

3.3.4 不同算法之间的对比实验

为了验证本文提出的改进YOLOv8n算法的性能,本文设计了对比实验对其有效性进行了验证。在实验中,将各个版本的YOLO算法与经过本文改进后的YOLOv8n-E算法进行了性能对比,不同算法的效果对比结果如表5所示。由表5中的数据可知,采用本文改进后的YOLOv8n-E算法时,模型的平均精度均值(mAP50)和召回率(R)均实现了提升。这一变化不仅展示了改进算法在目标检测任务中的优越性能,而且证实了本文所提出的各项优化措施的有效性。

3.3.5 检测效果可视化对比

为了验证和评估改进后模型在茶叶叶片病害检测领域的性能表现,设计并实施了测试实验。在实验中,本文对比了YOLOv8n模型与采用本文所创新的改进措施进行全方位优化后的模型在目标识别检测方面的性能差异。通过比较分析,准确衡量改进措施为模型性能带来的具体提升效果。改进前的效果图如图7所示,改进后的效果图如图8所示。通过直接的视觉对比分析可以清晰地发现,改进后的模型可以准确地检测出叶片边缘的病害与小目标叶片病害。在图8中用虚线框标注出来的就是模型改进前后主要的变化。此外,模型在定位茶叶叶片病害区域方面表现出了更高的精确度,有效地减少了漏检情况的发生。

4 结论(Conclusion)

针对茶叶叶片病害检测问题,本文旨在通过改进提高病害检测的准确性,具体而言,选择YOLOv8n模型作为基础架构,并在此基础上进行了4项优化改进,以期达到对茶叶叶片病害尤其是小面积病害的高精度检测。第一,为了解决小目标检测的难题,在模型中增加了探测头。这一改进提升了模型对叶片病害中微小区域的识别能力,使模型能够更有效地捕捉到茶叶叶片上的细微病害迹象,避免了漏检的问题。第二,为了进一步提升模型对关键特征的提取能力,引入了CA注意力机制。该机制通过自适应地调整网络的注意力分配,使得模型能够更加集中地关注输入数据中的重要特征。第三,采用了Focal-EIOU作为新的损失函数。Focal-EIOU能够更精确地衡量预测边界框与真实边界框之间的重叠度,从而有效减少了模型在训练过程中的过拟合问题。第四,通过替换主干网络MobileViT-V2,进一步提升了模型的特征提取能力和整体性能。在茶叶叶片病害数据集上的实验结果表明,经过改进后的模型,其mAP50数值相比原模型提升了3.5百分点,这一提升证明了本文改进策略在实际应用中的有效性。

参考文献(References)

[1]王聃,柴秀娟.机器学习在植物病害识别研究中的应用[J].中国农机化学报,2019,40(9):171-180.

[2]贾少鹏,高红菊,杭潇.基于深度学习的农作物病虫害图像识别技术研究进展[J].农业机械学报,2019,50(增刊1):313-317.

[3]WANGCY,BOCHKOVSKIYA,LIAO H Y M.Yolov7:Trainablebag-of-freebiessetsnewstate-of-the-artforrealtimeobiectdetectors[EB/OL].(2022-07-06)[2023-04-07].https:∥arxiv.org/abs/2207.02696.

[4]REDMONJ,FARHADIA.Yolov3:Anincrementalimprovement[EB/OL].(2018-04-08)[2023-04-27].https:∥arxiv.org/abs/1804.027671.

[5]李书琴,陈聪,朱彤,等.基于轻量级残差网络的植物叶片病害识别[J].农业机械学报,2022,53(3):243-250.

[6]高伟锋.基于YOLOv8的柑橘病虫害识别系统研究与设计[J].智慧农业导刊,2023,3(15):27-30.

[7]戚玲珑,高建瓴.基于改进YOLOv7的小目标检测[J].计算机工程,2023,49(1):41-48.

[8]许德刚,王再庆,邢奎杰,等.改进YOLOv6的遥感图像目标检测算法[J].计算机工程与应用,2024,60(3):119-128.

[9]郭磊,王邱龙,薛伟,等.基于改进YOLOv5的小目标检测算法[J].电子科技大学学报,2022,51(2):251-258.

[10]赵元龙,单玉刚,袁杰.改进YOLOv7与DeepSORT的佩戴口罩行人跟踪[J].计算机工程与应用,2023,59(6):221-230.

[11]刘洋,冯全,王书志.基于轻量级CNN的植物病害识别方法及移动端应用[J].农业工程学报,2019,35(17):194-204.

[12]李明,丁智欢,赵靖暄,等.基于改进YOLOv5s的日光温室黄瓜霜霉病孢子囊检测计数方法[J].中国农机化学报,2023,44(5):63-70.

[13]陈佳慧,王晓虹.改进YOLOv5的无人机航拍图像密集小目标检测算法[J].计算机工程与应用,2024,60(3):100-108.

[14]倪锦园,张建勋.多尺度坐标注意力金字塔卷积的面部表情识别[J].计算机工程与应用,2023,59(22):242-250.

[15]张小俊,奚敬哲,史延雷,等.面向路侧视角目标检测的轻量级YOLOv7-R 算法[J].汽车工程,2023,45(10):1833-1844.

[16]周敏.基于Focal-EIOU函数的被动式太赫兹图像违禁物品识别[J].太赫兹科学与电子信息学报,2022,20(8):810-816.

[17]陈晓,夏颖.基于改进MobileViT网络的番茄叶片病害识别[J].电子测量技术,2023,46(14):188-196.

[18]沈琦,陈逸伦,刘枢,等.基于两级网络的三维目标检测算法[J].计算机科学,2020,47(10):145-150.

[19]魏陈浩,杨睿,刘振丙,等.具有双层路由注意力的YOLOv8道路场景目标检测方法[J].图学学报,2023,44 (6):1104-1111.

[20]周岳淮,李震,左嘉明,等.基于改进YOLOv5s模型的山地果园单轨运输机搭载柑橘的检测[J].湖南农业大学学报(自然科学版),2023,49(4):491-496.

作者简介:

黎英涛(1994-),男(汉族),商洛,硕士生。研究领域:大数据分

魏霖静(1977-),女(汉族),兰州,教授,博士。研究领域:农业信息化,智能计算。

基金项目:科技部国家外专项目(G2022042005L);甘肃省重点研发计划(23YFWA0013);甘肃省高等学校产业支撑项目(2023CYZC-54);兰州市人才创新创业项目(2021-RC-47);2023年甘肃农业大学美育和劳动教育教学改革项目(2023-09)

猜你喜欢

注意力机制目标检测
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
InsunKBQA:一个基于知识库的问答系统
视频中目标检测算法研究
行为识别中的人体运动目标检测方法
移动机器人图像目标识别
基于背景建模法的运动目标检测