基于改进YOLOv4-tiny的茶叶嫩芽检测模型

2022-08-27方梦瑞吕军阮建云边磊武传宇姚青

茶叶科学 2022年4期

方梦瑞，吕军*，阮建云，边磊，武传宇，姚青

方梦瑞1，吕军1*，阮建云2，边磊2，武传宇3，姚青1

1. 浙江理工大学信息学院，浙江杭州 310018；2. 中国农业科学院茶叶研究所，浙江杭州 310008；3. 浙江理工大学机械与自动控制学院，浙江杭州 310018

精准检测茶叶嫩芽是茶叶机械智能采摘的重要前提。针对茶叶大小不一、遮挡造成的小尺度嫩芽特征显著性弱、漏检率高等问题，提出一种基于改进YOLOv4-tiny的茶叶嫩芽检测模型。该模型在颈部网络添加52×52的浅层特征层以提高YOLOv4-tiny网络对小目标嫩芽的关注度，通过引入卷积块注意力机制（Convolutional block attention module，CBAM）以抑制背景噪声，提高嫩芽特征的显著性，采用双向特征金字塔网络（Bidirectional feature pyramid network，BiFPN）以融合不同尺度的特征信息，从而提出一个高性能轻量化的茶叶嫩芽检测模型YOLOv4-tiny-Tea。对同一训练集与测试集进行模型训练与性能测试，结果表明YOLOv4-tiny-Tea模型检测精确率和召回率分别为97.77%和95.23%，相比改进之前分别提高了5.58个百分点和23.14个百分点。消融试验验证了网络结构改进对不同尺度嫩芽检测的有效性，并将改进后的YOLOv4-tiny-Tea模型与3种YOLO系列算法进行对比，发现改进后的YOLOv4-tiny-Tea模型F1值比YOLOv3、YOLOv4、YOLOv5l模型分别提高了12.11、11.66和6.76个百分点，参数量仅为3种网络模型的13.57%、13.06%和35.05%。试验结果表明，YOLOv4-tiny-Tea模型能有效提高不同尺度下嫩芽检测的精确率，大幅度减少小尺寸或遮挡嫩芽的漏检情况，在保持轻量化计算成本的基础上获得较为明显的检测精度，能够满足农业机器人的实时检测和嵌入式开发的需求，可以为茶叶嫩芽智能采摘方法提供参考。

茶叶；嫩芽检测；YOLOv4-tiny；注意力机制；双向特征金字塔

机器视觉等技术已广泛应用于茶叶嫩芽检测[1-2]、等级鉴定[3]、病虫害防治[4]和种类识别[5]等。茶叶智能采摘是茶叶生产智能化、信息化和机械化的重要前提。相比传统的人工采摘，机械采摘具有成本低、效率高等优势，但机械采摘缺乏选择性，嫩芽和老叶一刀切，无法保证嫩芽完整性，降低成茶品质[6]。因此，需要准确识别与定位茶叶嫩芽，以提高嫩芽采摘的准确率和工作效率。

目前，茶叶嫩芽的检测方法包括图像分割定位方法[7]和深度学习方法[8]。图像分割定位方法是根据茶叶嫩芽和老叶所呈现的颜色、纹理特征等差异，结合目标定位算法实现茶叶嫩芽的识别和定位[9-11]。汪建[12]利用茶叶图像的色调H和饱和度S分量图进行初步的嫩芽区域分割，然后结合颜色距离和边缘距离进行嫩芽区域的生长合并，平均分割精确率为89.8%，平均分割速度为0.58帧·s-1。针对强光和不均匀光照下嫩芽与老叶颜色区分度低问题，Zhang等[13]对蓝分量进行自适应阈值处理后，结合绿分量获得新的组合分量灰度图，通过分段线性变换提高目标与背景的对比度后，利用改进的分水岭算法提高嫩芽识别精度。以上方法的分割精度受嫩芽特征提取影响较大，模型的普适性和鲁棒性较差。深度学习模型直接以茶叶图像为输入，大大减小了人工特征提取对嫩芽检测的影响。王子钰等[14]对比了图像分割方法和基于SSD、YOLOv3的茶叶嫩芽检测算法，发现基于YOLOv3的检测精度和检测速度更适合茶叶智能采摘的需求。以单个茶叶图像为研究对象，孙肖肖等[15]去除了YOLOv3模型中的大尺度预测层，采用中尺度和小尺度进行预测，减少了模型的计算量，提高了检测速度。Yang等[16]在YOLOv3下采样部分添加残差网络，并利用1×1的卷积运算代替全连接，对验证集的平均检测精度达90%以上。自然环境下茶叶姿态各异，且受光照影响较大，Li等[17]按照一芽一叶图像中芽与叶是否有明显的角度分离进行分类标定，相比单一标定的检测结果，基于姿态分类的YOLOv3模型检测精度提高1.9个百分点，召回率提高了40.3个百分点。吕军等[18]采用区域亮度自适应校正方法对高亮度图像进行预处理，以加强不同光照条件下嫩芽检测模型的鲁棒性。

在实际应用场景中，采集的茶叶图像背景较为复杂，嫩芽尺度不一、密集和遮挡等情况严重影响嫩芽检测的精度和模型的普适性。Karunasena等[19]利用Cascade分类器实现对0～10 mm、10～20 mm、20～30 mm、30～40 mm 4组不同长度的嫩芽检测，平均检测精度为55%，其中对小嫩芽（0～10 mm）检测精度仅为30%。因此，需要研究对不同尺度嫩芽检测具有高鲁棒性的嫩芽检测模型。本研究选用轻量级、易部署的茶叶嫩芽检测模型，通过改进网络结构，以加强不同尺度下茶叶检测的精度，为茶叶机械智能采摘提供理论依据。

1 材料与方法

1.1 图像采集与数据集建立

春茶期间利用数码相机采集自然生长的茶树新梢图像，共6 580幅，图像分辨率统一为1 600×1 200。拍摄时间为2020年和2021年的3月中旬至4月上旬，拍摄角度为30°～60°，拍摄距离为30～50 cm，拍摄地点为中国农业科学院茶叶研究所嵊州茶叶综合实验基地，茶树品种为龙井43，2015年种植，单行条栽，茶树长势良好。利用目标标注工具LabelImg对采集到的茶叶图像中一芽一叶和一芽进行人工标记，标记规范如图1所示，并按照11∶1随机划分成训练集和测试集，数据集信息如表1所示。

为丰富样本多样性，模拟自然环境下茶叶生长状态，采用水平镜像和增强对比度的方法对训练集图像进行数据扩增，扩增后训练集嫩芽数量达217 500个，茶叶图像数据增强如图2所示。

1.2 YOLOv4-tiny-Tea网络模型

自然环境下茶叶嫩芽生长密集，生长状态大小不一，重叠遮挡等造成嫩芽特征显著性较弱，现有模型检测结果中存在较多小目标漏检情况。目标检测模型的部署过于依赖设备的计算和存储能力，需要在设备硬件限制条件下满足实时检测的需求[20]。为了提高算法的运行效率，本研究选用了轻量化、易部署的YOLOv4-tiny[21]模型作为基准网络。引入卷积块注意力机制和双向特征金字塔结构进行多尺度预测，提升模型对小尺度和遮挡目标的检测性能，并将改进后的模型命名为YOLOv4-tiny-Tea。

表1 茶叶图像数据集

Table1 Tea image dataset

图2 茶叶图像数据增强结果

1.2.1 YOLOv4-tiny基准网络结构

YOLOv4-tiny网络模型是YOLOv4的简洁版，属于轻量化模型，在追求精度和速度之间的平衡方面表现良好。YOLOv4-tiny模型结构主要包括以下内容：（1）YOLOv4-tiny使用CSPDarknet53-tiny作为主干网络，该网络主要由CBL和CSPBlock结构组成。相比于YOLOv4中CBL和ResBlock组成的主干特征提取网络CSPDarknet53，主要变化之一是将CBL中Mish[22]激活函数替换为Leaky ReLU[23]激活函数，减少模型的权重参数，提高计算速度；其二是CSPBlock模块除主干部分继续进行原ResBlock模块中残差结构（RESn）的堆叠外，另一部分经过少量处理直接将两者结合，使得梯度流可以在两条不同的路径上传播，增加了梯度信息的相关性差异。与ResBlock模块相比，CSPBlock模块在保持计算量不变的情况下，增强卷积网络的学习能力，提高模型的检测性能。（2）YOLOv4-tiny颈部网络采用FPN结构，对26×26和13×13两级有效特征层进行自下向上的单向特征融合。（3）YOLOv4-tiny预测模块使用k-means聚类算法生成锚框，并引入CIOU[24]代替IOU计算边界框定位损失，解决了真实框和预测框非重叠情形下梯度消失的问题，使得边界框的回归更加稳定。

1.2.2 基于注意力机制的多尺度预测

YOLOv4-tiny网络只有中尺度（26×26）和小尺度（13×13）两级预测层，在小目标检测时易出现较多漏检情况，不适于尺度变化较大的茶叶嫩芽检测[25]。本研究采用分而治之的检测策略，在颈部网络添加一级52×52的浅层有效特征层，以提高对小尺度嫩芽的特征提取能力，改善模型对茶叶嫩芽的多尺度检测性能。

浅层特征层中含有小的感受野，有利于小尺度目标的检测，但引入低维有效特征信息的同时也会产生大量的背景噪声，影响模型的整体检测精度。为了解决这个问题，引入注意力机制增强有效特征信息，抑制背景噪声。卷积块注意力机制（Convolutional block attention module，CBAM）[26]是一种高效的注意力机制模块，可以在不增加大量计算成本的同时，简便灵活地嵌入到检测网络模型中，进而提升卷积神经网络的特征表达能力。CBAM模块是通道注意力机制和空间注意力机制的级联，具体结构如图3所示。通道注意力模块中，采用最大池化和平均池化聚合原始特征图的空间信息，生成两个1×1通道特征图，通道数为。将通道特征图输入含有多层感知器和一个隐藏层的共享网络，为了减少参数量，将隐藏层大小设置为1×1×/，其中是缩减率。将共享网络输出的两个特征图叠加并通过Sigmod函数，然后乘以原始特征图生成通道注意力特征图。空间注意力模块中，对通道注意力图采用最大池化和平均池化聚合通道信息，得到两个××1特征图，将两个特征图叠加后通过卷积层和Sigmod函数得到××1的空间注意力图。最后，将通道注意力特征图乘以空间注意力图生成最终的卷积块注意力特征图。

1.2.3 引入BiFPN网络结构

原始YOLOv4-tiny网络采用FPN结构（图4-a）进行特征融合，虽然能够丰富不同尺度特征图的特征信息，但FPN受单向特征融合的限制，使得多尺度特征信息无法充分利用[27]。茶叶嫩芽分布密集，特征图中易出现多个大小不同的目标聚集，在不同尺度检测的有效预测层中，当前尺度的特征信息被标记为正样本，而其他预测层对应的区域可能被视为背景，干扰模型的预测性能。针对FPN单向特征融合无法充分利用多层有效特征的问题，引入路径聚合网络结构（Path aggregation network，PANet）实现双向网络的特征融合，即在FPN结构中添加了一层自顶向下的聚合路径，使得多层尺度的特征信息充分融合。为了简化双向网络结构，提升特征融合的性能，移除PANet结构中只有一条输入边而没有特征融合的节点，并在同一特征尺度上添加横向连接线，形成双向特征金字塔网络（Bidirectional feature pyramid network，BiFPN）[28]，在不增加计算成本的情况下融合更多的特征信息，缓解因网络层级过多造成的特征信息丢失。PANet和BiFPN的网络结构如图4-b、4-c所示。

1.2.4 改进YOLOv4-tiny网络结构

为更好地平衡模型检测速度和精度，保留了CSPDarknet53-tiny主干特征提取网络和预测网络，并在此基础上，在颈部网络添加52×52的大尺度特征层，引入CBAM注意力机制和双向特征金字塔结构对原始的YOLOv4-tiny网络进行多尺度预测改进，改进后的YOLOv4-tiny-Tea目标检测模型如图5所示。首先，茶叶RGB图像经两层CBL模块完成对浅层特征信息的聚合，并将特征维度转化为104×104×64。其次，通过三层CSPBlock结构后得到52×52、26×26、13×13 3种不同尺度的有效特征层，采用CBL模块对3种不同尺度的预测层进行特征聚合，并通过CBAM注意力机制模块增强目标特征，抑制冗余的背景噪声，利用BiFPN双向特征金字塔提升不同尺度特征信息的融合性能。然后，得到了52×52×54、26×26×54、13×13×54 3个有效特征，其中54由类别数与置信度之和，再与锚点数相乘而来。最后，利用预测模块对有效特征进行多尺度预测。

图3 CBAM网络结构

图4 3种特征金字塔结构

图5 YOLOv4-tiny-Tea茶叶嫩芽检测模型

1.3 模型训练环境与方法

所有模型都运行在相同的硬件环境下，CPU型号为Inter(R) Core(TM) i7-9700 CPU @3.00GHz，GPU型号为NVIDIA GTX2080Ti，加速环境为CUDA10.0 CUDNN7.6.2，操作系统为CentOS 7，在Pytroch和Keras深度学习框架下进行模型的训练和测试。

不同领域图像具有共性的底层特征，采用迁移学习网络训练策略，利用卷积层共性特征知识迁移使学习更为稳定[29]。在VOC大型基准数据集[30]进行训练，获得初始收敛权重，并迁移到YOLOv4-tiny-Tea网络进行参数初始化。相较于随机初始化权重，使用迁移学习的方法可以加速模型收敛，提高模型的泛化能力。

1.4 模型评价指标

为了评价茶叶嫩芽检测模型YOLOv4-tiny-Tea的检测性能，本研究采用了6种性能指标；精确率（Precision）、召回率（Recall）、F1值、模型大小（Model size）、检测速度（Detection speed）和精确率-召回率曲线（Precision-Recall curve，PR），所有模型预测测试集样本均基于置信度0.15。精确率和召回率计算见式（1）和（2），F1值为精确率和召回率的调和平均，计算见式（3）。模型大小是指存储模型所需要的内存空间，单位为Mb。检测速度指每秒测试的图像数量，单位为帧·s-1。

式中：表示嫩芽被正确预测为嫩芽的数量，表示非嫩芽被预测为嫩芽的数量，表示未检测到嫩芽的数量，即嫩芽漏检的数量。

2 结果与分析

2.1 YOLOv4-tiny-Tea模型收敛性能

采用YOLOv4-tiny的预训练模型，对YOLOv4-tiny-Tea模型进行训练，训练损失及验证损失曲线如图6所示。从图中可以看出，训练和验证损失函数能较快下降并趋于稳定，表明改进模型的有效性和强学习性。迭代次数为40时，训练和验证损失值较为接近并趋于收敛。训练损失值在第90次迭代时基本收敛，表明模型已经达到饱和状态，此时模型的检测性能达到最佳。结果表明本研究的试验设置是合理可行的。

2.2 YOLOv4-tiny-Tea模型的消融试验

在YOLOv4-tiny网络结构基础上，在颈部网络中增加52×52的浅层有效特征层（scale@3），以关注小尺度目标特征，通过CBAM注意力机制降低背景干扰，引入BiFPN网络结构融合多尺度特征信息。为验证本研究提出的YOLOv4-tiny-Tea模型的有效性，设置了消融试验[31]，即将YOLOv4-tiny-Tea茶叶嫩芽检测模型中的改进机制逐一删除并在相同数据集进行训练与测试，以验证改进机制对嫩芽检测模型是否具有积极意义，试验结果如表2所示。

YOLOv4-tiny网络只有中尺度（26×26）和小尺度（13×13）两种尺度的预测层，无法匹配小尺度嫩芽的检测尺寸。为了提升模型对小目标嫩芽检测精度，本文提出添加一层（52×52）的浅层有效特征以关注小尺度嫩芽的有效特征。由表2可知，通过增加52×52有效特征层scale@3，模型检测召回率提高了12.85个百分点，F1值提高了6.88个百分点，试验说明浅层特征层的添加能够有效减少模型对小目标的漏检。但模型嫩芽精确率略有降低，主要原因在于添加52×52有效特征层，提高小尺度嫩芽特征的同时，带来更多的背景噪声干扰。

为了减少背景噪声对模型的影响，提出在特征融合前添加CBAM注意力机制。由表2可知，相比未添加注意力机制的YOLOv4-tiny_scale@3模型，添加CBAM注意力机制的模型检测精确率、召回率分别提高2.29个百分点和7.62个百分点。因此，添加注意力机制能够增强不同尺度下嫩芽有效特征的显著性，抑制背景噪声，提升模型的检测性能。

图6 训练损失和验证损失曲线

表2 不同改进机制对模型性能的影响

√√90.8484.9487.79123.5 √√√93.1392.5692.84114.9 √√√√97.7795.2396.4876.9

CBAM注意力机制和多尺度预测的引入，小目标的尺度匹配问题得到缓解，模型的检测性能得到提升，但不同尺度的目标密集分布时，模型存在漏检问题。主要原因在于YOLOv4-tiny采用单向的上采样特征融合FPN结构，小目标检测层中的负样本区域可能在其他特征层中被预测为正样本，各有效特征层中存在正负样本冲突，使得多尺度特征信息不能得到充分的利用。由表2可知，较YOLOv4-tiny_scale@3_CBAM模型而言，引入BiFPN双向特征金字塔结构的YOLOv4-tiny_scale@3_CBAM_BiFPN模型，模型检测精确率和召回率分别提高4.64个百分点和2.67个百分点，F1值提高了3.64个百分点。BiFPN双向特征金字塔结构有效融合了不同层次的嫩芽特征，有效提高了模型对不同尺度嫩芽的检测性能。

2.3 YOLOv4-tiny改进前后的对比结果

利用YOLOv4-tiny和YOLOv4-tiny-Tea模型对同一测试集茶叶图像进行测试，检测结果如表2和图7所示。通过测试结果图可以看出，两种目标检测模型对大尺度嫩芽和无遮挡嫩芽都具有较好的检测效果，但YOLOv4-tiny模型对小尺度或遮挡嫩芽的检测结果中存在较多的漏检（蓝色框标注）和误检（橙色框标注），如图7-a、7-b。由表2可知，YOLOv4-tiny模型嫩芽检测召回率仅为72.09%，说明YOLOv4-tiny模型未有效学习小尺度嫩芽的特征。对生长密集、状态不一的茶叶嫩芽检测而言，YOLOv4-tiny模型泛化性能较差。通过添加浅层特征层、引入注意力机制和BiFPN双向特征金字塔结构，改进后的YOLOv4-tiny-Tea模型对各尺度的嫩芽检测表现出较优性能，嫩芽检测精确率和召回率分别为97.77%和95.23%，相较于YOLOv4-tiny模型，YOLOv4-tiny-Tea模型嫩芽检测精度和召回率分别提高了5.58个百分点和23.14个百分点。由图7-c、7-d可见，YOLOv4-tiny-Tea模型对小尺度或密集遮挡的嫩芽检测具有较好的检测效果。由图8所示两个模型PR曲线可见，YOLOv4-tiny-Tea模型PR曲线在YOLOv4-tiny的外侧，表明YOLOv4-tiny-Tea模型检测的准确率更高。

图7 YOLOv4-tiny改进前后模型的检测效果图

图8 YOLOv4-tiny改进前后模型的PR曲线

2.4 不同模型的对比试验

为了验证本研究提出的YOLOv4-tiny-Tea网络对茶叶嫩芽检测的优越性，选取了YOLO系列目标检测算法进行性能比较，其中包括YOLOv3[32]、YOLOv4[33]和YOLOv5l[34]。利用相同的数据集进行模型训练和测试，试验相关参数保持一致，利用精确率、召回率、F1、模型大小和检测速度对模型整体性能进行评估，结果如表3所示。本研究提出的YOLOv4-tiny-Tea模型检测精确率和召回率均高于其他目标检测算法，检测精度和召回率分别为97.77%和95.23%，模型大小为31.9 Mb，检测速度为76.9帧·s-1。对比其他模型中检测精度最高的YOLOv5l模型，YOLOv4-tiny-Tea检测精确率和召回率分别提高4.47个百分点和8.83个百分点，检测速度提高了7.9帧·s-1，模型大小仅占YOLOv5l的35.1%。因此，YOLOv4-tiny-Tea模型在检测精度、检测速度以及可移植性上更适用于茶叶嫩芽机械采摘的需求。

2.5 类激活图可视化分析

为了更加直观展现本研究提出的YOLOv4-tiny-Tea模型的有效性，基于Grad-CAM[35]技术对茶叶嫩芽图像进行了类激活图可视化，对比结果如图9所示。

从图9可以看出，对于目标尺度较大的嫩芽，YOLOv4-tiny和YOLOv4-tiny-Tea两个模型都可以精确定位到目标区域，但YOLOv4-tiny模型对目标区域关注度较小。针对小尺度和遮挡目标，YOLOv4-tiny模型只能关注目标部分区域或无法关注目标；YOLOv4-tiny-Tea模型可以较准确地关注图像中小目标区域，且背景干扰较小。由此可见，YOLOv4-tiny-Tea模型中改进机制可以有效抑制背景噪声，增强目标特征，进一步证明本研究提出的方法具有较强的注意力学习能力，提升模型对茶叶嫩芽的检测性能。

图9 不同模型的茶叶嫩芽图像类激活图

表3 不同茶叶嫩芽检测模型的检测结果

3 结论

以易于部署的轻量级YOLOv4-tiny茶叶嫩芽检测模型为基准网络，针对该模型对小尺度和遮挡嫩芽存在较多漏检和误检情况，对YOLOv4-tiny网络进行改进，以提升模型对不同尺度嫩芽的有效检测。最终完成改进后的YOLOv4-tiny-Tea嫩芽检测模型的搭建，并进行了试验分析和评价。

在YOLOv4-tiny模型的颈部网络中添加52×52的浅层特征层，以关注小目标嫩芽的定位与特征提取，但提高小目标显著性的同时带来较多的背景噪声，引入CBAM注意力机制模块抑制背景噪声，以提高嫩芽特征提取的有效性。为缓解多尺度预测的不同尺度特征融合之间的冲突，利用BiFPN双向特征金字塔结构代替原始模型的FPN结构，实现不同尺度特征信息的充分融合。在YOLOv4-tiny网络基础上，通过添加52×52的浅层特征层、引入CBAM注意力机制和BiFPN双向特征金字塔结构，建立了YOLOv4-tiny_scale@3_CBAM_BiFPN模型，并命名为YOLOv4-tiny-Tea网络。

通过消融试验证明了YOLOv4-tiny-Tea嫩芽检测模型中改进机制的有效性。将改进的目标检测模型YOLOv4-tiny-Tea与4种经典的YOLO系列算法YOLOv3、YOLOv4、YOLOv4-tiny和YOLOv5l进行了对比试验。结果表明，改进后的YOLOv4-tiny-Tea模型具有最佳的整体检测性能，嫩芽检测精确率和召回率分别为97.77%和95.23%。相比YOLOv4-tiny目标检测模型，YOLOv4-tiny-Tea模型F1值提高了15.57个百分点。改进的YOLOv4-tiny-Tea模型大小为31.9 Mb，便于部署在采茶机中，检测速度为76.9帧·s-1，满足实时采摘的需求。对自然环境下尺度变化大、生长密集的茶叶嫩芽检测，本研究提出的目标检测算法表现出较强的鲁棒性，模型易于部署，实现茶芽快速识别并引导采茶机精准定位，为茶叶机械智能化采摘提供理论依据。

[1] 张浩, 陈勇, 汪巍, 等. 基于主动计算机视觉的茶叶采摘定位技术[J]. 农业机械学报, 2014, 45(9): 61-65.

Zhang H, Chen Y, Wang W, et al. Positioning method for tea picking using active computer vision [J]. Transactions of the Chinese Society of Agricultural Machinery, 2014, 45(9): 61-65.

[2] Chen Y T, Chen S F. Localizing plucking points of tea leaves using deep convolutional neural networks [J]. Computers and Electronics in Agriculture, 2020, 171: 105298. doi: 10.1016/j.compag.2020.105298.

[3] 张金炎, 曹成茂, 李文宝, 等. 基于多特征融合的茶叶鲜叶等级识别的方法研究[J]. 安徽农业大学学报, 2021, 48(3): 480-487.

Zhang J Y, Cao C M, Li W B, et al. Study on the method of recognition of fresh leaf grade of tea based on multi-featured fusion [J]. Journal of Anhui Agricultural University, 2021, 48(3): 480-487.

[4] Yuwana R S, Fauziah F, Heryana A, et al. Data augmentation using adversarial networks for tea diseases detection [J]. Journal Elektronika dan Telekomunikasi, 2020, 20(1): 29-35.

[5] 刘自强, 周铁军, 傅冬, 等. 基于颜色和形状的鲜茶叶图像特征提取及在茶树品种识别中的应用[J]. 江苏农业科学, 2021, 49(12): 168-172.

Liu Z Q, Zhou T J, Fu D, et al. Study on image feature extraction of fresh tea based on color and shape and its application in tea variety recognition [J]. Jiangsu Agricultural Sciences, 2021, 49(12): 168-172.

[6] 毛腾跃, 张雯娟, 帖军. 基于显著性检测和Grabcut算法的茶叶嫩芽图像分割[J]. 中南民族大学学报(自然科学版), 2021, 40(1): 80-88.

Mao T Y, Zhang W J, Tie J. Image segmentation of tea buds based on salient object detection and Grabcut [J]. Journal of South-Central Minzu University (Natural Science Edition), 2021, 40(1): 80-88.

[7] 姜苗苗, 问美倩, 周宇, 等. 基于颜色因子与图像融合的茶叶嫩芽检测方法[J]. 农业装备与车辆工程, 2020, 58(10): 44-47.

Jiang M M, Wen M Q, Zhou Y, et al. Tea bud detection method based on color factor and image fusion [J]. Agricultural Equipment & Vehicle Engineering, 2020, 58(10): 44-47.

[8] Wang T, Zhang K M, Zhang W, et al. Tea picking point detection and location based on Mask-RCNN [J]. Information Processing in Agriculture, 2021. doi: 10.1016/j.inpa.2021.12.004.

[9] Iswanto B H , Alma A . Texture histogram features for tea leaf identification using visible digital camera [J]. IOP Conference Series: Materials Science and Engineering, 2021, 1098(3): 1098-1104.

[10] 龙樟, 姜倩, 王健, 等. 茶叶嫩芽视觉识别与采摘点定位方法研究[J]. 传感器与微系统, 2022, 41(2): 39-41.

Long Z, Jiang Q, Wang J, et al. Research on method of tea flushes vision recognition and picking point localization [J]. Transducer and Microsystem Technologies, 2022, 41(2): 39-41.

[11] 吴雪梅, 张富贵, 吕敬堂. 基于图像颜色信息的茶叶嫩叶识别方法研究[J]. 茶叶科学, 2013, 33(6): 584-589.

Wu X M, Zhang F G, Lv J T. Research on recognition of tea tender leaf based on image color information [J]. Journal of Tea Science, 2013, 33(6): 584-589.

[12] 汪建.结合颜色和区域生长的茶叶图像分割算法研究[J]. 茶叶科学, 2011, 31(1): 72-77.

Wang J. Segmentation algorithm of tea combined with the color and region growing [J]. Journal of Tea Science, 2011, 31(1): 72-77.

[13] Zhang L, Zou L, Wu C, et al. Method of famous tea sprout identification and segmentation based on improved watershed algorithm [J]. Computers and Electronics in Agriculture, 2021, 184(1): 106108. doi: 10.1016/j.compag.2021.106108.

[14] 王子钰, 赵怡巍, 刘振宇.基于SSD算法的茶叶嫩芽检测研究[J]. 微处理机, 2020, 41(4): 42-48.

Wang Z Y, Zhao Y W, Liu Z Y. Research on tea buds detection based on SSD algorithm [J]. Microprocessors, 2020, 41(4): 42-48.

[15] 孙肖肖, 牟少敏, 许永玉, 等. 基于深度学习的复杂背景下茶叶嫩芽检测算法[J]. 河北大学学报(自然科学版), 2019, 39(2): 211-216.

Sun X X, Mu S M, Xu Y Y, et al. Detection algorithm of tea tender buds under complex background based on deep learning [J]. Journal of Hebei University (Natural Science Edition), 2019, 39(2): 211-216.

[16] Yang H, Chen L, Chen M, et al. Tender tea shoots recognition and positioning for picking robot using improved YOLO-V3 model [J]. IEEE Access, 2019: 180998-181011.

[17] Li Y T, He L Y, Jia J M, et al. In-field tea shoot detection and 3D localization using an RGB-D camera [J]. Computers and Electronics in Agriculture, 2021, 185: 106149. doi: 10.1016/j.compag.2021.106149.

[18] 吕军, 方梦瑞, 姚青, 等. 基于区域亮度自适应校正的茶叶嫩芽检测模型[J]. 农业工程学报, 2021, 37(22): 278-285.

Lyu J, Fang M R, Yao Q, et al. Detection model for tea buds based on region brightness adaptive correction [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(22): 278-285.

[19] Karunasena G, Priyankara H. Tea bud leaf identification by using machine learning and image processing techniques [J]. International Journal of Scientific & Engineering Research, 2020, 11(8): 624-628.

[20] Li X, Pan J, Xie F, et al. Fast and accurate green pepper detection in complex backgrounds via an improved Yolov4-tiny model [J]. Computers and Electronics in Agriculture, 2021, 191: 106503.

[21] Jiang Z, Zhao L, Li S, et al. Real-time object detection method based on improved YOLOv4-tiny [J]. arXiv preprint, 2020, arXiv: 2011.04244. doi: 10.48550/arXiv.2011.04244.

[22] Misra D. Mish: A self regularized non-monotonic activation function [J]. arXiv preprint, 2019, arXiv: 1908.08681. doi: 10.48550/arXiv.1908.08681.

[23] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks [C]//Proceedings of the fourteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2011: 315-323.

[24] Zheng Z, Wang P, Liu W, et al. Distance-IoU loss: faster and better learning for bounding box regression [C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(7): 12993-13000.

[25] Lin T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection [C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.

[26] Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module [C]//Proceedings of the European conference on computer vision (ECCV). 2018: 3-19.

[27] Guo C, Fan B, Zhang Q, et al. AugFPN: improving multi-scale feature learning for object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12595-12604.

[28] Syazwany N S, Nam J H, Lee S C. MM-BiFPN: multi-modality fusion network with Bi-FPN for MRI brain tumor segmentation [J]. IEEE Access, 2021: 160708-160720.

[29] 王金鹏, 高凯, 姜洪喆, 等. 基于改进的轻量化卷积神经网络火龙果检测方法[J]. 农业工程学报, 2020, 36(20): 218-225.

Wang J P, Gao K, Jiang H Z, et al. Method for detecting dragon fruit based on improved lightweight convolutional neural network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(20): 218-225.

[30] Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes challenge [J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

[31] 林森, 刘美怡, 陶志勇. 采用注意力机制与改进YOLOv5的水下珍品检测[J]. 农业工程学报, 2021, 37(18): 307-314.

Lin S, Liu M Y, Tao Z Y. Detection of underwater treasures using attention mechanism and improved YOLOv5 [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(18): 307-314.

[32] Redmon J, Farhadi A. YOLOv3: an incremental improvement [J]. arXiv preprint, 2018, arXiv: 1804.02767. doi.org/10.48550/arXiv.1804.02767.

[33] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: optimal speed and accuracy of object detection [J]. arXiv preprint, 2020, arXiv: 2004.10934. doi: 10.48550/arXiv.2004.10934.

[34] Yap M H, Hachiuma R, Alavi A, et al. Deep learning in diabetic foot ulcers detection: a comprehensive evaluation [J]. Computers in Biology and Medicine, 2021, 135: 104596. doi: 10.1016/j.compbiomed.2021.104596.

[35] Selvaraju R R, Cogswell M, Das A, et al. Grad-cam: visual explanations from deep networks via gradient-based localization [C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 618-626.

Tea Buds Detection Model Using Improved YOLOv4-tiny

FANG Mengrui1, LÜ Jun1*, RUAN Jianyun2, BIAN Lei2, WU Chuanyu3, YAO Qing1

1. School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China;2. Tea Research Institute, Chinese Academy of Agricultural Sciences, Hangzhou 310008, China;3. School of Mechanical Engineering and Automation, Zhejiang Sci-Tech University, Hangzhou 310018, China

Precise detection of tea buds is a prerequisite for intelligent mechanical picking of tea. Aiming at the problems of poor salience and high missed detection rate of small-scale buds caused by different sizes of tea leaves and the cover of other tea leaves, this paper proposed a kind of tea buds detection model based on improved YOLOv4-tiny. In this model, a 52×52 shallow feature layer was added in the neck network to promote the attention of YOLOv4-tiny network to small target buds. A convolutional block attention module (CBAM) was introduced to suppress the background noise and improve the salience of buds, and a bidirectional feature pyramid network (BiFPN) was used to integrate characteristic information of different scales, so as to propose the YOLOv4-tiny-Tea, a high performance light weight tea buds detection model. The results of model training and performance testing on the same training set and test set show that for the YOLOv4-tiny-Tea model, the detection precision and recall rate were 97.77% and 95.23% respectively, which were 5.58% and 23.14% higher than those before modification. An ablation experiment verified the effectiveness of the modified network structure in detecting different scales of buds, and a comparison of YOLOv4-tiny-Tea model with three YOLO algorithms found that the F1 value of YOLOv4-tiny-Tea model was 12.11%, 11.66% and 6.76% higher than F1 values of YOLOv3, YOLOv4 and YOLOv5l models respectively. The number of parameters in YOLOv4-tiny-Tea model was merely 13.57%, 13.06% and 35.05% of the three network models. The experimental results demonstrate that the method proposed in this paper effectively improved the detection precision of buds under different scales, greatly reduced the missed detection rate of buds for small size or under shading, and significantly bettered the detection precision based on a lightweight computation overhead. Therefore, the method can meet the needs of agricultural robots for real-time detection and embedded development, thus providing a reference for intelligent tea buds picking.

tea, tea buds detection, YOLOv4-tiny, attention mechanism, bidirectional feature pyramid

S571.1；Q126

1000-369X(2022)04-549-12

2022-05-09

2022-06-09

财政部和农业农村部：国家现代农业产业技术体系（CARS-19）、浙江省领雁计划项目（2022C02052）

方梦瑞，男，硕士研究生，主要从事农业智能信息研究，fmengrui@163.com。*通信作者：lv_jun@zstu.edu.cn