基于半监督SPM-YOLOv5的套袋柑橘检测算法
2022-02-07李帅军曾梦瑶董保森
吕 佳,李帅军,曾梦瑶,董保森
基于半监督SPM-YOLOv5的套袋柑橘检测算法
吕 佳,李帅军,曾梦瑶,董保森
(1. 重庆师范大学计算机与信息科学学院,重庆 401331;2. 重庆市数字农业服务工程技术研究中心,重庆 401331)
为解决柑橘经过套袋后其形状从圆形变为条状导致当前目标检测算法对套袋柑橘检测难度增大,同时目标检测算法性能依赖于有标记样本数量的问题。该研究设计了一种基于教师学生模型的SPM(Strip Pooling Module)-YOLOv5算法,在YOLOv5的骨干网络中加入条带注意力模块使模型更加关注条状的套袋柑橘与树枝,同时教师学生模型为半监督方法,使目标检测算法可利用无标记样本提升模型的性能,降低对有标记样本的依赖。试验结果表明,该算法在套袋柑橘与树枝检测的平均精度均值分别为77.4%与53.6%,相比YOLOv5分别提升了7.5个百分点与7.6个百分点,套袋柑橘检测的精度与召回率达到94.0%与76.2%。因此,基于教师学生模型的SPM-YOLOv5算法精度高、速度快,能有效用于套袋柑橘检测。
机器视觉;图像识别;目标检测;套袋柑橘;YOLOv5;条带注意力;教师学生模型
0 引 言
中国的柑橘种植历史已有五百余年,柑橘种植可以带来巨大的经济效益[1]。柑橘是川渝地区重要的经济水果作物[2],该地区适合晚熟柑橘的生长,果农通常会对晚熟柑橘进行套袋,在防止其低温掉落的同时还能减少农药与病虫带来的危害[3]。随着中国人口老龄化的日益加剧且农村地区劳动力的严重流失[4],由于成熟的柑橘不能及时采摘,导致成熟柑橘掉落与腐烂,对果农收益造成极大损失。而使用自动采摘机器人替代人工采摘,能提高作业效率、降低劳动力强度[5]。
目标检测算法是自动采摘机器人的重要组成部分,其检测方法可粗略地归纳为两类:一是Two Stage检测方法,二是One Stage检测方法。Two Stage检测方法的第一阶段先通过算法在图片中生成候选框,第二阶段再对候选框做进一步的分类与回归,从而得到高精度的检测结果[6],如Yu等[7]提出一种优化的Fast-RCNN的算法,通过训练可旋转的样本,预测目标的旋转边界框,使得模型对于隐藏的果实具有更好的鲁棒性,但果实检测的精度相对较低。田博凯[8]将边界加权损失函数引入到Mask-RCNN网络中,利用双目视觉原理获取果实中心点坐标,提升果实定位和分类的准确率,但对于重叠果实并不能有效检测。岳有军等[9]提出一种改进的Cascade-RCNN,通过将Cascade-RCNN网络中的非极大值抑制算法替换为Soft-NMS算法,并设置更适合果实形状的锚框,从而增强了网络对重叠果实的识别能力。虽然Two Stage检测方法能够准确地找到需要检测的目标,但无法满足自动采摘需要的实时性要求[10]。One Stage检测方法的核心思想则是通过一个网络直接得到需要检测物体的位置、类别、目标物置信度,因此该类方法能更快识别出目标物[11]。One Stage检测方法中,YOLO系列算法[12]被广泛应用于水果检测中,如Tian等[13]使用改进的YOLOv3来检测不同生长时期的果实,该方法使用DenseNet[14]来优化低分辨率的特征层,从而能够实现对果实的快速检测,但其检测的精度较低。Shi等[15]提出将归因方法推广到了YOLOv3的检测网络中,从而识别与目标相关的卷积核,通过微调的方式实现更为精准的果实检测。随着精度更高的YOLOv4[16-20]被提出,Wu等[21]为了提升对果实的检测速度,采用通道剪枝算法简化了Darknet53[22]的结构,但是对小物体的检测精度较低。为了提高对小物体检测精度,Fan等[23]提出了使用非极大值抑制方法来去除冗余预测框。Qi等[24]提出了一种基于压缩与激励(Squeeze and Excitation,SE)模块改进的YOLOv5检测方法,来进一步提升检测的精度,该方法使用全局注意力模块(Global Attention Module,GAM)在识别对象局部特征的同时还能过滤出识别对象的关键特征,既保证了检测速度实现实时检测又提高了识别的精度。但上述方法并不适合于晚熟柑橘的目标检测,主要存在3个问题:
1)晚熟柑橘经过套袋后会导致柑橘的形状从圆形变成条状,且套袋柑橘纹理细节相比未套袋柑橘急剧降低;
2)自动采摘机器人通过剪切距离柑橘最近的树枝来实现采摘,但树枝通常为条状,若使用全局注意力模块会导致树枝特征的丢失和无关环境特征的引入;
3)目前柑橘检测方法大多是以监督学习方式训练网络,模型性能依赖于有标记样本及其数量[25],但有标记样本的标记过程十分耗时耗力。
本文设计了一种基于教师学生模型的SPM-YOLOv5框架,在YOLOv5的骨干网络中使用条带池化模块(Strip Pooling Module,SPM)[26]来使模型更加关注条状的套袋柑橘与树枝,解决了上述问题1与问题2;教师学生模型为半监督方法,可用少量有标记样本与大量无标记样本来提升目标检测算法的性能,从而解决上述问题3中模型性能依赖于有标记样本及其数量的问题。
1 数据采集与预处理
1.1 数据获取
套袋柑橘图片数据采集于重庆市璧山区派登特农业科技示范园,其纬度、经度与高度分别为29.753°、106.221°与353.0 m,使用iPhone X摄像头进行采集,拍摄镜头分辨率为4 032像素×3 024像素,同时为了增强网络的泛化性,对拍摄样本分别在远景、近景进行采集。自动采摘机器人的工作环境为白天,因此分别在9:00、12:00和16:00 3个不同的时间段对数据进行采集。先采集了不同果实数量、遮挡程度的套袋柑橘,且涵盖顺光、逆光和侧光等光照情况,再对拍摄过程中的视频进行抽帧来扩充图片数量,最后为了有效地对图片进行标记,剔除了模糊、过度曝光与重复的难标记图片,获取套袋柑橘有效图片1 000张。
1.2 数据增强
拍摄过程中大部分为多果图片,需要增加数据集中单果图片的数量,故将部分多果图片裁剪拆分为多张单果图片;另使用缩放、不同角度、左右翻转、上下翻转、透视、错切、平移、饱和度的方法来增强数据集的多样性,使算法能够对套袋柑橘的树枝进行准确识别,其中随机调整图片的饱和度使得模型在不同天气情况下都能够有效识别套袋柑橘,增强后的图片为2 000张,图片增强效果如图 1所示。
a. 饱和度b. 角度c. 左右翻转d. 上下翻转 a. Saturationb. Anglec. Flip left and rightd. Flip top to bottom e. 透视f. 缩放g. 错切h. 平移 e. Perspectivef. Scalingg. Shearh. Translate
1.3 数据标记
本文采用半监督训练方法,并不需要对全部图片进行人工标记,仅需标记其中的部分样本既可,其中标记的套袋柑橘图片为500张,无标记图片1 500张。在标注时将套袋柑橘的最小外接矩阵框作为套袋柑橘的真实框,肉眼可见的套袋柑橘所属树枝的最小外接矩阵框作为树枝的真实框。标注软件为MAKE SENSE,该软件能够实现在线标注,并为图片中标注的套袋柑橘和其所属最近树枝的区域生成相应的XML文件。
2 套袋柑橘检测算法
本文提出了两种套袋柑橘检测算法,首先提出了基于SPM-YOLOv5的套袋柑橘检测算法,在YOLOv5基础上引入SPM模块来增强对条状套袋柑橘与树枝的检测能力。在此基础上,提出基于SPM-YOLOv5改进的套袋柑橘检测算法,使用教师学生模型来降低基于SPM-YOLOv5的套袋柑橘检测算法对有标记样本的依赖,利用无标记样本来提升算法的鲁棒性。
2.1 基于SPM-YOLOv5的套袋柑橘检测算法
2020年,Wang等[16]发布了YOLOv4,该目标检测模型提高了对小目标的检测速度。2021年该团队提出YOLOv5,该模型引入了多尺度思想,模型能够同时检测不同尺寸的目标,其精度与实时性都得到了提升,因此YOLOv5更适用于农业自动采摘的实时性需求。
在套袋柑橘的真实环境中,由于套袋导致原本圆形的检测目标变为条状,而需要剪切的树枝大多也为条状,在此背景下,YOLOv5[24]中的平均池化会导致检测目标特征的丢失和无关环境特征的引入。
本文设计了一种SPM-YOLOv5算法来解决平均池化关注大量无关区域的问题,该算法通过把SPM融入到YOLOv5的骨干网络中,以有效地扩大骨干网络的感受野。SPM由水平池化与垂直池化组成,它们专注于沿水平或垂直空间维度编码远程上下文。对于特征图中的每个空间位置的合并,SPM会对特征图的全局水平和垂直信息进行编码,使用这些编码来平衡其自身的权重以进行特征修饰。
SPM首先通过在原特征图分辨率1/32处进行卷积、归一化和激活操作得到×的特征,其中与分别表示特征图水平方向与垂直方向的特征个数,其次再通过垂直条带进行提取垂直特征V,再通过水平条带提取其水平特征H,其中垂直方向池化空间为1×、水平方向池化空间为×1,将垂直特征与水平特征进行融合后,最后将融合特征与原特征相乘得到加权特征。
不同于全局池化只关注于一片区域,条带池化通过水平方向与垂直方向的池化操作,使得该方法更容易长期注意离散分布的特征。同时,无论是水平还是垂直方向均采用条状核进行特征提取,因此条带池化更能专注于捕获局部细节。这些特性使得条带池化与正方形核的传统空间池化不同,如图2所示。
注:图中与分别表示特征图垂直与水平方向的特征个数,每个小正方形块代表一个像素点,其颜色越深表示权重越大。
Note:andin the figure respectively represent the number of features in the vertical and horizontal directions of the feature map. The darker the color of each pixel, the greater the weight.
图2 条带注意力模块流程图
Fig.2 Strip attention mechanism flow chart
轻量级的SPM能够简单插入到YOLOv5网络中,从而能有效地提高对条状物体的检测。对于在自动采摘过程中还存在未套袋的柑橘,在原特征图分辨率1/16处采用平均池化的方式提取圆形未套袋柑橘特征,如图3所示,检测模型主要分为4个模块:Input、Backbone模块、Neck模块和Output。Input负责把待检测的套袋柑橘图片输入到网络模型中;Backbone模块负责提取图片特征,其中CBL(Convolution,Batch normalization,Leaky relu)用来提取特征;CSP(Cross Stage Partial)用于提高网络的学习能力;SPP(Spatial Pyramid Pooling)包括了不同尺度的最大池化层,用于增加感受野;其中本文改进的CBL_GAM与CBL_SPM,分别引入了平均池化与条带池化;Neck模块采用FPN(Feature Pyramid Networks)+PAN(Pixel Aggregation Network)结构,该结构能进一步提高模型特征提取能力,Output把提取的特征经过非极大抑制得到图片中检测目标的置信度与坐标,图中其他模块详细内容见参考文献[24]。
2.2 基于SPM-YOLOv5改进的半监督检测算法
套袋柑橘的图片在进行标记过程中,存在大量重叠、遮挡、光照不足等因素,导致人工标记过程十分困难,且由于套袋柑橘图片中常会出现多颗果树,每颗果树上同时也有几十个果实,导致人工标记过程耗时且易标记错误。
为了减少SPM-YOLOv5对有标记样本的依赖,故本文利用一致性正则化思想,提出了基于教师学生模型的SPM-YOLOv5算法。一致性正则化的本质是相同的输入具有相同的输出,给输入加入一定扰动,输出分布保持不变,因此使用带有扰动的样本对和一致性正则训练模型能够提高模型的鲁棒性[27]。教师学生模型为半监督方法,可利用无标记样本来计算一致性损失,训练过程中通过降低一致性损失,增强其模型的鲁棒性,如图4所示。
基于教师学生模型的SPM-YOLOv5中教师模型与学生的网络结构均为SPM-YOLOv5,算法主要由两个阶段构成。
第一阶段为Burn-In,为了教师模型能够产生有效伪标签,需要对教师模型有良好的初始化,故在Burn-In阶段用有标记样本对教师模型进行初始化训练。
第二阶段为教师学生互学习,该阶段分为两个步骤:
1)学生模型训练
此步骤主要是利用有标记样本与无标记样本共同更新学生模型,有标记样本通过学生模型得到预测值,并与真实标签计算分类损失;无标记样本则是先通过教师模型得到伪标签,学生模型通过使用教师生成的伪标签进行优化,计算学生模型预测值与教师模型的伪标签的差距做为一致性损失。因此学生模型的总损失由监督的分类损失与半监督一致性损失构成,学生模型的参数更新如式(4)所示
注:Conv为卷积操作;BN为标准化;Leakey relu为激活函数; CBL(Conv–BN–Leakey relu)为卷积、标准化、激活函数组合模块; CBL_GAM(Conv–BN–Leakey relu combined with global attention module)为平均池化改进的CBL模型; CBL_SPM(Conv–BN–Leakey relu combined with strip pooling module)为条带池化改进的CBL模型。
Note: Conv is a convolution operation; BN is standardization; LeaKey relu is activation function; CBL(Conv–BN–Leakey relu) is a combination module of convolution, standardization and activation functions; CBL_GAM(Conv–BN–Leakey relu combined with global attention module) is a CBL model improved by average pooling; CBL_SPM(Conv–BN–Leakey relu combined with strip pooling module) is an improved CBL model for strip pooling.
图3 SPM-YOLOv5算法
Fig.3 SPM-YOLOv5 algorithm
注:EMA为指数移动平均值。
2)教师模型更新
此步骤主要是学生模型参数通过EMA(Exponential Moving Average,EMA)来逐步更新教师模型参数,教师模型参数的更新可以看作是学生模型在每次迭代更新参数后对教师模型进行的微调,从而实现教师模型能在每个epoch中的每个step进行模型参数的更新,教师模型的参数更新如式(5)所示
2.3 试验环境与评价指标
试验环境为:CPU型号为Intel Core i5-10600KF主频4.10 GHz,显卡型号为RTX3080-10 GB,内存为32 GB,Windows 10专业版,64位操作系统,Pycharm2020,Python=3.6,torch=1.7.0。
为了对真实采摘环境中的套袋柑橘与其所属的最近树枝进行检测识别,采集过程中包含了不同的光照、遮挡、重叠情况的图片,从而来验证本文算法在真实采摘环境中的有效性。
YOLOv5为监督学习模型,因此利用500张有标记样本进行网络的训练,而基于教师学生模型的YOLOv5与基于教师学生模型的SPM-YOLOv5均为半监督学习模型,在Burn-In阶段利用500张有标记样本来初始化教师模型参数,然后在教师学生互相学习阶段利用500张有标记样本与1 500张无标记样本共同训练学生模型。套袋柑橘数据集由500张有标记样本与1 500张无标记样本组成,将有标记样本划分训练集70%、验证集10%、测试集20%。
监督模型的训练参数设置:Batch Size=32,Epoch=400;动量因子=0.95,衰减系数=0.005,初始学习率=0.001,使用余弦退火算法。
判断运行的速度时采用FPS(Frames Per Second)作为评价指标。分类性能指标为精度(Precision)、召回率(Recall Rate)、平均精度均值(mean Average Precision,mAP)。
3 结果与分析
3.1 不同算法性能比较
不同算法在套袋柑橘上的试验结果如表1所示。虽然在整体的平均精度值与精度上,Faster-RCNN[28]相比YOLOv5高0.4个百分点与0.7个百分点,但在召回率上Faster-RCNN不及YOLOv5,特别是检测速度Faster-RCNN仅为YOLOv5的57%,因此Faster-RCNN并不能满足套袋柑橘检测的实时性。
表1 4种模型在套袋柑橘数据集上的试验结果
为验证教师学生模型的有效性,将基于教师学生模型的SPM-YOLOv5中SPM模块去掉,使用基于教师学生模型的YOLOv5作为对比模型,表1中看出基于教师学生模型的YOLOv5在整体的平均精度均值上相比原始YOLOv5提升了1.8个百分点。主要是因为在增加无标记样本训练网络后,网络通过不断降低教师学生模型的一致性损失,使得模型的鲁棒性增加,尤其使得网络是对于树枝检测的平均精度均值提升了7.2个百分点,但是对于套袋柑橘检测的平均精度均值降低了3.8个百分点,这主要是由于训练过程中存在大量无标记样本导致模型对套袋柑橘过拟合。
基于教师学生模型的SPM-YOLOv5算法在添加了SPM模块之后,使得算法更易获取条状的套袋柑橘与树枝的空间位置,从而有效地扩大骨干网络的感受野,改进后的模块相对基于教师学生模型的YOLOv5的平均精度均值提升了5.8个百分点,且缓解了对套袋柑橘的过拟合。套袋柑橘检测的平均精度均值与召回率分别提升了11.3个百分点与10个百分点,同时在整体的精度、召回率与平均精度均值上均有不同程度提升,相比原始的YOLOv5分别提升了5.6个百分点、3.8个百分点与7.6个百分点,套袋柑橘与树枝检测的平均精度均值分别为77.4%与53.6%,相比YOLOv5分别提升了7.5个百分点与7.6个百分点。在套袋柑橘检测的精度上,本文提出的基于教师学生模型的SPM-YOLOv5算法能达到94%,但在树枝检测的精度上,由于树枝被大量套袋柑橘所遮挡导致本文算法对其检测的精度只能达到76%。
通过果园实时拍摄的视频来检验模型的检测速度,可以看出半监督模型并不会影响模型的检测速度,而添加了条带注意力模块之后的半监督模型的检测速度虽然降低了1帧/s,但是目标检测的整体的平均精度均值、精度、召回率均有较大提升。
3.2 无标记样本数量对算法的影响
基于教师学生模型的SPM-YOLOv5算法为半监督模型,为了找到训练网络最合适的无标记样本数量,本试验将研究无标记样本数量对算法性能造成的影响,试验设置了5种数量的无标记样本来训练网络。
不同数量的无标记样本训练的网络在套袋柑橘上的试验结果如表2所示。随着无标记样本的数量的增加,整体平均精度均值、精度、召回率均有提升,但是当无标记样本的数量扩充到1 800张时,平均精度均值与召回率比1 500张无标记样本训练的网络均有下降,这主要是无标记样本过多导致产生了对套袋柑橘与树枝的过拟合。在无标记样本数量为100与500时,其模型的性能提升并不明显,当无标记样本为1 500张,基于教师学生模型的SPM-YOLOv5算法的性能最佳,再增加无标记样本数量并不能继续提升其模型的性能,反而会增加模型的训练时间。
3.3 遮挡与重叠下的性能比较
果园中,通常会发生树枝和叶子的部分遮挡,以及柑橘之间的重叠情况。柑橘被套袋之后导致其面积增大,进一步加剧了柑橘之间的重叠问题,同时也造成了套袋对最近树枝的遮挡。
本试验所使用数据集均为真实场景中的套袋柑橘,枝叶遮挡及果实重叠情况都相对更加严重。为分析套袋柑橘在严重遮挡和重叠情况下的检测性能,选取40张严重遮挡图片进行试验,其试验结果如表3所示。可以看出3种算法的检测性能均相比正常遮挡情况有所下降,但本文算法通过使用条带池化使模型更加关注被遮挡的条状套袋柑橘与树枝,并使用无标记样本使算法的总体精度达到82.6%,使得本文算法比其他算法对严重遮挡图片具有更好的检测性能。
表2 5种数量的样本训练的教师学生模型+SPM-YOLOv5的试验结果
表3 严重遮挡情况下的试验结果
从复杂遮挡场景中随机选取了3张图片,在3种算法上的检测结果如图5所示。对于图片1中套袋柑橘检测结果,基于教师学生模型的SPM-YOLOv5检测出的遮挡严重的编号1,而另外两种算法不能检测出该套袋柑橘,因此相比另外两种算法能够有效检测遮挡比较严重的套袋柑橘,同时原始的YOLOv5存在对树枝重复检测情况,且存在对无物体背景错误检测情况,如YOLOv5检测结果中编号4。图片2中重叠的套袋柑橘的检测结果,看出本文算法相对原始的YOLOv5能够检测到更多重叠套袋柑橘,特别是藏在枝干背后的套袋柑橘的检测性能有很大的提升,如教师学生模型的SPM-YOLOv5检测结果中编号8。在图片3中,可以看出本文提出的算法对图片边缘物体的检测能力更强,如教师学生模型的SPM-YOLOv5检测结果中编号15与编号11,而原始的YOLOv5存在对一个物体出现多个检测框的现象,如YOLOv5检测结果中编号1与编号12。因此说明本文算法能够更好地应对复杂的套袋柑橘采摘环境,更适合于部署在自动采摘机器人的目标检测系统中。
注:检测框中citrus与branch表示类别名,类别名前数字表示编号,类别名后数字表示检测置信度。
3.4 无柑橘环境检测
在真实的采摘环境中,相机会捕捉到不含柑橘的图片。本文通过对视频进行抽帧,获取了50张无柑橘的图片,以测试检测模型在真实环境中的性能。其中,10张图片只包含天空,10张图片只包含周围房屋,20张图片只包含没有苹果的树,10张图片包含这3种物体的混合背景。通过使用基于教师学生模型的SPM-YOLOv5的套袋柑橘算法进行检测,其检测结果显示,在这50张图片中均未检测到套袋柑橘。
4 结 论
本文在真实采摘环境中进行拍摄套袋柑橘,利用基于教师学生模型的SPM-YOLOv5算法对套袋柑橘进行识别,主要结论如下:
1)提出使用基于教师学生模型的YOLOv5算法来降低对有标记样本的依赖,使用无标记样本来增强模型的鲁棒性,通过上述试验可以看出对于整体的精度与平均精度均值分别提升了5.8个百分点与1.8个百分点,但由于存在套袋柑橘过拟合的问题,因此导致其召回率降低了0.9个百分点。对比其他算法,该算法在保证整体精度提升的情况下检测速度保持不变。
2)提出了一种基于教师学生模型的SPM-YOLOv5算法,为了从全部信息中以最快的速度定位条状的套袋柑橘与树枝,该算法通过引入SPM来解决平均池化会关注大量无关区域的问题。通过试验证明相比YOLOv5在精度、召回率与平均精度均值上分别提升了5.6个百分点、3.8个百分点与7.6个百分点,同时解决了基于教师学生模型的YOLOv5中存在的过拟合套袋柑橘情况,相比基于教师学生模型的YOLOv5在套袋柑橘检测的召回率上提升了10个百分点。
3)通过试验证明了基于教师学生模型的SPM-YOLOv5算法在无标记样本1 500张和有标记样本500张时,训练的模型检测效果最好。
[1] 李向阳,孙东升,刘合光. 基于三元边际分析的中国柑橘出口增长研究[J]. 中国农业资源与区划,2021,42(9):110-118.
Li Xiangyang, Sun Dongsheng, Liu Heguang. Research on China citrus export growth based on ternary marginal analysis[J]. Agricultural Resources and Regionalization in China, 2021, 42(9): 110-118. (in Chinese with English abstract)
[2] 何悦,漆雁斌. 农户绿色生产行为形成机理的实证研究:基于川渝地区860户柑橘种植户施肥行为的调查[J]. 长江流域资源与环境,2021,30(2):493-506.
He Yue, Qi Yanbin. An empirical study on the formation mechanism of farmers' green production behavior: Based on the investigation of fertilization behavior of 860 citrus growers in Sichuan and Chongqing[J]. Resources and Environment in the Yangtze River Basin, 2021, 30(2): 493-506. (in Chinese with English abstract)
[3] 吴黎明. 晚熟脐橙果实采前枯水的生理和分子机制及其调控技术研究[D]. 武汉:华中农业大学,2020.
Wu Liming. Physiological and Molecular Mechanism of Pre-harvest Granulation Late-ripening Navel Orange and Its Regulation Techniques[D]. Wuhan: Huazhong Agricultural University, 2020. (in Chinese with English abstract)
[4] 李向荣,朱少英. 劳动力流失对农村供给侧改革的影响及对策[J]. 人民论坛,2018(7):82-83.
Li Xiangrong, Zhu Shaoying. The influence of labor loss on rural supply side reform and countermeasures[J]. People's Forum, 2018(7): 82-83. (in Chinese with English abstract)
[5] 乔艳军. 基于深度学习的采摘机器人水果识别定位与采后自动分级技术研究[D]. 天津:天津理工大学,2022.
Qiao Yanjun. Research on Fruit Recognition and Location and Post Harvest Automatic Grading Technology of Picking Robot Based on Deep Learning[D]. Tianjin: Tianjin University of Technology, 2022. (in Chinese with English abstract)
[6] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Las vegas, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[7] Yu Y, Zhang K, Zhang D, et al. Optimized faster R-cnn for fruit detection of strawberry harvesting robot[C]. Boston, 2019 ASABE Annual International Meeting. American Society of Agricultural and Biological Engineers, 2019: 118-129.
[8] 田博凯. 基于深度学习的复杂环境下苹果检测分类与定位技术研究[D]. 天津:天津理工大学,2020.
Tian Bokai. Research on Apple Detection Classification and Location Technology in Complex Environment Based on Deep Learning[D]. Tianjin: Tianjin University of Technology, 2020. (in Chinese with English abstract)
[9] 岳有军,孙碧玉,王红君,等. 基于级联卷积神经网络的番茄果实目标检测[J]. 科学技术与工程,2021,21(6):2387-2391.
Yue Youjun, Sun Biyu, Wang Hongjun, et al. Object detection of tomato fruit based on cascade RCNN[J]. Science Technology and Engineering, 2021, 21(6):2387-2391. (in Chinese with English abstract)
[10] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Boston, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[11] Liu W, Aangelov D, Erhan D, et al. Single shot multibox detector[C]. Amsterdam, European Conference on Computer Vision, 2016: 21-37.
[12] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]. Las Vegas, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.
[13] Tian Y N, Yang G D, Wang Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157: 417-426.
[14] Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]. Honolulu, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4700-4708.
[15] Shi R, Li T, Yamaguchi Y. An attribution-based pruning method for real-time mango detection with YOLO network[J]. Computers and Electronics in Agriculture, 2020, 12(3): 118-132.
[16] Wang C Y, Bochkovskiy A, Liao H Y M. Scaled-yolov4: Scaling cross stage partial network[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13029-13038.
[17] 李天华,孙萌,丁小明,等. 基于YOLOv4+HSV的成熟期番茄识别方法[J]. 农业工程学报,2021,37(21):183-190.
Li Tianhua, Sun Meng, Ding Xiaoming, et al. Tomato recognition method at the ripening stage based on YOLOv4 and HSV[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 183-190. (in Chinese with English abstract)
[18] 毛国君,翁伟栋,朱晋德,等. 基于改进YOLOv4网络的浅海生物检测模型[J]. 农业工程学报,2021,37(12):152-158.
Mao Guojun, Weng Weidong, Zhu Jinde, et al. Model for marine organism detection in shallow sea using the improved YOLOv4 network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(12): 152-158. (in Chinese with English abstract)
[19] 杨蜀秦,刘杨启航,王振,等. 基于融合坐标信息的改进 YOLOv4 模型识别奶牛面部[J]. 农业工程学报,2021,37(15):129-135.
Yang Shuqin, Liu Yangqihang, Wang Zhen, et al. Improved YOLOv4 model for face recognition of diary cow by fusing coordinate information[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(15): 129-135. (in Chinese with English abstract)
[20] 赵德安,吴任迪,刘晓洋,等. 基于 YOLO 深度卷积神经网络的复杂背景下机器人采摘苹果定位[J]. 农业工程学报,2019,35(3):164-173.
Zhao Dean, Wu Rendi, Liu Xiaoyang, et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 164-173. (in Chinese with English abstract)
[21] Wu D, Lv S, Jiang M, et al. Using channel pruning-based YOLOv4 deep learning algorithm for the real-time and accurate detection of apple flowers in natural environments[J]. Computers and Electronics in Agriculture, 2020, 178: 105-125.
[22] Redmon J, Farhadi A. Yolov3: An incremental improvement[EB/OL]. (2018-04-08)[2022-07-05] https://arxiv.org/abs/1804.02767.
[23] Fan S, Liang X, Huang W, et al. Real-time defects detection for apple sorting using NIR cameras with pruning-based YOLOV4 network[J]. Computers and Electronics in Agriculture, 2022, 193(12): 171-195.
[24] Qi J, Liu X, Liu K, et al. An improved YOLOv5 model based on visual attention mechanism: Application to recognition of tomato virus disease[J]. Computers and Electronics in Agriculture, 2022, 194(7): 178-201.
[25] Jeong J, Lee S, Kim J, et al. Consistency-based semi-supervised learning for object detection[J]. Advances in Neural Information Processing Systems, 2019, 32(2): 54-69.
[26] Hou Q, Zhang L, Cheng M M, et al. Strip pooling: Rethinking spatial pooling for scene parsing[C]. Seattle, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 4003-4012.
[27] Tarvainen A, Valpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[J]. Advances in Neural Information Processing Systems, 2017, 12(30): 119-131.
[28] Chen J, Zhang D, Nanehkaran Y A, et al. Detection of rice plant diseases based on deep transfer learning[J]. Journal of the Science of Food and Agriculture, 2020, 100(7): 3246–3256.
Detecting bagged citrus using a semi-supervised SPM-YOLOv5
Lyu Jia, Li Shuaijun, Zeng Mengyao, Dong Baosen
(1.,401331; 2.,401331,)
Bagged citrus has triggered a dramatic decrease in the texture details, due to the shape evolution from round to stripping during processing. A great challenge has also been posed in citrus object detection, depending mainly on the number of labeled samples. In this study, an accurate and rapid detection method was proposed for the bagged citrus based on the Teacher-student model with a Strip Pooling Module (SPM)-YOLOv5 algorithm. The images of bagged citrus were collected in the Paidengte Agricultural Science and Technology Demonstration Park, Bishan District, Chongqing of China. The data set of bagged citrus was generated by the image cleaning, enhancement, and labelling tags. Firstly, the stripe attention module was added to the backbone network of YOLOv5. Much attention of the model was drawn to the striped bagged citrus and branches, in order to reduce the average pooling focus on a large number of unrelated areas. Besides, the SPM was integrated into the backbone network of YOLOv5. Among them, the horizontal and vertical pooling were focused on the encoding remote context along the horizontal or vertical spatial dimensions. The SPM was also used to solve the overlapping of each spatial position in the feature map. Specifically, the global horizontal and vertical information was encoded to balance the own weight for the feature modification, in order to effectively expand the receptive field of the backbone network. As such, the SPM was different from the global pooling that only focused on one area. The striped pooling was utilized to easily realize the characteristics of discrete distribution in the horizontal and vertical pooling for a long time. The stripe kernel was used for the feature extraction in the horizontal and vertical directions, in order to capture more local details in the stripe pooling. In doing so, the strip pooling was different from the traditional space pooling that depended on the square core. At the same time, the Teacher-student model was semi-supervised to calculate the consistency loss for the unlabeled samples. Two stages were mainly composed of the model. The first stage was Burn-In. The effective pseudo tags were generated for the teacher model to be well initialized. Therefore, the teacher model was then initialized with the labeled samples. The second stage was mutual learning between the teachers and students. The model was trained using the labeled and unlabeled samples. The robustness of the model was enhanced to reduce the consistency loss in the training process. The target detection was performed on the unlabeled samples, in order to improve the performance of the model and reduce the dependence on labeled samples. The experimental results demonstrated that the average precision of SPM-YOLOv5 for the bagged citrus and branch detection was 77.4% and 53.6%, respectively, which was 7.5 and 7.6 percentage points higher than that of YOLOv5. The precision and recall rate of bagged citrus detection reached 94.0% and 76.2%, respectively. More importantly, the precision of SPM-YOLOv5 based on the Teacher-student model reached 82.6% under the condition of occlusion and overlapping. Meanwhile, the best detection was achieved in 1 500 unlabeled and 500 labeled samples. Therefore, the SPM-YOLOv5 based on the Teacher-student model can be expected to detect bagged citrus with higher accuracy and faster speed than before.
machine vision; image recognition; object detection; bagged citrus; YOLOv5; strip attention; teacher-student model
10.11975/j.issn.1002-6819.2022.18.022
TP391.4
A
1002-6819(2022)-18-0204-08
吕佳,李帅军,曾梦瑶,等. 基于半监督SPM-YOLOv5的套袋柑橘检测算法[J]. 农业工程学报,2022,38(18):204-211.doi:10.11975/j.issn.1002-6819.2022.18.022 http://www.tcsae.org
Lyu Jia, Li Shuaijun, Zeng Mengyao, et al. Detecting bagged citrus using a semi-supervised SPM-YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(18): 204-211. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.18.022 http://www.tcsae.org
2022-07-05
2022-08-26
重庆市高校创新研究群体项目(CXQT20015)
吕佳,博士,教授,研究方向为计算机视觉与机器学习、数字农业工程。Email:1209868866@qq.com