基于改进型YOLO的复杂环境下番茄果实快速识别方法

2020-06-29刘玉坤郭文忠

农业机械学报 2020年6期

刘芳刘玉坤, 林森郭文忠徐凡张白

(1.北方民族大学电气信息工程学院, 银川 750021； 2.北京农业智能装备技术研究中心, 北京 100097)

0 引言

我国是世界最大的番茄生产和消费国家，番茄生产是农民增收致富和出口创汇的重要途径之一[1]。番茄采摘机器人对减少生产成本、降低劳动强度、提高作业效率具有重要意义[2]。采摘机器人的设计难点是番茄的识别和定位，其准确性关系到采摘机器人的工作效率。番茄果实的生长姿态各异，果实之间重叠，叶片、枝干、果柄等对果实遮挡严重，光照环境复杂，这些因素给采摘机器人识别带来了一定的困难。因此，对温室复杂环境下的番茄果实快速、精确识别是研发番茄采摘机器人亟待解决的关键问题[3]。

温室环境下番茄果实的传统识别方法是基于颜色和形状特征进行信息提取分析[4-6]。传统目标识别流程包括基于穷举策略的区域选择、基于尺度不变特征变换(SIFT)和方向梯度直方图(HOG)等方法的特征提取、基于支持向量机(SVM)和自适应提升(Adaboost)等方法的分类器分类等。郑小东等[7]利用颜色特征差异提取红色成熟番茄果实和绿色枝叶背景信息，通过阈值分割的方法识别红色成熟番茄果实，该方法对图像质量要求很高，对噪声影响较为敏感。王玉翰[8]提取颜色、形状、纹理等5个特征，利用SVM分类器对番茄果实进行识别，该方法有较好的分类识别能力，但分类耗时过长，不能满足实时性需求。梁喜凤等[9]提出一种番茄果实串采摘点识别方法，将整个番茄果实串视为一个整体，提取其形状特征，该方法对垂直向下的番茄果实串采摘点识别效果较好，但现实中番茄果实生长形态各异，该方法不能对其他姿态的番茄果实进行识别。赵源深等[10]提出一种基于非颜色编码的番茄果实识别算法，通过基于Haar-like特征的阈值判断获得若干弱分类器，利用AdaBoost算法将多个弱分类器通过学习训练得到一个强分类器，用于识别红色成熟番茄果实。在光照条件较差和果实遮挡较为严重的情况下，该方法对成熟番茄果实的识别率为93.3%，识别精度偏低。冯青春等[11]在2R-G-B色差模型下提取红色成熟番茄果实颜色特征，利用动态阈值分割的方法识别红色成熟番茄果实，该方法识别耗时较长，且未考虑叶片遮挡等复杂环境下番茄果实的识别。综上所述，采用传统方法进行番茄果实识别无法达到较好的精度和实时性要求。此外，上述研究大多没有考虑温室复杂环境下的影响因素，对多样的特征变化鲁棒性不足，因此难以满足实际要求。

近年来兴起的基于深度学习的深度卷积神经网络(Deep convolutional neural network, DCNN)为番茄果实识别提供了新的思路。DCNN在图像目标检测上具有较大的优势，其检测方法可归纳为两类：一是基于区域生成的检测方法，先由算法生成一系列候选框，再对候选框中的目标进行分类，R-CNN[12]、Fast R-CNN[13]、Faster R-CNN[14]等网络模型都属于此类检测方法。这类方法识别错误率低、漏识别率也较低，但速度较慢，难以满足实时检测场景需求。二是基于回归的方法，该类方法在实现目标定位的同时预测目标分类，YOLO[15-17]系列网络属于此检测方法。该类方法识别速度快，可以达到实时性要求，而且准确率也基本能达到第1类方法的水平。目前，DCNN在农业设施智能化研究方面备受关注[18-22]。研究表明[23]，第1类目标检测算法检测精度较高，但占用大量计算资源，导致检测时间较长，影响采摘机器人工作效率；第2类目标检测算法兼顾了检测精度和速度，但其网络结构设计过于精简，导致识别精度低于第1类算法。

实际温室环境下番茄果实重叠、遮挡严重，稀疏程度不同、大小不一，这些成为快速、精确识别番茄果实的难点。本文以DCNN中检测速度较快的YOLO网络模型为基础，根据温室环境下番茄果实的特征改进主干网络得到一种新型主干网络darknet-20，以提升检测速度；采用YOLO v3-tiny快速精确的检测结构，融合多尺度信息，以提升检测精度，构建一种温室复杂环境下番茄果实识别的网络模型。

1 数据样本采集与预处理

番茄果实图像数据采集于北京市农林科学院连栋温室，采集设备为FM810-IX-A 3D型相机(图漾科技)，其二维RGB图像分辨率为640像素×480像素，像素级精度为2 mm。为降低由训练样本多样性不足导致网络模型过拟合的概率，采集时分远景和近景，远景、近景分别距离果实500～600 mm和200～300 mm，远景、近景情况下各采集左、中、右3个角度的图像，每个角度采集3幅图像，共1 800幅图像。为了增加样本的多样性，图像样本中包含成熟红色番茄果实和未成熟绿色番茄果实，包含果实数量、稠密程度、遮挡程度不同的情况，还包含顺光、逆光等光照情况。为获取准确的数据参数，还需要对图像进行人工标注，标注时将番茄的最小外接矩形框作为真实框(Ground truth)，以减少真实框内的背景像素。表1为各类番茄图像数量，图1为一组典型复杂环境下的番茄果实图像。

表1 各类番茄图像数量Tab.1 Number of tomato images under varies conditions

图1 复杂环境下的番茄果实图像Fig.1 Tomato images under complex environments in greenhouse

温室环境下光照情况复杂，在光照很强或很弱时采集到的番茄果实图像颜色差异很大。此外，番茄果实的生长姿态各异、重叠遮挡严重，导致果实形状特征难以完整提取。使用传统方法难以有效提取温室番茄果实的特征。因此，在番茄果实识别时需要对采集样本进行预处理[24-25]。本文采用自适应直方图均衡化方法减小光照强度对图像质量的影响；通过缩放、水平/垂直翻转或旋转正负90°等方法，解决番茄果实生长姿态不同的问题，改善样本集数据不均衡。通过以上方法，最终扩增样本集图像至15 120幅，其中训练集70%、验证集10%、测试集20%。

2 复杂环境下的番茄果实快速识别方法

YOLO(You only look once)网络模型采用darknet深度学习框架实现输入图像端到端的训练，其突出特点是快速性。与Faster R-CNN使用候选区域(Region proposal)特征提取方式不同，YOLO对输入图像的全局区域进行训练，可加快训练速度且能更好地区分目标和背景。利用主干网络完成番茄果实特征提取之后，采用预测框(Bounding box)预测的方式，同时预测出目标类别和预测框。

2.1 YOLO系列网络模型

YOLO系列网络模型中，YOLO v1存在网络模型检测精度不高、目标定位不准确等问题[15]；YOLO v2中加入了锚点框、批量归一化、高分辨率分类器、更改网络模型结构等操作来提升网络模型性能，尤其是检测速度突出，但不适用于检测目标重叠的情况[16]；YOLO v3中引入了多尺度融合训练、残差结构、改变网络模型结构、锚点框选择机制、分类方法等操作，使得网络模型性能得到了极大提升，但其主干网络深度达53层且采用多尺度融合，导致检测速度不高，番茄果实检测的实时性无法得到保证[17]。因此，本文在剖析YOLO v2、YOLO v3网络模型特性的基础上对其进行重组，构建一种新型网络模型结构，解决复杂环境下番茄果实检测识别问题。

2.2 特征快速提取网络结构

在使用DCNN提取特征时，增加网络深度意味着增加检测时间。本文只需区分红、绿两类番茄果实，其特征明显、易于提取。由图2a可以看出，YOLO v2主干网络darknet-19由19层卷积层和5层最大池化层交替组成。其结构简单、占用计算资源较少，但特征信息在传递时逐层丢失，导致检测精度下降。本文以darknet-19为基础，借鉴YOLO v3网络结构，在darknet-19主干网络中引入残差结构，提出darknet-20主干网络如图2b所示，实现前后层特征复用和融合，同时满足番茄果实特征提取的快速性和精确性。该网络的构建思想如下：去掉darknet-19中的5层最大池化层，用第2、3、6、9、14层卷积层进行2倍下采样代替原最大池化层的下采样，从而缩小特征图尺度以提取更多特征信息传递给后续卷积层。去掉darknet-19最后一层卷积层以便与检测层相连，保留其余各卷积层；在darknet-19的第2层卷积层后添加两层卷积层以构建一个残差模块，由此构成由20层卷积层顺序连接的主干网络。借鉴残差思想构建残差模块。通过恒等映射、跳跃连接其前层卷积输出特征信息，将其直接传递给后面某层输出，如图2中蓝线箭头所指，以进行信息融合。需要指出的是，在第4、5次下采样单元后各有2个残差模块，其作用是在相应尺度下融合更丰富的特征信息输出给检测层。

图2 darknet-19及darknet-20主干网络结构Fig.2 Backbone structure diagrams of darknet-19 and darknet-20

综上，darknet-20网络由20层卷积层构成，其中包含了首层卷积、5个下采样卷积层和7个残差块，每个残差块由2层卷积层组成。相较于darknet-19主干网络的19层卷积层，darknet-20只多了一层卷积层，网络深度变化不大，对检测速度的影响不大；使用卷积代替最大池化层进行下采样，能够保留更多的特征信息；在特征提取过程中，引入残差结构可以更好地保留番茄特征信息、促进网络前后层的特征信息融合，在不增加冗余参数和计算量的前提下可以更好地提取番茄果实特征，进一步提高检测精度。

2.3 多尺度检测模型结构

为了得到精准的番茄果实位置和类别信息，本文采用多尺度检测模型结构同时进行预测，其结构如图3所示。输入图像尺寸为416像素×416像素，经由darknet-20主干网络进行特征提取时，主干网络依次完成5次下采样，称为2m(m=1,2,…,5)倍下采样。每经历一次下采样，特征图将缩小为原输入图像尺寸的1/2，最终在32倍下采样后生成尺寸为13像素×13像素的特征图。对该图像进行一系列的卷积操作之后，再进行一次2倍上采样，生成26像素×26像素的特征图，将其与主干网络下的16倍下采样生成的26像素×26像素的特征图进行张量拼接(Concat)，融合两个图像的特征信息，生成一个同等尺寸且含有更多特征信息的特征图，以此提升小目标的检测精度。针对上述过程中32倍下采样生成的13像素×13像素特征图及特征融合后的26像素×26像素特征图，分别进行独立检测，生成尺寸不变且含有番茄果实预测框中心坐标(x，y)、宽w、高h等4个位置信息，1个置信度和番茄果实颜色类别c的特征图，从而得到番茄果实的预测框和颜色类别。采用多尺度检测结构，能够更好地提取不同光照条件及果实重叠、遮挡严重等温室复杂环境下的番茄果实特征，从而可以极大地提升检测精度，为采摘机器人的高效采摘奠定基础。

图3 番茄果实多尺度检测结构Fig.3 Multi-scale detection structure for tomato

本文借鉴YOLO v3中的检测方式生成番茄果实预测框，图4为番茄果实预测框生成流程图。由darknet-20主干网络提取的特征图包含真实框的信息，如图4a绿色框所示；特征图通过回归预测得到若干预测框，如图4b黄色框所示；通过非极大值抑制(Non-maximum suppression，NMS)算法筛选出番茄果实预测框，如图4c紫色框所示。在使用NMS方法时，根据上述多尺度检测模型获得2个类别的置信度，取置信度较高的类别作为预测框中对象所属的类别，并将置信度低于置信度阈值a=0.5的所有预测框删除；然后将剩余的所有预测框按照置信度从高到低排序，将置信度最高的预测框作为要保留类别的第1个预测框；再按照由大到小的顺序计算其他预测框与第1个预测框的交并比I′OU，删除I′OU大于其阈值b=0.5的预测框，即完成第1次迭代；接着从剩下的预测框中取置信度最高的预测框作为保留的第2个预测框，进行第2次迭代。通过不断迭代，输出最后的番茄果实预测框。通过以上方法得到番茄果实预测框，即可得到番茄果实在图像中的准确位置。

图4 番茄果实预测框生成流程图Fig.4 Flow chart of generating bounding box for prediction tomatoes

2.4 番茄果实识别模型架构

本文构建的基于darknet-20主干网络的复杂环境下番茄果实快速识别模型架构如图5所示。该架构主要包含2个模块：数据预处理模块和番茄果实快速检测网络模块。前者是在数据样本采集后进行的；后者以darknet-20为主干网络，通过融合多尺度检测模块构建，称为IMS-YOLO(Improved multi-scale YOLO)检测网络。该网络从训练集和验证集中快速提取复杂环境下的番茄果实相应特征，并融合多尺度特征信息，同时得到番茄果实预测框和类别，从而快速精确地识别温室复杂环境下番茄果实。其中训练集用于拟合检测网络，验证集用于调整检测网络的超参数以及对网络性能进行初步评估。对检测网络进行样本训练的目的是利用从高分辨率的番茄果实原始图像中学习到的特征来识别低分辨率的实时采集图像。番茄果实识别架构的工作流程如下：首先将采集的原始图像进行预处理并将预处理后的图像输入检测网络进行训练，然后根据预测框、置信度和类别的损失函数不断调整训练参数，最终得到识别模型。

图5 复杂环境下番茄果实快速识别模型的架构Fig.5 Framework of fast recognition model for tomatoes under complex environment

3 检测网络训练与结果分析

3.1 番茄果实检测网络训练

为了得到复杂环境下番茄果实快速精确的检测网络，需要优化损失函数，使预测框、置信度、类别的训练误差达到平衡。YOLO v3的损失函数[17]为

L=kxyδ(x,y)+kwhδ(w,h)+kconfδ(conf)+kcδ(c)

(1)

式中δ(x,y)——预测边界框中心坐标(x,y)的误差函数

δ(w,h)——预测边界框宽w、高h的误差函数

δ(conf)——预测置信度conf的误差函数

δ(c)——类别的误差函数

kxy、kwh、kconf、kc——误差权重系数

训练误差曲线可以监测损失函数的变化趋势。对训练集和验证集进行约2 500次迭代训练后的误差变化曲线如图6所示。可以看出，前500次迭代中网络快速拟合；1 500次迭代后损失函数基本稳定，此后检测网络收敛。

图6 训练误差变化曲线Fig.6 Training error changing curve

本文选用的性能评价指标主要包括均值平均精度MAP(Mean average precision)、红色和绿色番茄果实的检测精度APR和APG、检测时间tr、准确率P、召回率R、交并比IOU。本文目的是快速精确识别番茄果实，因此把MAP、tr作为主要评价指标。交并比IOU是预测框和真实框的重合程度，表示番茄果实的检测定位精度。APR、APG是针对单一类别进行分析计算的，MAP是APR、APG的平均值。计算公式为

(2)

(3)

(4)

式中TP——实际为正样本且被检测为正样本的数量

FP——实际为负样本且被检测为正样本的数量

FN——实际为负样本且被检测为负样本的数量

k——类别编号

J(P,R)k——平均精度函数，即类别编号为k时准确率P与召回率R所构成P-R曲线的面积

经过NMS方法处理后得到的预测框和对应类别并非全部正确，因此将置信度大于阈值a=0.5的预测框定义为正样本，反之则为负样本；将正样本中与真实框的交并比大于阈值d=0.6的样本视为TP，反之视为FP。若负样本中存在实际为正样本的，则视为FN。

检测网络IMS-YOLO在darknet深度学习框架中进行训练。硬件环境为Intel Xeon CPU，E5-2680 v3@2.50 GHz×48处理器，64 GB运行内存，2 TB硬盘，两个显存为12 GB的GeForce GTX 1080ti GPU。软件环境为Ubuntu16.04移动操作系统。输入图像尺寸416像素×416像素，权值衰减速率为0.000 5，初始学习率为0.001，动量设置为0.9。

3.2 番茄果实识别效果

由于IMS-YOLO模型是基于YOLO v2主干网络，同时融合了多尺度检测结构进行改进的，因此有必要对改进前后网络的番茄果实检测性能进行对比分析。为此，对YOLO v2保留darknet-19主干网络不变，采用本文所述多尺度检测模块与其一起构成MS-YOLO v2检测模型；基于darknet-20主干网络的改进型单一尺度(Single-scale)检测模型称为ISS-YOLO。为了对比改进效果，同时与YOLO v2进行对比。上述4种YOLO系列检测模型的特点及其检测结果如表2所示。

表2 4种网络模型的检测结果Tab.2 Detection results of four network models

由表2可知， IMS-YOLO比MS-YOLO v2的MAP、IOU分别提升0.85个百分点和1.38个百分点，而tr仅增加了0.093 ms。IMS-YOLO比ISS-YOLO的MAP、IOU分别提升了5.8个百分点和8.02个百分点，tr增加了0.97 ms。可以看出，分别更换了主干网络和检测结构，除了tr略有增加，检测模型的性能均有不同程度提升，说明本文网络结构的改进方法对模型性能具有促进作用。而与YOLO v2相比，IMS-YOLO的多项性能指标均有显著提升，尤其是MAP和IOU分别提高了7.17个百分点和8.94个百分点，极大地提高了番茄果实的检测精度和检测定位精度。另外，IMS-YOLO比YOLO v2的tr增加了1.139 ms，两者tr相差不多，均能达到较好的实时性。综上，IMS-YOLO的检测精度和检测定位精度最高。其原因为IMS-YOLO使用多尺度检测结构，可以较为精确地预测番茄果实预测框类别和位置，从而大幅度提升了检测精度和定位精度； IMS-YOLO的主干网络增加了残差结构，可以促进前后卷积层的信息融合，有效提取番茄果实类别和真实框的信息，使训练误差更小，可以进一步提升检测精度。综合考虑各项检测指标，本文方法对番茄果实的检测性能更佳。

IMS-YOLO的APR、APG分别是97.90%和96.35%，较MS-YOLO v2分别提升了0.70个百分点和1.00个百分点；而相较于ISS-YOLO和YOLO v2，IMS-YOLO的APR分别提升了3.9个百分点和4.58个百分点，APG则分别提升了7.69个百分点和9.75个百分点。可以看出，IMS-YOLO的APR、APG提升最为显著，且APG提升更为明显；此外，多尺度检测模型的检测效果远比单尺度的效果好。这是因为在IMS-YOLO中主干网络加入了残差模块且采用了多尺度检测结构，其提取番茄果实特征、区分背景和目标信息的能力更为突出。

3.3 不同方法识别效果对比试验

基于IMS-YOLO的温室复杂环境下的番茄果实识别结果如图7所示。对照图1，可以看到番茄果实在数量不同、稠密程度不同、光照不同、叶片枝干遮挡、果实重叠等环境下均具有很高的识别准确率，且番茄果实在图像中定位准确。因此，本文方法具有较强的鲁棒性，可以适应温室下各种复杂情况。

为进一步验证本文网络模型对温室番茄果实的识别性能，主干网络分别取ResNet34和VGGNet，且VGGNet选用前13层网络，去掉最后3层全连接层以降低参数量；检测模块统一采用YOLOv3-tiny的检测结构，构成MS-ResNet34、IMS-VGGNet。将其与IMS-YOLO网络进行对比试验，测试网络层数较少的主干网络对番茄果实特征的提取能力。为验证IMS-YOLO的实时性，选取YOLO v3网络模型与其进行对比试验。番茄果实识别效果对比试验结果如图7和表3所示。图7中由左至右依次为单果、多果、逆光、顺光、重叠和遮挡。

由表3可以看出，IMS-YOLO模型的IOU最大，检测定位精度最高。IMS-YOLO比IMS-VGGNet的MAP高0.41个百分点。比MS-ResNet34模型的MAP高3.26个百分点，且tr较小。原因是MS-ResNet34在主干网络开始训练时先进行8倍下采样，特征信息丢失严重，因此检测精度降低；同时，其卷积层较多，计算量大，因此检测速度较慢。相对于YOLO v3，虽然IMS-YOLO检测精度降低了1.52个百分点，但检测时间减少了12.407 ms，实时性较好。可以看出，本文方法整体性能表现最佳，可以同时满足识别精度和速度的需求。

图7 复杂环境下4种模型对番茄果实的识别结果Fig.7 Recognition results of tomatoes under complex environment of four models

表3 4种模型的试验结果Tab.3 Test results of four models

另外，IMS-YOLO模型的APR、APG稍低于YOLO v3而高于其他两种模型，原因是IMS-YOLO的网络结构比YOLO v3简单得多，对番茄果实的特征提取能力偏低，因而检测精度偏低；而与IMS-VGGNet相比，两者的网络深度相近，但IMS-YOLO采用了残差结构，可提取更丰富的特征信息，因而检测精度较高；MS-ResNet34网络模型整体精度最低，这是因为其先进行8倍下采样，导致特征信息丢失严重，继而影响网络的拟合能力，对绿色番茄果实与背景的颜色区分能力下降，导致绿色番茄果实检测精度降低。4种网络模型对红色番茄果实的检测精度均高于绿色番茄果实，这是因为红色果实目标与背景颜差异大，红色颜色特征易提取。

3.4 温室环境中番茄果实识别验证

为验证实际应用效果，将本文模型集成在采摘机器人操作系统中进行采摘试验。如图8所示，采摘机器人核心部件由遨博6轴协作机械臂、FM810-IX-A型3D相机、智能移动底盘(国兴)以及一台工控机组成。采摘试验过程如下：将智能移动底盘移动到合适位置，由工控机调用IMS-YOLO模型识别番茄果实并控制3D相机对番茄果实进行检测；若3D相机检测到红色成熟番茄果实，则选择置信度概率最大的番茄果实目标为第1采摘目标并进行定位，输出番茄果实类别和三维坐标至工控机，再由工控机控制机械臂实现采摘。针对顺光、逆光两种光照情况共设计了8组试验，对单果/多果果实在有遮挡、无遮挡环境条件下进行番茄果实采摘试验，本次试验对枝叶遮挡程度大于60%以上的番茄果实不进行采摘。由于机器人只采摘红色成熟番茄果实，且每次只采摘一个，所以只统计红色番茄的识别率。若识别到番茄果实，系统会返回番茄果实三维坐标值，否则，返回至“未识别到番茄”。系统返回番茄坐标值即识别成功，因番茄未识别成功而导致采摘不成功的情况为识别失败，因机械臂路径规划失误等导致采摘不成功的情况不计入识别失败。

图8 温室环境中机器人采摘试验Fig.8 Test of harvesting robot under greenhouse environments

各种情况下番茄果实识别准确率如表4所示。由表4可以看出，逆光比顺光识别准确率低，原因是逆光时果实与背景界限不明显，果实边缘特征提取难度增加，导致识别难度增加；多果比单果识别准确率低，原因是密集情况下果实之间有重叠，果实形状特征提取困难；遮挡比未遮挡识别准确率偏低，原因是有枝叶遮挡时增加了果实形状特征提取的难度。

表4 温室环境下番茄果实采摘试验结果Tab.4 Results of tomato harvesting tests under greenhouse environments

为节约成本，采摘机器人使用了只有CPU的工控机。工控机为单CPU Intel i7-7500u 2.7 GHz处理器、 16 GB内存。由于工控机的计算能力下降，识别试验中番茄果实的识别时间比图像识别时间偏长。

4 结论

(1)提出了改进型多尺度检测模型IMS-YOLO，采用含有残差模块的darknet-20主干网络实现特征提取和检测速度的提升，借鉴YOLO v3-tiny检测结构，融合多尺度信息，提升检测精度。该模型对复杂环境下番茄果实的检测精度为97.13%，检测时间为7.719 ms，准确率为96.36%，召回率和交并比分别为96.03%和83.32%，红、绿番茄果实检测精度分别为97.90%和96.35%。对比其他网络模型，该模型兼顾了识别精度与速度的要求，且检测定位精度最高，综合性能最佳。

(2)采用多尺度检测结构的IMS-YOLO、MS-YOLO v2的检测精度、召回率、交并比比单尺度的ISS-YOLO、YOLO v2更高；与采用darknet-19的MS-YOLO v2、YOLO v2相比，采用darknet-20主干网络的IMS-YOLO、ISS-YOLO的检测时间增加不多，对检测实时性影响不大；与YOLO v2相比，IMS-YOLO的多项性能指标均有显著提升，极大地提高了番茄果实的检测精度和检测定位精度。

(3)对比MS-ResNet34与IMS-VGGNet模型，IMS-YOLO模型精度最高；IMS-YOLO比YOLO v3检测时间减少了12.407 ms；对比其他3种网络模型，IMS-YOLO的交并比最高，即检测定位精度最高，可以为采摘机器人提供精确的定位指导。

(4)在番茄温室大棚进行了机器人实际采摘试验，进一步验证了IMS-YOLO模型的可行性和准确性。该模型检测精度高、速度快，可兼顾精度和实时性的要求，在复杂环境下鲁棒性强、检测定位精度高，可以满足温室复杂环境下采摘机器人识别番茄果实的需求。