复杂环境下柿子和苹果绿色果实的优化SOLO分割算法

2021-11-24贾伟宽李倩雯张中华刘国良侯素娟JiZe郑元杰

农业工程学报 2021年18期

贾伟宽，李倩雯，张中华，刘国良，侯素娟，Ji Ze，郑元杰

贾伟宽1,2，李倩雯1，张中华1，刘国良3，侯素娟1，Ji Ze4，郑元杰1※

（1. 山东师范大学信息科学与工程学院，济南 250358；2. 机械工业设施农业测控技术与装备重点实验室，镇江 212013；3. 山东大学控制科学与工程学院，济南 250061；4. 卡迪夫大学工程学院，卡迪夫 CF24 3AA，英国）

为了实现果园复杂环境下柿子和苹果绿色果实的精准分割，该研究提出了一种基于SOLO的绿色果实优化分割算法。首先，利用分离注意力网络（ResNeSt）设计SOLO算法的主干网络，用于提取绿色果实特征；其次，为更好地应对绿色果实特征的多尺度问题，引入特征金字塔网络（Feature Pyramid Networks，FPN），构造ResNeSt+FPN组合结构；最后，将SOLO算法分为类别预测和掩码生成2个分支，类别预测分支在预测语义类别的同时，掩码生成分支实现了对绿色果实的实例分割。试验结果表明，优化SOLO分割算法的平均召回率和精确率分别达到94.84%和96.16%，平均每张绿色果实图像在图形处理器（Graphics Processing Unit，GPU）上的分割时间为0.14 s。通过对比试验可知，优化SOLO分割算法的召回率分别比优化掩膜区域卷积神经网络算法（Optimized Mask Region Convolutional Neural Network，Optimized Mask R-CNN）、SOLO算法、掩膜区域卷积神经网络算法（Mask Region Convolutional Neural Network，Mask R-CNN）和全卷积实例感知语义分割算法（Fully Convolutional Instance-aware Semantic Segmentation，FCIS）提高了1.63、1.74、2.23和6.52个百分点，精确率分别提高了1.10、1.47、2.61和6.75个百分点，分割时间缩短了0.06、0.04、0.11和0.13 s。该研究算法可为其他果蔬的果实分割提供理论借鉴，扩展果园测产和机器采摘的应用范围。

图像分割；图像处理；算法；特征金字塔网络；绿色果实

0 引言

视觉系统是果蔬采摘机器人的重要组成部分，其分割精度和速度对采摘机器人的效率有很大的影响，实现目标果实的精准分割已成为视觉系统研究的关键。然而，实际的果园环境呈现出复杂性和非结构化特点，受相机拍摄角度、果实生长姿态等因素的影响，导致果实的被遮挡或重叠现象；受光照条件和光照角度的变化影响，致使果实图像的逆光现象；绿色果实跟背景枝叶颜色相近，容易导致果实的漏识。这些因素均影响果实的分割效果，给果实的精准快速分割带来很大挑战。尽管如此，该领域仍吸引着国内外一些学者的关注，并取得一定研究进展[1]，如绿色柑橘的自动计数[2-3]、绿色桃子的识别[4]、重叠绿色苹果的识别等[5]。

传统机器学习算法在目标果实分割领域做出重要贡献，Ahmad等[6]提出基于模糊推理系统与模糊C均值的苹果图像稳健分割算法，用于苹果生长期内不同颜色目标果实的分割，提高了分割算法的泛化能力。刘晓洋等[7]提出一种基于超像素特征的苹果分割算法，解决了着色不均匀果实的识别分割问题，分割准确率达到了0.921 4。Lyu等[8]提出一种套袋绿苹果图像分割算法，在提取目标果实正常光照和高亮区域进行组合，实现目标果实的高效分割。Ji等[9]提出区域增长和颜色特征的苹果图像分割算法，并设计一种基于支持向量机（Support Vector Machine，SVM）苹果识别算法，识别成功率约为89%，平均识别时间为0.352 s。姬伟等[10]采用一种基于引导滤波的具有边缘保持特性的Retinex图像增强算法分割苹果目标，为夜间图像的分割和目标识别提供了保障。上述算法虽在一定的条件下取得了较为理想的分割效果，但由于部分算法学习目标特征时环境条件的要求相对严格，然而在面对果园等实际而复杂环境下进行绿色目标果实分割时，这些算法的分割效果略显不足。

随着深度学习理论和计算机硬件设备的快速发展，诸多计算机视觉问题开始借助深度神经网络来解决，其端到端处理方式，大幅提升算法的精度和鲁棒性，衍生出的众多算法广泛应用在图像分割领域，并取得较为理想分割效果[11-13]。深度学习理论的快速发展，同样引起农业领域学者的关注[14-17]，给果实分割带来新的启示。Jia等[18]针对重叠苹果目标果实，提出一种优化掩膜区域卷积神经网络的目标果实识别算法，融合残差网络（ResNet）和密集连接卷积网络（DenseNet）作为特征提取的主干网络，提高了重叠及枝叶遮挡环境下苹果目标的检测精度。王丹丹等[19]提出基于区域的全卷积网络的苹果目标识别方法，设计ResNet-44作为主干网络，在包含遮挡、模糊、重叠的苹果目标的测试集上得到95.1%的识别准确率。Kang等[20]优化双注意力全卷积孪生神经网络，对树枝进行语义分割，检测苹果的得分为0.83，苹果和树枝分割中的得分分别为86.5%和75.5%。Bargoti等[21]利用多尺度多层感知器和卷积神经网络将苹果图像分割，提取出图像中的苹果目标，检测精度达到0.9以上，但无法识别出群集中出现的所有水果。Liu等[22]提出了从图像序列中识别可见的柑橘和苹果果实并计数的方法，使用匈牙利算法跟踪图像帧中的果实，采用运动恢复结构算法估计果实的三维位置和大小并去除假阳性。面对非结构化的苹果园，受自然光线、天气、绿色果实、采集角度、样本数量等影响，以上算法的精度、鲁棒性及适用性相较于传统机器视觉算法有大幅提升，仍难以满足果园测产和自动采摘的实时作业需求，在识别精度和运行效率上还有待进一步提升。

综上，针对果园复杂环境下绿色果实图像分割难题，本研究分别构建绿色柿子和绿色苹果数据集，提出优化SOLO分割算法。该算法主要思想在特征提取环节引入绿色果实的位置和大小信息，在分割环节实现类别预测分支与掩码生成分支同时完成，以提高绿色果实的分割精度和效率。

1 材料与方法

1.1 数据采集及数据集制作

本研究采集绿色柿子和绿色苹果图像，采集地点分别为山东师范大学（长清湖校区）后山和山东省烟台市福山区龙王山苹果生产基地。采集设备为佳能EOS 80D单反相机（80D，佳能Canon，佳能株式会社，日本），图像分辨率为6 000×4 000（像素），保存为.jpg格式，24位彩色图像。在白天（7:00-17:00）自然光下采集和夜晚（19:00-22:00）LED灯光下采集。试验共采集568张绿色柿子图像和498张绿色苹果图像，具体包括夜间、重叠、逆光、顺光、遮挡、雨后等多种情况，如图 1所示。

不同环境下采集到的绿色果实图像样本数量分布如表 1所示。为满足实时作业需求，减小算法的计算量，将图像分辨率从6 000×4 000压缩至600×400（像素）。采用LabelMe软件标注绿色果实图像制作为COCO格式数据集[23]，首先将绿色果实的边缘轮廓使用LabelMe标注点进行标注生成标签；其次标注点将图像分为2个部分，其内部为绿色目标果实，外部则为背景；随后所有的标注信息如标签、标注点坐标等均保存至与原图像对应的.json文件中；最后将.json文件使用LabelMe软件转换为COCO格式数据集。将柿子数据集和苹果数据集均按照7∶3的比例划分训练集和测试集，其中柿子训练集为398张图像，测试集为170张图像；苹果训练集为348张图像，测试集为150张图像。

1.2 优化SOLO绿色果实分割算法

图像的背景越简单越利于果实分割，然而果园实际环境复杂，采集到的图像背景较为复杂,果实姿态多变。枝叶遮挡、重叠、逆光、夜间、雨后等，再由于绿色果实和背景间颜色相近，导致果实边界不清晰，给绿色果实的精准分割带来一定影响。由于绿色果实的特殊性及果园环境的复杂性，提出一种优化SOLO分割算法，实现绿色果实的高效精准分割。优化SOLO分割算法的主干网络采用分离注意力网络（ResNeSt）提取图像特征，以增强前后层特征传输、重用和融合能力。由于果实尺寸不尽相同，在ResNeSt后引入特征金字塔网络（Feature Pyramid Networks，FPN），将不同尺寸的果实映射到不同层次的特征图，以解决绿色果实的多尺度问题。将ResNeSt+FPN组合结构获取到的图像特征输入优化SOLO分割算法的2个分支：类别预测分支和掩码生成分支，类别预测分支预测语义类别，而掩码生成分支分割对象实例。其核心思想是按照果实位置分割图像，将图像划分为×网格，如果对象的中心落在网格单元中，则该网格单元负责预测语义类别以及分配每像素位置类别，最终得到绿色果实的分割图。优化SOLO分割算法流程如图2所示。

1.2.1 主干网络（ResNeSt）

优化SOLO分割算法采用ResNeSt作为主干网络，提取图像中绿色果实的特征，该网络优于具有类似算法复杂度的其他网络，可大幅度提高了算法的精度。ResNeSt是一种基于残差网络（ResNet）的改进卷积神经网络（Convolutional Neural Network，CNN），是多个分离注意力模块的组合，该块可以跨特征图组实现信息交互。通过以ResNet样式堆叠分离注意力模块得到ResNeSt，保留了完整的ResNet结构。

分离注意力模块作为计算单元，包括特征映射组和分离注意力操作。特征映射组将特征分成不同的组，特征图组的数量由基数超参数()给出，将所得的特征图组称为基数组。然后，再引入一个基数超参数()，该基数指示基数组内的拆分块数。最初的输入特征图沿着通道维度被划分为个特征图小组，对每个单独的组应用一系列变换{1，2，...G}，然后对于∈{1，2，...}，每个组的中间表示为=()。其中，映射变换由1×1和3×3的卷积操作实现。

随后进行分离注意力操作，对多个拆分块元素求和融合，可以获得每个基数组的组合表示。

第个基数组的表示，如式（1）所示。

最后，将基数组表示沿通道维级联：=Concat{1,2, …}，其中 Concat表示级联，1,2, …为基数组表示。与标准残差块中一样，如果输入和输出特征图共享相同的形状，则使用快捷方式连接生成分离注意力模块的最终输出：=+。对于具有跨步的块，将适当的变换应用于快捷连接以对齐输出形状：=+()，其中，为跨步卷积或带池组合卷积。ResNeSt增强了前后层特征传输、重用和融合的能力，同时，还具有减弱过度拟合的能力和极强的泛化能力，可直接用于下游任务，而不会引起额外的计算成本。

绿色果实的浅层特征可以实现果实与背景的区分，然而由于果实尺寸不同，使得果实边界模糊，需要进一步提取果实的深层特征，以更清晰得到不同尺寸果实的边界信息。因此，采用ResNeSt初步提取图像特征后，再结合 FPN网络，解决绿色果实分割中的多尺度问题。借助FPN定义不同尺度的分配策略，按照果实的尺度将其最优分配到金字塔层级中，大尺度的果实由最顶层的特征图负责分割，随着果实尺度的下降，负责分割的金字塔层级也相应下降。采用FPN生成的多层特征图同时参与绿色果实分割，增强算法对不同尺度果实的分割效果，在一定程度上缓解果实间的重叠问题。

1.2.2 类别预测和掩码生成

在语义类别预测过程中，对于每个网格，优化SOLO算法均会预测个类别数，用来表示语义类别概率。将输入绿色果实特征图划分为×网格，则输出空间为××。这里需要假设×网格的每个单元必须属于一个单独的实例，且仅属于一个语义类别。在推理期间，维输出指示每个对象实例的类概率，即网格（，）落入任何地面真值掩模的中心区域则视为正样本，否则为负样本。

在语义类别预测分支工作的同时，掩码生成分支并行地生成相应绿色果实的实例掩码。对于输入图像的×个网格，则最多生成2个预测掩码，在输出张量的第三维（通道）上显示编码这些掩码，即实例掩码输出的维数是××2。第个通道负责对网格（，）上的实例进行分割，其中，=iS+。因此，在语义类别和与类相关的掩码建立一对一对应关系。

实例掩码预测一般采用全卷积网络（Fully Convolutional Networks，FCN），包括卷积和反卷积操作，具有平移不变性，然而，本研究的掩码是基于网格的位置（2个通道）产生，需要平移可变性。借鉴CoordConv操作，解决卷积神经网络的坐标变换问题，直接将标准化的像素坐标馈送给网络。创建一个与包含像素坐标的输入具有相同空间大小的张量，并规范为[-1，1]，将该张量连接到输入特征并传递到下层。通过简单地赋予卷积对其自身输入坐标的访问权，将空间功能添加到传统的FCN网络中，生成相应的掩码。

类别预测和对应的掩码由参考网格单元（=iS+）自然关联，在此基础上，可以直接形成每个网格的最终实例分割结果。原始分割结果就是通过收集所有网格结果生成。每个网格只激活一个实例，多个相邻掩码通道可以预测一个实例，采用非最大值抑制（NMS）来抑制冗余掩码，得到最终的绿色果实分割结果。

1.2.3 损失函数

优化SOLO分割算法的总损失函数计算如式（5）所示。

骰子系数损失定义如式（7）和式（8）所示。

1.3 试验设计与算法训练

本试验运行环境：Ubuntu 16.04操作系统、32GB GPU Tesla V100和v10.0 CUDA环境的服务器，搭建PyTorch深度学习框架，采用Python语言编程实现绿色果实分割算法的训练和测试。

迁移学习可以降低算法训练时的过拟合问题和计算量，本试验采用基于COCO数据集的预训练算法的初始权重，可以使损失函数尽快趋于稳定值，加快训练数据。将初始学习率设置为0.01，权重衰减率为0.000 1，动量因子为0.9，最大迭代次数为500，每迭代20次保存1次算法参数。算法的训练精度随着迭代次数的增加而迅速升高，且趋于稳定。

1.4 评估指标

本研究采用召回率（Recall，%）和精确率（Precision，%）两项指标对分割算法进行评估，其具体计算如式（9）和式（10）所示。

式中TP为真实的正样本数量，FP为虚假的正样本数量，FN为虚假的负样本数量。

2 结果与分析

2.1 绿色目标果实分割效果

模拟果园真实采摘场景，采用本研究优化SOLO的绿色果实图像分割算法，对绿色果实图像进行分割。由于在实际果园图像中果实对象的信息往往不同，相应地算法分割效果会受到不同程度地影响，如在果实稀疏完整的图像中，目标果实比较完整清晰；而在果实重叠遮挡图像中，有可能存在果实过小、粘连、相互遮挡或被枝叶遮挡等情况，不易分割；在夜间或逆光的图像中，对目标果实的分割也有一定的难度。本研究算法的果实（绿色柿子和绿色苹果）分割效果如图3所示。采集的柿子图像中的果实较为稠密，果实数目较多；苹果图像中的果实相对稀疏，果实数目较少。柿子图像采集环境明显比苹果图像采集环境复杂。

为更客观说明优化SOLO分割算法的性能，分别列举了重叠、顺光、雨后、逆光等复杂条件下的柿子图像和苹果图像的召回率和精确率，结果列于表2。在上述复杂条件下，苹果图像的召回率比柿子图像略高0.23～2.01个百分点，苹果图像的精确率与柿子图像相比略高0.26～1.67个百分点。重叠、逆光、夜间和遮挡条件对果实分割造成了一定影响，分割效果略差。柿子图像在重叠、逆光、夜间和遮挡条件下，召回率在92.00%左右，精确率在94.00%左右。苹果图像在重叠、逆光、夜间和遮挡条件下，召回率在94.00%左右，精确率在95.00%以上。顺光和雨后下的果实分割效果相对较好。无遮挡或重叠的独立果实分割效果最好，柿子图像和苹果图像的召回率和精确率达到99.00%以上。

2.2 分割算法对比

为进一步验证优化SOLO分割算法的性能，与具有代表性的优化掩膜区域卷积神经网络算法（Optimized Mask Region Convolutional Neural Network，Optimized Mask R-CNN）、SOLO算法、掩膜区域卷积神经网络算法（Mask Region Convolutional Neural Network，Mask R-CNN）和全卷积实例感知语义分割算法（Fully Convolutional Instance-aware Semantic Segmentation，FCIS）进行对比。计算平均精确率和召回率，结果列于表3。

表2 复杂环境下的绿色柿子和绿色苹果图像的分割结果

由表3可知，尽管存在误识别和漏识别现象，与其他算法相比，本研究算法能够相对准确地分割出图像中的绿色果实，优化SOLO分割算法召回率和精确率分别达到了94.84%和96.16%，比其他分割算法的召回率高1.63～6.52个百分点，精确率高1.10～6.75个百分点。除评估优化SOLO分割算法的精度外，还需要考虑算法在实际分割用时，即保证精度的同时降低分割时间。上述算法的在图形处理器（Graphics Processing Unit，GPU）上平均识别一张图像的分割时间分别为0.2、0.18、0.25、0.27和0.14 s，本研究算法的分割时间最短。

表3 不同分割算法的分割性能比较

3 结论

果实的精准分割是果园测产和自动采摘的重要前提，为解决果园复杂环境下绿色果实的分割难题，本研究提出一种优化SOLO分割算法，通过引入果实的位置信息，增强算法对绿色果实的分割性能。

1）优化SOLO分割算法的平均召回率和精确率分别达到94.84%和96.16%，平均每一张绿色果实图像在GPU上的分割时间为0.14 s。

2）优化SOLO分割算法与传统的SOLO分割算法相比召回率高1.74个百分点，精确率高1.47个百分点。

3）优化SOLO分割算法对比Optimized Mask R-CNN、Mask R-CNN、FCIS分割算法，召回率分别高出1.63、2.23和6.52个百分点，精确率分别高出1.1，2.61和6.75个百分点。

优化SOLO分割算法可满足果园复杂环境下绿色果实的实时、精准分割。

[1] Jia W K, Zhang Y, Lian J, et al. Apple harvesting robot under information technology: A review[J/OL]. International Journal of Advanced Robotic Systems, [2020-04-16], https: // www. researchgate. net/publication/342209598_Apple_ harvesting_robot_under_information_technology_A_review.

[2] Maldonado J W, Barbosa J C. Automatic green fruit counting in orange trees using digital images[J]. Computers and Electronics in Agriculture, 2016, 127: 572-581.

[3] Wang C L, Lee W S, Zou X J, et al. Detection and counting of immature green citrus fruit based on the Local Binary Patterns (LBP) feature using illumination-normalized images[J]. Precision Agriculture, 2018, 19: 1062-1083.

[4] 黄小玉，李光林，马驰，等. 基于改进判别区域特征融合算法的近色背景绿色桃子识别[J]. 农业工程学报，2018， 34(23)：142-148.

Huang Xiaoyu, Li Guanglin, Ma Chi, et al. Green peach recognition based on improved discriminative regional feature integration algorithm in similar background[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(23): 142-148. (in Chinese with English abstract)

[5] 李大华，赵辉，于晓. 基于改进谱聚类的重叠绿苹果识别方法[J]. 光谱学与光谱分析，2019，39(9)：2974-2981.

Li Dahua, Zhao Hui, Yu Xiao. Overlapping green apple recognition based on improved spectral clustering[J]. Spectroscopy and Spectral Analysis, 2019, 39(9): 2974-2981. (in Chinese with English abstract)

[6] Ahmad T, Greenspan M, Asif M, et al. Robust apple segmentation using fuzzy logic[C]//5thInternational Multi-Topic ICT Conference (IMTIC), Karachi: IEEE, 2018.

[7] 刘晓洋，赵德安，贾伟宽，等. 基于超像素特征的苹果采摘机器人果实分割方法[J]. 农业机械学报，2019，50(11)：15-23.

Liu Xiaoyang, Zhao De’an, Jia Weikuan, et al. Fruits segmentation method based on superpixel features for apple harvesting robot[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(11): 15-23. (in Chinese with English abstract).

[8] Lyu J D, Wang F, Xu L M, et al. A segmentation method of bagged green apple image[J]. Scientia Horticulturae, 2019, 246: 411-417.

[9] Ji W, Zhao D A, Cheng F Y, et al. Automatic recognition vision system guided for apple harvesting robot[J]. Computers & Electrical Engineering, 2012, 38(5), 1186-1195.

[10] 姬伟，吕兴琴，赵德安，等. 苹果采摘机器人夜间图像边缘保持的Retinex增强算法[J]. 农业工程学报，2016，32(6)：189-196.

Ji Wei, Lü Xingqin, Zhao De’an, et al. Edge-preserving Retinex enhancement algorithm of night vision image for apple harvesting robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(6): 189-196. (in Chinese with English abstract)

[11] Garcia-Garcia A, Orts-Escolano S, Oprea S, et al. A survey on deep learning techniques for image and video semantic segmentation[J]. Applied Soft Computing, 2018, 70: 41-65.

[12] Minaee S, Boykov Y Y, Porikli F, et al. Image segmentation using deep learning: A survey[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence, [2021-02-17], https: //ieeexplore. ieee. org/abstract/document/9356353

[13] Qi C R, Su H, Mo K C, et al. PointNet: Deep learning on point sets for 3D classification and segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Hawaii: IEEE, 2017.

[14] Hossain M S, Al-Hammadi M, Muhammad G. Automatic fruit classification using deep learning for industrial applications[J]. IEEE Transactions on Industrial Informatics, 2018, 15(2): 1027-1034.

[15] Koirala A, Walsh K B, Wang Z L, et al. Deep learning–Method overview and review of use for fruit detection and yield estimation[J]. Computers and Electronics in Agriculture, 2019, 162: 219-234.

[16] 傅隆生，冯亚利，Tola E. 基于卷积神经网络的田间多簇猕猴桃图像识别方法[J]. 农业工程学报，2018， 34(2)：205-211.

Fu Longsheng, Feng Yali, Tola E. Image recognition method of multi-cluster kiwifruit in field based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(2): 205-211. (in Chinese with English abstract)

[17] 孙红，李松，李民赞，等. 农业信息成像感知与深度学习应用研究进展[J]. 农业机械学报，2020，51(5)：1-17.

Sun Hong, Li Song, Li Minzan, et al. Research progress of image sensing and deep learning in agriculture[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(5): 1-17. (in Chinese with English abstract)

[18] Jia W K, Tian Y Y, Luo R, et al. Detection and segmentation of overlapped fruits based on optimized Mask R-CNN application in apple harvesting robot[J/OL]. Computers and Electronics in Agriculture, [2020-03-18], https: // doi. org/10. 1016/j. compag. 2020. 105380.

[19] 王丹丹，何东健. 基于R-FCN深度卷积神经网络的机器人疏果前苹果目标的识别[J]. 农业工程学报，2019，35(3)：156-163.

Wang Dandan, He Dongjian. Recognition of apple targets before fruits thinning by robot based on R-FCN deep convolution neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 156-163. (in Chinese with English abstract)

[20] Kang H W, Chen C. Fruit detection, segmentation and 3D visualisation of environments in apple orchards[J/OL]. Computers and Electronics in Agriculture, [2020-02-20], https: // doi. org/10. 1016/j. compag. 2020. 105302.

[21] Bargoti S, Underwood J. Deep fruit detection in orchards[C]//IEEE International Conference on Robotics and Automation (ICRA), Singapore: IEEE, 2017.

[22] Liu X, Chen S W, Aditya S, et al. Robust fruit counting: Combining deep learning, tracking, and structure from motion[C]// International Conference on Intelligent Robots and System, Madrid: IEEE, 2018.

[23] Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European Conference on Computer Vision. Zurich: Springer, 2014.

[24] Wang X L, Kong T, Shen C H, et al. SOLO: Segmenting objects by locations[C]//European Conference on Computer Vision, Glasgow: Springer, 2020.

[25] He K M, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//IEEE International Conference on Computer Vision, Venice: IEEE, 2017.

[26] Li Y, Qi H Z, Dai J F, et al. Fully convolutional instance-Aware semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: IEEE, 2017.

Optimized SOLO segmentation algorithm for the green fruits of persimmons and apples in complex environments

Jia Weikuan1,2, Li Qianwen1, Zhang Zhonghua1, Liu Guoliang3, Hou Sujuan1, Ji Ze4, Zheng Yuanjie1※

(1.,,250358,; 2.,212013,; 3.,,250061,;4.,,CF24 3AA,)

To solve the green fruit recognition problem of persimmons and apples, a green fruit segmentation algorithm based on optimized SOLO (Segmenting Objects by Locations) was proposed in this study to achieve accurate segmentation of green fruits in complex environments. The proposed algorithm was a single-stage instance segmentation method, which avoided the disadvantage that detection before segmentation in two-stage methods relied on detection performance. By introducing the concept of instance category, each pixel in the instance was assigned a category according to the location and size of the instance, therefore, the instance segmentation was transformed into a classification problem. This study takes green persimmons and green apples as the research objects. The image collection locations are Shandong Normal University (Changqing Lake Campus) Houshan and the Longwangshan Apple Production Base in Fushan District, Yantai City, Shandong Province. The acquisition device is a Canon EOS 80D SLR camera with an image resolution of 6 000×4 000 pixels. Collect under natural light during the day (7:00-17:00) and under LED light at night (19:00-22:00). A total of 568 images of green persimmons and 498 images of green apples were collected in the experiment, including nighttime, overlap, backlighting, forward light, blocked, and after rain. The collected images were annotated by LabelMe software and then were made into a dataset in COCO format. Specifically, first, split-attention networks (ResNeSt) were used to extract features of the target fruit as the backbone network of optimized SOLO, which enhanced the transfer, reuse, and fusion of features in the front and back layers. Then ResNeSt and Feature Pyramid Network (FPN) were combined to solve the multi-scale problem of green fruits. Because FPN defined allocation strategies for different scale features and assigned them to the pyramid levels optimally. Finally, the image features extracted by the ResNeSt+FPN structure were utilized for the subsequent prediction. The optimized SOLO segmentation algorithm was divided into two branches: category prediction and mask generation. While the semantic category was predicted by the category prediction branch, the object instance was segmented by the mask generation branch, in this way, the target fruit segmentation was completed. The experimental results showed that the average recall and precision of the optimized SOLO segmentation algorithm reached 94.84% and 96.16%, respectively, with an average segmentation time of 0.14 s per green target fruit image on Graphics Processing Unit (GPU). Besides, compared with four algorithms, which were the optimized Mask R-CNN fruit recognition algorithm, SOLO, Mask Region Convolutional Neural Network (Mask R-CNN), and Fully Convolutional Instance-aware Semantic Segmentation (FCIS), the recall of the optimized SOLO segmentation algorithm in this study was improved by 1.63, 1.74, 2.23, and 6.52 percentage points, the precision was improved by 1.10, 1.47, 2.61, and 6.75 percentage points, respectively, and the segmentation times were reduced by 0.06, 0.04, 0.11, and 0.13 s, respectively. The relevant results show that the green fruit optimization SOLO segmentation algorithm proposed by the study can meet the real-time performance of green fruit segmentation and improve the accuracy of green fruit segmentation. This research algorithm can provide theoretical reference for segmentation of other target fruits and vegetables to extend the application of orchard yield measurement and robot harvesting.

image segmentation; image processing; algorithms; feature pyramid networks; green fruits

贾伟宽，李倩雯，张中华，等. 复杂环境下柿子和苹果绿色果实的优化SOLO分割算法[J]. 农业工程学报，2021，37(18)：121-127.doi：10.11975/j.issn.1002-6819.2021.18.014 http://www.tcsae.org

Jia Weikuan, Li Qianwen, Zhang Zhonghua, et al.Optimized SOLO segmentation algorithm for the green fruits of persimmons and apples in complex environments[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 121-127. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.18.014 http://www.tcsae.org

2020-11-30

2021-07-19

国家自然科学基金（62072289，81871508）；山东省自然科学基金（ZR2020MF076，ZR2020MF133）；山东省重点研发计划项目（2019GNC106115）；山东省泰山学者基金

贾伟宽，博士，副教授，研究方向为人工智能、图像处理、农业信息技术与装备。Email：jwk_1982@163.com

郑元杰，博士，教授，博士生导师，研究方向为人工智能、图像处理。Email：yjzheng@sdnu.edu.cn

10.11975/j.issn.1002-6819.2021.18.014

TP24；TP391

1002-6819(2021)-18-0121-07