基于机器视觉的香蕉果柄识别及采摘试验研究

2023-11-09王红军邹伟锐谢启旋郑文和

自动化与信息工程 2023年5期

王红军　邹伟锐　谢启旋　郑文和

摘要：香蕉采摘是一個耗时费力的作业过程。为了实现香蕉的自动化采摘，首先，设计了一款香蕉智能采摘装置，主要包括叉剪升降机构、3-RPS并联机构和XY直线移动机构等，通过控制这3个机构的运动变化，满足其搭载的末端执行机构适应香蕉果柄的空间随机性要求；然后，搭建双目相机视觉识别系统，采用YOLOv5算法识别香蕉果柄，选择检测框的中心位置为采摘点；接着，根据采摘点位置反求3-RPS并联机构的位姿，驱动切割机构对香蕉果柄定位，完成香蕉串的自动采摘；最后，研制了香蕉智能采摘装置样机，开展采摘试验。试验结果表明，香蕉智能采摘装置的绝对位置误差小于8.66 mm，相对位置误差小于0.85%；γ角度误差小于1.10°，β角度误差小于1.25°，满足香蕉采摘的定位要求。

关键词：机器视觉；YOLOv5；香蕉采摘；3-RPS并联机构；香蕉果柄识别

中图分类号：S225.93; TP391.41 文献标志码：A 文章编号：1674-2605（2023）05-0003-09

DOI：10.3969/j.issn.1674-2605.2023.05.003

Research on Banana Stem Recognition and Picking Experiment

Based on Machine Vision

WANG Hongjun¹ ZOU Weirui¹ XIE Qixuan² ZHENG Wenhe³

（1.South China Agricultural University， Guangzhou 510642， China

2.BYD， Co.， Ltd.， Shenzhen 518118， China

3.BYD Electronics International Co.， Ltd.， Shenzhen 518118， China）

Abstract： Banana picking is a time-consuming and laborious process. In order to achieve automated banana picking， firstly， an intelligent banana picking device was designed， which mainly includes a fork shear lifting mechanism， a 3-RPS parallel mechanism， and an XY linear moving mechanism. By controlling the motion changes of these three mechanisms， the end effector mechanism it is equipped with meets the spatial randomness requirements of the banana handle; Then， build a binocular camera visual recognition system， use YOLOv5 algorithm to identify the banana stem， and select the center position of the detection box as the picking point; Next， reverse the pose of the 3-RPS parallel mechanism based on the picking point position， drive the cutting mechanism to position the banana stem， and complete the automatic picking of the banana string; Finally， a prototype of an intelligent banana picking device was developed and picking experiments were conducted. The experimental results show that the absolute position error of the intelligent banana picking device is less than 8.66 mm， and the relative position error is less than 0.85%; γ The angle error is less than 1.10°， β The angle error is less than 1.25°， meeting the positioning requirements for banana picking.

Keywords： machine vision; YOLOv5; banana picking; 3-RPS parallel mechanism; banana stem recognition

0 引言

近年来，我国香蕉的种植面积和产量不断提高，香蕉产业具有较大的规模效益和发展潜力。根据海关总署的数据显示，2021年我国香蕉进出口数量分别为186.35万吨和2.03万吨，进出口金额分别为10.37亿美元和0.18亿美元。我国香蕉产品在国际上的竞争力较弱，香蕉采收的人工成本远高于东南亚国家^[1^-^2]。人工采摘已成为阻碍我国香蕉产业发展的重要因素，而农业机械化和自动化是解决该困境的有效途径。智能化采摘机械可以提高采摘效率，减少人工成本，同时也能减少采摘过程中对香蕉的伤害，提高香蕉品质^[3]。

围绕香蕉智能化采摘，国内外开展了相关的研究。上世纪70年代，FRANKLIN等^[4]设计一种轻简的香蕉采收辅助装置，具有同时砍断和夹持果柄的功能，实现了香蕉采摘的部分机械化。澳大利亚农业部根据微型农用拖拉机拖车、液压驱动的机械手臂、切割机构和机械手末端的容器改装了一种香蕉采摘机^[5]。MANUEL等^[6]设计的香蕉采摘机利用末端夹持器夹住香蕉茎，切割刀片将其切掉。唐之富等^[7]研制一种模拟人工动作的香蕉采摘机械装置，具有升降，夹持和切割香蕉串的功能。樊维^[8]设计一种能够自动采摘香蕉的四自由度圆柱坐标型香蕉采摘机器人。刘远力^[9]设计的香蕉采摘整机创新性地引入了前支式液压伸缩臂与配重块相结合的采摘方式。

香蕉采摘装置的研究虽然取得了一定的进展，但在智能化采摘方面还鲜有报导。本文利用双目相机视觉识别系统获取香蕉串图像，采用YOLOv5算法识别图像中的香蕉果柄，并选择检测框的中心位置为采摘点；根据采摘点位置反求3-RPS并联机构的位姿，驱动夹持切割机构对香蕉果柄定位，完成香蕉串的自动采摘。

1 香蕉智能采摘装置

1.1 装置总体结构

香蕉智能采摘装置机械结构主要包括行走小车、叉剪升降机构、3-RPS并联机构、夹持切割机构、双目相机、XY直线移动机构等，结构图如图1所示。

1.2 装置工作原理

香蕉智能采摘装置可模拟人工采摘行为实现移动、升降、位置调整、角度调整、夹持和切割果柄等动作。行走小车是承载其他机构的运动载体，实现香蕉智能采摘装置在香蕉园移动；双目相机安装在3-RPS并聯机构的前端，用于获取香蕉串图像；上位机通过USB线与硬件系统的Arduino连接，完成双目相机的图像采集及自动识别；通过反求定位切割点，获得各控制电机的状态数据；系统控制各机械结构的电机运动，实现夹持切割机构对香蕉果柄的准确定位；由叉剪升降机构、3-RPS并联机构和XY直线移动机构组成的混联机构实现夹持切割机构以不同的空间位姿靠近香蕉果柄。香蕉智能采摘的工作流程如图2所示。

1.3 装置运动坐标系

香蕉采摘作业过程中，智能采摘装置与香蕉串之间的相对位置关系，即香蕉智能采摘坐标系如图3所示。

在3-RPS并联机构上搭建的夹持切割机构通过XY直线移动机构完成定位，驱动XY直线移动机构的滑块，使夹持切割点位置发生变化，完成夹持切割点向香蕉果柄采摘点的移动定位。为建立夹持切割机构与香蕉果柄切割点之间的运动关系，在行走小车的四轮中间建立移动平台坐标系O_D；在香蕉树假茎中心与地面的交点建立世界坐标系O_W，定位香蕉果柄采摘点的位置；在双目相机安装位置建立相机坐标系O_C；在夹持切割机构的采摘点处建立末端执行器坐标系O_E，其原点O_E在移动平台坐标系O_D下的位置为E（x_e，y_e，z_e）；在香蕉果柄采摘点处建立采摘坐标系O_F，其原点O_F在世界坐标系O_W下的位置为F（x_f，y_f，z_f）。

2 香蕉果柄识别算法

香蕉智能采摘装置通过双目相机视觉识别系统识别香蕉果柄并确定采摘点，并通过反求定位切割点获得控制机构的运动参数。采用YOLOv5算法分别检测左、右相机图像中的香蕉果柄，以检测框的中心位置为采摘点，获得其在图像上的像素坐标。根据双目测距原理和左、右相机得到香蕉果柄采摘点的二维位置信息，获取香蕉果柄采摘点在相机坐标系下的三维位置信息。

2.1 数据集

本文香蕉果柄数据集包括自采集和网络收集的图像共925幅。其中，自采集野外图像725幅，分别于早晨、中午和傍晚拍摄于广州市某香蕉园，如图4所示，图像采集设备为高像素智能手机，分辨率为 2 048×1 536像素，摄像头与香蕉的距离为500～ 1 500 mm，早上和中午各采集300幅图像，傍晚采集125幅图像；利用Intel RealSense D435i深度相机自采集室内图像100幅，分辨率为640×480像素；网络收集图像100幅。

2.2 图像预处理

采用图像标注软件LabelImg对925幅香蕉果柄图像进行标注，框出香蕉果柄，得到数据集的标签文件XML，并转换成YOLOv5训练使用的TXT文件。TXT文件包含香蕉果柄在图像中的坐标位置、图像大小和标签名称，组成香蕉果柄数据集。

2.3 YOLOv5网络

YOLOv5网络由主干网络（Backbone）、颈部（Neck）和头部（Head）组成，结构如图5所示。

2.3.1 输入端

2.3.1.1 数据增强

香蕉果柄数据集只有925幅图像，样本数量較少，数据泛化能力不强。采用Mosaic图像预处理技术，对香蕉果柄4幅图像进行随机裁剪、缩放和排布拼接操作，合成1幅图像（如图6所示），既丰富了检测物体的背景，又增加了数据集样本的数量。

2.3.1.2 自适应图像缩放

YOLOv5采用自适应图像缩放的方式调整图像的宽和高，避免简单比例缩放导致目标变形，造成图像信息丢失。分别计算一幅图像的宽和高与标准特征图（S×S）的缩放比例，选择较小的缩放比例计算缩放后图像的尺寸。用图像的原始尺寸乘以缩放比例，得到新图像的长和宽。用标准特征图的边长S减去缩放后图像需要填充灰边的边，得出需要填充的像素值；需要填充的像素值除以2，得到左右或上下两边各自需要填充的像素值，缩放效果如图7所示。

图7 自适应图像缩放效果图

2.3.1.3 自适应计算锚框

YOLOv5在模型训练过程中计算锚框，即根据真实框和预测框的将算法初始设定锚框的宽和高不断地迭代更新。首先，YOLOv5使用训练模型对目标进行预测；然后，筛选预测框，保留宽和高都不小于2个像素的预测框；接着，根据预测框与真实框的偏移量调整锚框位置，得到预测边界框；最后，筛选需要输出的预测边界框。

2.3.2 主干网络

YOLOv5的主干网络包括CBS模块、CSP1_X模块和SPPF模块，主要通过相应的卷积操作在输入图像中提取特征图。

2.3.2.1 CBS模块

CBS模块由卷积层Conv，批标准化BN和激活函数SiLU组成，如图8所示。

卷积层Conv是将输入图像上相近的像素值通过加权叠加的方式生成另外一组数值的过程。批标准化BN通过规范手段使输入值处于标准正态分布范围内，以避免输出值过大和梯度消失，解决了深层网络训练困难、收敛速度慢等问题。激活函数SiLU是一种将输入端数据映射到输出端的非线性函数，使训练模型能更好地拟合非线性特征。SiLU函数是Sigmoid函数的加权线性组合，计算公式为

2.3.2.2 CSP1_X模块

CSP1_X模块包括3个CBS模块、X个残差模块ResUnit和1个Concat模块，其中残差模块的数量由训练网络中X的具体数值决定，如图9所示。

CSP1_X模块的输入和输出形状相同，它不改变数据的宽、高和通道数量，可有效减少特征在传输过程中的信息丢失和计算量。Concat模块主要将2个或多个数组拼接成1个数组。残差模块ResUnit结构如图10所示，其中CBS卷积层中的卷积核大小不一，可以有效减少训练参数。

2.3.2.3 SPPF模块

SPPF模块包括2个CBS模块、3个最大池化层MaxPool和1个Concat模块，结构如图11所示。

SPPF模块将多尺度特征进行融合，首先，对输入数据进行1次卷积操作；然后，进行3次最大池化（核为5×5）；最后，将每次操作得出的数据进行拼接后再进行1次卷积操作，得到输出结果。

2.3.3 颈部

颈部主要包括CBS模块、Upsample模块、Concat模块和CSP2模块，采用FPN+PAN结构。颈部特征处理流程如图12所示。

FPN结构利用Upsample模块向特征图中插值，使特征图的尺度变大，并从上一层主干网络中获取相对较浅的特征，通过Concat模块将浅层的图形特征与浅层的语义特征结合在一起。PAN结构利用CBS模块进行下采样，得到较深的特征，并通过Concat模块将该较深的特征与FPN结构得到的特征结合。

颈部用于加强主干网络提取的特征，并把加强的特征融合后传递到头部。深层特征图携带更强的语义特征和较弱的定位信息；浅层特征图携带较强的定位信息和较弱的语义特征。FPN将多语义信息的深层特征和多细节信息的浅层特征利用下采样进行融合，从而增强多个尺度上的语义表达。PAN把浅层的定位信息传导到深层，增强多个尺度上的定位能力。

2.3.4 头部

头部只有1个卷积核为1×1的卷积层，将颈部得到的特征图通道数扩展，是YOLOv5网络的输出端，其借助颈部加强融合的特征图对图像进行预测和分类，并输出目标的预测信息。

2.3.5 损失函数

YOLOv5的损失函数包括分类损失、定位损失和置信度损失3类。其中，分类损失用于判断模型是否能够准确地识别图像中的对象，并将其分类到正确的类别中；定位损失为预测框与真实框之间的误差；置信度损失为网络的置信度。YOLOv5利用二元交叉熵损失函数计算分类损失和置信度损失，利用CIoU Loss计算定位损失。

2.3.5.1 分类损失和置信度损失

YOLOv5利用二元交叉熵对每个标签计算分类损失及置信度损失，其计算公式为

2.3.5.2 定位损失

YOLOv5利用CIoU值评价预测框和真实框的定位损失。CIoU是IoU（预测框和真实框的交并比）的一种推广，IoU计算公式为

式中：b、b^gt分别为预测框和真实框。

由公式（4）可知，如果2个物体不重叠，即IoU= 0，损失梯度为0无法对模型优化，因此不能使用IoU作为定位损失的指标。CIoU考虑了真实框与预测框之间的距离、重叠率、边框尺度以及惩罚因子，使目标边框回归更加稳定，有效解决了IoU在训练过程中发散的问题。CIoU的计算公式为

式中：ρ（b，b^gt）为预测框和真实框中心的距离，即图13中的d；c是2个框的最小包围矩阵的对角线距离；α为权重系数，计算公式如式（6）所示；v为衡量长宽比一致性的参数，计算公式如式（7）所示。

定位损失的损失函数为

2.3.5.3 总损失函数

总损失函数的计算公式为

式中：N为检测层数；B为标签分配到先验框的目标数；S×S为该尺度被分割成的网格数；L_cls为分类损失，对每个目标计算；L_obj为目标置信度损失，对每个网格计算；L_box为边界框回归损失，对每个目标计算；λ₁、λ₂、λ₃分别为这3种损失的权重。

2.3.6 训练结果

模型训练150批次后的检测效果和训练结果分别如图14、15所示。

由图14、15可知，随着训练轮数增加，训练集和测试集的定位损失和置信度損失都逐渐下降并收敛，而精确度和召回率逐渐提高。另外，香蕉果柄识别只有1个类别，分类损失为0。

由图15可知，当IoU阈值为0.5时，平均准确率AP达到98.034%，满足香蕉采摘识别的要求。

3 采摘定位试验

为验证香蕉果柄识别算法及夹持切割机构的合理性，开发了香蕉智能采摘装置样机，在实验室开展室内采摘定位试验，试验场景如图16所示。

采摘定位试验所用的仪器设备主要包括香蕉智能采摘装置样机、香蕉串及果树、定位器、PE线、电子数显角度尺、钢卷尺、钢尺等。

香蕉智能采摘装置的运动参数范围如表1所示。

采摘定位试验过程如下：将定位器安装在夹持切割机构末端执行器的抱掌上，保持定位器的尖点与香蕉理想采摘点位置重合；将PE线一端捆绑在理想采摘点位置，另一端垂钓一个配重铅锤，保证PE线沿铅锤方向垂直接近地面；通过双目相机视觉识别系统获取香蕉果柄的切割点位置参数；通过反求解算，机构自动运动到香蕉果柄采摘位置；待到PE线不再左右摆动，分别测量香蕉果柄采摘点在香蕉采摘装置中的3个移动分量和2个旋转分量，测试结果分别如表2、3所示。

由表2可知：位置精度的最大绝对位置误差为5.385 1 mm，最大相对位置误差为0.600 7 %。

由表3可知：姿态测量数据的γ角度误差最大值为0.9°，β角度误差最大值为0.95°。在具有一定容错的采摘装置中，夹持切割机构定位位置精度可满足采摘香蕉串的需要。

4 结论

本文以香蕉串智能化采摘为研究目标，设计香蕉智能采摘装置，提出基于YOLOv5网络模型的香蕉果柄识别算法，建立香蕉智能采摘装置与香蕉果柄切割点之间的坐标关系，通过反求获取运动机构参数。经室内采摘试验验证了香蕉智能化采摘的可行性。

1）香蕉智能采摘装置包括行走小车、叉剪升降机构、3-RPS并联机构和夹持切割机构等。行走小车能平稳在果园环境下行走；叉剪升降机构带动3-RPS并联机构和夹持切割机构升降，使夹持切割机构达到香蕉的采摘高度；3-RPS并联机构控制夹持切割机构的位置和姿态，使其达到采摘点位置，夹持并切断果柄。

2）基于YOLOv5网络模型的香蕉果柄识别算法，采用Mosaic图像预处理技术，进行随机裁剪、缩放和排布拼接操作，合成图像，丰富了检测物体的背景，增加数据集样本。模型训练结果标明，该识别算法可有效识别香蕉果柄，确定切割点位置。该切割点位置用于香蕉智能采摘装置上末端执行器采摘点的位姿求解。通过上位机与硬件系统的Arduino连接，控制软件驱动机构运动电机，实现夹持切割机构对香蕉果柄的准确定位。

3）香蕉智能采摘装置样机在实验室环境下，验证了基于YOLOv5网络模型的香蕉果柄识别算法及香蕉智能采摘装置的可行性。

参考文献

[1] 张卫明.一带一路经济植物[M].东南大学出版社，2017.

[2] 陈清西，李冬香.香蕉周年管理关键技术[M].金盾出版社， 2012.

[3] 彭舟.基于3-RPS并联机构的香蕉采摘机研究[D].广州：华南农业大学，2022.

[4] FRANKLIN J A. Robot hands and the mechanics of manipula-tion： editors： m.t. Mason and j.k. Salisbury， jr. Mit press isbn 0 262 13205 2[J]. 1988，3（1）：51.

[5] 晓明.香蕉采摘机[J].世界农业，1986（7）：50.

[6] MANUEL L P. Banana or pineapple harvester has clamp and cutting blade mounted on telescoping arm articulated to mast on tractor-mounted work surface or low frame： ES20040002089 [P]. ES2257170A1[2023-10-07].

[7] 唐之富，王红军，邓建猛，等.面向大质量串型水果采摘的夹持试验与仿真[J].机械设计，2018，35（11）：47-52.

[8] 樊维.香蕉采摘机器人机械手结构设计与分析[D].南宁：广西大学，2018.

[9] 刘远力.抗倾覆香蕉采摘整机的设计与研究[D].福州：福建农林大学，2020.

作者简介：

王红军，女，1966年生，博士研究生，教授，主要研究方向：农业机器人、智能设计。E-mail： xtwhj@scau.edu.cn

邹伟锐，男，1998年生，硕士研究生，主要研究方向：虚拟现实。E-mail： 904507581@qq.com

谢启旋，男，1997年生，硕士研究生，工程师，主要研究方向：机器视觉。E-mail： 896428001@qq.com

郑文和，男，1985年生，本科，工程师，主要研究方向：智能装备设计。E-mail： justy.zheng@byd.com