基于深度学习的水果果实视觉检测技术研究进展
2022-02-17李守豪孙宇朝张焕春夏秀波
李守豪 孙宇朝 杨 玮 张焕春 夏秀波*
(1中国农业大学现代精细农业系统集成研究教育部重点实验室,北京 100083;2山东省烟台市农业科学研究院,烟台,265500;3烟台市智慧农业研究中心,烟台 265500)
我国是一个水果生产和消费大国[1],水果产业是我国农业农村经济发展中的重要组成部分,在我国农业生产、农民增收方面做出了重大贡献,对推进我国农业领域的供给侧结构性改革、实现国家乡村振兴战略具有重大意义。随着社会的快速发展,我国人口老龄化形势愈加严峻,农村大量青壮年外流,使得农村劳动力大大减少[2],而我国大部分地区水果采收仍然以人工采摘为主,劳动力成本逐年上升。因此,机器人代替人工的智能采摘将成为水果采收的必然趋势[3]。水果果实视觉检测技术是果实采摘机器人中最重要的技术之一,该技术通过搭载的相机模块对各类环境下的不同信息进行感知进而捕获检测目标,将其目标的各类属性及立体坐标返回到采摘机器人计算机中。而目标果实检测的准确性与速度是衡量视觉识别系统先进性的重要指标。近年来,基于深度学习的目标检测算法在人工智能领域迅猛发展,对提高采摘机器人的视觉检测性能提供了强有力的技术支撑,其在提升目标检测精度与速度等方面均展现出巨大潜能。
1 果实的识别与检测
1.1 传统的图像处理技术
传统的数字图像处理技术是基于果实的颜色、纹理、形状等单个或多个特征融合的方法将果实从图像中检测出来[4]。丁亚兰等人[5]采用了R-B颜色因子固定阈值法进行猕猴桃果实的图像分割,将93作为固定阈值把猕猴桃果实从背景中分割出来,分割效率大于82%,但当猕猴桃图像背景中存在反光树叶时,识别效果不佳。传统的图像处理技术受自然环境下的光照强弱、果实与枝叶色差大小等因素影响较大,在田间自然条件下果实的识别效果难以有较大提升。
1.2 机器学习算法
基于机器学习的目标检测算法主要是通过提取大量果实样本数据的特征来人工设计特征提取器进而进行果实检测[6]。其中,K-means聚类算法是一种被广泛使用的无监督学习分类方法,如,Wang等人[7]提出了一种基于K-means聚类的荔枝识别算法,能够较好地减少光照强弱的影响,在有遮挡和果实重叠下也有较好的识别精度。目前像贝叶斯分类器算法、支持向量机SVM算法等众多机器学习图像分割算法已经应用到了果实的识别中且表现良好。但是传统机器学习算法特征提取复杂且困难、网络结构泛化能力较差且不利于多类别目标的检测,因此在自然环境相对复杂的果园中受多种因素影响,其识别效果并不理想。
1.3 基于深度学习的目标检测算法
与传统的机器相比,基于深度学习的目标检测算法通过构建深度卷积神经网络直接由网络自身提取目标的特征,进行训练学习,进而对目标物体进行识别检测。其特征学习全面性高,适应性好,检测精度与速率均有较大提升[8]。基于深度学习的目标检测算法主要分为one-stage和two-stage两类,前者较后者在速度上有更大的优势,而精度上会略显不足。在YOLOv1提出之前,目标检测领域的R-CNN系列算法一枝独秀,R-CNN系列算法网络结构具有双阶段(two-stage)检测精度高的特点,但检测速度难以满足实时性的要求。YOLO的核心思想就是把目标检测转变成一个回归问题,把整张图像作为网络的输入,直接在输出层回归得到边界框(bounding box)的位置及其所属的类别。目前对于果实的识别与检测,深度学习的主要使用算法有R-CNN(Region Convolutional Neural Networks)系列、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)系列等。
Girshick等人[9]提出了区域卷积网络目标检测框架R-CNN(Regions with CNN features),属于两阶段的目标检测算法,使用预先训练好的卷积神经网络来抽取特征,有效的提升了识别精度;朱旭等人[10]提出了基于Faster R-CNN的蓝莓冠层果实检测识别方法,通过自己构建数据集,使用改进的Faster R-CNN进行训练,所得到的模型平均识别准确率可以达到94%以上,可以为自动采摘以及估产提供一定的技术支持;Joseph等人[11]提出YOLO(You Only Look Once)算法,属于单阶段的目标检测,该算法的最大优势就是检测速度非常快,尽管当时的精度与Faster-RCNN相比稍有不足,尤其是在小目标检测方面及定位的准确度方面,但随着YOLOv7的发布,该算法系列已成为目前最先进的目标检测算法之一。黄彤镔等人[12]为实现在自然环境下对柑橘果实的识别,通过引入(CBAM)注意力机制模块来提高网络的特征提取能力,提出一种基于YOLOv5改进模型的柑橘识别方法,用α-IoU损失函数代替GIoU损失函数作为边界框回归损失函数,试验结果表明模型平均精度AP值达到91.3%,在GPU上对单张柑橘果实图像的检测时间为16.7 ms,模型占用内存为14.5 Mb,为苹果采收机器人在复杂的果园背景下能够快速、高效的实现苹果检测提供理论基础。
2 果实的三维定位
果实采摘机器人的视觉检测技术不仅需要准确地识别出目标物体,还要计算出目标物体的三维坐标并返回到采摘机器人的计算中心。目前,果实目标三维定位算法根据其传感器类型可分为单目相机、双目相机、多目相机、激光测距仪、深度相机及光基3D相机等[13],其中基于单目相机的目标检测办法具有结构简单、成本低、便于标定和识别等特点,但该方法仅依据一幅图像无法恢复目标物体的三维位置,且定位精度受光照强度影响较大,不适合自然条件下高精度的目标定位;激光测距仪与光基3D相机虽具有测量距离远、定位精度高等优势,但该方法成本较高且不适用于室外环境。而基于双目相机和深度相机的定位方法较其他方法在采摘机器人机器视觉识别系统上更有优势,在复杂的自然环境下具有较高的定位精度。
基于双目相机的成本低、图像分辨率与物体测量精度较高、适合于近距离下室内和室外环境、抗干扰能力强等特点[14],该相机被广泛地应用于果实的定位检测。林中豪等人[15]设计了一种葡萄园田间双目测距系统,该系统采用BM匹配算法测量葡萄枝叶与机器人间距离,测距误差小于3%,为葡萄园监控机器人的应用奠定了技术基础。为了实现对苹果的识别和定位,祁金文等人[16]提出了一种基于YOLOv5算法和双目相机的苹果目标识别和定位的改进算法,该算法基于双目相机使用视差法进行三维空间定位最终平均误差在15.9 mm,平均相对误差在2.41%左右,可以快速准确识别和定位苹果目标,对苹果采摘机器人的研究提供了技术支撑,奠定了前期工作基础。
3 总结与展望
目标检测与定位技术等视觉检测技术虽在果实采摘机器人上的研究已经取得了相当大的进展,但是依旧存在不少问题有待解决,例如如何在复杂的自然果园环境下进一步提升对目标果实识别与定位的准确度,如何在保持准确度的条件下进一步提高检测速度,以达到农业生产中采摘机器人的实时性要求,如何在保障检测准确度与速度的同时进一步简化模型,以降低对硬件设备的高性能要求,便于农业生产工具的部署与推广。
随着视觉检测技术的发展,未来的采摘机器人对果实的检测与定位应是多传感器信息融合的结果,不仅仅具有简单的识别和定位功能,而是集果实的多品种识别、成熟度分级、质量分级、大小分级、产量估计与精确三维定位于一体的采摘即分级的综合性采摘系统。