APP下载

采摘机器人视觉系统的目标识别提取研究

2020-10-28胡庆胜符亚云牛金星

河南科技 2020年25期
关键词:深度学习

胡庆胜 符亚云 牛金星

摘 要:为了解决农业采摘中因各种不利因素造成的采摘机器人无法准确识别和提取目标的问题,本文提出了一种基于深度学习Mask R-CNN神经网络框架的自适应识别提取目标的算法,应用于采摘机器人视觉系统的目标识别提取。经过实践检验可知,该算法不仅较好地解决了采摘机器人由于复杂的周围环境对果蔬不能很好地识别提取的问题,而且在一定程度上还能对成熟和未成熟的果蔬进行筛选。

关键词:深度学习;Mask R-CNN;目标识别提取;采摘机器人

中图分类号:TP274文献标识码:A文章编号:1003-5168(2020)25-0005-04

Abstract: In order to solve the problem that the picking robot can't recognize and extract the target accurately due to various adverse factors in agricultural picking, this paper proposed an adaptive recognition and extraction algorithm based on deep learning Mask R-CNN neural network framework, which was applied to the target recognition and extraction of picking robot vision system. The practical test shows that the algorithm not only solves the problem that the picking robot can not recognize and extract fruits and vegetables well due to the complex surrounding environment, but also can screen the mature and immature fruits and vegetables to a certain extent.

Keywords: deep learning;Mask R-CNN;target recognition extraction;picking robot

机器视覺系统作为有效获取和处理周围场景目标信息的重要手段,是采摘机器人能实现实时、准确采摘目标的首要条件。而在采摘机器人视觉系统中,实现对目标图像实时、准确地识别和提取的关键技术是图像分割技术。大部分到了成熟期待采摘的农作物,如苹果、橘子、草莓、番茄等,在采摘过程中可能会出现待采摘的目标部分被周围的叶片、枝干遮挡,同种目标之间或者目标与叶片之间颜色相近,目标的形状和大小各异等现象,这给采摘机器人视觉系统实时、准确地识别提取目标带来了巨大困难。为了解决各种不利因素造成的采摘机器人无法准确识别和提取目标的问题,本文提出了一种基于深度学习Mask R-CNN神经网络框架的自适应识别提取目标的算法,应用于采摘机器人视觉系统的目标识别提取。

1 研究概述

1.1 研究的整体框架

采摘机器人的视觉系统主要包括以下三部分:摄像头获取场景图像、视觉系统处理场景图像、保存并返回处理结果。整个流程如图1所示。

1.2 Mask R-CNN神经网络框架

Mask R-CNN是由He Kaiming等人[1]在2017年提出的针对单张图像完成物体分割与识别的神经网络框架,它采用了Ross Girshick等人[2]提出的R-CNN系列网络采用的Anchor技术,并结合图像金字塔网络(Features Pyramid Network,FPN)对不同尺度物体的识别效果进行优化,还通过引入全卷积网络(Fully Convolutional Networks,FCN),实现了精确的物体分割。Mask R-CNN神经网络框架主要包含7个部分,分别是特征提取卷积网络、兴趣区域对齐层(ROIAlign Layer)、区域提议网络(Region Proposal Network,RPN)、Mask分支(Mask Branch)、全连接层(Fully Connected Layers)、边界框预测和类别预测[3],其整体实现流程如图2所示。

1.3 制作和训练数据集

本研究主要对采摘机器人在采摘橘子和草莓的过程中其视觉系统获取到的图像进行搜集,其中橘子图像145张,草莓图像152张。选取橘子图像120张和草莓图像130张作为训练集,剩余的图像作为验证集。使用VGG图像标注器对这些图像中的目标进行标注,标注完成后,导出一个含标注坐标点信息的JSON文件,到此就制作好了一个完整的数据集。

为了减小训练集的规模,使用迁移学习的方法来训练一个新的模型数据集。本研究是在COCO数据集的基础上,使用迁移学习,对制作好的数据集进行训练[4]。本文训练数据集使用的笔记本电脑参数为:CPU为Intel Core i7-8300K,GPU 为GeForce GTX 1080,16 G内存,安装系统为Windows 10。此外,设置训练的学习率为0.001,训练次数为60次,训练步数为100步,训练中损失函数变化如图3所示。

1.4 目标识别提取实验

为了确定训练生成的模型数据集能较好地对图像中的橘子和草莓进行识别提取,需要在电脑上将训练生成的橘子和草莓图像模型数据集加载到Mask R-CNN神经网络框架中,进行初步的验证实验。首先通过Mask R-CNN神经网络框架加载训练生成的.h5类型的数据集文件,然后对剩余的25张橘子图像和22张草莓图像进行测试实验,最后观察每一张图像中橘子和草莓的识别提取效果。经过实验观察,训练的数据集能够较好地识别提取出测试中每一张图片中的橘子和草莓。

2 实验结果与对比分析

2.1 实验结果

将训练好的数据集和Mask R-CNN神经网络框架移植到采摘机器人的视觉系统中,对训练的数据集进行实验和验证。收集了60次实验过程中,采摘机器人机械臂以不同的速度从起始点A运动到目标抓取点B时,机械臂上摄像机传回的图像序列的目标识别和提取结果。对实验结果进行分析可知,随着采摘机器人机械臂运动速度的加快,识别提取率有所下降。当采摘机器人的机械臂以1 cm/s的速度缓慢移动时,视觉系统对摄像头上传过来的场景图像序列中橘子的识别提取率约为98.1%、草莓的识别提取率约为98.4%;当采摘机器人的机械臂以2 cm/s的速度移动时,对橘子的识别提取率约为96.1%、草莓的识别提取率约为96.8%;当采摘机器人的机械臂以3 cm/s的速度移动时,对橘子的识别提取率约为93.1%、草莓的识别提取率约为93.4%,具体实验结果分析如表1所示。

另外,通过对实验结果中草莓识别图片的分析,发现该神经网络对成熟与未成熟的草莓有一定的筛选作用,而对于橘子的识别则没有显示出该作用。图片场景图与识别后的图如图4所示。

2.2 对比实验分析

为了验证Mask R-CNN神经网络框架相比于之前的神经网络框架应用于采摘机器人视觉系统上的识别提取率及识别的实时性是否更优异,本研究做了Mask R-CNN神经网络框架与Faster R-CNN神经网络框架的对比实验。以采摘草莓的过程为研究对象,分别用两种神经网络框架训练出数据集,然后将训练好的数据集和神经网络框架导入采摘机器人的视觉系统上进行验证实验。让采摘机器人的机械臂仍然以不同的速度从起始点A运动到目标抓取点B,搜集采摘过程中图片的识别数据进行分析,并对不同采摘过程中,Mask R-CNN与Faster R-CNN处理的图片数据进行分析。通过分析可知,当速度增加时,Mask R-CNN的识别率比Faster R-CNN的识别率下降得更加明显,但Faster R-CNN识别率比Mask R-CNN低;Faster R-CNN不像Mask R-CNN一样对草莓的成熟与未成熟有一定的筛选作用。对比实验结果如表2所示。

目标 实验采摘次数 场景图片数/张 目标识别图片数/张 完成采摘次数 识别提取率/% Mask R-CNN 1 草莓 10 315 310 10 98.4 2 10 248 240 10 96.8 3 10 198 185 10 93.4 Faster R-CNN 1 草莓 10 315 284 10 90.2 2 10 248 222 10 89.5 3 10 198 176 9 88.9 ]

得出上述结果的原因主要是Mask R-CNN神经网络框架中添加了Mask分支层,可以实现像素级别的分类,所以比Faster R-CNN的目标识别率更高;但同时,也降低了Mask R-CNN的目标识别处理速度,因此,随着采摘机器人机械臂速度的增加,Mask R-CNN的识别率下降得更快。图5为Mask R-CNN与Faster R-CNN识别的对比图。

3 结论

本研究将深度学习Mask R-CNN神经网络框架应用于采摘机器人的視觉系统上,以实现自适应识别提取目标,解决采摘机器人由于复杂的周围环境对果蔬不能很好地识别提取的问题。实验结果表明,基于深度学习Mask R-CNN神经网络框架的自适应识别提取目标的算法能较好地解决复杂环境中目标的识别提取问题;当采摘机器人机械臂缓慢运动时,对橘子和草莓的识别提取率约为98.1%和98.4%,但随着运动速度的增加会有所下降;比Faster R-CNN对橘子和草莓的识别提取率更高;对草莓识别提取时,对成熟与未成熟的草莓具有一定的筛选作用。

本研究还存在着些许不足有待以后解决和研究。例如,本文在训练数据集上使用了迁移学习的方法,训练的数据集较少,使得训练出来的神经网络学习的环境场景较少,目标识别的种类也较少,会在一定程度上降低采摘机器人的识别提取率;本研究只针对橘子和草莓的采摘过程进行了实验和研究,并未对其他果蔬的识别提取进行实验研究,因此在今后的研究中还需要加入对其他种类果蔬的实验和研究,建立一个专门应用于采摘机器人的训练数据集,使其能应用于对各种果蔬的采摘。

参考文献:

[1] He K,Gkioxari G,Dollar P,et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE Computer Society,2017.

[2]Girshick R,Donahue J,Darrelland T,et al. Rich feature hierarchies for object detection and semantic segmentation[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE,2014.

[3] Girshick R . Fast R-CNN[C]// 2015 IEEE International Conference on Computer Vision (ICCV). IEEE,2016.

[4]彭秋辰,宋亦旭.基于MaskR-CNN的物体识别和定位[J].清华大学学报(自然科学版),2019(2):53-59.

猜你喜欢

深度学习
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现