APP下载

基于深度学习的目标橘子识别方法研究

2021-06-08任会朱洪前

计算机时代 2021年1期
关键词:目标识别深度学习

任会 朱洪前

摘  要: 为了更好地解决自然条件下目标橘子的遮挡、重果问题,采用深度学习的方法对目标橘子进行识别,并用传统的目标识别算法与Faster-RCNN两种方法进行对比实验。根据大量的数据对比可知,传统的目标识别方法对自然光照敏感,对遮挡、重果的识别效果不佳,泛化能力及鲁棒性较差。而Faster-RCNN算法对光照及枝叶遮挡的识别更友好,更符合采橘机器人实际采摘的需要。深度学习方法有望在采橘机器人目标识别中得到更广泛的应用。

关键词: 目标识别; 传统算法; 深度学习; 采橘机器人

中图分类号:520.2040          文献标识码:A     文章编号:1006-8228(2021)01-57-04

Research on the method of identifying target orange with deep learning

Ren Hui, Zhu Hongqian

(Central South University of Forestry and Technology, Changsha, Hunan 410004, China)

Abstract: In order to better solve the problem that the target orange is covered by something or overlapped in natural condition, this paper uses the deep learning method to recognize the target orange, and makes the comparative experiment between the traditional target recognition algorithms and the Faster-RCNN method. According to a large number of data comparison, the traditional target recognition methods are sensitive to natural light, the recognition effect on covered or overlapped fruit is not so good, and have poor generalization ability and robustness. The Faster-RCNN algorithm is more suitable to recognize the light and branch covered fruit, which is more in line with the actual needs of orange picking robot. Deep learning methods are expected to be more widely used in the target identification of orange picking robot.

Key words: target identification; traditional algorithm; deep learning; orange picking robot

0 引言

橘子的采摘作業环境较为复杂,自动化程度低,其采摘作业往往都是人工的,劳动强度大,且耗费大量的人工成本。而我国农业劳动力逐渐向社会其他产业转移,同时人口老龄化问题日趋严重,劳动力缺乏[1-2]。由于柑橘产量大,成熟期集中,季节性强,如果能在柑橘的生产过程中使用机器人进行采摘作业并对果实进行分拣,不仅可以降低劳动强度,节省有限的劳动力资源,同时也能节约人工成本,提高劳动生产率[3]。

在自然条件下的目标橘子的识别,易受光照、角度、遮挡、设备等影响。传统的目标识别算法基于手工特征配合机器学习的方法。深度学习利用其强大的特征学习能力,GPU的高速计算以及计算机硬件成本的降低等优势,在目标检测任务中得到大量应用[4]。2012年以前,目标检测主要利用Haar、HOG(方向梯度直方图)、LBP(局部二值模式)等手工特征和AdaBoost、SVM(Support Vector Machine)、DPM(Deformable Part Model)等机器学习方法。从2012年夺得ImageNet大型图像分类冠军的AlexNet[5]开始[6],卷积神经网络在图像分类展现出了无与伦比的潜力。CNN成为视觉处理最重要的工具[7],随后基于CNN的目标检测与识别也逐渐取代了之前方法的目标检测与识别,相比与传统图像处理的目标检测与识别,基于CNN的目标检测与识别无论在准确性和实时性上都取得了全面领先。目前基于深层卷积神经网络的目标检测与辨识总体可分为如下几大类[8]:①基于区域选择的目标检测与识别算法。其中代表性的有R-CNN,Fast R-CNN,Faster R-CNN。②基于回归的目标检测与识别算法。具有代表性的是YOLO,SSD。③基于搜索的目标检测与识别算法。具有代表性的有基于增强学习的目标检测与识别,基于视觉注意的AttentionNet。本文针对自然场景下的目标橘子运用两种识别模式,基于传统的目标识别方法在实验基础上选择最佳效果方案,深度学习算法的应用,本文使用Faster-RCNN这一经典算法对目标橘子进行识别。对于光照遮挡等效果较好,在一定程度上弥补了传统的目标识别算法的局限性。

1 传统目标检测

对于传统的目标检测算法,一般是对图像进行预处理,接着利用边缘检测等相关算子对目标图像的特征进行提取和识别。图像预处理可增强图像识别的对比度,突出目标特征,便于后面特征的提取。常用的预处理算法有:双边滤波、直方图滤波、中值滤波等方法,图像分割需要对目标特征进行提取,典型的是对颜色、形状、纹理等特征提取,常用的特征提取算子有:形态学运算、K-Means聚类、Canny边缘检测算子、Hough变换等。

以橘子识别为例,常用的算法用法设计流程如图1所示。

1.1 颜色空间转换

图像在不同的颜色空间下的色彩感知度不同,为了突出目标的颜色特征,通常会将图像转换到特定的颜色空间下。常用的颜色通道有RGB、HSV、Lab、YCrCb[9]。由大量实验效果可知,在大多数情况下,特定通道下的视觉表达效果比直接灰度化处理后的效果明显。图2为r、g、b通道效果图。可以直观得得出目标在r通道下效果最佳。

1.2 图像增强

常用的果实图像预处理算法主要有直方图均衡化、均值滤波、中值滤波等,这些算法在一定程度上能够去除背景噪音,弱化自然光线对图像的影响,改善图像细节与质量[10]。本文对比了同态滤波、中值滤波处理效果,图3为原图,图4为同态滤波处理效果图,图5为中值滤波处理效果图。观察图片,可知这两种滤波的特点:同态滤波提高了图像的对比度和亮度,中值滤波对边缘信息的保护效果较好。在实际图像处理中,根据每幅图像的特点选择对应的处理方法能达到更好的表达效果。

1.3 图像分割与特征提取

分割图像,可根据目标的颜色、形状、纹理等特征,简单地说,也是一个标记的过程。特征提取常用的算子有canny等边缘检测算子和K-Means聚类、分水岭算法等基于颜色的特征提取方法,提取特征后一般用SUSAN、SUFT等算子对其进行特征匹配与特征提取。图6为用Hough变换识别到的实验效果图,对于单个果实的识别效果较好。

对于单个果实且无遮挡的目标图像[11],传统的算法能胜任图像识别的要求,但要在特定的实验环境中,光照影响较大,且需要手动实时调参,泛化能力及鲁棒性较差。传统识别算法中的识别效果基本取决于人工設计的特征提取算法是否合理。但在实际应用中,橘子背景较为复杂,存在枝叶遮挡、重果、光照等问题,这些传统的目标识别算法提取的特征不足以作为各种分类器分类的最佳依据,存在漏判及错判。图7所示为因枝叶遮挡引起的漏判,图8所示为因光照导致错判。

2 深度学习

深度学习利用多层非线性信息处理来实现有监督或者无监督的特征提取和转换、模式分析和分类,用来解释如图像、声音、文本的数据[12]。其中很多算法都是以无监督学习的形式出现,能被应用于其他算法无法企及的无标签数据,这一类数据比有标签的数据更为丰富,也更容易获得。近年来,深度学习凭借较强的特征学习能力广泛应用于图像目标检测中。处理流程主要分为以下步骤:图片收集、标注清洗、训练模型、模型的评估与优化。

本文选用了较为典型的Faster-RCNN模型来识别橘子,并在Tensorflow框架下完成。Faster-RCNN中的核心RPN(Region Proposal Network)区域生成网络在feature maps基础上生成proposals,并采用softmax得到anchor属于物体或背景的概率,相比CNN系列其他的网络模型,减少了参数量和预测时间,大幅加快了训练速度。其各网络主要结构都由卷积层、激励层、池化层、RPN 层、ROI Align 层及全连接层构成。实验中模型的学习率为0.0002,在Win10系统下进行。

2.1 图像收集

深度学习需要对模型进行多次训练,需要收集大量的数据,并对目标打标。橘子较为常见,图像收集工作较为简单,本文的图像来源于两处:一为相机拍摄的图像,二是在网页上爬取的橘子图像,同时通过旋转、噪声处理等方法扩充了数据。图像中一小部分的背景较为简单,无明显枝叶或重果遮挡等问题。大部分的图像背景则较为复杂,有光照、遮挡问题。Faster RCNN在RNN的基础上改进,支持输入任意大小的图像,实验中共收集到503幅图像,并将所有图像统一像素为1280*960。

2.2 清洗标注

部分爬取的图像可能会不符合要求,因此在训练前,需要筛选一下数据集,并在标注前需对数据进行清洗。在逐一筛选中,去除不相关图像后,对图像按数字序号命名。为了检验实验效果,本文按照8:2将数据集分为训练集与测试集。清洗后,利用LabelImg标注软件对目标橘子打标签,实验共计标记有3381个对象,本文使用POSCAL VOC2007的数据集格式。

2.3 模型训练

Faster R-CNN的主要步骤为[13]。

⑴ 提取特征:利用卷积神经网络进行特征提取。

⑵ 生成候选区:利用RPN 生成k个不同大小和比例的候选区域,即anchor框。

⑶ pooling:ROI Pooling 利用 RPN 生成的候选区域和卷积神经网络提取到的共享特征图得到固定大小的候选区域特征图(proposal feature map)。

⑷ 获取要分类的目标:利用softmax对proposals 进行具体类别的分类,利用边框回归获得物体的精确位置。

Faster-RCNN的RPN框架利用神经网络自主学习,充分利用了feather maps的价值,与selective search的滑动窗口选择的方法相比,效率更高。通过xml_to_csv.py文件和generate_tfrecord.py文件将标注格式xml文件修改成TensorFlow的标准格式.tfrecord。并标记训练的目标标记名,搭建好网络环境后开始进行训练。本次实验训练迭代80k步,在数据训练中采用了断点训练。图9显示训练30k过程中的loss值变化,波动较大且训练效果不佳,图10显示训练80k的过程变化,呈趋于平稳的趋势。

2.4 模型评估

训练结束后,在测试集里选取图像进行实验检测。本文针对两种研究方法进行了大量的数据对比,表1为选取的8张图像的对比数据。相同的图像用两种方法得出的效果数据。其中有6幅图像有不同程度的遮挡、重果现象,其余两幅图上的橘子没有遮挡及重果现象。这些数据表明,传统方法在增强预处理且无遮挡的情况下,对于模糊的目标识别包括小目标的识别效果比深度学习处理效果更好,但深度学习对遮挡、重果问题更友好,这是自然条件下摘取果实面临的挑战之一。在处理中,我们可适当地加大对图像的预处理强度,与传统算法融合运用。

表1中:numbers为图像中的果实数量,numbers1为利用传统算法识别的数量;numbers2为利用Faster-RCNN算法识别的数量;covered为图像中是否有遮挡、重果现象。T表示有遮挡及重果,F则表示图像中目标无遮挡、重果现象。

3 结束语

传统的图像识别算法已研究多年,但依赖于特定的应用场景,需要手动调参,泛化能力及鲁棒性较差,对于采橘机器人,无法满足自然条件下的采摘作业任务,不能满足实际需求。随着深度学习的发展,深度学习作为人工智能重要的研究方向 通过对图像数据的学习,自主的发现图像的特征,成为广泛研究的对象。文中利用Faster-RCNN训练,对于枝叶遮挡、重果处理较好。相较于传统的识别效果,识别率提升了26%。但对于小目标的识别效果不佳,需加强学习。本文的实验数据与迭代次数太少,需进行完善。根据大量的实验数据对比,对于自然场景下的采摘机器人目标识别应用深度学习的算法效果更好。

参考文献(References):

[1] 王伟斌.采摘机器人目标识别及定位研究[D].西安理工大学硕士学位论文,2017.

[2] 张铁中,杨丽,陈兵旗,张宾.农业机器人技术研究进展[J].中国科学:信息科学,2010.40(S1):71-87

[3] 李扬.基于双目视觉的柑橘采摘机器人目标识别及定位技术研究[D].重庆理工大学硕士学位论文,2017.

[4] 王立豪.基于深度学习的目标检测研究与实现[D].西安电子科技大学硕士学位论文,2019.

[5] Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.2012.

[6] 饶倩,文红,喻文等.基于超像素的人工神经网络图像分类[J].计算机与现代化,2013.12:98-101,105

[7] 唐亚阳,刘宇.中国网络文化20年研究综述[J].湖南大学学报(社会科学版),2014.28(5):131-135

[8] 杨家启.基于深度学习的目标检测与识别[D].哈尔滨工程大学硕士学位论文,2019.

[9] 吕继东.苹果采摘機器人视觉测量与避障控制研究[D].江苏大学硕士学位论文,2012.

[10] 夏雪,丘耘,王健等.果园环境下苹果侦测与定位方法研究现状与展望[J].中国农业科技导报,2017.19(2):65-74

[11] 贾伟宽.基于智能优化的苹果采摘机器人目标识别研究[D].江苏大学硕士学位论文,2016.

[12] Bengio Y, Courville A, Vincent P. Representation learning:A review and new perspectives[J].Pattern Analysis and Machine Intelligence, IEEE Transactions on,2013.35(8):1798-1828

[13] 曹燕,李欢,王天宝.基于深度学习的目标检测算法研究综述[J].计算机与现代化,2020.5:63-69

收稿日期:2020-08-10

作者简介:任会(1994-),女,江苏连云港市人,中南林业科技大学2018级硕士研究生,主要研究方向:图像处理,目标识别。

猜你喜欢

目标识别深度学习
渡口水域安全监管技术研究
全自动模拟目标搜救系统的设计与实现
有体验的学习才是有意义的学习
动态场景中的视觉目标识别方法分析
基于PC的视觉解决方案在 Delta机器人抓放中的应用
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现