APP下载

在树柑桔果实识别与定位技术发展现状及展望

2021-04-18熊棣文孔文斌

中国南方果树 2021年2期
关键词:柑桔物体准确率

熊棣文,孔文斌,冯 洋

(1 中国科学院重庆绿色智能技术研究院,重庆,400714;2 重庆市农业技术推广总站,重庆,401121)

近年来,随着我国城镇化进展不断加快,农村劳动力流失愈发严重,能代替人力的智能农机装备需求旺盛,国家也对农机装备智能化愈发重视,多次在中央一号文件中强调加快推进农机智能化与智慧农业以及相关领域的研究,同时先后出台了《十三五农业农村信息化发展规划》《关于推进农业农村大数据发展的实施意见》《农机装备发展行动计划(2016—2025)》等中央文件推进农机装备智能化领域的发展,并将其纳入《中国制造2025》国家战略的重点内容。目前,已有不少智能化技术在农业领域开展了研究与应用,取得了振奋人心的成果。但是,在果实无人采摘领域,尤其是生长位置随机、果实生长局部空间复杂度高的树生水果的无人采摘领域,尚未见成熟的成果与应用。

柑桔作为我国第一大水果,是我国广大西南山区乡村的重要经济作物,也是乡村振兴的支柱产业。目前,正受到劳动力紧缺、劳动力成本飙升等问题的强烈冲击,急需智能化农机装备代替人工劳动力。在柑桔生产环节,果实采摘有较为严格的时限且用工密度大,劳动力需求最大,受劳动力紧缺的冲击也最严重,对通过智能化技术代替人工的需求更加急切。要实现柑桔果实的无人采摘,前提是对在树柑桔果实的精准快速识别与定位。目前,已有部分研究人员注意到这一需求,开展了相关研究并取得了一定的效果。我们对这些研究进行了整理,并分析了它们的技术路径及其在实际应用中的优缺点。同时,我们也对可用于在树柑桔果实识别与定位的新技术进行了探索、分析与总结,发现基于点云数据的目标识别与定位技术在本领域具有良好研究价值与应用前景,因此,也对该技术进行说明,并探讨其用于在树柑桔果实识别与定位的技术路径。

1 基于二维图像数据的在树柑桔果实识别与定位技术研究进展

对在树柑桔果实的识别,大多数研究是通过对二维图像数据进行处理而实现。处理手段主要有两种:一种是基于较为传统的图像处理算法,通过对图像中不同颜色通道的色彩数据进行计算,基于成熟柑桔果实与枝叶颜色不同的特点,判断图像中柑桔果实的边界,从而实现对柑桔果实的识别;另一种则是通过最近快速发展的神经网络与深度学习技术,对图像中柑桔果实的颜色、形状、边界等可用于识别的特征进行提取与学习,从而对柑桔果实进行识别。得益于卷积神经网络与深度学习技术的快速发展,在近期发表的研究成果多采用此种方法与传统图像处理技术相结合,取得了更为优秀的效果。

文献[1]中采用了基于卷积神经网络(Convolutional Neural Networks,CNN)的DARKNET19网络用于提取柑桔果树图像的特征,然后通过区域生成网络模块(Regionproposal network,RPN)和预测框特征提取分类模块基于提取的图像特征对图像进行分割,确定柑桔果实在图像中的位置,并用方框进行标记。该方法通过多重分割的方法和大量的包含多种干扰的果树图像数据取得了较好的在树柑桔果实识别准确率,但文中缺乏对果实的空间定位进行研究。

文献[2-4]都是基于双目立体视觉系统对柑桔果实进行识别与定位。此种方法首先通过传统图像处理技术在柑桔图像的不同色彩空间中基于颜色特征对柑桔果实区域进行初步识别,然后通过双目视觉系统同时采集的2幅图像中对应点的位置差计算柑桔果实在空间中的坐标。另外,双目视觉系统从不同角度同时采集的2幅图像数据可用于分辨被部分遮挡或重叠的柑桔果实。但此种方法是通过数学计算求取果实坐标,对双目视觉系统自身参数的准确性有很高要求,并且在果实识别方面传统的图像处理技术在处理不同光照条件下的柑桔果树图像时识别准确率波动较大,缺乏稳定性。

文献[5]将卷积神经网络与双目视觉系统进行了结合,柑桔果实识别准确率为86%左右,采摘成功率80%左右,其效果仍有待提升。

此外,对相似领域(类球型果实识别与定位)的研究进行整理后发现,目前在果实识别方面效果较好的多采用了基于Faster Region-CNN算法的方法。该算法可快速识别出图像数据中包含哪些目标并给出目标在图像中的区域与置信概率(即该区域中物体为识别出目标的概率)[6]。文献[7]在Faster Region-CNN的基础上提出了一种名为DeepFruits的算法,该算法首先同时采集农作物的彩色(RGB)图像与近红外(NIR)图像,然后分别通过Faster Region-CNN算法识别图像中包含的物体,并对识别结果进行概率上的融合,最终得到识别结果,此算法在实际测试中对不同种类的农产品均取得了较高的识别准确率。

文献[8]提出了一种在利用Faster Region-CNN进行农产品识别的基础上应用对极几何(epipolar geometry)理论进行农产品空间坐标定位的方法:通过将相机进行平移后采集同一农作物的两张不同角度的图片,利用Faster Region-CNN对两张图片中的农产品进行识别并一一对应,然后应用对极几何求得图片中农产品空间坐标的方法。但因采集图像时相机移动不仅降低效率,且会受到诸如定位误差、农产品中心点识别误差、相机抖动等因素干扰,实际应用中定位的准确性难以保证。

经过对上述研究成果的分析,可发现无人化柑桔果实采摘技术中最为关键的一环就是对树冠中被枝叶遮挡的果实进行准确的识别及空间定位。目前,多数研究采用了基于传统二维图像进行分析进而实现对柑桔果实的识别与定位[9]的技术路径。在实际果园环境中,这一技术路径对柑桔果实的识别与定位存在几个难点:第一,果园实际环境中,存在光照条件、枝叶遮挡、果实相互紧贴等高随机性因素,导致采集的二维图像中果实形状的完整性和果实表面颜色的一致性受到影响,使得图像分析算法难以将果实和背景进行准确区分,进而影响到最终的果实识别准确率;第二,基于二维图像的目标识别技术缺乏对目标进行空间定位的能力,因为二维图像无法保存图像区域的空间信息,无法直接对识别到的农产品进行定位,需要利用其他手段进行辅助定位[10]。因此,目前对柑桔果实的精准识别与定位仍然是柑桔果实无人采摘技术的一大难点。

2 基于点云数据的目标识别技术研究进展

如上所述,单纯基于图像的目标识别技术在柑桔果实识别与定位领域的应用主要有2大问题:一是,果园环境中采集的图像数据因光影、遮挡情况对柑桔果实识别算法造成了干扰;二是,难以直接通过二维图像对成像空间中果实的空间坐标进行计算。如果有一种数据能解决上述问题,则可大幅促进柑桔果实无人采摘技术的发展。我们对现有技术进行分析后发现,目前在无人驾驶领域发展迅速的点云数据与基于其的目标识别算法具有良好前景。

2.1 点云数据

点云数据是一个包含多个空间中数据点的集合,每个数据点包含了该点在某一空间坐标系中的坐标[通常以(x,y,z)的形式],以及可能的该点本身具有的色彩(RGB数值)、反射强度(灰度数值)等数据。点云数据中的每个数据点相对独立,但作为整体可表示点云数据采集空间(或成像空间)中包含的所有物体的表面。

点云数据采集,主要通过计算成像空间中各个物体表面上不同数据采集点到采集装置的距离、角度等数据,变换得到基于采集装置坐标的数据采集点在成像空间中的坐标。随着点云数据采集装置的发展,现在多与传统图像采集装置结合,为每个数据点增加了该点的色彩或灰度等数据,进一步增加了点云数据的使用范围。

2.2 基于点云数据的目标识别与定位技术

随着便携式点云数据采集装置(如立体视觉摄像机等)的普及,越来越多的研究人员开始研究基于点云数据的目标识别技术,相关领域的科研竞赛,如SHREC[11]等,也开始引起研究者的注意,参赛人员逐年增加,并形成了一批诸如ShapeNet[12]等拥有大量三维点云模型的公共数据仓库。基于点云数据的目标识别是通过对点云数据中各点所表示的空间结构信息进行提取进而实现对物体的识别。总的来说,此类识别算法的核心思路是对不同物体的点云数据所表征的空间特征进行提取然后通过分类器对待测点云数据中的不同点数据集合进行识别。

较为早期的方法是将点云数据转换成三维模型或体素(voxel)模型再利用神经网络进行目标识别,如3DShapeNets[13]、VoxNet[14]、Subvolume[15]等,转换后的点云数据从无序的数据集合输入变成了有序的向量/矩阵输入,大幅降低了数据点的不同排序为识别结果带来的干扰,MVCNN(multi-view CNN)[16]在此之上更进一步,将上述三维模型渲染成多个角度的二维图片再利用CNN进行识别,其对单个目标识别的结果相当优秀。但上述算法的识别分辨率受到数据稀疏度和计算能力的限制,且应用于复杂背景中的场景分割时准确率下降显著,因此文献[17]提出了一种基于八叉树(octree)的目标识别方法O-CNN(Octree-based CNN),利用八叉树对物体的体素模型进行存储并作为输入数据,然后利用CNN进行识别,此方法部分降低了体素模型在计算过程中的数据稀疏度,但因八叉树从下往上分辨率逐渐降低的特点,识别准确率有所降低。文献[18]则进一步提出了一种自适应八叉树体素模型表示方法(Adaptive O-CNN),能根据目标识别中三维结构特征与物体本身结构的误差进行自适应模型分辨率升降,部分解决了O-CNN因分辨率问题而下降的目标识别准确率。

因为根据转换后的点云数据进行目标识别在准确性方面具有一定的缺陷,有研究者提出了一种新的方案:直接将点云数据作为输入通过深度学习提取其全局特征进而对物体进行识别的算法研究。这开启了基于点云数据的目标识别新的研究方向。如:斯坦福大学的Qi等提出的PointNet[19]算法,该算法首先利用统一的多层感知机网络(MLP,Multi-layer perceptron network)对每个点数据的特征(三维坐标值)进行变换得到新的特征,然后通过一个对称函数(symmetric function)对所有新特征进拟合,最终得到物体对应的点云数据的全局特征,最后通过分类器进行目标识别或场景分割。相对于早期的三维转换方法,此方法对物体的结构特征保存更为准确,因此在较为复杂的场景下可得到更高的识别准确率。后续Qi等[20]更进一步提出了PointNet的层次化应用结构,被称为PointNet++,通过对局部点云数据应用PointNet,实现对局部特征的提取,以实现物体部位标记。SO-Net[21]也提出了类似的结构,提高了在场景分割方面的应用效果。

PointNet算法给基于点云数据的目标识别领域带来了新思路,吸引了大量研究人员在此领域开展研究。文献[22]针对PointNet及类似算法对经刚性变换(旋转、缩放、平移)后的物体点云数据识别效果不佳的问题,提出了一种新的算法——3DTI-Net。此算法在PointNet的特征提取方法基础上加入了基于无向图的点云数据局部三维结构表示方法,并通过基于图卷积网络(graph convolution network)对该无向图进行特征提取:将每个数据点作为节点,将点两两连接作为边,每条边的权重为其连接两点的欧氏距离。因此,经过图卷积网络提取后的特征可在一定程度上表示物体的三维结构,结合PointNet算法提取的物体全局特征,可提高对物体的刚性变换结果的识别准确率。

文献[23]提出了一种利用径向基函数(RBF)的局部空间特征表示方法,利用RBF仅能作用于临近的点数据的特点,通过在深度学习模型中加入含有多个RBF核心的RBF层对点云数据的局部空间特征进行提取。但此方法性能依赖于对算法的优化,对同一物体设置的核函数、核尺寸以及中心点等参数不同可能导致准确率在±(10%~20%)的范围内浮动。

文献[24]将Region-CNN的思想与PointNet进行了结合,提出了一种名为Generative Shape Proposal Network(GSPN)的算法用于场景分割。其核心思想是通过学习点云数据中某个点数据属于某个自然物体(类别)的条件概率分布,然后根据分布对点云数据中某个点及其邻居进行迭代式采样,生成点云数据中该部分点所属的物体(类别)的最大拟合,进而实现场景分割。此方法的场景分割过程实际上可以看作是从场景中某个点开始的一种物体生成过程,故被称作生成式(generative)。

文献[25]则借鉴了PointNet中学习点云数据特征表示的思路:首先根据输入的点云数据学习一种χ变换;之后利用该变换对点云数据输入中每个点的相关特征赋予权值并对点云数据进行排序;然后通过CNN算法进行特征提取;最后进行分类。该算法可更准确地识别点云数据中的局部结构。

2.3 在农产品采摘中应用的挑战及发展方向

基于点云数据的目标识别与场景分割技术目前已出现了相当数量的成果。因点云数据可保存空间信息的特点,其在目标识别、场景分割等领域具有一定的优势,正好满足对柑桔果实的识别与定位的关键技术需求。目前,在农产品识别领域已出现了一些相关的研究,但综合现有的一些成果来看,还存在较大的研究空间。

文献[26-27]提出了一种结合点云数据与图像数据的农产品识别与定位方法:首先根据农产品的颜色/反射特性与枝叶等表面有较大差距的特点对RGB图像中的高光区域进行识别,并求取高光区域附近像素强度(intensity)变化的梯度向量场;然后根据梯度向量分布的规律对RGB图像以中疑似农产品存在的感兴趣区域(ROI,Region of Interest)进行标记,并对应到点云数据中;然后通过对点云数据中的ROI进行对称平面识别,最终实现农产品的识别以及定位。但是,此方法在试验中效果并不理想(文献[26]中的试验结果显示其方法的平均识别正确率55%,平均对每帧数据进行处理的时间高达197s),且易受到农作物生理特性与环境光照条件的影响,因此该方法较缺乏应用价值。

文献[28]提出了与上述技术路线相反的方法,首先直接对点云数据进行对称平面识别从而得到疑似农产品的点云数据ROI区域,然后通过对RGB图像中对应区域的颜色进行处理从而实现农产品识别。但此方法因点云数据的分辨率通常较RGB图像低,上采样过程易出现错误映射,降低了识别准确率。

文献[29]提出了另一种思路,先对点云数据进行处理再通过RGB图像进行农产品识别与定位:首先将点云数据转换为三角网格模型;然后根据三角网格尺寸,从大到小进行凸面重建;再根据重建后每个曲面在RGB图像中的对应区域的颜色实现农产品识别与定位。此方法降低了标记结果受到的光照条件干扰,并提高了处理速度。不过此种方法在曲面分割时对点云数据分辨率要求较高,且易受到噪声数据的干扰,因此在后续研究中需要考虑如何提高点云数据分辨率以及减少噪声的干扰问题。

文献[30]提出了先通过全卷积网络(FCN,Fully Convolutional Network)对RGB图像进行ROI标记,然后通过点云数据对枝干进行标记,根据果实仅生长在枝干附近的特点综合枝干与ROI标记结果进行果实识别与定位。此方法提供了一种全新的思路,也具有一定的研究前景。

从上述文献可见,目前的研究尚未将最前沿的点云数据处理技术全面应用。如:上一节中提到的基于深度学习的点云数据识别与场景分割算法尚未见在柑桔果实无人采摘领域有所应用,而这一类算法在室内、道路等场景的应用中已取得了优秀的成果,能对场景中的各种物体准确识别、定位。因此,我们认为,将基于深度学习的点云数据识别与场景分割算法应用于在树柑桔果实识别与定位领域可以为该领域带来新的突破。抛砖引玉,这里我们提出一种较为直观的技术路径:直接通过深度学习模型对柑桔果树的点云数据进行处理,因成熟的柑桔果实在颜色与表面形状等特征上与枝干、叶片差异明显,深度学习模型能较为准确地提取柑桔果实的特征,进而可以在点云数据中将属于柑桔果实的数据点标记出来,形成一个个子集代表识别出的柑桔果实,最后通过对每一个子集中的点进行球面拟合即可得到每个果实的空间坐标。

3 小结

我们对在树柑桔果实识别与定位领域目前的发展情况以及相关研究方向进行了较为详细的分析,总结出了该领域的关键技术问题:一是实际果园环境中柑桔果实生长、光照条件等因素随机性高,限制了对柑桔果实的识别准确率;二是现有技术缺乏对空间位置的感知能力,需要通过一定的手段对空间进行估算,影响了柑桔果实的定位精度。这些关键问题影响了柑桔果实识别与定位技术的发展,进而影响了柑桔果实无人采摘技术的发展,阻碍了我国农业信息化、智慧化进程。我们结合目前的技术发展趋势,对在树柑桔果实识别与定位领域未来发展方向进行了展望,发现基于点云数据的目标识别技术在柑桔果实识别与定位领域具有良好的应用前景,并对其进行详细的介绍与分析。

猜你喜欢

柑桔物体准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
深刻理解物体的平衡
我们是怎样看到物体的
高速公路车牌识别标识站准确率验证法
柑桔无公害栽培技术研讨
柑桔树青苔病的发生与防治
柑桔园冬季管理技术
柑桔砂皮病研究进展