基于深度掩码的玉米植株图像分割模型

2021-11-24邓寒冰许童羽周云成沈德政

农业工程学报 2021年18期

邓寒冰，许童羽，周云成，苗腾,3，李娜，吴琼，朱超，沈德政

基于深度掩码的玉米植株图像分割模型

邓寒冰1,2，许童羽1,2※，周云成1,2，苗腾1,2,3，李娜1,2，吴琼1,2，朱超1，沈德政1

（1. 沈阳农业大学信息与电气工程学院，沈阳 10866；2. 辽宁省农业信息化工程技术研究中心，沈阳 10866；3. 北京农业信息技术研究中心，北京 00097）

随着深度学习技术在植物表型检测领域的应用，有监督深度学习逐渐成为植物表型信息的提取与分析的主要方法。但由于植物结构复杂、细节特征多，人工标注的成本和质量问题已成为制约技术发展的瓶颈。该研究针对玉米苗期植株图像分割问题提出一种基于深度掩码的卷积神经网络（Depth Mask Convolutional Neural Network，DM-CNN），将深度图像自动转换深度掩码图像，并替代人工标注样本完成图像分割网络训练。试验结果表明，在相同的网络训练参数下，通过测试DM-CNN得到的平均交并比为59.13%，平均召回率为65.78%，均优于人工标注样本对应的分割结果（平均交并比为58.49%，平均召回率为64.85%）；此外，在训练样本中加入10%室外玉米苗期图像后，DM-CNN对室外测试集的平均像素精度可以达到84.54%，证明DM-CNN具有良好的泛化能力。该研究可为高通量、高精度的玉米苗期表型信息获取提供低成本解决方案及技术支持。

图像分割；模型；图像处理；玉米；深度掩码；植物表型；深度密度函数

0 引言

随着越来越多的视觉传感器应用于植物全生长期信息采集过程，计算机视觉技术逐渐成为植物表型组学领域的研究重点。如何快速、高精度地获取植物表型信息一直都是该领域研究的技术难点，而图像分割方法是解决该问题的一个重要技术手段。

传统的图像分割对象主要分为灰度图像和彩色图像，由于人眼对复杂图像只能识别几十个灰度等级，同时分割场景不断复杂化，对分割技术的算法要求也愈加严格，因此在多数情况下只利用灰度信息无法从背景中提取目标，必须借助于彩色图像[1]。彩色图像分割有很多方法，基于颜色和空间特征可以将图像分割分为有监督和无监督。目前，大量成熟的有监督算法（如最大似然、决策树、K-最邻近、神经元网络等）已经可以利用不同颜色空间实现果实、植株、叶片和根系等图像分割[2]。而对于无监督方法来说，聚类算法是这类方法的首选，Jiao等[3]基于图聚类与高级语义相结合的无监督分割方法，将给定的图像过分割成一组超像素，在底层视觉特征中加入图像显著性作为人类感知的先验知识，提高了无监督图像分割的精度。此外，彩色图像作为多光谱图像的一个特例，从数据类型、预处理方法、特征提取方法、算法效率等几个方面看，任何适用于多光谱图像的分割方法也都可以用于彩色图像分割[4]。而大部分适用于灰度图像的分割方法（直方图阈值法、聚类法、区域增长、边缘检测、模糊算法等）也可以扩展到彩色图像，其原理是将彩色图像划分为多个颜色空间分量（如RGB、HSV、Lab空间分量），在不同的颜色空间分量上使用灰度图像的分割方法，通过找到特定区域内的特征相似性，对像素进行聚类可获得分割结果[5]。为了提高分割大尺寸图像的算法效率，超像素算法也成为计算机视觉领域的一个重要手段，将大尺寸图像均匀分成固定的初始区域，在区域内将近似像素聚合成超像素，降低后续计算的算法复杂度[6]。

在传统计算机视觉、机器学习等方法的支撑下，植物表型检测领域的研究人员已经将算法集成到软硬件平台上，为植物表型信息高通量获取提供工具和技术手段。Jin等[7]从表型特征传感器、地面和空中表型平台应用两个方面进行阐述，通过分析图像、叶绿素荧光图像和热红外图像等信息，实时量化植物生长过程，光合作用情况等，为大规模、多维度的植物表型信息获取与分析提供了全面的一体化的解决方案。Filipa等[8]设计了rosettR系统，用于在无菌环境下计算植株幼苗期花环总面积，面积差代表不同基因型之间的生长差异，以及对光照条件和渗透的胁迫，利用混合模型设定阈值，将前景与背景分离，同时基于特征排序实现植株图像的精准分割；Zhou等[9]人设计了Leaf-GP系统，该系统可以用于不同的计算平台，实现拟南芥和小麦的高通量信息获取，通过提取RGB图像中的高绿值区域来区分叶片颜色与土壤表面藻类颜色，同时利用叶片端点围成的区域，获取该区域叶片分割图像；Massimo等[10]设计了Phenotiki系统，对拟南芥形体、生长过程、叶片颜色和叶片数量进行统一分析，利用半监督学习算法实现对叶片区域的自动分割过程。

传统的图像分割算法主要是基于图像的纹理、颜色、形状等人工设计的底层特征对图像进行分割，分割精度受人工因素制约，算法缺少普适性和迁移性。而随着深度学习技术的发展，人们利用深度神经网络从原始图像中自动抽取图像的多尺度特征，并通过上采样方式将特征图恢复到与输入图像相同的分辨率，实现对目标的端到端、高精度、像素级图像分割[11]。特别是随着深度学习和迁移学习的融合，利用“预训练+调优”（Pre-training + Fine-tuning）的方式可以使模型泛化能力得到提升，使用迁移参数来初始化深度学习网络，以提升网络性能[12]。目前，深度神经网络已经成为实现语义分割[13-14]、实例分割[15-16]和全场景分割[17-18]的首选模型。特别是在植物表型信息的提取方面，由于植物的生长环境和品种的差异都会造成其植株、器官、果实等图像信息差异性较大，很难通过人工特征提取方式实现高精度图像分割。因此，国内外研究机构已经尝试将深度学习技术应用于植物表型信息获取与表达。

Sa等[19]通过改造Faster R-CNN模型，从颜色和近红外两种模式提取特征信息，实现甜椒的快速检测。Pound等[20]利用改进后的CNN模型，实现对于小麦根系、叶片、叶根、穗尖和穗根等部位的识别，发现了部分小麦生物学性状与关键基因点位的关联。Dyrmann等[21]提出一个基于全卷积神经网络的自动杂草识别方法，该方法在强叶片遮挡条件下可以识别谷物生长区域的单株杂草实体，该团队还利用CNN实现对22种植物种类的分类，准确率在86.2%[22]。Mostafa等[23]利用三种深度学习模型来识别植物类别，通过迁移学习的方式对预训练模型进行调优处理，通过数据增强和参数控制，提高了网络的识别能力并降低了过拟合。Yalcin等[24]利用深度学习框架来识别若干种植物的物候期，采用预训练的卷积神经网络自动提取图像特征，其试验结果表明CNN在物候期判别方面由于基于手工特征的机器学习算法。

在深度学习技术的推动下，国内研究人员也广泛开展相关的研究工作，试图从利用深度学习模型简化特征提取过程，提高植物表型特征的提取精度。段凌凤等[25]基于SegNet模型构建了PanicleNet深度卷积神经网络，利用模型将原图像划分出的子图像进行分割，在拼接子图得到稻穗图像分割结果。刘立波等[26]针对全卷积网络分割精度低的问题，提出一种结合条件随机场的改进全卷积网络模型，实现棉田冠层图像分割，平均像素精度为83.24%。陈进等[27]通过改进U-Net网络，增加网络深度和批量归一化层，实现水稻收获籽粒图像分割，解决由于训练数据少造成的过拟合问题。任守纲等[28]提出一种基于反卷积引导的VGG网络模型，利用反卷积全连接层实现番茄叶部病害分割，在遮挡和弱光条件下具有强鲁棒性。张善文等[29]利用编码-解码网络结构，提出一种基于多尺度融合卷积神经网络，实现了在复杂背景下的黄瓜病害叶片病斑区域分割。项荣等[30]设计一种基于最大类间方差法的改进脉冲耦合神经网络模型，对原模型中链接输入项进行加权处理，实现了番茄植株夜间图像分割。

大部分深度学习方法都是基于有监督学习模式，即利用人工标注的数据样本对深度学习模型进行训练，进而得到具备一定泛化能力的网络模型，实现对目标对象的分类、目标检测、图像分割等计算机视觉任务。然而，在对植物进行人工标注时，由于植物本身结构复杂、细节内容较多、空间遮挡等问题，标注难度远超过常规标注任务，这导致标注时间增加，标注精度下降等问题，提高了人工标注的成本。为了能够解决这问题，本研究以玉米植株为研究对象，提出一种基于深度掩码的卷积神经网络（Depth Mask Convolutional Neural Network，DM-CNN），在原Mask R-CNN[31]的基础上增加了深度掩码通道，该通道利用深度相机获取的深度图像，自动产生深度掩码图像，为训练过程自动提供玉米植株的标注信息，降低了人工标注成本，同时简化了室内环境下基于有监督学习的玉米植株表型信息获取过程。

1 材料与方法

1.1 试验材料和数据采集

试验选择的玉米品种为“先玉335”，自选系PH6WC为母本、PH4CV为父本组配而成。PH6WC是从PH01N× PH09B杂交组合选育而成，来源于Reid种群；PH4CV是从PH7V0×PHBE2杂交组合选育而成，来源于Lancaster种群。该品种幼苗绿色，叶鞘紫色，叶缘绿色，花药粉红色，颖壳绿色，株型紧凑，成株叶片数19片左右，具有高抗茎腐病、中抗黑粉病、弯孢菌叶斑病、大斑病、小斑病、矮花叶病和玉米螟等，其优越的抗病性可以让玉米在其营养生长期保持个体健康和株形完整。此外，为了增加玉米苗期植株形体的多样性，本试验分别选取玉米营养生长期30～35 d的植株作为研究对象，单体株高在25～120 cm范围内。

试验的图像采集设备为Kinect传感器2.0（彩色镜头分辨率1 920×1 080，30FPS；深度镜头分辨率512×424，30FPS），该设备可以在同一时刻采集镜头范围内的彩色信息和深度信息。由于本研究提出的图像分割模型对于深度图像有精度要求，考虑到Kinect利用结构光来计算目标到摄像头距离，而室外自然光源会严重干扰传感器对目标距离（深度值）的估算，因此本试验在室内环境下采集玉米植株深度图像信息。官方提供的Kinect传感器2.0的最优拍摄距离为0.5～4.5 m，因此本试验将传感器的拍摄位置固定，与拍摄对象（玉米植株）保持约2.0～2.5 m的距离，玉米植株与背景布有0.5～1.0 m的距离，这样可以保证背景布和玉米植株都在Kinect的有效拍摄范围内，具体的试验场景布局如图1所示。

试验选取了400株玉米苗期植株，植株高度范围是25～120 cm。在试验中传感器是固定的，玉米植株被放置在可旋转底座上，通过旋转底座可以从不同角度对玉米植株进行拍摄取样。试验分别选取了8个拍摄角度进行拍摄，即可以获得的原始图像样本包括3 200张彩色图像（RGB图像）和3 200张深度图像（灰度图像）。其中彩色图像包括训练样本（2 600张）、验证样本（400张）和测试样本（200张）。样本集采用同分布抽样形成每类样本集，保证所有高度的玉米植株在不同样本集的分布是相同的。

由于本试验要基于Mask R-CNN模型对人工标注样本和深度掩码标注样本的训练效果和实例分割精度进行对比，因此需要将彩色图像与深度图像的像素进行像素映射，以保证深度图像与彩色图像在空间内容上的一致性。由于微软提供的像素映射函数会在RGB图像中生成大量的噪点，而大部分的噪点会出现在玉米植株叶片附近，这会影响模型训练中的特征提取效果，因此本研究通过直接调整RGB图像与深度图像的大小和显示区域使2种图像实现内容上的近似映射。

为了在训练过程中使用高分辨率的图像，试验选择分辨率为1 024×1 024的图像作为训练样本，避免出现图像目标对象缺失，同时保证Kinect在拍摄较矮植株（20～50 cm）信息完整，本试验在训练之前，先将彩色图像与深度图像进行像素近似映射处理。由于初始RGB图像的分辨率为1 920×1 080，而目标植株的拍摄位置位于幕布的中心区域，在不改变原始RGB图像分辨率的前提下，本试验直接在原始的图像中心区域获取分辨率为1 024×1 024大小的彩色图像；同时对于深度图像，根据Kinect相机的内参和外参将深度图像向彩色图像进行像素映射，在多次调整和匹配后，发现可以通过扩充、裁剪等方式将原深度图像的分辨率扩展为1 024×1 024，并保证RGB图像与深度图像内容上的近似映射。具体做法是首先将深度图像的高和宽分别扩大为原图像的1.437倍，然后选取图像中行坐标为25、列坐标为18位置的像素作为裁剪区域的左上角，截取分辨率为700×540的图像，再通过双线性内插操作将截取区域放大到分辨率为1 400×1 080的深度图像，最后在中心区域截取1 024×1 024像素的深度图像，这时的深度图像与彩色图像可以实现像素映射，而这些处理后的深度图像，可以用于生成深度掩码标注样本，且在样本数量和样本内容上与RGB图像的样本集合保持一致，具体操作过程如图2所示。

1.2 试验过程和模型

本研究提出了一种利用玉米植株的深度图像，自动生成植株目标区域掩码的方法，利用该方法产生的标注信息实现网络的自动训练和图像分割，模型训练和图像分割过程如图3所示。在Mask R-CNN网络的基础上增加深度掩码通道，将深度图像自动转换成可供网络训练的掩码，以替代人工标注过程来产生标注样本。此外，将网络的训练过程分为两个阶段，利用小批量样本训练模型的目标识别能力，让网络能够识别玉米植株并产生一个目标区域；深度掩码生成算法可以利用该目标区域产生玉米植株的掩码，用于第二阶段的网络训练，同时第二阶段的训练过程也可以共享第一阶段的权值，加速训练收敛。最终，训练后的网络模型可以用于分割玉米植株图像。

1.3 平台与性能参数

由于试验后期需要对不同样本集训练的模型进行测试和对比，为了加速样本训练速度，本试验分别将不同训练集对应的训练任务分配到1台工作站和1台服务器上完成。不同的平台主要存在图形处理器性能上的差异，只会影响训练总时长，对训练结果不会产生影响。详细平台的相关参数如表1所示。

图3 利用自动生成的深度掩码实现深度掩码卷积神经网络的训练及图像分割

表1 试验平台参数

在试验过程中记录了不同显卡在处理相同任务所耗费的时间，Tesla K40图形处理器在处理2 600张图像（分辨率为1 024×1 024）所耗费的时间约为5 000 s，而NVIDA 2080Ti图形处理器在处理相同任务耗费的时间约为1 500 s，可以看出后者图形处理器由于其核心数和显存带宽较大，因此在训练时长上明显低于Tesla K40图形处理器，对于相同的任务至少能节约2/3的时长。

1.4 网络构建与参数设置

深度卷积神经网络对图像的特征提取效果直接决定最终的图像分割的结果。本试验使用的玉米植株图像类别单一、场景简单，但对玉米植株的株形、叶片细节等部分的特征提取有较高的要求，因此本研究在选择特征提取网络时，利用多层小尺寸卷积核来组合出更多的细节特征，进而表达玉米植株的关键属性。但当无限制的增加卷积层数并不能带来特征提取性能的无限提升，反而会导致网络收敛变得更慢，分类精度也变得更差，产生“越深越差”的现象。为解决这一问题，He等[32]在2016年提出了残差卷积神经网络（ResNet），利用残差学习方法彻底解决了深度卷积神经网络“越深越差”问题，在网络中嵌入了基本的残差学习模块，通过使用多个残差网络层来学习输入输出之间的残差表示，该研究表明使用一般意义上的残差层来学习残差比直接学习输入、输出间映射可以获得更快的收敛速度和更高的分类精度。目前，ResNet已经成为图像基础特征提取的主要模型，文献[32]一共给出了5种深度的网络结构（ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152），其中ResNet-152在ImageNet数据集上的top-1和top-5的分类错误率方面表现最好，但考虑到本试验使用的样本量相对少且类别单一，对于越深的网络出现过拟合的风险就越大，而且ResNet-101在ImageNet数据集上的top-1和top-5分类错误率方面同样非常优秀，因此本试验选择ResNet-101作为特征提取网络，用来完成玉米植株图像的特征提取任务。Mask R-CNN[31]是He团队在2017年提出的实现端到端的像素级别的图像实例分割模型[32]。其在Faster R-CNN基础上发展而来，除了Faster R-CNN结构中的bounding-box回归分支和分类分支之外，又增加了预测目标掩码的分支，用于在bounding-box区域内产生不同对象的像素级别的二值掩码，将目标检测和对象分割并行处理，取得非常不错的实例分割结果。2018年，He又对Mask R-CNN进行了优化，实现了常规场景下的全目标的实例分割[34]。

Mask R-CNN和ResNet在卷积层部分是共享权值的，因此本试验首先利用公开数据集对ResNet的进行预训练，用于提高Mask R-CNN模型中卷积层的泛化能力和特征提取能力。本研究以微软的COCO[35]数据集训练后的ResNet-101卷积层参数对Mask R-CNN的卷积层进行参数初始化。由于本试验只针对玉米植株做实例分割，与文献[31]中所用到的数据训练样本不同。因此，针对网络训练中的调优过程（fine-tuning）要在原方法的基础上进行调整。首先，将网络训练的调优过程分成两个阶段，第一阶段仅使用小批量的人工标注图像来训练，该过程主要是用于训练模型中的区域推荐网络RPN（Region Proposal Network）部分，提高网络对相同场景下玉米植株位置信息的定位精度，该位置信息将用于限定计算深度掩码标注时的区域范围，此外第一阶段的训练结果可用通过权值共享方式给第二阶段的训练来使用。第二阶段则利用深度掩码产生的标注信息和RGB图像进行常规训练，直到网络输出的总损失值收敛于0值附近，则训练结束。为了提高对株形偏小的玉米植株的特征提取能力，在推荐框的锚定尺度（anchor scales）上增加了16像素的标准值，具体训练参数如表2所示。

表2 模型训练的关键参数及初始值

2 基于深度掩码的图像分割优化

2.1 基于深度掩码的实例分割网络模型构建

人工标注成本是制约有监督学习发展的一个主要问题，对于植物这种结构复杂、细节较多的研究对象，其标注的效果也会因人而异，经常会出现关键位置不能完全与物体边缘形态一致的问题，与目标对象的真实信息存在一些差距。此外，人工标注的图像样本对于描述完整的物理世界场景来说还是不够的，而无监督学习目前主要用于解决的聚类问题上，其精度也不足以实现植物细节信息的描述。因此，需要找到一种折中的方法来减少人工标注的工作量，同时能够较好地描述视觉场景。为此，研究人员尝试利用多种模态数据描述场景信息，通过模态之间内容的空间一致性来实现不同模态之间的信息补充，以不同的角度来描述场景中的目标信息，提高多模态数据对物理世界的描述能力。

本研究从多模态机器学习的角度出发，针对玉米植株研究如何在可控的室内场景下利用深度图像来代替人工标注图像，实现无人工标注样本的有监督深度学习。为此，本研究提出了深度掩码卷积神经网络（DM-CNN）模型，利用深度图像生成深度掩码标注，并将这个标注信息将连通彩色图像一起输入到Mask R-CNN网络中进行训练，具体如图4所示。其中深度掩码标注过程包括3个步骤：1）利用深度密度函数产生深度密度图；2）结合深度密度图提出一种最邻域填充法，用于补全深度图中的噪声点，让深度图所表示的内容更接近彩色图像；3）求得二值掩码图像的最大连通域，获得完整植株的标注信息。

注：Conv:1,1,64表示一个卷积层，该卷积层的卷积核大小为1×1，通道数为64，以此类推；ddx,y为深度密度函数，具体内容如式（1）所示；Lb为网络边框损失值，Lrb为网络中RPN（Region Proposal Network）模块输出的边框损失值，Lc为网络输出的分类损失值，Lrc为网络中RPN（Region Proposal Network）模块输出的分类损失值，Lm为网络输出的掩码损失值（详见2.4章节）。

2.2 深度密度函数

本研究使用的深度密度（Depth density）函数是在文献[36]中第一提出，主要用于计算深度图像中每个像素与其相邻区域其他像素深度值的近似程度推论出该像素是处于物体边缘还是物体表面。但是文献[36]中并没有考虑像素之间的距离对深度密度计算的影响，该算法会在玉米植株表面位置生成大量噪声。因此，本研究对深度密度函数进行改进，加入了像素距离的概念，同时在计算过程中不对像素进行归一化处理，同时利用求和函数来代替积分过程，最大程度的保证了原深度图像中不同位置的像素实际深度分布情况。

设深度图像的尺寸为×，其中为图像的高度（像素行数），为图像的宽度（像素列数）；d,y为图像上(,)位置的像素的深度值，其中深度值由灰度值表示，取值范围为[0,255]之间的整数；dd,y表示图像上点(,)对应的深度密度值，其表达式如式（1）所示。

式（1）中的表示转换函数，其中包含3个参数，表示图像上以点(,)为中心，以·为大小的计算区域；Δ表示区域内的像素距离差。式（1）可以解释为：深度密度函数是以深度图像上(,)点为中心，在区域内，利用像素距离算子Δ的计算像素点(,)与该区域内其他像素点的深度值相似概率。

为了求解式（1），本研究首先给出几个参数定义：

表示以(,)点为中心、区域内的各像素点深度与d, y的方差，如式（3）所示。

dist,y(,)表示在区域内，像素点(,)与中心点(,)之间的像素距离，如式（5）所示。

对于区域内的任意像素点，该点与中心点(,)的像素距离差如式（6）所示。

在计算深度密度值时，本研究选择高斯分布函数作为算子，如式（7）所示。

则对于深度图像中的点(,)，其与区域中的深度均值的近似度可以如式（8）所示。

同样，对于深度图像中的点(,)，其与区域中其他像素点之间的深度近似程度可以如式（9）所示。

根据上述公式可以得到深度密度函数，如式（10）所示。

利用公式10计算得到的深度密度dd,y的取值区间为(0,1]。其中，深度密度值越接近于0表示该点与该区域的整体深度值分布情况差异很大，则该点属于深度图中的边界像素或者噪声像素的概率较高；深度密度值越接近于1表示该点与该区域的整体深度值分布差异较小，则该像素点位于物体表面的几率较大。这就证明了如果一个像素点的深度密度接近于1，则该点有很大概率与其周围·范围内的像素点属于同一物体。基于这一原理可以对全卷积的分割结果进行优化。加入像素距离算子前后的深度密度图像如图5所示。

2.3 最近邻域像素填充法及深度掩码获取

利用改进后的深度密度函数得到深度密度图，可以很好地反映出任意像素点在深度图中的深度分布情况（物体表面或物体边缘）。但该函数对于深度图中的初始噪声是无法修正的，噪声主要存在于目标对象的边缘位置上，覆盖了许多玉米植株的细节信息，造成深度信息缺失，这会影响深度卷积神经网络的训练精度。为了解决这一问题，本研究提出了一种最近邻域像素填充方法，首先统计深度图像中水平或垂直两个方向的灰度分布情况，再根据噪声区域最近邻域的灰度分布情况动态填充噪声产生的灰度低洼区域，将噪声转变成有效灰度，减少噪声对深度图的影响。具体算法如下：

1）对深度图像中的灰度进行分级处理，默认分8级灰度，形成分级深度图像；

2）遍历分级深度图像，找到该图像中像素最多的像素级，将该级灰度值作为背景灰度；

3）以1像素为单位，按序遍历分级深度图像中的水平或垂直方向上的像素线，对于在同一条像素线任意位置相连的两个像素，如果后面像素的值与前面像素的值相等，则后面像素归属于前面像素的像素集合，否则为后面的像素新建一个像素集合，最终在像素线上划分多个不同像素值的像素点集合；

4）遍历这些像素集合，如果当前像素集合的像素值低于相邻两侧像素集合的像素值，且当前像素的深度密度值小于0.5（边缘噪声可能性较大），则相邻两侧中像素值较低的像素填充给当前区域；如果两侧像素集合中较低像素值等于背景灰度值，则不用进行填充；

5）判断当前图像是否成为二值图像，如果是则输出图像，如果不是则返回步骤3；

6）算法结束，输出的二值图像中像素值较低的为目标区域，像素值较高的为背景区域。

算法的执行效果如图6a所示。在得到二值图像后，使用网络中推荐框分支输出的位置信息来限定二值图像中的对象所在区域，通过阈值分割即可得到背景前玉米植株的图像信息，结果如图6b所示。虽然玉米植株的整体信息已经显示出来，而叶片边缘细节部分还存在很多的噪声。为了获取图像中更准确的目标边缘点信息（即深度掩码边缘信息），对图6b求最大连通域，得到的最大连通域如图6c所示，可以看出噪声与原阈值分割结果相比少了很多。在求得最大连通域基础上，可以利用3×3大小的核来查找连通域上的边界点，当核中心点值为1（白色），而其他位置有0值点（黑色）时，则该中心点为边界点。而这样就可获得整个连通域边缘的全部坐标信息，形成深度掩码信息。

2.4 损失函数与评价指标

本研究分别利用人工标注样本、深度掩码标注样本进行了网络模型的训练和验证，试验中主要记录6种损失值的变化，分别包括：

1）：网络输出的总损失值；

2）Lb：网络输出的目标框（或称目标区域）损失值；

3）Lc：网络输出的分类损失值；

4）Lm：网络输出的掩码损失值；

5）Lrb：网络中RPN（Region Proposal Network）模块输出的目标框（或称目标区域）损失值；

6）Lrc：网络中RPN模块输出的分类损失值。

在计算损失函数过程中，由于训练样本中相同生长阶段的玉米植株特征比较相似，而且数据集中只有选定1个输出类型（num_class=1），因此如果学习率设置偏高时，会导致训练中计算Lrc和Lm时出现数值溢出。但是如果单纯降低学习率，又会让模型收敛变慢。因此在训练模型过程中对损失函数进行了调整，对Lrc和Lm进行加权处理，如式（11）所示。

对Lrc和Lm分别乘上一个加权系数0=10、1=10，通过提高分类损失函数初始值来减缓其梯度下降的趋势。此外，为了验证网络模型的图像分割精度，本研究选取3种实例分割的评价指标，分别为平均像素精度、平均召回率和平均交并比。其中平均像素精度（mean Pixel Accuracy，mPA）如式（12）所示。

平均召回率（mean Recall Accuracy，mRA）如式（13）所示。

平均交并比（mean Intersection over Union，mIoU）如式（14）所示。

式（12）～式（14）中，TP表示真正例，FP表示假正例，FN表示假负例，inst表示全部测试图片集，class表示测试集中的类别数，由于本研究只针对玉米植株一种类别进行处理，因此class=1。

3 结果与分析

3.1 样本真值获取

为了测试深度图像产生的深度掩码标注信息在网络模型上的训练效果，同时与基于人工标注样本训练的模型分割结果进行对比，首先需要获得彩色图像中的玉米植株的真实分割区域（真值图）。不同于以往的深度学习方法（以人工标注区域作为真值），本试验要比较人工标注样本与深度掩码标注样本在训练模型后的实例分割精度差异，因此如果以人工标注区域作为真值，那么基于人工标注样本训练出的深度学习模型将会在分割精度上有更高的概率接近于真值，这样的对比缺乏公平性。因此，在图像采集使用了蓝色背景，这有利于实现在彩色图像中对玉米完整植株形态信息的提取任务。提取过程主要用到颜色阈值，在室内光照环境不变的情况下，通过提取并对比玉米植株位置和背景位置的颜色直方图，分别得到玉米植株区域和蓝色背景区域各自特有的红色、绿色、蓝色区间，利用颜色阈值来获得玉米植株的连续像素区域，并以此作为真实图。通过对比不同区域的颜色直方图，构建颜色阈值，去掉不符合颜色区间的像素点，效果如图7所示。从图中可以看出，在室内场景下（蓝色背景）利用颜色直方图获取的植株信息比较完整，可以用来作为真值图像来验证深度学习模型的实例分割精度。

3.2 人工标注样本与深度掩码标注样本对比

为了保证两种不同样本训练过程的公平性，在对DM-CNN模型进行训练时，采用与Mask R-CNN相同的参数进行初始化（如1.4节中表2所示）。试验首先利用室内样本进行对比，分别利用人工标注样本和深度掩码标注样本来训练DM-CNN模型，图8给出了这两种样本的各自对应的6种训练损失和6种验证损失分布情况。从图8中可以看出，对于训练过程中的、Lb、Lm和Lrb这4种损失值，两种数据集有相同的收敛趋势，深度掩码标注样本集合对应的损失值下降得更明显一些。而对于Lc和Lrc，深度掩码标注样本的收敛速度更快。对于验证损失值函数，两种数据样本集对应的6种损失值变化趋势相近，特别是对于Lb和Lm，二者的损失变化分布非常接近，而DM-CNN在验证过程中损失函数更为平稳。这说明深度掩码标注样本对于训练深度卷积神经网络能够获得与人工标注样本相似的稳定性。

此外，为了验证本方法在面对复杂环境下玉米植株图像实例分割的有效性，试验采用了迁移学习的思路，分别在原样本中用室外玉米植株样本替换一定比例（10%）的数据。为保证试验对比的公平性，训练数据集同样分为2种类别：第一种是在原室内人工标注样本的基础上，用10%比例的室外人工标注数据替换其原有数据（即90%室内人工+10%室外人工）；第二组是在原深度掩码标注样本的基础上，用10%的室外人工标注数据替换其原有数据（即90%室内深度掩码+10%室外人工）。利用这2类训练数据训练网络，其过程如图9所示，从图中可以看出，即使在原深度掩码训练集中少量替换了一些具有复杂背景的玉米植株图像（室外人工标注样本），其对应的6种损失函数的收敛过程仍略优于人工标注样本。这说明使用深度掩码标注样本训练的网络对于迁移学习也有很好的适应能力。

3.3 结果分析

为展示DM-CNN对于玉米苗期不同株高的图像分割效果，本试验根据玉米株高将室内测试集（Indoor set）图像分为3个子集，对应的株高范围分别为0～40、40～80和80～120 cm，同时为了验证模型对室内玉米图像的总体分割效果，试验中也计算了3种株高范围对应指标的平均值（室内均值Indoor mean）。另外，室外测试集（Outdoor set）为玉米顶视图像，没有株高的区分，因此直接给出3种评价指标的均值，具体的试验结果如表3所示。

对于室内（Indoor）测试集，在经过人工标注样本的训练后可以获得最高的平均像素精度（mPA=85.25%），略优于深度掩码标注样本训练后的平均精度（mPA=84.95%）和混合标注样本训练后的平均像素精度（mPA=84.54%）；此外，该模型在经过深度掩码标注样本训练后，可以获得最高的均交并比（mIoU=59.13%）；而且，模型在经过混合标注样本训练后，可以获得最高的平均召回率（mRA=66.04%），略优于深度掩码对应的平均召回率（mRA=65.78%）。

在对不同株高的玉米图像分割结果进行分析，DM-CNN对于玉米株高在0～40 cm的图像可以获得更高平均精度，其中人工标注对应的平均像素精度达到88.84%，深度掩码标注对应的平均精度达到88.23%，混合标注对应的平均精度达到87.89%；对于玉米株高在40～80 cm范围的图像可以获得更高的平均交并比，其中混合标注对应的平均交并比为60.34%，深度掩码对应的平均交并比为60.28%，人工标注对应的平均交并比为59.65%；对于平均召回率方面，株高在40～80 cm范围内的图像能够获得更高的平均召回率，人工标注、深度掩码标注和混合标注对应的值分别为65.53%、66.61%和67.12%。除此之外，由于混合样本中添加了室外人工标注样本参与训练，因此训练后的模型对室外复杂背景的玉米植株图像也具备实例分割能力。在表3中最后一行添加了室外（Outdoor）测试集，通过计算3种评价指标可以看出室外测试集的3种指标略低于室内测试集，证明DM-CNN模型通过迁移学习仍可以获得较好的图像分割精度。

表3 人工标注、深度掩码标注和混合标注对应的3种评价指标的对比

由此可见，相比于经过人工标注样本训练后的模型，深度掩码标注样本训练后的模型具有更高的均交并比和平均召回率。而在深度掩码中替换10%的人工标注数据后，其均交并比没有下降的特别明显，而评价召回率提高到了66.04%，其结果要优于存人工标注样本的训练结果。这说明该模型在室内环境下，可以利用深度掩码标注样本代替人工标注样本对Mask R-CNN进行训练。

图10给出利用深度掩码标注样本训练后的网络模型在图像分割测试的结果。其中左边6列展示了该模型利用室内场景下获取的深度掩码样本（RGB图像+深度掩码）训练后的实例分割结果，从图中可以看出，DM-CNN对3种尺度范围玉米植株都有比较好的分割效果。证明该模型可以在室内场景下，利用深度掩码标注样本替代人工标注样本进行网络模型训练，并能够获得比较好的效果。此外，图10d给出了在混合样本训练后，该模型对室外玉米植株顶视图的分割效果，证明DM-CNN模型具有迁移学习的能力，即在原深度掩码训练样本中替换一定比例（本研究中的比例是10%）的室外人工标注样本（复杂背景图像），在相同的训练条件下，收敛后的模型也可以对室外场景下的玉米植株进行实例分割，且得到很好的分割结果，说明DM-CNN有很好的泛化能力。

为了验证方法优越性，本试验将DM-CNN对室外测试样本的分割结果与经典分割方法对比，本研究分别选取了基于阈值分割的大津法（OTSU）、基于图像随机中心点的K-means算法、基于边缘检测的分水岭分割算法和Canny算法，基于超像素的SLIC算法、基于区域增长的图像分割算法和基于图分割的Grabcut算法进行比较。从分割结果上看（图11），由于基于阈值、基于边缘检测和基于区域增长的方法只考虑颜色、纹理、灰度变化等因素，因此分割效果差，边缘检测算法虽然在提取目标对象边缘信息有一定效果，但是边缘一般是不连续的且出现过分割现象；基于图分割的Grabcut算法的分割结果与真值比较接近，但是Grabcut是交互式算法，需要人工去限定分割区域。所以上述这些传统方法在相同的条件下都不如DM-CNN的分割效果，从图中可以看出DM-CNN的分割结果可以比较清晰和完整地得到玉米苗期植株整体形态，这也表明该模型对具有复杂背景图像的适应性更强，能够去除背景得到精度更高的图像分割结果。

由试验中室内、室外玉米植株图像分割结果可以看出，DM-CNN模型可以利用在室内环境下获取的深度图像，实现深度学习模型的自动标注和自动训练，建立了一种近似“非监督学习”模式。从试验结果来看，本研究中提出的网络模型和理论方法在特定环境下存在一定的优势，同时也有一定的局限性。首先，试验主要在室内环境下获取的玉米植株的深度图像，其原因是Kinect设备对外界自然光照强度变化十分敏感，在室外采集到的深度图像会附带大量噪声（体现在深度图像上就是一些缺损像素点），这对于本研究中计算深度密度函数影响较大，因为在生成的深度图像中，缺损像素有默认的像素值，而当噪声点相对集中时，噪声的深度密度值dd,y也会接近于1（与的图像中平滑物体表面位置的计算结果相似），最终会对影响模型的分割精度。室内环境的光源可控，能够有效避免外界自然光的影响，因此能够获得噪声较少的深度图像。其次，在试验中选择使用单一颜色的背景布来简化试验场景，将目标对象（玉米植株）放置在背景前进行图像获取，这是由于本研究提出的方法是要与经过人工标注样本训练后的实例分割精度进行对比，因此不能像传统机器学习、深度学习方法一样，使用人工标注样本作为真值来进行精度对比，这是因为在训练中已经使用到了人工标注图像进行训练，训练出的模型会在分割图像时更偏向于人工标注的区域，这就造成评价指标的偏差（精度、交并比的值会与于人工标注的结果更接近），因此本研究利用单一背景布来简化图像，利用颜色阈值分割提取玉米植株在图像中的真实区域，并以此作为真值进行对比，保证了试验结果对比的公平性和准确性。最后，在实际应用中，为了测试该网络模型是否具备对室外复杂环境下的玉米植株图像实例分割的能力，本研究选择利用迁移学习模式来实现模型对室外玉米植株图像实例分割。同样以减少人工标注样本为目标，试验在原室内深度掩码样本集基础上，替换了一定比例的室外人工标注样本（占总样本数10%），并以此为训练集对DM-CNN模型进行调优。结果发现，经过调优的模型对室外玉米植株图像也有很好的分割效果。

本研究虽然在面向玉米植株图像实例分割的有监督学习过程中减少人工标注样本成本，但是方法还存在一定的局限性，一是深度图像的成像环境是室内，不能在室外获得深度图像，这需要在以后的研究工作中更换图像采集设备（如激光雷达等）；二是深度图像采集时背景相对简单，这样采集的图像与室外复杂环境下采集的图像缺少共性，这需要在以后的研究工作中进行调整，针对具有复杂背景信息的图像应该选择更适合的方法（如全景分割等）；三是本研究中给出的评价指标值并是在未改变基础网络结构的前提下获得的，因为本研究中的对比需要建立在相同的网络结构下，因此改变结构对本研究中提出的方法没有直接影响，但对于不同的植株对象应该可以通过调整网络结构获得更好的特征表达，这部分任务将会在本研究的后续研究工作中实现。

4 结论

本研究基于Mask R-CNN模型提出了面向简单场景和复杂场景下玉米苗期植株图像实例分割模型DM-CNN，利用Kinect设备获取的深度图像生成训练模型所需的深度掩码，并以此来替代人工标注生成的掩码，实现DM-CNN模型的自动训练过程。在试验过程中主要得到以下几个结论：

1）针对玉米苗期植株图像人工标注时间成本高、精度低等问题，在Mask R-CNN模型的基础上提出一种基于深度掩码的深度卷积网络DM-CNN，该模型可以在室内场景下，利用Kinect产生深度图像自动生成深度掩码标注信息，实现有监督的网络训练过程。

2）提出改进的深度密度函数，在计算深度图像上每个像素点的深度密度值时加入像素间距离参数，剔除了原深度密度图中的波纹状无效数据，提高了小尺寸物体表面深度密度值的精度。

3）在深度密度函数的基础上，提出了最近邻域像素填充法，将深度密度图像转换成二值图像（背景+植株），再利用第一阶段训练后的网络产生的推荐框，将推荐框中的植株信息提取出来，并求出当前区域的最大连通域，自动生成深度掩码标注信息。

4）通过试验结果对比，发现利用深度掩码标注样本训练的模型在平均交并比（mIoU=59.13%）和平均召回率（mRA=65.78%）都优于人工标注样本（mIoU=58.49%，mRA=64.85%）；而模型对玉米苗期的不同株高图像分割效果都很理想，其中株高在0～40 cm的平均像素精度为88.23%，株高在40～80cm的平均像素精度为85.97%，株高在80～120 cm的平均像素精度在83.91%；此外，在原深度掩码标注样本的基础上，替换10%的室外人工标注样本进行训练，也可以实现模型在不同场景下的迁移，在对室外复杂场景下的玉米苗期图像（顶视图）分割试验中，平均交并比为58.15%，平均像素精度为74.48%，平均召回率为61.91%。

因此，DM-CNN可以在室内场景下利用Kinect设备产生的深度图像自动生成深度掩码标注样本，基于深度掩码样本训练后的网络可以达到相同场景下人工标注数据的网络训练效果，并且在替换小比例人工标注样本（10%）进行训练后可以实现从室内玉米植株图像分割到室外玉米植株图像分割的模型迁移，训练后的模型对室外玉米植株的也能产生高质量的分割效果，证明其模型的室外场景泛化能力也可以通过提高样本的人工标注样本的比例来实现。由此可见，在室内环境下，针对玉米苗期植株的株形信息提取工作，利用深度掩码图像来代替人工标注图像实现深度学习模型的自动标注和训练是具备可行性的，降低了人工标注的时间成本，为实现玉米苗期关键性状的高通量、高精度、低成本表型分析提供理论方法支撑。

[1] 黄鹏，郑淇，梁超. 图像分割方法综述[J]. 武汉大学学报：理学版，2020，66(6)：519-531.

Huang Peng, Zheng Qi, Liang Chao. Overview of image segmentation methods[J]. Journal of Wuhan University: Natural Science Edition, 2020, 66(6): 519-531. (in Chinese with English abstract)

[2] Jayanthi M G, Shashikumar D R. Survey on agriculture image segmentation techniques[J]. Asian Journal of Applied Science and Technology, 2017, 1(8): 143-146.

[3] Jiao X, Chen Y G, Dong R. An unsupervised image segmentation method combining graph clustering and high-level feature representation[J]. Neurocomputing, 2020, 409: 83-92.

[4] 刘东升，廖通逵，孙焕英，等. 中国遥感软件研制进展与发展方向：以像素专家PIE为例[J]. 中国图像图形学报，2021，26(5)：1169-1178.

Liu Dongsheng, Liao Tongkui, Sun Huanying, et al. Research progress and development direction of Chinese remote sensing software: Taking PIE as an example[J]. Journal of Image and Graphics, 2021, 26(5): 1169-1178. (in Chinese with English abstract)

[5] 袁洪波，赵努东，程曼. 基于图像处理的田间杂草识别研究进展与展望[J]. 农业机械学报，2020，51(S2)：323-334.

Yuan Hongbo, Zhao Nudong, Cheng Man. Review of weed recognition based on image processing[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(S2): 323-334. (in Chinese with English abstract)

[6] David S, Alexander H, Bastian L. Superpixels: An evaluation of the state-of-the-art[J]. Computer Vision and Image Understanding, 2018, 166: 1-27.

[7] Jin X L, Pablo J Z, Schmidhalter U, et al. High-throughput estimation of crop traits: A review of ground and aerial phenotyping platforms[J]. IEEE Geoscience and Remote Sensing Magazine, 2021, 9(1): 200-231.

[8] Filipa T, Karel J, Bernadette S, et al. RosettR: Protocol and software for seedling area and growth analysis[J]. Plant Methods, 2017, 13(13): 1-10.

[9] Zhou J, Christopher A, Albor D A, et al. Leaf-GP: An open and automated software application for measuring growth phenotypes for arabidopsis and wheat[J]. Plant Methods, 2017, 13(117): 1-17.

[10] Massimo M, Mario V G, Pierdomenic P, et al. Phenotiki: An open software and hardware platform for affordable and easy image-based phenotyping of rosette-shaped plants[J]. The Plant Journal, 2017, 90(1): 204-216.

[11] 田萱，王亮，丁琪. 基于深度学习的图像语义分割方法综述[J]. 软件学报，2019，30(2)：440-468.

Tian Xuan, Wang Liang, Ding Qi. Review of image semantic segmentation based on deep learning[J]. Journal of Software, 2019, 30(2): 440-468. (in Chinese with English abstract)

[12] 王东方，汪军. 基于迁移学习和残差网络的农作物病害分类[J]，农业工程学报，2021，37(4)：199-207.

Wang Dongfang, Wang Jun. Crop disease classification with transfer learning and residual networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(4): 199-207. (in Chinese with English abstract)

[13] Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.

[14] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional net, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.

[15] Chen H, Sun K Y, Tian Z, et al. BlendMask: Top-down meets bottom-up for instance segmentaion[C]// IEEE Conference on Computer Vision and Pattern Recognition, Seattle: IEEE, 2020.

[16] Liu S, Qi Lu, Qin H F, et al. Path aggregation network for instance segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City: IEEE, 2018.

[17] Kirillov A, Girshick R, He K M. Panoptic feature pyramid networks[C]//IEEE Conference on Computer Vision and Pattern Recognition, Long Beach: IEEE, 2019.

[18] Sun H, Li C, Liu B Q, et al. AUNet: Attention-guided dense-upsampling networks for breast mass segmentation in whole mammograms[J]. Physics in Medicine and Biology, 2020, 65(5): 1-17.

[19] Sa I, Ge Z Y, Dayoub F, et al. DeepFruits: A fruit detection system using deep neural networks[J]. Sensors, 2018, 16(8): 1-23.

[20] Pound M P, Atkinson J A, Townsend A J, et al. Deep machine learning provides state-of-the-art performance in image-based plant phenotyping[J]. GigaScience, 2017, 6(10): 1-10.

[21] Dyrmann M, Jørgensen R N, Midtiby H S. RoboWeedSupport - Detection of weed locations in leaf occluded cereal crops using a fully convolutional neural network[J]. Advances in Animal Biosciences, 2017, 8(2): 842-847.

[22] Dyrman M, Karstoft H, Midtiby H S. Plant species classification using deep convolutional neural network[J]. Biosystems Engineering, 2016, 151: 72–80.

[23] Mostafa M G, Berrin Y, Erchan A. Plant identification using deep neural networks via optimization of transfer learning parameters[J]. Neurocomputing, 2017, 235: 228-235.

[24] Yalcin H. Plant phenology recognition using deep learning: Deep-Pheno[C]//International Conference on Agro-Geoinformatics, Fairfax: IEEE, 2017.

[25] 段凌凤，熊雄，刘谦，等. 基于深度全卷积神经网络的大田稻穗分割[J]. 农业工程学报，2018，34(12)：202-209.

Duan Lingfeng, Xiong Xiong, Liu Qian, et al. Field rice panicle segmentation based on deep full convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 202-209. (in Chinese with English abstract)

[26] 刘立波，程晓龙，赖军臣. 基于改进全卷积网络的棉田冠层图像分割方法[J]. 农业工程学报，2018，34(12)：193-201.

Liu Libo, Cheng Xiaolong, Lai Junchen. Segmentation method for cotton canopy image based on improved fully convolutional network model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 193-201. (in Chinese with English abstract)

[27] 陈进，韩梦娜，练毅，等. 基于U-Net模型的含杂水稻籽粒图像分割[J]. 农业工程学报，2020，36(10)：174-180.

Chen Jin, Han Mengna, Lian Yi, et al. Segmentation of impurity rice grain images based on U-Net model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(10): 174-180. (in Chinese with English abstract)

[28] 任守纲，贾馥玮，顾兴健，等. 反卷积引导的番茄叶部病害识别及病斑分割模型[J]. 农业工程学报，2020，36(12)：186-195.

Ren Shougang, Jia Fuwei, Gu Xingjian, et al. Recognition and segmentation model of tomato leaf diseases based on deconvolution-guiding[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 186-195. (in Chinese with English abstract)

[29] 张善文，王振，王祖良. 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法[J]. 农业工程学报，2020，36(16)：149-157.

Zhang Shanwen, Wang Zhen, Wang Zuliang. Method for image segmentation of cucumber disease leaves based on multi-scale fusion convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(16): 149-157. (in Chinese with English abstract)

[30] 项荣，张杰兰. 基于改进PCNN的番茄植株夜间图像分割算法[J]. 农业机械学报，2020，51(3)：130-137.

Xiang Rong, Zhang Jielan. Image segmentation for tomato plants at night based on improved PCNN[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(3): 130-137. (in Chinese with English abstract)

[31] He K M, Gkioxari G, Dollar P, et al. Mask R-CNN[C]//IEEE International Conference on Computer Vision, Hawai: IEEE, 2017.

[32] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition, Las Vega: IEEE, 2016.

[33] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39: 1137-1149.

[34] Hu R H, Dollár P, He K M, et al. Learning to segment every thing[C]//IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City: IEEE, 2018.

[35] Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context[C]//European Conference on Computer Vision, Zurich: Springer Science, 2014

[36] 邓寒冰，周云成，许童羽，等. 基于RGB-D的肉牛图像全卷积网络语义分割优化[J]. 农业工程学报，2019，35(18)：151-160.

Deng Hanbing, Zhou Yuncheng, Xu Tongyu, et al. Optimization of cattle’s image semantics segmentation with fully convolutional networks based on RGB-D[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 151-160. (in Chinese with English abstract)

Segmentation model for maize plant images based on depth mask

Deng Hanbing1,2, Xu Tongyu1,2※, Zhou Yuncheng1,2, Miao Teng1,2,3, Li Na1,2, Wu Qiong1,2, Zhu Chao1, Shen Dezheng1

(1.,,110866,; 2.,110866,; 3.,100097,)

Supervised deep learning has gradually been one of the most important ways to extract the features and information of plant phenotype in recent years. However, the cost and quality of manual labeling have become the bottleneck of restricting the development of technology, due mainly to the complexity of plant structure and details. In this study, a Depth Mask Convolutional Neural Network (DM-CNN) was proposed to realize automatic training and segmentation for the maize plant. Firstly, the original depth and color images of maize plants were collected in indoor scene using the sensors of Kinect. The parallax between depth and color camera was also reduced after aligning the display range of depth and color images. Secondly, the depth and color images were cropped into the same size to remain from the consistency of spatial and content. The depth density function and nearest neighbor pixel filling were also utilized to remove the background of depth images, while retaining the maize plant pixels. As such, a binary image of the maize plant was represented, where the depth mask annotations were obtained by the maximum connection area. Finally, the depth mask annotations and color images were packed and then input to train the DM-CNN, where automatic images labeling and segmentation were realized for maize plants indoors. A field experiment was also designed to verify the trained DM-CNN. It was found that the training loss of depth mask annotations converged faster than that of manual annotations. Furthermore, the performance of DM-CNN trained by depth mask annotations was slightly better than that of manual ones. For the former, the mean Intersection over Union (mIoU) was 59.13%, and mean Recall Accuracy (mRA) was 65.78%. For the latter, the mIoU was 58.49% and mRA was 65.78%. In addition, the dataset was replaced 10% depth mask samples with manual annotations taken in outdoor scene, in order to verify the generalization ability of DM-CNN. After fine-tuning, excellent performance was achieved for the segmentation with the top view images of outdoor seedling maize, particularly that the mean pixel accuracy reached 84.54%. Therefore, the DM-CNN can widely be expected to automatically generate the depth mask annotations using depth images in indoor scene, thereby realizing the supervised network training. More importantly, the model trained by depth mask annotations also performed better than that by manual annotations in mean intersection over union and mean recall accuracy. The segmentation was also suitable for the different plant height ranges during the maize seedling stage, indicating an excellent generalization ability of the model. Moreover, the improved model can be transferred and used in the complex outdoor scenes for better segmentation of maize images (top view), when only 10% of samples (depth mask annotations) were replaced during training. Therefore, it is feasible to realize automatic annotation and training of deep learning model using depth mask annotations instead of manual labeling ones. The finding can also provide low-cost solutions and technical support for high-throughput and high-precision acquisition of maize seedling phenotype.

image segmentation; models; image processing; maize; depth mask; plant phenotype; depth density function

邓寒冰，许童羽，周云成，等. 基于深度掩码的玉米植株图像分割模型[J]. 农业工程学报，2021，37(18)：109-120.doi：10.11975/j.issn.1002-6819.2021.18.013 http://www.tcsae.org

Deng Hanbing, Xu Tongyu, Zhou Yuncheng, et al. Segmentation model for maize plant images based on depth mask[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 109-120. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.18.013 http://www.tcsae.org

2020-11-02

2021-06-30

国家自然科学基金（31601218，61673281，31901399）；中国博士后科学基金（2018M631812）；辽宁省自然基金面上项目（20180551102）；辽宁省教育厅科学研究经费项目（LSNQN202022）

邓寒冰，博士，讲师，研究方向为机器学习与模式识别。Email：deng anbing@syau.edu.cn

许童羽，博士，教授，研究方向为作物表型信息获取与分析。Email：xutongyu@syau.edu.cn

10.11975/j.issn.1002-6819.2021.18.013

S823.92；TP391.41

1002-6819(2021)-18-0109-12