基于改进U-Net的冬季休眠期矮化苹果树修剪枝条分割方法
2024-06-25宋振帅宋龙周艳何磊朱贺王治民韩大龙
宋振帅 宋龙 周艳 何磊 朱贺 王治民 韩大龙
摘要:针对冬季休眠期矮化苹果树果园修剪中人工修剪及半自动化修剪作业效率低的问题,在U-Net网络模型基础上,通过VGG16与U-Net结合构建改进的U-Net网络模型,采用VGG16作为上采样特征提取网络,运用注意力机制SEnet增强图像特征提取能力,提升分割精度,进而与下采样提取的图像特征进行融合,实现端到端图像分割效果。结果表明,测试集上SE2网络模型(改进U-Net网络模型)的MIoU、MPA均大于原始U-Net网络模型;在SE2网络模型中,当r=8时测试集的MIoU、测试集的MPA、训练集的Fscore、测试集的Fscore均最大,分别为89.59%、94.17%、0.942 806、0.944 506;在试验台上对SE2网络模型 (r=8)进行性能验证,表明SE2网络模型(r=8)分割性能较好。
关键词:改进U-Net;网络模型;冬季休眠期;矮化苹果树;修剪枝条;分割方法
中图分类号:TS23-9 文献标识码:A
文章编号:0439-8114(2024)05-0194-07
DOI:10.14088/j.cnki.issn0439-8114.2024.05.034 开放科学(资源服务)标识码(OSID):
Segmentation method for pruned branches of dwarfing apple trees during winter dormancy period based on improved U-Net
SONG Zhen-shuai 1,SONG Long2,ZHOU Yan 2, HE Lei2,ZHU He1,WANG Zhi-min1,HAN Da-long 2
(1.College of Mechanical and Electrical Engineering,Shihezi University, Shihezi 832003, Xinjiang,China;
2.Institute of Machinery and Equipment, Xinjiang Academy of Agricultural and Reclamation Science, Shihezi 832000, Xinjiang,China)
Abstract: In response to the low efficiency of manual and semi-automatic pruning operations in dwarfing apple trees during the winter dormancy period,based on the U-Net network model, an improved U-Net network model was constructed by combining VGG16 with U-Net. Using VGG16 as the upsampling feature extraction network, the attention mechanism SEnet was used to enhance the image feature extraction ability, improve segmentation accuracy, and then fuse with the downsampling extracted image features to achieve the end-to-end image segmentation effect. The results showed that the MIoU and MPA of the SE2 network model (improved U-Net network model) on the test set were greater than those of the original U-Net network model;in the SE2 network model, when r=8, the MIoU of the test set, MPA of the test set, Fscore of the training set, and Fscore of the test set were all the highest, with values of 89.59%, 94.17%, 0.942 806, and 0.944 506, respectively; the performance of the SE2 network model (r=8) was validated on the test bench, and it was found that the segmentation performance of the SE2 network model (r=8) was good.
Key words: improved U-Net; network model; winter dormancy period; dwarfing apple trees; pruned branches; segmentation method
收稿日期:2022-09-13
基金项目:新疆生产建设兵团重大科技项目(2021AA00503);国家重点研发计划项目(2017YFD07014);新疆生产建设兵团农业领域重点科技攻关项目(2018AB016)
作者简介:宋振帅(1997-),男,山东临沂人,硕士,主要从事图像识别与分割研究,(电话)19190249234(电子信箱)1459588016@qq.com;通信作者,周 艳(1970-),女,四川大竹人,研究员,博士,主要从事林果机械化研究,(电子信箱)806551889@qq.com。
宋振帅,宋 龙,周 艳,等. 基于改进U-Net的冬季休眠期矮化苹果树修剪枝条分割方法[J]. 湖北农业科学,2024,63(5):194-200,206.
新疆林果种植面积约占全国林果种植面积的13%,种植面积逐年递增[1],是全国林果主要产区。林果业对农民增收起到重要的作用,成为当前农民致富的一条重要道路[2],是新疆优势突出、特色鲜明、市场前景广阔的产业,已成为优化农村产业结构的重点。但新疆地广人稀,且现阶段机械修剪机以人工操作为主,自动化技术在修剪上的应用较少,人工操作效率低,并随着人工成本的提高,林果产业的经济效益低靡。种植者对自动化作业需求极为迫切,因此实现智能化、自动化机械修剪迫在眉睫,本研究利用改进的U-Net网络模型对冬季休眠期矮化苹果树枝条采取端到端分割提取,对修剪枝条修剪点三维坐标的确定有重要意义。
目前分割方法主要有传统方法和基于深度学习的方法,传统方法主要基于边缘检测、模板匹配和形变模型等[3]。Momtanu等[4]采用形态学边缘方法对目标进行检测。2016 年Hamuda等[5]利用HSV颜色空间在不同光照及在杂草、土壤为背景的情况下分割出花椰菜。黄彪[6]利用基于色差的图像分割获取到间断的枸杞枝条图像,通过非合理间断图像的恢复获取到枝条的中心坐标及直径,进而完成枸杞枝条提取。严亚飞[7]将RGB颜色空间转换到LAB颜色空间,通过K-Means聚类及膨胀腐蚀等方法获取到枸杞枝条的轮廓,通过三维重建获取到枝条定位。传统的图像识别方法需要人工提取图像特征,当受到光照不均或背景较复杂时,分割效果较差。因此有针对性地选用图像特征和自动、便捷的模型非常重要。
近年来,随着深度学习技术及计算机技术的发展,传统的深度卷积分类网络如AlexNet和VGGNet[8]包含全连接层,其计算量较大,也无法运用到语义分割任务中。Speckmann[9]提出的全卷积神经网络(FCN)实现了端到端的语义分割,但其分割精度不高。卫长秋等[10]提出的U-Net网络模型是在FCN网络模型基础上构建获得,是一个U型结构,具有编码器结构,左侧是对图像的下采样,右侧是对图像的上采样,进而进行特征融合实现语义分割。Keir等[11]提出了一个改进后的U-Net网络模型,将Droupout层放在每个卷积层的后面。Fred等[12]提出了Fast R-CNN网络模型,该网络模型采用多任务损失函数并将原网络模型中SVM分类用Softmax和SmoothLoss替换,进而减小了电脑磁盘的占用。
随着迁移学习的发展,通常把在其他数据集的预训练权重运用到自己的数据集中进行微调,以解决样本过少导致网络过拟合的问题[13]。Chen[14]等提出一个将预训练权重ResNet-34作为编码层的U型网络模型结构,用于分割视盘,分割效果较好。虽然卷积神经网络分割在某些方面优于传统的色差分割方法,但是依然存在一些问题,当分割背景较复杂时,编码器的特征提取能力不足;在训练网络模型数据集较少时,容易出现过拟合现象。同时,也会出现对某些数据集分割效果较好,但对某些数据分割效果较差,且泛化性不足的情况。本研究在U-Net网络模型的基础上,通过VGG16与U-Net结合构建新的网络模型,在网络模型下采样时,采用VGG16作为特征提取网络,进而运用注意力机制SEnet增强图像特征提取能力,提升分割精度,同时,在模型上采样时,直接进行两倍上采样,与下采样提取的图像特征进行特征融合,最终获得的特征层和输入图片高宽相同,分割效果与原图相比更直观,具有较好的稳定性及泛化能力,鲁棒性较好。
1 图像采集与数据集的构造
1.1 图像采集系统搭建
使用Bumblebee2双目相机、1394a图像采集卡、笔记本电脑、三角支架、12V锂电池等进行图像采集,相机参数如表1所示,图像格式为JPG,电脑操作系统为Win10系统,基于Python 3.6.13,Pytorch 1.7.0在编译器Pycharm 2021开发环境上对采集的图像进行调试和处理。
1.2 试验台搭建
机器视觉平台中上位机是整个系统的大脑中枢,起到控制输出和提供服务的作用。根据算法程序与储存需要,本研究选择型号为SP-XC841T-V720、处理器为i5-7500、运行内存为8 G的上位机。上位机主要负责接收工业相机采集的图像信息,进行图像处理并将相关结果发送至显示屏。显示屏为TPC1261Hii嵌入式一体化触摸屏,属于上位机的I/O设备,是一种输入输出设备,主要负责接收上位机的信号。采集系统配备了2根3 m网线,型号为SC-GN-X3,负责将相机采集的图像信息输送至上位机的程序处理中心,试验台结构如图1所示。
试验台通过底部尤奈特驱动电机运输至距离树合理的作业位置(0.9~1.5 m),如图2所示。首先通过导向滑轨调整相机水平高度,使其可以采集到树的全部枝条,其次相机开始图像采集并将采集到的图像信息传输至工控机的网络模型中进行图像预测处理,最后将工控机上图像预测处理结果发送并显示在显示屏。
1.3 数据集构造
经过筛选,剔除重叠度较高的图像,共获得100张有效图像,由于双目相机在采集枝条图像时需要将双目图像切割成左目图像和右目图像,因此获得了200张需要标注的图像。由于网络模型的图像为512 px×512 px,为了提高后期模型的训练效率,将图像都调整为512 px×512 px。为了防止出现过拟合现象,模型需要大量的训练数据集,本研究通过旋转、镜像、缩放等方式进行样本数量扩充,并使用labelme对原始数据集进行标注,最终图像数据集包含400张图像,并按照9∶1随机划分为训练集和测试集。
2 相关技术
2.1 U-Net网络模型
FU等[15]提出了U-Net结构,U-Net最初被用到医学影像分割中,是在全卷积网络FCN的基础上进行了优化,一共包含了23个卷积层,可以在数据集上获得较优的结果,U-Net网络结构被称为编码器-解码器结构,如图3所示,编码器是左半部分的特征提取网络,解码器是右半部分的加强特征提取网络。
在卷积神经网络中,决定某一层输出结果中一个元素所对应的输入层区域大小被称为感受野[16]。越深层的网络卷积得到的特征图有更大的感受野,所以在U-Net网络模型中,浅层卷积得到的特征图要关注其纹理特征,深层卷积得到的特征图要关注其语义特征。在U-Net网络中加强特征提取部分,通过下采样获取特征图使图像边缘信息缺失,在每次上采样提炼特征的同时,也必然会损失一些边缘特征信息,而失去的特征在上采样中不能复现,因此通过特征的拼接来实现边缘特征的复现。
由于U-Net网络模型设计结构的优越性,使得该网络同时具备捕捉上下文信息的收缩路径和允许精确定位的对称扩展路径。相较于全卷积神经网络,U-Net的上采样过程依然有大量的通道,这有助于网络将上下文信息融合在一起;相较于SegNet语义分割网络[17],U-Net网络有着训练样本少且精度高的优势,能实现端到端图像分割任务,因此也增加了该模型的精准度和使用领域。
2.2 VGG16网络
VGG-Net是牛津大学计算机视觉组(Visual geometry group)和Google DeepMind公司一起研发的深度卷积网络。VGG-Net网络模型搭建16~19层卷积神经网络,包含VGG16、VGG19 2种结构,全部运用了3×3小型卷积核和2×2最大池化核,通过不断加深网络结构来提升性能。VGG-Net借鉴了AlexNet的卷积模型结构,运用ZFNet的小卷积思想尝试了1×1卷积,探索卷积神经网络深度与其性能之间的关系,实现高效稠密预测。VGG-Net网络模型运用3×3小卷积核,使VGG-Net网络模型成为主流模型,并使其作为分类、定位、检测、分割一系列图像任务的骨干网络结构。VGG16的网络模型如图4所示,本研究将VGG16作为特征提取网络,并采用SEnet模块加强图片的有效提取特征。
2.3 迁移学习
深度学习往往需要大规模数据来进行网络模型的训练和优化,在小规模数据集上训练往往会出现过拟合现象。迁移学习可以解决数据量少导致的深度卷积神经网络不好训练的问题。迁移学习首先在大规模数据集上(如ImageNet数据集)进行训练,然后运用到自己的数据集上,可以较好地降低模型训练时间,并且取得良好的结果。
3 改进的网络模型
输入图像为RGB的3通道彩色图像,首先把图像输入到网络模型中,进而进行网络模型训练,输出分割好的图像。提取的目标结果为红色,背景区域为黑色,实现自动、端到端图像分割的目标并获取三维坐标,图5为彩色图像分割流程。
[改进网络模型][后处理][解码器][解码器]
3.1 注意力机制
注意力机制源于人类大脑,并被引入NLP领域,从数学角度看,注意力机制提供一种权重模式运算。在神经网络中,注意力机制利用一些网络层计算得到图像特征层的权重,可以较好地获取图像信息,因此注意力机制在图像分类、语义分割和自然语言处理领域受到广泛关注。2010年杨璟等[18]提出SE(Sequeeze and excitation)模块,如图6所示,SE模块由Squeeze、Excitation构成。输入图片的维度为H×W×C,其中H为提取特征的高,W为提取特征的宽,C为通道数。第一步运用Squeeze操作沿着空间维度进行全局平均池化来提取全局信息,生成1个1×1×C维度的通道。为了将Squeeze提取到的全局信息充分利用,第二步利用Excitation操作来获取各通道的相互关系,首先把通道数C缩小为C/r,通过参数r可以控制SE模块的计算量,r取不同的值,模型的效果也会不同,其次经过全连接层使通道数变为原来的C,最后通过Sigmoid函数生成1个1×1×C维度的向量,并将该向量和最初输入的特征信息(X)进行各通道的相乘。
图7中的2个全连接层主要决定整个SE模块的参数量,SE模块参数量在计算时,需对特征图通道重新标定,如图7所示。经过重新标定后的特征图,不同通道的重要性也不同,图像中有用信息被放大,不重要信息被消弱,因此SE模块具有显示通道之间的关系、加强主要特征提取、抑制无效特征、大幅度提升精度及减少参数量的特点。
[输入特征][输出特征]
3.2 改进模型的构建
基于上述分析,本研究使用的U-Net网络结构主要由主干特征提取网络(编码器)和加强特征提取网络(解码器)构成,其形状为U字形,如图8所示。该模型分成3个部分,第一部分是主干特征提取,采用VGG16做主干提取部分,获得5个初步有效特征层,具体结构参数如表2所示。第二部分是加强特征提取部分,利用获取的5个初步有效特征层进行上采样,并与下采样获取到的5个有效特征层进行融合。第三部分为预测部份,最终获得的有效特征层利用1×1卷积对每个特征点进行分类,相当于对每个像素点进行分类。上采样时在第4个有效特征层、第5个有效特征层后运用SE模块,加强网络模型的主要特征提取,抑制无效特征、减少参数量、大幅提升精度。同时,为防止出现过拟合现象,本研究采用VGG16网络在ImageNet[18]数据集上得到的预训练权重进行迁移学习,运用ImageNet的预训练权重进行冻结,训练U-Net的解码器部分,较好地降低模型训练时间。
原始的U-Net网络中3×3卷积层没有使用padding进行0的填充策略,这使得每次卷积后的卷积输出尺寸都会减小,所以,为了方便网络的构建与更好的通用性,在每个卷积层中都采用padding填充策略,即3×3的卷积填充padding为1,这使得卷积前后特征图尺寸一致,因此可以利用1×1的卷积进行通道调整,获得的输出尺寸与原图大小一致。
3.3 模型损失函数
本研究所使用的损失函数包含交叉熵损失函数和Dice Loss损失函数[17]。交叉熵主要是用来表达神经网络输入和输出的结果差异,交叉熵越小代表输入和输出的结果越接近。交叉熵损失函数(L)的计算公式如下。
[L=-c=1Mytruelog(ypred)] (1)
式中,M表示类别个数;ytrue是One-hot向量,如果该类别和样本的类别相同取1,不相同取0;ypred表示预测样本属于c类样本的概率。
Dice Loss是语义分割中常见的评价指标,用来解决语义分割中正负样本极度不平衡的场景[19]。Dice Loss来自Dice coefficient,通常用来评估2个样本的相似性,其取值范围在[0,1],Dice coefficient的值(Dice)越大表示越相似,其计算公式如下。
[Dice=2X?YX+Y] (2)
式中,|X∩Y|表示X和Y的交集,|X|和|Y|分别表示Predict mask和Ground truth [15]。
基于Dice coefficient,Dice Loss(LDice)的计算公式如下,LDice越小表示分割网络的效果越好。
[LDice=1-2|X?Y||X|+|Y|] (3)
3.4 评价指标
为了泛化本研究对冬季休眠期矮化苹果树修剪枝条的分割效果。本研究采用平均像素准确率(Mean pixel accuracy,MPA)、平均交并比(Mean intersection over union,MIoU)、F分数(Fscore)来进行评价[16],计算公式如下。
[MPA=1k+1i=0kpiij=0kpij] (4)
[MIoU=1k+1i=0kpiij=0kpij+j=0kpji-pii] (5)
[Fscore=2×Precision×RecallPrecision+Recall] (6)
式中,k为类别数;pii为真阳性;pij、pji均为假阳性;i为真实类别;j为预测类别;Precision为准确率;Recall为召回率[17]。
4 试验细节与结果分析
4.1 试验细节
操作系统为Win10,语言环境为Anaconda3和Python 3.6,CPU为IntelCorei7-9700,GPU为Nvidia GeForce GTX 1660,深度学习编译器为Pycharm。
本研究模型训练选择Adam优化器进行端到端训练,采用随机梯度下降法训练[18],衰减率设置为0.92。初始学习率设置为0.000 1,Batchsize设置为2,训练共进行100次迭代循环。为加快训练速度,本研究使用了U-Net网络在VOC 2007数据集上的预训练权重[19],在前50个网络模型训练循环中,冻结VGG16神经网络的预训练权重进行训练,训练U-Net的解码器部分,后面50个网络模型训练循环中把所有的网络层解冻进行全部训练,同时学习速率与前50个enpoch保持不变。
4.2 试验结果与分析
为了显示改进的U-Net网络模型与其他语义分割网络模型在测试集上的性能对比。在改进U-Net网络模型每个解码器后放置SE模块的模型称为SE1网络模型,在改进U-Net网络模型的第四个有效特征层和第五个有效特征层后放置SE模块的模型称为SE2网络模型。测试集采用原始U-Net网络模型、SE1网络模型、SE2网络模型进行训练,训练过程中损失函数变化如图9所示。
经过100个enpoch后,原始U-Net的训练集、测试集的损失值最大,训练集的损失值在0.18时保持平衡;当SE1网络模型运用VGG16网络进行特征提取并采用ImageNet预训练权重数据,网络模型损失值迅速下降,减少了训练时间,训练集损失值在0.042时保持平衡,模型得到改进;当网络模型调整为SE2网络模型时损失值更低。
由表3可知,测试集上SE2网络模型的MIoU、MPA均大于原始U-Net网络模型;在SE2网络模型中,当r=8时测试集的MIoU、测试集的MPA、训练集的Fscore、测试集的Fscore均最大,分别为89.59%、94.17%、0.942 806、0.944 506。SE2网络模型(r=8)的分割效果较好,如图10所示;将其在试验台上进行性能验证,如图11所示,结果表明SE2网络模型(r=8)分割性能较好。
5 小结
为满足对目标特征提取的需求,在原始U-Net网络模型的基础上对下采样部分采用迁移学习的VGG16网络,通过SEnet模块提取重要信息,抑制非重要信息,并且讨论了r的取值对改进网络模型性能的影响,从而构建改进的U-Net网络模型(SE2,r=8),该模型在测试数据集上的MIoU为89.59%,MPA为94.17%,比原始U-Net网络模型性能有所提高,可以满足对冬季枝剪树木图像分割的要求。后续将在时间序列上进行数据集的扩充,进一步提高模型的性能[20],通过语义分割二维图像,进而将分割后的图像进行骨架提取,并求解修剪点,将二维坐标映射到三维中,最终提取三维坐标,通过机械臂去执行该三维坐标点,此方法可以为实现自动化修剪提供参考。
参考文献:
[1] 周晓雄. 阿克苏地区林果产业发展现状与对策[D].新疆塔里木:塔里木大学,2021.
[2] 张秀莉. 苹果纺锤形改造为主干形的技术与效果[D].新疆塔里木:塔里木大学,2017.
[3] 刘 慧,朱晟辉,沈 跃,等. 基于多特征融合的树干快速分割算法[J].农业机械学报,2020,51(1):221-229.
[4] MOMTANU C,KHOT L R,SINDHUJN S. Evaluation of mobile 3D light detection and ranging based canopy mapping system for tree fruit crops[J]. Computers and electronics in agriculture, 2019, 158:10.
[5] HAMUDA E,GLAVIN M,JONES E. A survey of image processing techniques for plant extraction and segmentation in the field[J]. Computers and electronics in agriculture,2016,18:121-126.
[6] 黄 彪. 枇杷剪枝机器人关键技术的研究[D].广州:华南理工大学,2016.
[7] 严亚飞. 智能枸杞采摘机器人枝条识别与定位关键技术研究[D].合肥:合肥工业大学,2019.
[8] WU C Y, YANG L Y.3D reconstruction of Chinese hickory tree for dynamics analysis[J]. Biosystems engineering, 2014, 119:11.
[9] SPECKMANN H. Providing measured position data for agricultural machinery[J]. Computers and electronics in agriculture, 2000, 25(1):13-16.
[10] 卫长秋,崔建荣,马海红,等. 苹果纺锤形改造成高光效树形的技术要点[J].山西果树,2007(6):46.
[11] KEIR E, KEIGHTLE Y, GERALD W, et al. 3D volumetric modeling of grapevine biomass using tripod LiDAR[J]. Computers and electronics in agriculture, 2010, 74(2):8.
[12] FRED W,MITCH B. Graph-based methods for analyzing orchard tree structure using noisy point cloud data[J]. Computers and electronics in agriculture, 2021, 187:16-21.
[13] 郝 婕,索相敏,李学营,等. 短枝富士苹果树体结构及相关因素分析[J].河北农业科学,2016,20(3):17-19.
[14] CHEN Y, XIONG Y J. 3D point cloud semantic segmentation toward large-scale unstructured agricultural classification[J]. Computers and electronics in agriculture, 2021, 190:198-222.
[15] FU L S, GAO F. Application of consumer RGB-D cameras for fruit detection and localization in field: A critical review[J]. Computers and electronics in agriculture, 2020, 75(6):177-178.
[16] 刘 晨. 基于机器视觉工件尺寸的高精度测量技术研究[D].长春:长春工业大学,2020.
[17] CHOLLET F. Deep learning with depth separable convolutions[J]. American journal of cardiology, 2016, 50:1006-1012.
[18] 杨 璟,朱 雷.基于RGB颜色空间的彩色图像分割方法[J].计算机与现代化,2010(8):147-149,171.
[19] 张亚辉. 基于Faster R-CNN目标检测的机器人抓取系统研究[D].合肥:中国科学院深圳先进技术研究院,2019.
[20] 李建坤. 基于图像SURF特征的电路板缺陷自动检测系统[D].西安:西北大学,2020.