改进SSD的灵武长枣图像轻量化目标检测方法

2021-12-28王昱潭薛君蕊

农业工程学报 2021年19期

王昱潭，薛君蕊

王昱潭，薛君蕊

（宁夏大学机械工程学院，银川 750021）

针对加载预训练模型的传统SSD（Single Shot MultiBox Detector）模型不能更改网络结构，设备内存资源有限时便无法使用的问题，该研究提出一种不使用预训练模型也能达到较高检测精度的灵武长枣图像轻量化目标检测方法。首先，建立灵武长枣目标检测数据集。其次，以提出的改进DenseNet网络为主干网络，并将Inception模块替换SSD模型中的前3个额外层，同时结合多级融合结构，得到改进SSD模型。然后，通过对比试验证明改进DenseNet网络和改进SSD模型的有效性。在灵武长枣数据集上的试验结果表明，不加载预训练模型的情况下，改进SSD模型的平均准确率（mAP，mean Average Precision）为96.60%，检测速度为28.05帧/s，参数量为1.99×106，比SSD模型和SSD模型（预训练）的mAP分别高出2.02个百分点和0.05个百分点，网络结构参数量比SSD模型少11.14×106，满足轻量化网络的要求。即使在不加载预训练模型的情况下，改进SSD模型也能够很好地完成灵武长枣图像的目标检测任务，研究结果也可为其他无法加载预训练模型的目标检测任务提供新方法和新思路。

图像处理；目标检测；灵武长枣；预训练模型；SSD模型；DenseNet网络；Inception模块

0 引言

灵武长枣又名马牙枣，个大饱满，果实呈椭圆状，果肉酸甜可口，富含多种矿物质和维生素，是宁夏回族自治区一种重要的经济林果。目前，限制灵武长枣采摘效率的因素主要有以下几点：1）采摘期较短且较为集中，仅有20 d左右；2）保鲜期较短，仅有15 d左右；3）人工采摘主要借助梯子完成，存在采摘效率低和劳动强度大等问题[1-4]。因此，实现灵武长枣的自动化采摘，对于提高采摘效率并进一步发展灵武长枣产业有重要的意义，而具有高识别率的视觉系统是灵武长枣自动化采摘机器人的核心部分。

随着计算机视觉技术的发展和计算机硬件性能的不断提升，基于深度学习的目标检测算法已被广泛使用到多个领域之中[5-10]。目前典型的目标检测算法主要有两种，一种是基于候选区域的检测方法，如R-CNN（Region-based Convolutional Neural Network）[11]、Fast R-CNN（Fast Region-based Convolutional Neural Network）[12]和Faster R-CNN（Faster Region-based Convolutional Neural Network）[13]等，另一种是基于回归的检测方法，如YOLO（You Only Look Once）系列[14-17]和SSD（Single Shot MultiBox Detector）系列[18-20]等。尽管基于候选区域的检测方法检测精度较高，但存在计算复杂度高和检测速度慢等问题，而基于回归的检测方法能够兼顾准确率和检测速度，可满足自然条件下农业采摘机器人实时检测的要求。

为实现智能化果实采收，基于深度学习的图像识别方法在水果检测中逐步兴起，国内外学者对此进行了大量研究[21-25]。彭红星等[21]提出了一种基于改进SSD的水果检测方法，以SSD目标检测模型为基本框架，采用ResNet-101为主干网络提取水果图像中的特征，并采用迁移学习的方法提高检测精度，在苹果、荔枝、脐橙和皇帝柑4种水果构成的数据集上取得89.53%的平均检测精度。李国进等[22]提出了一种基于改进YOLOv3的芒果图像检测方法，以SE-ResNet50作为主干网络以增强对图像中小目标的检测，又采用多级特征融合的方法提高目标检测速度和精度，在自制的芒果图像数据集上达到94.91%的平均精度，检测速度为85帧/s。Gao等[23]将自然状态下的苹果分为未遮光、叶片遮光、枝或丝遮光和果实遮光四类，提出了一种基于Faster R-CNN的多类苹果检测方法，检测平均精度为87.9%，平均检测一幅图像需0.241 s。

对于灵武长枣图像的识别问题，部分学者也做了一些研究工作[26-31]，但都是基于表面全红的灵武长枣而言的，这些方法并不能够很好地识别表面存在绿色部分的灵武长枣。而基于深度学习的方法可以通过构建包含不同成熟度灵武长枣图像的数据集来克服这一问题。朱超伟[31]提出一种基于Faster R-CNN的灵武长枣图像检测方法，通过在RPN（Region Proposal Network）网络中使用双层损失函数提高网络模型的检测精度，试验结果表明改进后的检测方法可达92.96%的精准率，检测速度为0.581 6 s/幅，总体而言，该方法精度仍不够高且检测速度较慢。

除此之外，由于加载预训练模型具有使模型初始化性能较高和加快模型的收敛速度等优点，目前所使用的目标检测方法几乎均需加载预训练模型。然而采用预先训练好的网络模型存在以下问题[19]：1）无法更改网络结构，灵活性较差，设备内存资源有限时可能无法使用；2）ImageNet数据集与要训练的数据集间可能存在较大差异，训练效果不一定很好。基于以上问题，本研究尝试以SSD模型为基本框架，提出一种在不加载预训练模型的情况下也能达到较好效果的灵武长枣图像轻量化目标检测方法，为实现灵武长枣的智能化采收提供视觉技术支持。

1 材料与方法

1.1 图像采集与数据集构建

本研究中的灵武长枣图像采集于宁夏回族自治区灵武市绍伟农牧专业合作社（106°20′E，38°08′N）。为满足灵武长枣图像数据集的多样性，在各个天气状态下采用不同型号的手机采集不同成熟度的灵武长枣图像，分辨率大小包括3 016像素×4 032像素、4 068像素×3 456像素和2 448像素×3 264像素，共1 000张，以JPG格式储存。所使用手机型号分别为HUAWEI TRT-AL00A、vivo Y79A和Xiaomi 2014501，每部手机采集的图像数分别为400张、300张和300张。同时为满足SSD目标检测网络输入图像尺寸要求，在输入目标检测网络前，将灵武长枣图像统一缩放为300像素×300像素，并采用随机裁剪、随机垂直或水平翻转、随机调整亮度、随机调整对比度和随机调整饱和度的方法进行数据增强，增强后数据量为5 000张。本研究采用PASCAL VOC数据集格式，使用Labelimg软件标注灵武长枣图像，手工标注灵武长枣检测框，设定灵武长枣的标签为jujube，将标注好的图像以xml格式储存在标签文件夹下。数据集按照7:3的比例随机划分为训练集和测试集，即训练图像3 500张，测试图像1 500张。

1.2 改进SSD模型

1.2.1 主干网络

1）CBAM模块

CBAM（Convolutional Block Attention Module）模块是一种简单有效的卷积注意力模块[32]，如图1所示，包括通道注意力模块和空间注意力模块两部分，可无缝集成到任何卷积神经网络模型中。在给定一个中间特征图的情况下，CBAM模块沿着通道和空间两个相互独立的维度依次生成注意力映射，再将注意力映射与输入特征图相乘以细化自适应特征。

2）改进DenseNet网络结构

传统SSD模型通常以VGG16[32]网络或ResNet50[33]网络为主干网络，为更好地提取灵武长枣图像中丰富的特征，达到在不加载预训练模型的情况下也能获得较好检测效果的目的，本研究在传统SSD模型的基础之上，采用具有密集连接的卷积神经网络DenseNet[34]作为主干网络。卷积神经网络的每一层和下一层之间通常只有一个直接连接，为加强对特征图的重复利用，DenseNet采用前馈的方式将每一层网络间相互连接，即对于每一层网络，所有前一层的特征图被用作该层的输入，而该层的特征图又被用作所有后续层的输入，加强了特征传播。

为保证主干网络特征提取效果的同时具有较为简洁的网络结构，本研究对DenseNet网络进行了一定改进。改进后的DenseNet网络结构如图2所示，一是该网络结构只使用了两个Dense Block，且密集块内的卷积组个数分别为6和8，而非原网络结构中的6和12，后续试验部分会证明该卷积组个数选取的有效性。二是在Dense Block中的卷积组最后加入了CBAM 模块，通过使用注意力机制增强表现力，关注重要的特征并抑制不重要的特征。三是将最后一个1×1卷积的步长由2改为1，即输出特征图大小由19像素×19像素变为38像素×38像素，满足SSD目标检测框架输入特征图宽和高为38像素×38像素的要求。

1.2.2 改进SSD模型结构

GoogLeNet[35]提出的Inception模块是一个十分有效的多尺度模块，如图3所示，该模块由不同大小尺度的卷积并联而成，在拓宽网络宽度的同时增加了网络对尺度的适应性。然而，由于Inception模块中引入了多个卷积，计算量较大，故在Inception模块中使用组数为32的分组卷积，降低运算过程中产生的计算量，以提高整个网络模型的运算速度。

为进一步提高目标检测效果，本研究对SSD模型进行了一定改进，改进后的SSD模型结构如图4所示，与原SSD模型相比，主要作了以下两点改进：一是将前3个额外层中的卷积块替换为Inception模块，利用模块中的多尺度结构拓宽网络宽度，进一步提取灵武长枣图像中的多尺度信息；二是将各额外层的输出结果经卷积操作后与下一额外层的输出结果相加后再输出，实现不同层之间的特征融合，以更进一步增强对灵武长枣图像中特征信息的提取。

如图4所示，将300像素×300像素×3通道的灵武长枣RGB图像输入到改进SSD模型中，经主干网络提取特征后得到38像素×38像素×192通道的特征图1，又经3个特征提取模块并分别与上级特征融合后，得到19像素×19像素×512通道的特征图2、10像素×10像素×512通道的特征图3和5像素×5像素×256通道的特征图4，再经两个连续卷积块并分别与上级特征融合后，得到3像素×3像素×256通道的特征图5和1像素×1像素×256通道的特征图6，在得到的6个特征图上以每个像素点为中心构建不同尺度大小的边界框，再分别进行检测和分类，又经非极大值抑制算法抑制掉部分重叠或不正确的边界框，最终得到目标检测结果。

2 试验设备与评价指标

2.1 试验设备

试验使用的软件为Python 3.6.13和深度学习框架PyTorch 1.6.0。工作站运行内存为64 G，CPU型号为至强Xeon-金牌5118，配备Nvidia TitanX GPU，操作系统为Ubuntu 16.04，CUDA版本为10.0.130，CUDNN版本为7.6.4。

网络训练时学习率设置为0.000 25，批量设置为4，在加载预训练模型的情况下，模型收敛速度较快，训练迭代次数设置为1 000次，在不加载预训练模型的情况下，模型收敛速度较慢，训练迭代次数为10 000次，均使用SGD（Stochastic Gradient Descent）算法优化。

2.2 模型评价指标

本研究选用平均准确率AP（Average Precision）、平均召回率AR（Average Recall）、网络参数量和检测速度对改进SSD网络的性能进行评价。其中，以召回率Recall和准确率Precision为横、纵坐标构成P-R曲线，整个P-R曲线下的面积即为AP，准确率是指检测为正样本的目标中实际为正样本的比例，召回率是指测试集中所有正样本中被正确识别为正样本的比例。本研究采用PSACAL VOC[18]数据集提供的评价指标mAP（mean Average Precision）来评价网络性能，即交并比IoU等于0.5时的平均准确率AP。AR是指交并比IoU在0.5～0.95之间，每隔0.05的步长对灵武长枣图像中目标的召回率计算一次，最终取平均值。分割速度是指网络模型每秒计算的图像帧数。准确率、召回率和平均准确率的计算公式如下：

式中TP表示正确检测的检测框数，FP表示误检测的检测框数，FN表示漏检测的检测框数，()表示P-R曲线。

3 结果与分析

3．1 改进DenseNet网络各结构的有效性

将改进SSD模型主干网络改进DenseNet中的卷积组数改为6和12，为SSD1模型。去掉改进SSD模型主干网络改进DenseNet中的CBAM模块，为SSD2模型。各组试验训练过程中平均准确率mAP和训练损失Loss的变化如图5所示。

如图5所示，当迭代次数达到8 000次时，SSD1模型、SSD2模型和改进SSD模型的损失值基本收敛，平均准确率在小范围内波动，基本趋于平稳，表明此时模型已经达到了较好的训练效果。与改进SSD模型相比，SSD1模型的主干网络使用了较多的卷积组，在训练初始，SSD1模型的训练效果略优于改进SSD模型，随着迭代次数的增加，当模型趋于稳定时，改进SSD模型的平均准确率要略高于SSD1模型，表明主干网络的结构并非越复杂越好，冗余结构反而可能会使准确率下降。改进SSD模型的主干网络中使用了CBAM注意力模块，模型稳定时，改进SSD模型的平均准确率高于SSD1模型，且曲线波动更小，表明CBAM模块在改进SSD模型中的有效性。

如图6所示，从测试集中随机挑选5张图像用于对比检测结果，检测结果如图7所示，各项评价指标结果如表1所示。其中，图7中置信度是指该目标的类别为灵武长枣的概率。表1中“IoU: 0.5:0.95”表示并比IoU在0.5～0.95之间，每隔0.05的步长计算一次平均准确率，最终取均值。“Area: S M L”表示每张图像中目标尺度分别为小于32像素×32像素、介于32像素×32像素至96像素×96像素之间和大于96像素×96像素。“−1”表示图像中没有该尺寸大小的目标。“Dets: 1 10 100”表示每张图像中最多提取1、10或100个目标。

从图7中可以看出，各模型均较好地完成了灵武长枣图像的检测任务。总体而言，SSD1模型对部分枣的检测效果略差，如③号枣的置信度仅有94.91%，比改进SSD模型低5.02个百分点，且并未检测出④号和⑤号两颗较小枣，而SSD2模型仅是对于部分枣检测的置信度略低于改进SSD模型，如①号枣和⑤号枣的置信度分别较改进SSD模型低1.74个百分点和7.55个百分点。

表1 改进DenseNet网络对比试验评价指标结果

如表1所示，在3种不同的IoU值（0.5:0.95, 0.5, 0.75）下，改进SSD模型的平均准确率AP分别比SSD1模型高1.29个百分点、0.89个百分点和0.77个百分点，比SSD2模型高0.22个百分点、0.11个百分点和1.08个百分点。在不同的提取目标数（1、10、100）下，改进SSD模型的平均召回率AR分别比SSD1模型高0.09个百分点和1.01个百分点，比SSD2模型高0.05个百分点和0.88个百分点。分析改进SSD模型的AP和AR高于SSD1模型的原因，可能是由于在SSD1模型中，密集块中过多的卷积组使网络结构产生冗余，反而导致精确度下降。以上试验结果表明6和8的卷积组个数以及CBAM模块在改进SSD模型中的有效性。

3.2 改进SSD模型各结构的有效性

去掉改进SSD模型额外层的Inception模块，为SSD3模型。将改进SSD模型额外层的Inception模块替换为如图8所示的残差模块，为SSD4模型。去掉改进SSD模型中的多级融合部分，为SSD5模型。各组试验训练过程中平均准确率mAP和训练损失Loss的变化如图9所示，目标检测结果如图10所示，各项评价指标结果如表2所示。

如图9所示，当迭代次数达到8 000次时，各模型的损失值均基本收敛，平均准确率均趋于平稳，模型均达到了较好的训练效果。SSD3模型、SSD4模型和SSD5模型的平均准确率均略低于改进SSD模型，表明改进SSD模型中所使用的Inception模块和多级融合的有效性。

从图10中可以看出，SSD3模型和SSD4模型对于①号枣检测的置信度较低，分别仅有93.89%和94.34%，对于②号枣检测的置信度也较低，分别仅有89.28%和94.79%，但SSD3模型对于图像2中其他枣的检测效果要优于改进SSD模型。与SSD3模型相比，改进SSD模型使用Inception模块，因此对图像中多尺度信息提取的能力更强，如对于④号枣和⑤号枣而言，改进SSD模型检测的置信度比SSD3模型分别高23.89个百分点和28.17个百分点。改进SSD模型对于④号枣检测效果略差于SSD4模型和SSD5模型，但对于⑤号枣检测的置信度分别比这两种模型高出33.52个百分点和24.00个百分点。各模型对于图像3和图像5中各枣的检测效果均较好，置信度均达到了99.50%以上。

如表2所示，在3种不同的IoU值下，改进SSD模型的平均准确率AP分别比SSD3模型高0.32个百分点、0.26个百分点和0.19个百分点，比SSD4模型高0.80个百分点、0.34个百分点和0.25个百分点，比SSD5模型高0.16个百分点、0.10个百分点和0.12个百分点。当图像提取目标数为1时，改进SSD模型的平均召回率AR分别比SSD3模型低0.13个百分点，比SSD4模型高0.13个百分点，比SSD5模型低0.31个百分点，表明仅提取图像中1个目标时，SSD3模型和SSD5模型的性能要优于改进SSD模型。当图像提取目标数为10时，改进SSD模型的召回率AR均高于其他模型。改进SSD模型检测速度最慢，仅有28.05帧/s，但参数量少于其他模型。以上试验结果表明Inception模块和多级融合在改进SSD模型中的有效性。

3.3 是否加载预训练模型对比试验

SSD模型、SSD模型（预训练）和改进SSD模型在试验训练过程中平均准确率mAP和训练损失Loss的变化如图11所示，目标检测结果如图12所示，各项评价指标结果如表3所示。

如图11所示，当各模型的损失值收敛后，SSD模型比改进SSD模型的平均准确率低约2.5个百分点，且平均准确率变化曲线波动较大，模型稳定性较差。SSD模型（预训练）由于加载了预训练模型，收敛速度很快，平均准确率变化曲线很快趋于平稳，但平均准确率与改进SSD模型相差不大。训练结果表明，尽管预训练可以加快收敛速度，但只要训练时间足够，并结合有效的目标检测网络结构，即使不加载预训练模型也达到较好的训练效果。

从图12中可以看出，SSD模型（预训练）和改进SSD模型对图像中各枣的检测效果均较好，除②号枣、④号枣和⑤号枣外，对各枣检测的置信度均达到了99%以上。相较而言，SSD模型的检测效果较差，如对于①号枣的置信度仅有83.06%，直接未检测出④号枣，且对其他各枣的检测精度基本均低于SSD模型（预训练）和改进SSD模型。

由于改进DenseNet网络相较ResNet50网络而言结构更为密集，且改进SSD模型中所使用的Inception模块和多级融合有助于提取图像中丰富的多尺度特征并融合多级信息，因此改进SSD模型的性能要优于SSD模型。如表3所示，在3种不同的IoU值下（0.5∶0.95、0.5、0.75），改进SSD模型的平均准确率AP分别比SSD模型高2.63个百分点、2.02个百分点和2.19个百分点。在不同的提取目标数下，改进SSD模型的平均召回率AR分别比SSD模型高0.35个百分点和2.65个百分点。SSD模型（预训练）和改进SSD模型的平均准确率AP和平均召回率AR的各指标值相差不大，尽管SSD模型（预训练）的速度比改进SSD模型高10.72帧/s，但网络结构参数量比改进SSD模型多11.14×106。

表3 是否加载预训练模型对比试验评价指标结果

由于灵武长枣采摘机器人实际作业环境较为复杂，一定程度上限制了采摘速度，且设备内存资源有限，因此对于视觉识别系统而言，需尽量满足在一定的检测速度下，具有更为轻量化的网络结构和更高的检测精度的要求，而本研究提出的改进SSD模型恰好满足以上要求。

4 结论

1）针对加载预训练模型的传统SSD模型不能更改网络结构，设备内存资源有限时便无法使用这一问题，本研究提出一种不使用预训练模型也能达到较高检测精度的灵武长枣图像轻量化目标检测方法，为灵武长枣智能化采摘提供了技术支持。

2）在灵武长枣数据集上的试验结果表明，改进SSD模型的平均准确率mAP为96.60%，检测速度为28.05帧/s，参数量为1.99×106，比SSD模型和SSD模型（预训练）的平均准确率mAP分别高出2.02个百分点和0.05个百分点，网络结构参数量比SSD模型少11.14×106，满足轻量化网络的要求。

3）对于其他加载预训练模型后训练效果仍不一定很好的目标检测任务，例如与ImageNet数据集相差较大的医学图像和多光谱图像的检测，本研究提出的改进SSD模型可为其提供新方法和新思路。

本研究提出的基于改进SSD的灵武长枣图像目标检测方法解决了传统SSD模型无法改变网络结构这一问题，满足了灵武长枣智能采摘机器人实际作业的要求，同时能够布署到资源有限的设备中，且在不加载预训练模型的情况下，针对灵武长枣目标检测任务也能达到较好的检测效果。除此之外，改进SSD模型也可为其他目标检测任务提供新方法和新思路。

[1] 谢志强，夏湛河，杨勇. 灵武长枣产业发展存在的问题及对策[J]. 现代农业科技，2019(13)：87，90.

[2] 朱峰，康自俊. 灵武长枣产业发展状况探析[J]. 现代农业科技，2018(21)：90，93.

[3] 朱丽燕. 宁夏灵武长枣产业发展的对策建议[J]. 时代经贸，2020(28)：36-37.

[4] 伍梅霞，唐文林，张宏霞. 灵武长枣产业发展中存在的问题及转型升级的思路与对策[J]. 山西果树，2019(4)：30-32.

[5] 李磊，徐国伟，李文婧，等. 基于深度学习的舰船目标检测算法与硬件加速[J]. 计算机应用，2021，41(S1)：162-166.

[6] 杨蜀秦，刘杨启航，王振，等. 基于融合坐标信息的改进 YOLO V4 模型识别奶牛面部[J]. 农业工程学报，2021，37(15)：129-135.

Yang Shuqin, Liu Yangqihang, Wang Zhen, et al. Improved YOLO V4 model for face recognition of diary cow by fusing coordinate information[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(15): 129-135. (in Chinese with English abstract)

[7] 蔡舒平，孙仲鸣，刘慧，等. 基于改进型 YOLOv4 的果园障碍物实时检测方法[J]. 农业工程学报，2021，37(2)：36-43.

Cai Shuping, Sun Zhongming, Liu Hui, et al. Real-time detection methodology for obstacles in orchards using improved YOLOv4[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(2): 36-43. (in Chinese with English abstract)

[8] 燕红文，刘振宇，崔清亮，等. 基于特征金字塔注意力与深度卷积网络的多目标生猪检测[J]. 农业工程学报，2020，36(11)：193-202.

Yan Hongwen, Liu Zhenyu, Cui Qingliang, et al. Multi-target detection based on feature pyramid attention and deep convolution network for pigs[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 193-202. (in Chinese with English abstract)

[9] 易诗，李欣荣，吴志娟，等. 基于红外热成像与改进 YOLOV3的夜间野兔监测方法[J]. 农业工程学报，2019，35(19)：223-229.

Yi Shi, Li Xinrong, Wu Zhijuan, et al. Night hare detection method based on infrared thermal imaging and improved YOLOV3[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(19): 223-229. (in Chinese with English abstract)

[10] 胡志伟，杨华，娄甜田. 采用双重注意力特征金字塔网络检测群养生猪[J]. 农业工程学报，2021，37(5)：166-174.

Hu Zhiwei, Yang Hua, Lou Tiantian. Instance detection of group breeding pigs using a pyramid network with dual attention feature[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(5): 166-174. (in Chinese with English abstract)

[11] Ross G, Jeff D, Trevor D, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Columbus: IEEE, 2014: 580-587.

[12] Girshick R. Fast R-CNN[J]. eprint arXiv, 2015, 1504.08083v2

[13] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-Time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[14] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas: IEEE, 2016: 779-788.

[15] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Hawaii: IEEE, 2017, 6517-6525.

[16] Redmon J, Farhadi A. YOLOv3: An incremental improvement[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake: IEEE, 2018.

[17] Bochkovskiy A, Wang C, Hong Y. YOLOv4: Optimal speed and accuracy of object detection[C]//2020 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle: IEEE, 2020.

[18] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multiBox detector[C]// 2016 European Conference on Computer Vision. Springer: Cham, 2016.

[19] Shen Z, Liu Z, Li J, et al. DSOD: Learning deeply supervised object detectors from scratch[C]// 2017 IEEE International Conference on Computer Vision (ICCV), Italy: IEEE, 2017, 1937-1945.

[20] He K, Girshick R, Dollar P. Rethinking imageNet pre-training[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul: IEEE, 2019, 4917-4926.

[21] 彭红星，黄博，邵园园，等. 自然环境下多类水果采摘目标识别的通用改进SSD模型[J]. 农业工程学报，2018，34(16)：155-162.

Peng Hongxing, Huang Bo, Shao Yuanyuan, et al. General improved SSD model for picking object recognition of multiple fruits in natural environment[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(16): 155-162. (in Chinese with English abstract)

[22] 李国进，黄晓洁，李修华. 基于改进YOLOv3的树上成熟芒果检测方法[J]. 沈阳农业大学学报，2021，52(1)：70-78.

Li Guojin, Huang Xiaojie, Li Xiuhua. Detection method of tree-ripe mango based on improved YOLOv3[J]. Journal of Shenyang Aricultural University, 2021, 52(1): 70-78. (in Chinese with English abstract)

[23] Gao F, Fu L, Zhang X, et al. Multi-class fruit-on-plant detection for apple in SNAP system using Faster R-CNN[J]. Computers and Electronics in Agriculture, 2020, 176: 105634. (in Chinese with English abstract)

[24] 熊俊涛，郑镇辉，梁嘉恩，等. 基于改进YOLO v3网络的夜间环境柑橘识别方法[J]. 农业机械学报，2020，51(4)：199-206.

Xiong Juntao, Zheng Zhenhui, Liang Jiaen, et al. Citrus detection method in night environment based on improved YOLO v3 network[J]. Transactions of The Chinese Society for Agricultural Machinery, 2020, 51(4): 199-206. (in Chinese with English abstract)

[25] Fu L, Majeed Y, Zhang X, et al. Faster R-CNN-based apple detection in dense-foliage fruiting-wall trees using RGB and depth features for robotic harvesting[J]. Biosystems Engineering, 2020, 197: 245-256.

[26] Wang Y, Dai Y, Xue J, et al. Research of segmentation method on color image of Lingwu long jujubes based on the maximum entropy[J]. Eurasip Journal on Image & Video Processing, 2017, 2017(1): 34-43.

[27] Dai Y, Wang Y, Xue J, et al. Research of segmentation method on image of Lingwu long jujubes based on a new extraction model of hue[J]. IEEE Sensors Journal, 2017, 17(18): 6029-6036.

[28] 刘向南，王昱潭，赵琛，等. 基于分水岭算法的灵武长枣图像分割方法研究[J]. 计算机工程与应用，2018，54(15)：169-175.

Liu Xiangnan, Wang Yutan, Zhao Chen, et al. Research on image segmentation method of Lingwu long jujubes based on watershed[J]. Computer Engineering and Applications, 2018, 54(15): 169-175. (in Chinese with English abstract)

[29] 赵琛，王昱潭，朱超伟. 基于几何特征的灵武长枣图像分割算法[J]. 计算机工程与应用，2019，55(15)：204-212.

Zhao Chen, Wang Yutan, Zhu Chaowei. Lingwu long jujubes image segmentation algorithm based on geometric features[J]. Computer Engineering and Applications, 2019, 55(15): 204-212. (in Chinese with English abstract)

[30] 王昱潭. 基于机器视觉的灵武长枣定位与成熟度判别方法研究[D]. 北京：北京林业大学，2014.

Wang Yutan. Research on Methods of Lingwu long jujubes’ Localization and Maturity Recognition Based on Machine Vision[D]. Beijing: Beijing Forestry University, 2014. (in Chinese with English abstract)

[31] 朱超伟. 灵武长枣图像识别系统的开发[D]. 银川：宁夏大学，2020.

Zhu Chaowei. Development of Image Recognition System of Lingwu Long Jujubes[D]. Yinchuan: Ningxia University, 2020. (in Chinese with English abstract)

[32] Kaeen S, Andrew Z. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. preprint arXiv, 2014,1409.1556.

[33] He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. preprint arXiv, 2015,1512.03385.

[34] Huang G, Liu Z, Laurens V, et al. Densely Connected Convolutional Networks[C]// 2016 IEEE Computer Society. Las Vegas: IEEE, 2016.

[35] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015: 1-9.

Lightweight object detection method for Lingwu long jujube images based on improved SSD

Wang Yutan, Xue Junrui

(750021,)

The complex working environment of picking robots has limited the picking speed and equipment memory resources in the intelligent harvesting of Lingwu long jujubes. Therefore, it is necessary to meet the requirements of lighter network structure and higher detection accuracy, particularly for the visual recognition system. A pre-train model has widely been loaded almost all the object detection at present, due to high initialization performance and convergence speed. However, two challenges are still remained: 1) The network structure cannot be changed on the limited memory resources of the device; 2) There may be great differences between the ImageNet dataset and the dataset to be trained, leading to the low training effect. Taking the SSD model as the basic framework, this research aims to propose a lightweight object detection for the images of Lingwu long jujubes. The excellent performance was achieved without loading the pre-train model. Firstly, data augmentation is performed on the collected 1 000 images to obtain 5 000 images. Data augmentation operations include random cropping, random vertical or horizontal flipping, random brightness adjustment, random contrast adjustment, and random saturation adjustment. Secondly, the Lingwu long jujube dataset was established, including 3 500 training images and 1 500 test images. The resolution of images consisted of 3 016×4 032, 4 068×3 456, and 2 448×3 264. The models of smartphones for image acquisition included HUAWEI TRT-AL00A, Vivo Y79A, and Xiaomi 2014501. The images were uniformly scaled to the resolution of 300×300, in order to meet the input requirements of image size in the SSD object detection. Data augmentation included random cropping, random vertical or horizontal flipping, as well as random adjustment of brightness, contrast, and saturation. The format of the PASCAL VOC dataset was also adopted. Labelling software was used to label the images, and then the marked images were stored in the label folder in XML format. Secondly, the improved DenseNet was utilized the Convolutional Block Attention Modules and two dense blocks with convolution groups of 6 and 8. Taking the improved DenseNet as the backbone network, the improved SSD model was obtained to combine with the multi-level fusion structure, where the first three additional layers were replaced in the SSD model with the Inception module. In the improved SSD model without loading the pre-train model, the mAP was 96.60%, the detection speed was 28.05 frames/s, and the number of parameters was 1.99×106, particularly 2.02 percentage points and 0.05 percentage points higher than that of the SSD and SSD model (pre-train), respectively. Correspondingly, the parameter of the improved SSD model was 11.14×106lower than the SSD model, fully meeting the requirements of the lightweight network without loading the pre-train model. This finding can provide a strong visual technical support for the intelligent harvesting of Lingwu long jujubes, even medical and multispectral images detection tasks.

images processing; object detection; Lingwu long jujubes; pre-train model; SSD model; DenseNet; Inception module

王昱潭，薛君蕊. 改进SSD的灵武长枣图像轻量化目标检测方法[J]. 农业工程学报，2021，37(19)：173-182.doi：10.11975/j.issn.1002-6819.2021.19.020 http://www.tcsae.org

Wang Yutan, Xue Junrui. Lightweight object detection method for Lingwu long jujube images based on improved SSD[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(19): 173-182. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.19.020 http://www.tcsae.org

2021-08-10

2021-09-14

国家自然科学基金（No.31660239）

王昱潭，教授，研究方向为图像处理和农业装备自动化与智能化。Email：wang_yt1108@163.com

10.11975/j.issn.1002-6819.2021.19.020

TP391

1002-6819(2021)-19-0173-10