采用改进YoloV4模型检测复杂环境下马铃薯

2021-02-19张兆国张振东李加念王海翼李彦彬李东昊

农业工程学报 2021年22期

张兆国，张振东，李加念，王海翼，李彦彬，李东昊

张兆国，张振东，李加念，王海翼，李彦彬，李东昊

（1. 昆明理工大学现代农业工程学院，昆明 650500；2. 云南省高校中药材机械化工程研究中心，昆明 650500）

为解决马铃薯联合收获机在作业过程中分级清选的问题，并在收获作业过程中实时监测评估收获状态，该研究提出一种在光照亮度变化大、土壤与薯块遮挡、机器振动以及尘土干扰等情况下对马玲薯进行识别检测并快速准确获取马铃薯数量以及损伤情况的机器学习模型。在卷积神经残差网络中引入轻量级注意力机制，改进YoloV4检测网络，并将YoloV4结构中的CSP-Darknet53网络替换为MobilenetV3网络，完成特征提取。试验结果表明，基于卷积神经网络的深度学习方法相比于传统Open-CV识别提高了马铃薯识别精度，相比于其他传统机器学习模型，MobilenetV3-YoloV4识别速度更快，马铃薯识别的全类平均准确率达到91.4%，在嵌入式设备上的传输速度为23.01帧/s，模型鲁棒性强，能够在各种环境下完成对正常马铃薯和机械损伤马铃薯的目标检测，可为马铃薯联合收获机智能清选以及智能收获提供技术支撑。

机器视觉；目标检测；深度学习；马铃薯；YoloV4；MobilenetV3

0 引言

近年来，马铃薯产业快速发展[1-2]。马铃薯作为中国第四大粮食作物，为国家粮食安全提供更多保障[3]。目前马铃薯产业的发展进入瓶颈期，原因之一是马铃薯收获作业效率低，智能化程度不高[4]。马铃薯的自动检测是马铃薯收获机智能化的前提。国外马铃薯收获机配备自动转速匹配功能，应用视觉系统与传感器配合检测马铃薯流量[5]。在马铃薯收获后应用视觉系统记录收获马铃薯数量以及检测马铃薯机械损伤情况。但农业机械工作环境较为复杂，传统基于Open-CV开发的马铃薯识别系统大多应用于简单环境，例如在暗箱中补充光源的检测环境，或者统一背景色下的检测环境，很难应用于田间作业的复杂环境。如光线变化程度大，土壤与薯块遮挡，尘土干扰，机器振动频率高等情况。基于机器学习的图像识别技术能在复杂环境下完成对马铃薯的检测以及定位任务[6-7]。

国内外针对马铃薯的图像识别技术已取得了一些成果，但大多停留在利用Open-CV进行阈值分割、边缘轮廓提取等传统计算机视觉处理方法以及高光谱图像的方法。针对的问题也停留在研究马铃薯薯型与芽眼识别以及分级检测。周竹等[8]设计了一款基于V型平面镜获取整个马铃薯的3面图像的分级系统；郑冠楠等[9]在传统视觉算法上，提出改进的离心率法，并利用该方法完成马铃薯分级；祁雁楠[10]提出了一种基于高斯拉普拉斯算子特征的疮痂斑迹定位方法，并对基于BP神经网络和回归分割曲线的疮痂病薯识别模型进行了研究；苏文浩[11]运用高光谱图像技术实现5种马铃薯缺陷的在线快速无损检测，获取马铃薯的高光谱图像并提取图像中反射率光谱，选取的7个特征波进行主成分分析法完成缺陷检测；汪成龙等[12]研究基于OpenCV的畸形马铃薯识别方法能正确判断马铃薯是否为畸形，许传悦等[13]基于传统机器视觉中的灰度变化，二值化处理，开闭运算以及去噪等方法，利用MATLAB软件开发马铃薯质量检测分级方法。

以上方法可识别的马铃薯类型较单一，且对土壤颜色相近、光照变化大等情况适应性较差；高光谱方法准确率相对较高，但响应速度慢，无法满足实时检测的效率要求。而深度学习中的目标检测算法能够快速完成目标检测任务[14-15]，目前国内外学者就机器学习在农业领域上的应用展开研究，并在果蔬疾病识别、病虫害识别、蓝莓冠层识别等问题上取得进展[16-19]。使用的深度学习的识别方法大致分为两类，一类基于区域推荐的目标检测方法，如Mask R-CNN[20]、Faster R-CNN[21]等，另一类是基于回归的目标检测，典型算法有SDD[22]、Yolo系列。相比之下，基于回归的目标检测算法在保证检测精度时，具有较快的检测速度[23]，更适于农业领域。YoloV4是基于回归的Yolo系列目标检测第四代算法，比较前几代算法，在检测中更具优势。

综上，本文以检测马铃薯及马铃薯机械损伤情况为目标任务，采用人工智能机器学习的技术手段，运用MobilenetV3-YoloV4网络完成马铃薯的识别。通过对比试验改进模型参数，并与YoloV4，YoloV3等网络模型以及OpenCV的识别效果进行对比，以评估模型的性能与速度。

1 数据集与预处理

1.1 图像采集

马铃薯图像采集于云南省昆明理工大学农业与食品学院土槽试验台，试验台0～200 mm土壤含水率为15.64%～17.13%，土壤坚实度为0.59 MPa。拍摄相机为佳能EOS-600D，相机采用CMOS传感器，传感器尺寸为22.3 mm×14.9 mm，有效像素为1 800万，图像获取时间为2020年12月11日。马铃薯图像采集现场如图1所示，马铃薯品种为“丽薯6号”与“青薯9号”，最小长宽高尺寸为78.9 mm×65.4 mm×44.8 mm，质量135.2 g；最大长宽高尺寸为102.7 mm×68.9 mm×58.7 mm，质量230.6 g。相机中心点到马铃薯中心与水平方向分别呈30°、45°、75°、90°夹角进行拍摄，采集图像的分辨率为5 184×3 456（像素），原图像保存为png格式，总计拍摄2 302张图像。为保证后续模型训练的精准度与对比试验的可靠性，从采集的图像中，筛选出质量高、画面清晰的1 849张照片。为提升训练模型结果的泛化能力，对采集的图像分别进行水平翻转，垂直翻转，镜像，添加噪声等处理。其中表面完好马铃薯照片为1 296张，机械损伤马铃薯图像为322幅，两者共存的图像231张。

1.2 图像预处理

图像识别系统对马铃薯收获作业进行实时监测时，识别效果主要受角度、光照亮度、表面黏土、掩埋程度等因素影响，为了使训练模型具有更好的泛化性能，首先运用OpenCV改变原始图像亮度和对比度，以模拟不同光照亮度下的环境状况；引入高斯噪声与椒盐噪声，扰乱图像可观测信息，提升模型对目标的捕捉能力，如图2所示。

由于土槽试验台采集的图像数据集在统一背景环境下完成，为丰富数据集，提升网络模型的泛化性，利用Python3中的Request模块编写爬虫程序，获取647张网页中的马铃薯图片，选取出167张有代表性的图片完成马铃薯标定，并在其他背景环境下补充马铃薯图像集201张。利用Shuffle函数打乱数据集，完成马铃薯图像集的乱序工作，以便网络模型得到更好的训练。选取数据集的90%共1 994张作为训练集，其余的10%共223张作为测试集。

使用LabelImg对经过处理的所有马铃薯图像进行标注，生成与图片名称相对应的XML文件，应用ElementTree 模块对XML文件进行解析，读取标注的单个或多个马铃薯的坐标位置。

2 YoloV4算法与改进

2.1 YoloV4卷积神经网络

YoloV4的网络结构简图如图3所示，在YoloV4的主干特征提取网络CSPDarknet53中，先对输入图像进行卷积处理，将卷积后的结果进行5次残差网络结构训练[24]。这些特征层为输入图片的特征集合，在主干特征提取网络中先开始进行下采样，大小从开始的416×416×3变为52×52×256（特征层1）、26×26×512（特征层2）、13×13×1 024（特征层3）等，其目的是使提取的语义信息更高。对最后一层残差网络的特征层进行3次卷积运算，并将特征层导入到空间金字塔池化层（Spatial Pyramid Pooling，SPP），利用不同大小的最大池化层对该特征层进行池化。池化后的结果进行堆叠并再一次进行3次卷积。将3次卷积过后的特征层进行2次上采样，与主干特征提取网络中的特征层1和特征层2进行堆叠，实现特征融合。完成特征金字塔的构建后，再进行第二阶段下采样。其中不断进行上采样与下采样的目的是堆叠得到更好的特征。最后Yolo head利用提取特征[25]对结果进行预测。

YoloV4使用Mosaic数据增强方法。Mosaic数据增强方法是CutMix数据增强方法的优化延伸，将4张训练图片进行翻转、缩放与色域调整，并按照左上角、左下角、右下角、右上角的顺序进行排列并拼接为一张图片，如图4所示。将得到的新图片传输至神经网络中学习。使用Mosaic数据增强方法进行标准化计算时，一次检测4张图片，加快了模型学习效率，也可以丰富目标图像的背景。

在目标识别任务中，为使训练网络收敛到最优解，尽可能接近损失（Loss）值的全局最小值，采用梯度下降的办法使学习率变得更小。余弦函数值会随着的变化而变化，梯度下降值先减速下降后加速下降再减速下降。通过这种方法可以避免Loss值进入局部最优解，而非全局最优解。

余弦退火衰减法原理如下：

其中η为当前学习率；为第几次索引运行值；η为学习率的最大值；η为学习率最小值；T为当前执行的周期数；T为当前运行环境下的总周期数。

当准确率震荡或Loss值不再衰减时，通过使用余弦退火衰减法调整学习率衰减梯度，使模型达到更低的Loss值。

2.2 YoloV4网络改进

2.2.1 利用MobilenetV3系列搭建YoloV4目标检测平台

Mobilenet模型是Google针对手机等嵌入式设备提出的一种轻量级深层神经网络，其核心是Depthwise-separable-convolution（深度可分离卷积块），MobilenetV3使用特殊的Bneck结构，具备MobilenetV2的线性瓶颈逆残差结构和MobilenetV1的深度可分离卷积，并引入轻量级的注意力模型，使用H-swish激活函数代替swish函数[26-27]。

如图5所示，MobilenetV3的Bneck结构对输入层进行1×1的卷积，而后进行3×3的深度可分离卷积。通过计算分析，改进后计算量和参数量下降到原来的1/4，显著提高检测速度。另外MobilenetV3引入轻量级注意力模型，MobilenetV3的注意力机制作用于全连接层，通过调整每个通道的权重为YoloV4加入注意力机制。

MobilenetV3针对MobilenetV2修改了尾部结构，之前MobilenetV2的Avg-PooL存在一个1×1卷积层用以提高特征维度，增加了计算量。改进后的尾部结构如图6所示，利用Avg-PooL将特征图大小由7×7减小到1×1，然后提高维度，减少49倍的计算量。为了进一步降低计算量，去掉前面纺锤型3×3卷积以及1×1卷积，进一步减少了计算量，而精度并没有损失。

MobilenetV3引入H-Swish激活函数代替MobilenetV2的部分ReLU6激活函数。H-Swish激活函数是在Swish激活函数上进行优化，优化后的H-Swish激活函数计算量更小。原激活函数Swish公式为

对原激活函数Swish进行调整后的H-Swish公式为

2.2.2 Anchor Box适应数据集式先验框改进

YoloV4通过自然场景数据集训练，计算得到9个特定位置的先验框（anchor），并将9个先验框分为3组，分别用于检测小物体，中等物体和大物体的默认先验框。本文马铃薯目标检测系统大多应用于农田环境和马铃薯分级检测平台等，在保证图像输入系统与地面或检测平台距离一定的情况下，马铃薯的大小相对均匀，与自然场景数据集完全不同，如果采用原有-means聚合算法，大小相近的马铃薯会被分到不同层进行预测，出现预测尺度和感受野不匹配的情况。大部分马铃薯属于中等尺寸物体，训练过程中造成大输出层与小输出层得不到训练，导致检测精度降低。

为解决这一问题，改进网络将原有YoloV4的3个输出层合并为一个大输出层，如图7所示，即所有马铃薯都在合并后的大输出层中采用多尺度融合方式完成检测。

2.2.3 改进后YoloV4网络模型

改进后的YoloV4网络模型结构图如图8所示，将输入层图片大小调整为416×416×3，使用MobilenetV3网络替换YoloV4原主干特征提取网络CSPDarknet53，并保证改进后主干提取网络获取的有效特征层的高和宽与CSPDarknet53获取的特征层的高和宽一致，即可将提取后的特征层传输至加强特征提取网络。在加强特征提取网络中将部分原有Conv卷积替换为DepthwiseConv深度可分离卷积以减小网络模型参数量，最后将3个输出层合并为一个大输出层。

2.3 评价指标

本文利用Precision-Recall曲线（简称-曲线）、AP（检测精度）、mAP（AP值在所有类别下的均值）、检测速度作为评价指标。其中，AP值即为-曲线与坐标轴围成区域面积。mAP是所有类的AP平均值。召回率（）与精准率（）按公式（4）和公式（5）计算。

其中T为被判为正类的正类；F为被判为正类的负类；F为被判为负类的正类。

3 结果与分析

3.1 试验平台与模型训练结果

试验采用TensorFlow-GPU2.3深度学习框架，运行深度学习工作站处理器为Intel Core-i9-10980XE，3.00 GHz，显卡为 GeForce GTX 2080s，操作系统为Windos 10，NVIDIA 461.37驱动，CUDA10.1版本，CUDNN神经网络加速库版本为7.6.5。

网络模型训练参数设置：迭代训练的样本数为8，总计8批次，进行20 000次迭代；动量因子设置为0.95，衰减系数设置为0.005，初始学习率为0.001，使用Mosaic数据增强与余弦退火算法。

衡量模型训练效果的指标之一是损失值。理论上来说，损失值越小，模型训练效果越好。训练完毕后根据后台日志信息记录可视化绘图，如图9所示。

训练集包含正常马铃薯图像1 497张，机械损伤马铃薯图像283张，两者共存214张。由图 9可知，随迭代次数的增加，损失值逐渐减少。改进后YoloV4在经历4 000次迭代后，模型损失值迅速收敛到2.5以下，至12 500次后损失值趋于平稳。每400次输出权重模型，得到50个模型，本文通过评价指标选取最优模型。

MobilenetV3-YoloV4网络模型随着迭代次数的增加，训练集损失值（Train_loss）和测试集损失值（Val_loss）不断减小。网络模型在迭代6 000次之后，Train_loss值和Val_loss值逐渐收敛，损失值小于2，在1.2附近趋于稳定，证明网络训练效果良好。趋于稳定后Val_loss值比YoloV4网络模型低1.1%，比YoloV3网络模型低1.7%。VGG16网络的Train_loss值在迭代过程不断下降，Val_loss值趋于不变，网络训练出现过拟合情况，比MobilenetV3-YoloV4网络模型的Val_loss值高2.3%。

3.2 马铃薯识别试验

3.2.1 马铃薯识别检测效果

本研究针对不同光照亮度、尘土干扰、机器抖动、大面积遮挡等情况下进行马铃薯的检测识别，验证MobilenetV3-YoloV4网络模型的有效性。

马铃薯检测识别的测试集共有622张照片，本文以相同的数据使用改进后的YoloV4网络模型进行训练与测试，训练平台的配置信息不变，使用YoloV4、YoloV3、和VGG16深度学习模型在相同数据集上进行对比，其中OpenCV是通过提取颜色与外边缘轮廓的特征信息实现马铃薯的识别，图10为测试结果展示。

在光照条件比较充足的情况下，各个网络模型均可以完成对单个马铃薯的检测，但改进后的YoloV4和YoloV4，YoloV3的检测结果置信度最高；在光照充足的情况下，改进后的YoloV4网络模型完成对所有马铃薯的识别；在马铃薯收获机运行情况下，改进后的YoloV4模型由于引入了轻量级注意力机制，对马铃薯的识别效果最好；在阴天光照不足的环境下，其他模型检测效果略低于改进后的YoloV4网络模型，而VGG16与Open-CV完全不适用于阴天光照不足的情况，在光照充足的情况下，只有改进后的YoloV4模型与YoloV4模型识别出机械损伤马铃薯；在收获机作业工程中机器振动和尘土干扰情况下，改进后的YoloV4模型能够完成复杂环境下的动态检测，其他算法模型不易捕捉马铃薯模型，或错将土块检测为马铃薯。

图11为MobilenetV3-YoloV4、YoloV4、YoloV3、VGG16模型对马铃薯识别，以及机械损伤识别的P-R曲线图，表1为不同训练网络模型的马铃薯检测结果。由表1可知，改进后的YoloV4模型与YoloV3、VGG16模型相对比，检测正常马铃薯的精度分别提升4、14.8个百分点，检测机械损伤马铃薯的精度分别提升了3.1、11.6个百分点，模型的平均精度均值分别提高了3.5、12.7个百分点。试验中改进后的YoloV4与原YoloV4检测精度基本不变，甚至在光照不足的条件下检测精度要比原YoloV4精度要高，且检测速度比原YoloV4、YoloV3、VGG16快70%、47%、168%。改进后网络模型可以完成在复杂环境下对马铃薯的检测任务。

表1 不同训练网络模型的马铃薯检测结果

3.2.2 不同观测角度下模型检测效果

试验马铃薯为“丽薯8号”，视觉采集系统嵌入一个基于深度相机与机器人操作系统（ROS）融合的嵌入式机器人中，该设备由激光雷达、深度相机、工控机、树莓派4B+等设备组成。激光雷达型号为RPLIDAR-A2，测量半径为0.2～16 m，深度相机选用Astra-pro，深度范围0.6 ～8 m，工控机处理器型号为盈驰YM-501，处理器为i5-5200U，显卡型号为Intel-HD5500，搭载Ubuntu操作系统，试验现场如图12所示。

试验在昆明理工大学农业与食品学院土壤-植物-机器系统实验室进行。在农田环境中，嵌入式设备上的深度相机与马铃薯目标在水平方向和竖直方向都存在不同距离，造成摄像机识别马铃薯的角度不同，为验证马铃薯在不同角度下的识别效果，调整深度相机中心点到马铃薯中心与水平方向呈30°、45°、60°、90°角度的情况下进行识别，如图13所示，搭载Mobilenet-YoloV4模型的嵌入式平台在不同探测角度下可完成马铃薯目标检测并给出马铃薯数量与马铃薯中心点坐标。

将MobilenetV3-YoloV4训练网络导入至机器人控制系统，在Linux系统下为目标识别网络配置Python，Tensorflow环境。将当前视觉识别区域中马铃薯、机械损伤的马铃薯个数以及坐标位置发送至工控机，工控机结合深度相机测量距离，通过算法定位机械损伤马铃薯的空间位置，控制机械臂抓取。该目标检测系统应用在低功耗的嵌入式设备中，检测速率平均可达23.01帧/s，满足实际工作需要。

3.2.3 马铃薯收获作业实时监测效果

于2021年3月在重庆市农业科学院农业机械研究所进行田间试验，如图14所示，试验过程中马铃薯收获机通过牵引架与东方红604轮式拖拉机挂接作业，前进速度为2 km/h，二级升运链线速度为1.4 m/s。摄像头安装在机架上，镜头俯视输送带，采用多角度位置固定拍摄。马铃薯联合收获机作业时长2 h，田间调头时停止记录拍摄6次。在工控机中运行录屏软件Kazam，实时记录马铃薯联合收获时图像识别检测效果，将视频按1帧/s进行png格式的图片提取，捕捉田间作业时检测效果图。

根据马铃薯升运链上马铃薯的数量，将马铃薯流量评为Ⅰ级、Ⅱ级、Ⅲ级。在试验确定升运筛最佳速度的条件下，输送带上马铃薯数量小于10个，马铃薯流量等级定位分为Ⅰ级，输送带上马铃薯数量大于10个小于20 个时，马铃薯流量等级定为Ⅱ级，输送带上马铃薯数量大于20个时，马铃薯流量等级定为Ⅲ级。视觉系统识别到经过输送带的薯土混合物喂入量过多时，调节立式环形分离装置转速加快，避免马铃薯过量堆积，形成不必要的“回流”与“滚动”，可有效降低马铃薯-马铃薯，土壤-马铃薯之间产生线性擦伤，造成破皮率增大。当喂入量减少时，调节立式环形分离装置转速下降，减弱装置振动带来的损伤，减少马铃薯-栅条之间产生线性擦伤，同时降低能耗。正确预测当前马铃薯流量等级，可为马铃薯联合收获机在作业中调速提供准确参考。各流量等级下马铃薯检测正确率如下表2所示，试验效果图如图15所示。

1.东方红604拖拉机 2.马铃薯联合收获机 3. 清石除杂装置 4.立式环形分离装置

表2 不同流量等级下马铃薯检测结果

由试验结果可知，MobilenetV3-YoloV4网络模型在实际作业环境中识别正确率略高于90%，分析识别预测不准确的主要原因在于两个马铃薯之间重合度过大。图片中预测框上数字表示预测置信度。

4 结论

1）本研究提出了一种基于MobilenetV3改进YoloV4的目标检测模型，在卷积神经残差网络中引入轻量级注意力机制，并将YoloV4中CSP-Darknet53网络替换为MobilenetV3网络结构。完善后的MobilenetV3-YoloV4网络鲁棒性更好，网络模型更轻量化，保证马铃薯的识别率不降低的同时，提高设备检测效率。

2）根据田间实际作业环境，制作了正常马铃薯与机械损伤马铃薯两类图像数据集，并分别使用MobilenetV3-YoloV4，YoloV4，YoloV3，VGG-16，Open-CV模型进行测试，结果表明，在保证检测精度的条件下，MobilenetV3-YoloV4网络模型检测速度均优于其他网络。

3）对MobilenetV3-YoloV4网络模型进行性能评价，网络能够在光照亮度变化大、土壤与薯块遮挡、机器振动以及尘土干扰等复杂情况下完成马铃薯识别检测。MobilenetV3-YoloV4网络模型在30°，45°，60°，90°的识别角度下，能够完成对马铃薯的识别。田间收获试验表明马铃薯识别的平均准确率达到91.4%，在嵌入式设备上检测速度为23.01帧/s，满足作业要求，利于应用在农业嵌入式设备中。

[1] 中国农业年鉴编辑委员会. 中国农业年鉴2018[M]. 北京：中国农业出版社，2018：46-49.

[2] 罗其友. 马铃薯产业与美丽乡村论文集[C]. 哈尔滨：黑龙江科学技术出版社，2020.

[3] 黄凤玲，张琳，李先德，等. 中国马铃薯产业发展现状及对策[J]. 农业展望，2017，13(1)：25-31.

Huang Fengling, Zhang Lin, Li Xiande, et al. Development status and Countermeasures of China's potato industry[J]. Agricultural Outlook, 2017, 13(1): 25-31. (in Chinese with English abstract)

[4] 张烁，罗其友，马力阳，等. 我国马铃薯区域格局演变及其影响因素分析[J]. 中国农业大学学报，2020，25(12)：151-160.

Zhang Shuo, luo Qiyou, Ma Liyang, et al. Evolution of potato regional pattern and its influencing factors in China[J]. Journal of China Agricultural University, 2020, 25(12): 151-160. (in Chinese with English abstract)

[5] 周玉华，刘汶树，张先锋，等. 西南地区马铃薯生产机械化与产业发展战略[J]. 农业开发与装备，2017(10)：6.

[6] 赵民，葛云露，丁宁. 基于CenterNet算法的复杂环境目标检测技术[J]. 中国电子科学研究院学报，2021，16(7)：654-660.

Zhao Min, Ge Yunlu, Ding Ning. Object detection technology in complex environment based on centerNet algorithm[J]. Journal of Chinese Academy of Electronic Sciences, 2021, 16(7): 654-660.

[7] 刘冲冲. 基于深度学习的马铃薯外部缺陷检测方法研究[D].银川：宁夏大学，2019.

Liu Chongchong. Study on Potato External Defeet Detection Method Based on Deep Learning[D]. Yinchuan: Ningxia University, 2019. (in Chinese with English abstract)

[8] 周竹，李小昱，陶海龙，等. 基于高光谱成像技术的马铃薯外部缺陷检测[J]. 农业工程学报，2012，28(21)：221-228.

Zhou Zhu, Li Xiaoyu, Tao Hailong, et al. External defect detection of potato based on hyperspectral imaging technology[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(21): 221-228. (in Chinese with English abstract)

[9] 郑冠楠，谭豫之，张俊雄，等. 基于计算机视觉的马铃薯自动检测分级[J]. 农业机械学报，2009，40(4)：166-168.

Zheng Guannan, Tan Yuzhi, Zhang Junxiong, et al. Automatic potato detection and grading based on computer vision[J].Transactions of The Chinese Society of Agricultural Machinery, 2009, 40(4): 166-168. (in Chinese with English abstract)

[10] 祁雁楠. 基于机器视觉的马铃薯疮痂检测方法[D]. 北京：中国农业机械化科学研究院，2019.

Qi Yannan. Method for Detecting Potato Scab based on Machine Vision[D]. Beijing: Chinese Academy of agricultural mechanization, 2019. (in Chinese with English abstract)

[11] 苏文浩. 马铃薯外部缺陷的高光谱技术无损检测研究[D]. 银川：宁夏大学，2014.

Su Wenhao. Hyperspectral Imaging in Detecting Potato External Defects[D]. Yinchuan: Ningxia University, 2014. (in Chinese with English abstract)

[12] 汪成龙，陈广财，陈国壮. 基于OpenCV的畸形马铃薯识别方法[J]. 湖南农业科学，2018(4)：85-87.

Wang Chenglong, Chen Guangcai, Chen Guozhuang. Identification method of abnormal potato based on OpenCV[J]. Hunan Agricultural Science, 2018(4): 85-87. (in Chinese with English abstract)

[13] 许传悦，彭世英，杨金凤，等. 基于MATLAB的马铃薯图像特征提取[J]. 科学技术创新，2020(7)：77-78.

[14] Feichtenhofer C, Pinz A, Zisserman A. Detect to track and track to detect[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017.

[15] Kang K, Li H, Xiao T, et al. Object detection in videos with tubelet proposal networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. 2017.

[16] 朱旭，马淏，姬江涛，等. 基于Faster R-CNN的蓝莓冠层果实检测识别分析[J]. 南方农业学报，2020，51(6)：1493-1501.

Zhu Xu, Ma Yu, Ji Jiangtao, et al. Detecting and identifying blueberry canopy fruits based on Faster R-CNN[J]. Southern Journal of Agriculture, 2020, 51(6): 1493-1501. (in Chinese with English abstract)

[17] 谭文学，赵春江，吴华瑞，等. 基于弹性动量深度学习神经网络的果体病理图像识别[J]. 农业机械学报，2015，46(1)：20-25.

Tan Wenwen, Zhao Chunjiang, Wu Huarui, et al. Fruit pathological image recognition based on elastic momentum deep learning neural network[J]. Transactions of The Chinese Society of Agricultural Machinery, 2015, 46(1): 20-25. (in Chinese with English abstract)

[18] 魏靖，王玉亭，袁会珠，等. 基于深度学习与特征可视化方法的草地贪夜蛾及其近缘种成虫识别[J]. 智慧农业，2020，2(3)：75-85.

Wei Jing, Wang Yuting, yuan Huizhu, et al. Identification and morphological analysis of adultSpodoptera frugiperda and its close related species using deep learning[J]. Intelligent agriculture, 2020, 2(3): 75-85. (in Chinese with English abstract)

[19] 徐岩，李晓振，吴作宏，等. 基于残差注意力网络的马铃薯叶部病害识别[J]. 山东科技大学学报：自然科学版，2021，40(3)：76-83.

Xu Yan, Li Xiaozhen, Wu Zuohong, et al. Potato leaf disease recognition via residual attention network[J]. Journal of Shandong University of Science and Technology: Natural Science Edition, 2021, 40(3): 76-83. (in Chinese with English abstract)

[20] He K, Gkioxari G, Dollar P, et al. Mask R-CNN[C]. Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.

[21] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]. Advances in Neural Information Processing Systems, 2015: 91-99.

[22] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot Multibox Detector[C]. I European Conference on Computer Vision. Springer, Cham, 2016: 21-37.

[23] 孔维刚，李文婧，王秋艳，等. 基于改进YOLOv4算法的轻量化网络设计与实现[J/OL]. 计算机工程，[2021-04-30] DOI：10.19678/j.issn.000-3428.0060948

Kong Weigang, Li Wenjing, Wang Qiuyan, et al. Design and implementation of lightweight network based on YOLOv4 algorithm[J/OL]. Computer Engineering: [2021-04-30] DOI: 10.19678/j.issn.000-3428.0060948 (in Chinese with English abstract)

[24] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society: Piscataway, 2016: 779-788.

[25] Bochkovskiy A, Wang C Y, Liao H. YOLOv4: Optimal Speed and Accuracy of Object Detection[C]. CVPR 2020 Alexey Bochkovskiy

[26] 周博文. 基于MobileNetV2的目标检测算法研究与应用[D].武汉：湖北工业大学，2020.

Zhou Bowen. Research and Application of Object Detection A1gorithm Based on MobileNetV2[D]. Wuhan: Hubei University of Technology, 2020. (in Chinese with English abstract)

[27] 陈泳豪，萧嘉乐，粟涛. MobileNetV2神经网络处理器设计方案比较[J]. 计算机工程与科学，2021，43(1)：24-32.

Chen Yonghao, Xiao Jiale, Su Tao. Comparison of design schemes of MobileNetV2 neural network processor[J]. Computer Engineering and Science, 2021, 43(1): 24-32. (in Chinese with English abstract)

Potato detection in complex environment based on improved YoloV4 model

Zhang ZhaoGuo, Zhang Zhendong, Li Jianian, Wang Haiyi, Li Yanbin, Li Donghao

(1.,,650500,; 2.,650500,)

Potatoes have been provided more guarantee for the national food security as the fourth largest food crop in China. However, the relatively low harvest efficiency and intelligence operation have been serious bottlenecks in the potato industry at present. It is necessary to real-time detect and evaluate the potato’s state during harvesting, particularly on the grading and cleaning treatment in a combine harvester. In this study, a machine learning model was proposed to quickly and accurately identify the number and damage of potatoes under the various working environments, such as light brightness, shielding of soil and potato blocks, machine vibration, and dust interference. A lightweight attention mechanism was also introduced into the convolutional neural residual network. The attention mechanism acted on the full connection layer was then added to the YoloV4 using the different weights of each channel. The original K-means aggregation was abandoned, due to the relatively consistent size of potatoes. Three output layers of YoloV4 were combined into a large output layer, where the cspdarknet53 was replaced by the mobile netv3 network structure to realize the feature extraction. As such, the MobilenetV3 presented an inverse residual structure with the deeply separable convolution blocks and linear bottlenecks. The amount of calculation and parameters were reduced to 1/4 of the original using the H-swish activation function instead of the swish function, thereby significantly improving the detection speed without loss of the recognition rate of the potato. Some operations were selected to process the collected images for the better generalization ability of the training model, including the horizontal flip, vertical flip, mirror image, and adding noise. Among them, there were 1 296 images with high quality, 322 images of mechanically damaged potatoes, and 231 images with disturbing for comparison. The collected image data set was used for the model training at the workstation, where the loss value of training set and test set were recorded. Subsequently, the comparative and field tests were carried out, where the trained network was introduced into the embedded equipment. The evaluation indexes were set as the precision-recall curve, AP (detection accuracy), map (mean value of AP value in all categories) and detection speed. It was proved that the depth learning improved the recognition accuracy of potato, compared with the traditional open CV model. The MobilenetV3-YoloV4 also presented a higher recognition speed, and an excellent extraction performance to the target, compared with YoloV4, YoloV3, VGG16, and traditional open CV models. The results show that the average accuracy of potato recognition was 91.4%, indicating strong robustness for the target detection of normal potato and mechanically damaged potato in various environments. There was a better performance at the illumination of 30º, 45º, 60º and 90º, where the transmission speed of 23.01 frames per second when the network model was applied to embedded devices. A field experiment proved that the MobilenetV3-YoloV4 was used to real-time detect the potato flow in the actual harvest. According to the flow, the separation speed of the vertical annular was adjusted to avoid the excessive accumulation of potatoes, when the potato was fed too much. Otherwise, the linear scratch between potato and soil potato would result in the increase of the skin breaking rate. Once the feeding amount was reduced, the rotating speed of the vertical annular was adjusted to reduce the damage caused by the vibration of the device, where there was less energy consumption, as well as the less linear scratch between the potato and the grid. This finding can provide sound technical support for the intelligent cleaning and grading of potatoes in a combine harvester.

machine vision; target detection; deep-learning; potato; YoloV4; MobilenetV3

张兆国，张振东，李加念，等. 采用改进YoloV4模型检测复杂环境下马铃薯[J]. 农业工程学报，2021，37(22)：170-178.doi：10.11975/j.issn.1002-6819.2021.22.019 http://www.tcsae.org

Zhang ZhaoGuo, Zhang Zhendong, Li Jianian, et al. Potato detection in complex environment based on improved YoloV4 model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(22): 170-178. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.22.019 http://www.tcsae.org

2021-05-30

2021-06-29

云南省重大科技专项（2018ZC001）；重庆市科研机构绩效激励引导专项（cstc2019jxj100002）

张兆国，博士，教授，博士生导师，研究方向为农业机械装备设计。Email：zzg@kust.edu.cn

10.11975/j.issn.1002-6819.2021.22.019

S24

1002-6819(2021)-22-0170-09