APP下载

基于改进YOLO v4的单环刺螠洞口识别方法

2023-03-07梁翔宇曾立华宋小鹿周玺兴

农业机械学报 2023年2期
关键词:单环锚点洞口

冯 娟 梁翔宇 曾立华 宋小鹿 周玺兴

(1.河北农业大学信息科学与技术学院,保定 071001;2.河北省农业大数据重点实验室,保定 071001;3.华南师范大学生命科学学院,广州 510631;4.广东省水产健康安全养殖重点实验室,广州 510631;5.河北农业大学机电工程学院,保定 071001)

0 引言

单环刺螠是中国北方沿海常见的一种海洋底栖无脊椎动物,俗名海肠,体壁富含多种人体需要的生物活性肽,肉味鲜美,具有很高的营养价值及经济价值[1]。单环刺螠有潜沙穴居习性,在海底营造非标准的U型洞穴生活,洞口向上,身体能潜到40 cm深度,洞口直径约3 cm[2]。目前我国仍采用手工挖捕成体的方式,其缺陷较多,容易造成单环刺螠死亡或残损,且采捕效率低、成本高,影响池塘内刺参的生态混养等[3]。本文对单环刺螠洞口进行识别研究,是实现自动化采捕、养殖池塘内产量预测、确定最佳单环刺螠投放比例的必要准备,目前尚未见相关报道。

水下图像质量退化是准确识别单环刺螠洞口的主要难点。此前,国内外学者对水下目标识别进行了广泛的研究。QIAO等[4]利用对比度受限的自适应直方图均衡化(Contrast limited adaptive histogram equalization, CLAHE)算法增加海参刺和海参体的对比度,利用主动轮廓法对海参进行分割。吴健辉等[5]提出一种基于图像处理技术的鱼种类自动识别方法,识别4种主养鱼类,对团头鲂的识别精度为100%,对鲫、鲤、草鱼的识别精度为96%。在实际应用中,由于水下图像信息的复杂性,传统目标检测算法只能适用于某种特定环境,无法应用在不同场景,算法检测的精确率和速度都有待提高[6]。深度学习给水下目标识别带来了新的发展方向,在农业[7-10]、工业[11-13]等多个领域得到了广泛应用。DAI等[14]使用带有内部特征和核校准模块的残差网络进行水生生物识别,在自建数据集上识别Top-1准确率提高至95.7%。张明华等[15]通过改进Cascade R-CNN和图像增强进行夜晚鱼类的检测。张佳林等[16]利用机器视觉进行鱼类摄食分类,综合准确率达到了89%。

上述研究对象多为水中生物,对于水下洞口识别暂无涉及,且图像采集多在水质清的环境下进行。但养殖塘塘底受光线较弱和存在杂质等因素的影响,目标检测效果并不理想。当前基于深度学习的目标检测算法主要分为两类,基于Two-stage的RCNN系列算法,基于One-stage的SSD和YOLO系列算法。基于Two-stage的检测算法具有高检测精度的特点,缺点是检测速度较慢;基于One-stage的检测算法检测精度相对较低,但检测速度快,能够满足实时检测需求。采捕船采捕时模型需部署在船上的嵌入式设备中进行实时检测,模型尺寸与检测速度要求较高。

针对上述问题,选择One-stage系列综合表现最稳定的YOLO v4为基础目标检测模型,替换其主干网络为轻量型网络,在此基础上使用深度可分离卷积块替换原网络中的普通卷积块,降低模型参数量,提高检测速度;采用MSRCR增强算法对数据集进行图像增强,提高图像质量;对锚点框尺寸进行优化,降低预设锚点框尺寸带来的误差,进一步提升检测精度。最后,将研究模型部署在嵌入式设备上,测试模型效果。

1 材料与方法

1.1 图像采集

实验地点位于河北省秦皇岛市附近的一块单环刺螠养殖池塘。模拟实际场景下采捕船的采捕,搭建了一套由水下相机、自主游弋式巡航无人船、Jetson AGX Xavier构成的图像采集装置,获取单环刺螠养殖塘底影像。自主游弋式巡航无人船(图1a)(山一科技)配备两个电池供电的无刷电机,由采集人员在池塘内遥控航行。无人船搭载成像设备——水下摄像头,镜头分辨率为352像素×240像素,获取塘底视频保存至嵌入式设备Jetson AGX Xavier上。

图1 图像采集装置

1.2 数据集构建与标注

视频获取时间为2020年11月15日,采用垂直摄影的方式,共获取视频21.55 min,利用Python程序每间隔25帧截取一幅图像,人工复检删除质量较低的图像后共保留782幅图像。为丰富数据集、提高模型泛化能力,对图像进行数据增强操作,每幅图像进行水平镜像、垂直镜像及水平垂直镜像,将数据集扩增至3 128幅。将3 128幅图像随机划分为训练集、测试集和验证集,其中(训练集+验证集)与测试集图像数量比例为9∶1;训练集与验证集图像比例为9∶1,训练集2 533幅,验证集282幅,测试集313幅。

使用目标检测算法训练前,需要对采集的原始图像进行人工标注。选择当前常用的LabelImg标注工具对水下单环刺螠洞口进行标注,选定图像中仅有单环刺螠洞口一个分类,使洞口中心点位于标注框中心,标注完成后自动生成含有类别和位置信息的xml文件。为满足YOLO v4神经网络的训练要求,将制作好的数据集保存为PASCAL VOC格式,以便用于网络训练与测试,在3 128幅图像中共含边框标注样本30 896个。

1.3 图像增强

水下图像由于水中介质吸收光能、散射改变光的方向等,图像对比度低、清晰度低、质量退化[17]。为提升检测精度,对数据集进行图像增强处理。目前主流的水下图像增强方法包括3类:①基于空间域的增强方法,包括灰度变化和直方图均衡化等。②基于颜色恒常性的增强方法,包括色域映射和Retinex理论等。③基于先验知识的增强方法,包括暗通道先验去雾和基于R通道的先验颜色恢复等[18]。

选取当前主流的CLAHE算法[19]、暗通道先验去雾算法[20]、MSRCR算法[21]对数据集进行图像增强对比实验,其效果见图2。结果显示,MSRCR算法增强后的数据集检测精度提升最多。

图2 不同方法增强效果对比

根据GIMP中MSRCR的思想, MSRCR算法有动态对比参数Dynamic、最大尺度、尺度数3个超参数可以对增强后的图像质量进行动态调整。经不同参数组对比实验,如图3所示,尺度数与Dynamic对增强图像质量的影响最大,针对此数据集,结果显示Dynamic取1时目视增强效果最好,尺度数取值越大,水下图像增强后的对比度越强,当其取值在6~8之间时能保持图像最适宜的清晰度增强。对于最大尺度,针对此数据集,实验结果显示取值以大于300效果最佳,300~500目视效果接近。最终采用Dynamic为1,最大尺度为500,尺度数为8作为MSRCR选定参数对数据集进行图像增强处理。

图3 MSRCR算法不同参数效果对比

2 单环刺螠洞口识别模型优化与部署

2.1 YOLO v4模型改进

相比于Two-stage方法,One-stage是通过基于回归的方式来提取特征,无需生成大量的候选窗口,直接对输入图像进行目标检测和分类,属于端到端的目标检测。YOLO v4是One-stage系列中最为先进的目标检测方法之一,综合表现稳定。

YOLO v4[22]由主干网络(Backbone)、颈部网络(Neck)和预测头网络(Detection head)3部分组成,整体上是基于YOLO v3的改进,采用了很多新的目标检测算法思想,如Mosaic数据增强、标签平滑、余弦退火算法等。在检测精度方面,由于YOLO v4模型预设锚点框是基于COCO数据集获取,与单环刺螠洞口目标在尺寸上差距较大,导致检测精度有所下降。在检测速度与模型尺寸方面,自动采捕船嵌入式设备算力及存储空间资源有限,采捕时洞口检测实时性要求较高,而YOLO v4模型主干网络CSPDarkNet53网络参数量大,特征提取过程中计算量大,计算时间长,导致整体YOLO v4模型检测速度与模型尺寸无法满足要求。针对以上问题,在YOLO v4模型的基础上进行了针对性改进,使其更适用于采捕船嵌入式设备的部署。

2.2 单环刺螠洞口识别模型优化

2.2.1主干特征提取网络替换

YOLO v4原始主干特征提取网络CSPDarkNet53模型复杂、检测实时性差、模型尺寸大。为满足模型部署到采捕船的嵌入式设备上实现单环刺螠洞口实时检测的要求,需要将YOLO v4主干网络替换为更高效的轻量型网络。

MobileNet v2是MobileNet v1的改进版,在MobileNet v1的基础上利用Inverted residual策略加入了反向残差模块(Inverted residual block),利用Linear bottleneck策略将最后的ReLU6层变成了Linear形式,利用Expansion layer策略使深度卷积可以在更高维度进行。经一系列改进后的MobileNet v2网络模型的参数量与计算量明显降低,检测速度有所提升,使用Mobilenet v2替换YOLO v4的主干特征提取网络CSPDarkNet53。Mobilenet v2[23]作为轻量型神经网络,使用3×3逐通道卷积与1×1逐点卷积的结构组合,实现目标的特征提取及特征信息的融合,3×3的逐通道卷积层参数占比少,网络层的计算量及参数占比主要集中在1×1的逐点卷积。逐通道卷积参数占比的减少使得Mobilenet v2能够提高网络训练效率,加快运算速度实现快速检测,解决因硬件设备限制导致的目标检测速度缓慢问题。

2.2.2深度可分离卷积

Mobilenet v2等轻量型网络结构中,会有深度可分离卷积(Depthwise separable convolution,DSC)[24],由逐通道卷积和逐点卷积两部分结合起来提取特征。相比常规的卷积操作,深度可分离卷积可以减少网络参数量,节约计算成本,提高检测速度。例如输入特征图尺寸为H×W、输入通道数为M,卷积核尺寸为K×K,输出通道数为N,输出特征图尺寸为DF×DF。普通卷积计算量Ns为

Ns=K×K×M×N×DF×DF

(1)

深度可分离卷积计算量由逐通道卷积与逐点卷积组成。逐通道卷积计算量Nd为

Nd=DF×DF×M×K×K

(2)

逐点卷积计算量Np为

Np=DF×DF×M×N

(3)

深度可分离卷积与普通卷积计算量比值为

(4)

由计算结果可以看出,深度可分离卷积的计算量减少与输出通道数和使用的卷积核尺寸相关,如当卷积核为3×3时,深度可分离卷积的计算量约为普通卷积的1/9,有利于提高模型的推理速度。

2.2.3反向残差模块

Mobilenet v2的一个重要改进就是反向残差模块的使用,整个Mobilenet v2都由反向残差模块组成。反向残差模块可以分为两部分:左边是主干部分,首先利用1×1的普通卷积进行升维,使用批量标准化(Batch normalization,BN)层对特征进行归一化处理,然后利用3×3的深度可分离卷积进行特征提取,接上批次BN层与ReLU 6激活函数,最后再利用1×1的普通卷积实现降维,并使用BN层进行归一化处理。右边是残差边部分,反向残差模块将输入与左半部分的输出直接融合作为残差边。当步长为2时,为使输入与输出的维度匹配,不采用短连接,如图4所示。

图4 反向残差模块

2.3 改进YOLO v4模型

为简化网络结构,降低模型尺寸,满足模型部署在嵌入式设备上实现单环刺螠洞口实时检测的要求,利用轻量型网络Mobilenet v2替换YOLO v4的CSPDarkNet53网络,将其输出作为颈部网络部分的输入,Mobilenet v2主要由3个6层、7层、4层的反向残差模块构成,同时为进一步减少模型参数量,使用深度可分离卷积块替换YOLO v4中Neck和Detection Head部分的3×3和5×5普通卷积块,改进后的YOLO v4网络结构如图5所示。其中DWconv代表一个3×3的深度可分离卷积和一个 1×1的普通卷积组成的深度可分离卷积块,CBR由卷积层(Convolutional)、BN层和激活函数层(ReLU 6)组成。

图5 改进后的YOLO v4算法网络结构图

2.4 锚点框聚类与优化

YOLO v4网络按大中小比例预设了9个共3类锚点框,分别用于3个不同尺度的YOLO Head来预测目标,预设锚点框尺寸是在COCO数据集上通过聚类获得。预设的锚点框尺寸在常规场景下的目标检测任务已经具有较好的适用性,但在极端场景小目标识别方面,使用预设的锚点框会增大误差,影响模型的检测精度。为提升单环刺螠洞口检测精度,针对数据集重新进行锚点框聚类。利用K-means聚类算法对数据集进行聚类获取锚点框,尺寸为(5,6)、(6,7)、(7,6)、(7,7)、(8,8)、(10,7)、(8,9)、(10,10)、(14,13),经训练测试发现,检测精度相较预设锚点框有所下降。分析原因是K-means对初始聚类中心的选取敏感,不同初始聚类中心聚类的结果差别较大,易造成选取不准确。

针对K-means选取初始聚类中心的弊端,利用K-means++算法解决该弊端。K-means++从输入宽高的集合N中随机选择一个作为第一个聚类中心O1,然后计算每个点x到已有最近聚类中心点的距离D(x),同时计算出每个样本被确定为下一个聚类中心的概率P(x)为

(5)

其中

D(x)=1-IOU

(6)

式中IOU——聚类中心与每个标注框的交并比

选择P(x)最大的样本作为下一个聚类中心,即距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心,重复上述操作直到选定K个中心点。最后不断重复计算每个样本到K个聚类中心点的距离,将样本点划分至距离最近的聚类中心的类中并更新聚类中心,直到锚点框的大小不再发生改变,得到新的锚点框尺寸为(7,12)、(7,10)、(7,8)、(8,12)、(10,10)、(10,17)、(11,13)、(14,20)、(18,26)。

经训练测试发现,经过K-means++算法重新聚类后的锚点框对于目标检测的mAP略有提升,但召回率和调和平均值(F1值)有所下降。分析是由于数据集目标类型单一,标记框尺寸集中,导致K-means++聚类的锚框尺寸集中,无法体现YOLO v4模型的多尺度输出优势。针对此问题,采用对锚框线性缩放扩展的方法,将锚框尺寸进行缩放拉伸,计算公式为

(7)

式中Xi——第i个经聚类获得的锚点框宽

Yi——第i个经聚类获得的锚点框高

X′i——经过缩放扩展后的锚点框宽

Y′i——经过缩放扩展后的锚点框高

α——锚点框缩放倍数

β——锚点框扩展倍数

为确定最佳的比例参数,将参数α固定设置为0.3,参数β依次设置为2、3、…、10进行对比实验。如表1所示,当α设置为0.3时,随着β的变化,mAP呈现非标准的折线变化,mAP最高点时α=0.3,β=5。如表2所示,设置参数β为5,α取不同值进行实验(α设为0.1时缩放后部分锚点框为0,舍弃该参数),由实验结果可得,当α=0.7、β=5时能够取得对于单环刺螠洞口的最佳识别精度,此时锚点框尺寸为(4,8)、(4,5)、(4,4)、(11,17)、(27,27)、(27,46)、(35,41)、(58,83)、(90,130)。

表1 α=0.3时不同β的实验结果

表2 β=5时不同α的实验结果

2.5 模型嵌入式设备部署

利用Jetson AGX Xavier进行模型嵌入式设备部署,将在PC端训练的YOLO v4和改进模型导入Jetson AGX Xavier开发板,并配置相应的运行环境。在直接运行模型测试时发现改进模型相比于YOLO v4检测速度确实有很大提升,但仍无法满足实时检测要求。针对该问题,利用嵌入式平台广泛应用的TensorRT进行模型推理加速,TensorRT是NVIDIA高性能深度学习推理优化器,可为深度学习模型的推理提供低延迟、高吞吐量的加速度,支持包括Pytorch在内的多种深度学习框架部署推理。利用TensorRT加速需将模型转换为TensorRT支持格式,转换过程为Pytorch格式(Pth)—开放神经网络交换格式(Onnx)—TensorRT格式(Trt),转换时模型计算精度为半精度计算(FP16),利用Python API实现trt文件的导入与初始化。模型运行检测图像如图6所示。

图6 Jetson AGX Xavier部署测试

3 实验结果与分析

3.1 实验平台和参数设置

模型训练和PC端测试均在同一台计算机进行,CPU 为Intel Core i5 9300H,GPU为 NVIDIA GeForce GTX 1650,使用Pytorch 1.6.0作为深度学习框架,CUDA 10.2,CUDNN 7.5.6,Windows 10操作系统,运行内存12 GB。

模型的嵌入式端部署测试在Jetson AGX Xavier上进行,搭载64个Tensor Core的512核NVIDIA Volta GPU, CPU为8核NVIDIA Carmel ARMv8.2 64位CPU, 内存为32 GB,显存为32 GB。相应配置系统为ARM版Ubuntu 18.04操作系统,模型运行环境的配置为Python 3.8、Pytorch 1.6.0、CUDA 10.2、TensorRT 7.1。

训练参数设置如下:训练集样本2 533幅,测试集样本313幅,验证集282幅,为防止过拟合,训练共设置100个迭代周期(Epoch),前50个周期的初始学习率为0.001,样本批量大小(Batchsize)为8,后50个周期学习率设置为0.000 1,Batchsize为4,非极大值抑制(Non-maximum suppression, NMS)为0.3,置信度阈值为0.5,交并比(Intersection over union,IOU)阈值为0.5。

3.2 评价指标

利用精确率(Precision,P)、召回率(Recall,R)、F1值、平均精度均值(mAP)、模型尺寸和检测速度来评估模型的综合性能。

精确率是指在所有检测出的单环刺螠洞口目标中检测正确的概率,召回率是指所有的正样本中正确识别的概率,F1值表示精确率与召回率的调和平均数,平均精度均值表示模型在各个召回率下的精确率平均值。检测目标仅为单环刺螠洞口,平均精度(Average precision,AP)也等于mAP,检测精度的各指标优先级由高到低为mAP、F1值、P、R。

3.3 增强算法性能评价

由水下环境复杂、能见度低等因素导致图像质量较低不利于模型对目标的识别,使用当前主流的3种水下图像增强算法:CLAHE算法、暗通道先验去雾算法、MSRCR算法对数据集进行图像增强。增强算法的选择在相关水下目标识别研究中[25-26]多为研究者目视估计选择,受研究者个人因素影响较大。为评价算法性能,利用3种算法增强后的图像与原始图像在相同软硬件环境下进行目标检测效果对比实验,对比实验结果见表3。

表3 不同增强算法检测结果对比

由表3可知,CLAHE算法增强后的图像mAP略有提升,但召回率有所下降。MSRCR算法与暗通道先验去雾算法在检测精度方面提升效果接近,但MSRCR算法对单环刺螠洞口目标检测精度提升最高且颜色分布更加平衡,保持了较好的视觉观感,最终选用MSRCR算法作为模型的图像增强算法。

3.4 锚点框优化效果

利用YOLO v4预设锚点框、K-means聚类得到的锚点框、K-means++聚类得到的锚点框以及K-means++聚类后线性缩放优化的锚点框(K-means++E)共4种锚点框在相同软硬件环境下进行训练并测试,对单环刺螠洞口目标的检测性能结果如表4所示。

表4 不同算法获得的锚点框检测效果对比

由图7可以看出,使用K-means++E锚点框模型的P-R曲线下包含的面积明显高于其他3组,说明mAP更高,更适合作为单环刺螠洞口数据集的锚点框。

图7 不同锚点框的检测结果P-R曲线

3.5 综合改进后模型性能评价

3.5.1训练损失值对比与最优模型确定

使用相同训练集、验证集和测试集分别在YOLO v4与改进模型上进行训练,对比迭代损失值变化曲线,如图8所示。

图8 YOLO v4和改进模型训练的损失值曲线

由图8可见,改进模型与YOLO v4模型的损失值曲线均能够在前10个迭代周期中迅速下降,表明轻量化后的改进模型能够快速收敛。从第11到第50个周期损失值逐步下降,在第50个周期由于学习率与Batchsize的改变出现振荡。之后直到第90个周期仍处于缓慢下降状态,在第90个周期之后,改进模型损失值稳定在1.6左右,模型拟合结束。为确定实验最优模型,所有对比实验模型在训练稳定后的5个最低损失值模型为最优模型前提下,综合考虑mAP与其他3项精度指标确定最优模型,最终选用第98个迭代周期迭代完成后保存的模型为单环刺螠洞口识别模型,此时模型具有最高的mAP与召回率,也具有较高的F1值和精确率。

3.5.2模型轻量化效果

为展示模型轻量化效果,将YOLO v4与仅替换主干网络为Mobilenet v2的模型以及进一步替换网络内Neck和Detection Head部分普通卷积块为深度可分离卷积块的改进模型进行参数量和模型尺寸的对比,对比结果如表5所示。

表5 网络结构参数量对比

由表5可得,改进模型参数量由63 937 686降低至11 975 749,而模型尺寸由244 MB降低至 46.5 MB,可见模型轻量化效果明显,有效减小了模型尺寸,更适于部署在资源有限的嵌入式设备。

3.5.3不同模型性能指标比较

为测试模型效果,在相同软硬件环境下将改进模型与轻量化YOLO v4和当前主流的One-stage目标检测算法SSD、YOLO v3、YOLO v4、YOLO v4-tiny进行对比实验,对模型进行综合评估。在检测精度方面,由于mAP和F1值均同时兼顾了检测模型的精确率和召回率,主要采用mAP和F1值来评价模型的检测精度,评估结果如表6所示。

表6 不同模型综合效果对比

由表6可知,在检测精度方面,改进模型的平均精度均值达到92.48%,相比One-stage的SSD、YOLO v4-tiny、YOLO v3提高24.35、24.36、0.59个百分点,相比YOLO v4降低1.01个百分点;F1值达到90.99%,相比SSD、YOLO v4-tiny、YOLO v3分别提高64.76、18.02、1.08个百分点,相比YOLO v4降低3.19个百分点。在检测速度方面,改进模型为45.31 f/s,比SSD、YOLO v3、YOLO v4提高30.08、24.56、28.34 f/s。改进模型的内存占用量仅为46.5 MB,相比SSD、YOLO v3和YOLO v4分别减小44.1、188.5、197.5 MB,更适用于嵌入式设备的部署。

3.5.4不同模型检测效果对比

为直观展示模型检测性能,分别采用表6中YOLO v4、轻量化YOLO v4与改进模型对不同的单环刺螠洞口图像进行检测。

如图9所示,模型轻量化后,目标检测精确率有所下降,在第1幅图像中左下角出现错检,在第2幅最右侧和第3幅最上方出现漏检,但在改进之后模型没有错检且完全检测出所有单环刺螠洞口,模型检测目标的置信度在0.9以上的更多,表明改进模型对检测目标的置信度有一定加强作用,检测效果更好,检测能力更强,满足实际应用场景下单环刺螠洞口的实时检测精度要求。

图9 不同模型单环刺螠洞口识别效果

3.5.5模型嵌入式设备部署测试

为验证模型是否满足部署在嵌入式设备实时检测的要求,在Jetson AGX Xavier开发板进行模型部署对比实验。对YOLO v4、改进模型和经过TensorRT加速的YOLO v4(trt)、改进模型(trt)进行性能评估,实验结果如表7所示,其中模型尺寸为模型文件在Ubuntu系统的实际占用空间。

表7 模型嵌入式设备部署效果对比

由表7可知,未经TensorRT加速的YOLO v4与改进模型在Xavier开发板上由于硬件条件的限制检测速度大幅下降,经TensorRT加速的模型由于模型转换导致检测精度略微降低,但模型尺寸与推理时间大大减少。经TensorRT加速后的YOLO v4(trt)相较于YOLO v4,检测速度提升2.11倍,为19.14 f/s,无法满足单环刺螠洞口实时检测的要求。经TensorRT加速后的改进模型(trt)在精确率、召回率、F1值、mAP分别下降0.02、0.21、0.11、0.22个百分点,但检测速度达到36.00 f/s,相较于直接推理的18.55 f/s,加速比约为1.94,且模型尺寸仅为22.2 MB。实验结果表明,经过TensorRT加速后的改进模型满足部署在嵌入式设备上实时检测单环刺螠洞口的需求。

3.6 讨论

将YOLO v4主干网络替换为轻量型网络会导致mAP一定程度的下降,但在经过图像增强和锚点框优化后,在检测精度方面,模型平均精度均值能达到92.48%,低于YOLO v4模型1.01个百分点,检测速度提升约3倍,且模型尺寸仅为YOLO v4模型的1/5;而在检测速度与模型尺寸方面,YOLO v4-tiny虽然获得了110.67 f/s的最高检测速度与22.4 MB的最小模型内存占用量,但是对于小目标或遮挡目标的检测效果远差于YOLO v4网络,mAP仅为68.12%,无法满足检测精度要求。最后,通过嵌入式端设备检测效果对比实验,经过TensorRT加速后的改进模型在检测精度方面F1值为90.88%,mAP为92.26%,检测速度为36.00 f/s,模型满足部署在单环刺螠自动采捕船嵌入式设备上实时检测的检测精度及检测速度要求。

4 结论

(1)以单环刺螠洞口为研究对象,提出了适于移植到采捕船嵌入式设备的、基于深度学习的单环刺螠洞口识别方法。在嵌入式设备上,改进模型的F1值为90.88%,mAP为92.26%,满足实际生产需要,可用于水下单环刺螠洞口实时识别,是实现养殖环境中单环刺螠自动采捕和产量预测的必要前提,其研究思路为后续研发相关自动化设备提供了技术支持。

(2)针对水下图像质量退化问题,在网络训练前对图像采用MSRCR增强方法,图像增强后F1值提升1.4个百分点,mAP提升2.26个百分点。

(3)针对YOLO v4模型冗余,模型尺寸大,检测速度慢的问题,将YOLO v4的特征提取网络由CSPDarkNet53替换为Mobilenet v2,并将模型中Neck和Detection Head部分的普通卷积块替换为深度可分离卷积块,减小模型尺寸,提升检测速度。嵌入式端模型内存占用量仅为22.2 MB,检测速度为36.00 f/s,单幅图像的推理时间为27.78 ms,满足实时检测的要求。

(4)针对数据集中多为小目标的特点,使用K-means++聚类算法对数据集进行重新聚类,并将聚类获得的锚点框进行线性缩放扩展,以获取更适合数据集的锚点框,改进后的锚点框相比预设锚点框F1值提升1.64个百分点,mAP提升4.69个百分点。

猜你喜欢

单环锚点洞口
响应面法优化开发单环刺螠罐头食品
pH、氨氮和亚硝酸盐对单环刺螠稚螠耗氧率和排氨率的影响
高速公路隧道洞口浅埋段的施工工艺
基于NR覆盖的NSA锚点优选策略研究
5G手机无法在室分NSA站点驻留案例分析
5G NSA锚点的选择策略
5G NSA组网下锚点站的选择策略优化
“单环学习”与“双环学习”
高寒地区隧道洞口段排水系统改进措施与建议
一类具(拟-)Baer性的特殊Morita Context环