基于改进YOLOv4的虾苗智能识别算法研究
2021-07-15于秋玉
于秋玉
摘 要:近年来,虾类养殖发展迅速,已经成为我国水产养殖中的新型支柱产业,给国家及养殖企业带来了巨大的经济与社会价值。在对虾类进行养殖的过程中,对虾苗进行识别和数量统计为虾苗运送销售、科学喂养虾苗、挑选优质虾苗等环节提供了强力支持。因此,对虾苗进行智能识别与统计对虾类养殖业具有很重要的现实意义。但是,因虾苗图像存在反光、虾苗个体较小等特点,对虾苗进行智能识别与统计特别困难。本文针对虾苗识别存在的难点,提出一种基于改进的YOLOv4的虾苗智能识别算法,在原有的YOLOv4基础上,通过聚类方法对虾苗大小进行统计,获得虾苗大小的分布特征。基于该统计结果,对YOLOv4模型进行优化,将预设的8个锚框缩减为4个。为了让网络更好地关注重要特征并抑制不必要的特征,在YOLOv4网络的输出阶段加入SAM模块。实验表明,本文提出的算法在准确率、召回率、mAP值的评价中均取得了最优或次优的结果。
关键词:卷积神经网络;深度学习;虾苗识别;目标检测
中图分类号:TP391.41 文献标识码:A 文章编号:1003-5168(2021)06-0025-04
Research on Intelligent Recognition and Statistical Algorithm
of Shrimps Based on Improved YOLOv4
YU Qiuyu
(School of Information Engineering, Dalian Ocean University,Dalian Liaoning 116023)
Abstract: In recent years, shrimp culture has developed rapidly, and has become a new pillar industry in China's aquaculture, which has brought great economic and social value to the country and aquaculture enterprises. In the process of shrimp culture, the identification and quantity statistics of shrimps provide strong support for the transportation and sales of shrimps, scientific feeding of shrimps, selection of high-quality shrimps and other links. Therefore, the intelligent identification and statistics of shrimps has a very important practical significance for shrimp breeding industry. However, it is very difficult to recognize and count shrimps intelligently because of the reflection and small size of shrimps. Aiming at the difficulties of shrimp identification, this paper proposed an intelligent shrimp identification algorithm based on improved YOLOv4. Based on the original YOLOv4, the size of shrimp was counted by clustering method, and the distribution characteristics of shrimp size were obtained. Based on the statistical results, the YOLOv4 model was optimized, and the preset 8 anchor frames were reduced to 4. In order to make the network pay more attention to the important features and suppress the unnecessary features, the spatial attention module (SAM) was added to the output stage of the YOLOv4 network. Experimental results show that the proposed algorithm achieves the best or suboptimal results in the evaluation of accuracy, recall and mAP value.
Keywords: convolution neural network;deep learning;shrimp recognition;target detection
由于虾苗智能检测在智慧渔业中具有重要的应用,因此许多专家学者尝试利用计算机视觉技术来解决虾苗识别问题。其中,虾苗的反光、多尺度等问题严重影响识别的准确性。
1 相关研究
张建强等[1]发明了一种对虾苗种计数装置。该装置利用重量与电量转换器和微计算机或单板机按照预先编好的程序自动计数,不会影响出苗时苗種存活率,计数成本低,但计数误差受计数速度影响大。
胡利华等[2]发明了一种虾苗计数装置以及计数方法。该方法通过工业相机的图像采集,完成虾苗图像数据的采集工作,然后通过图像处理识别算法,完成对采集图像的智能识别,从而实现虾苗的自动计数和输出。该装置可降低人工成本,但智能化程度不高。
范松伟等[3]针对虾苗个体小、密度大、易失活等特点,提出了一种基于卷积神经网络的虾苗自动计数方法,将训练数据集每个虾苗进行标注,制作真实密度图,然后放入改进后的卷积神经网络中学习图像特征以获取生成密度图,最后由密度图积分求和,从而得到虾苗数量,但该方法无法对虾苗进行识别。
针对上述方法存在的识别与计数精度较差、运行速度较慢、实验条件比较复杂等问题,本文提出了一种基于改进的YOLOv4智能识别与统计算法。该算法可以有效提升识别精度,加快识别速度。
2 本文方法
2.1 YOLOv4网络模型优化
根据YOLOv4的算法原理,为了让网络更好地学习虾苗图像,本文从网络模型方面对算法进行改进并采用K均值聚类(K-means)算法对自制数据集进行聚类分析,从而得到适应训练集的聚类数据。
图1为研究者改进之后的YOLOv4结构图。与传统的YOLOv4目标检测模型相比,研究者在模型的预测阶段前将三列特征图进行融合,然后放入设计的空间注意力模块中,最后进行一次预测。与之前YOLOv4做3个不同尺度的预测相比,本研究采用一次预测的原因是,虾苗图像尺寸都特别小,不含有大中尺寸的虾苗图像。为了让网络专注于学习虾苗图片的特征,本研究加入了SAM(Spatial Attention Module)模块来提升模型的预测精度(见图2)。
SAM模块可以利用不同特征图之间的空间关系,使模型关注特定特征空间位置。具体来说,SAM先在轴的方向对不同特征图的相同位置像素进行全局平均池化和最大池化操作,分别得到两种不同的特征图,然后将这两种不同的特征图连接到一起,这时特征图的数量变为原特征图的两倍;之后,再利用一个7×7大小的卷积对生成的特征图进行卷积操作,后接一个Sigmoid函数,得到一个与原特征图相同但又加上空间注意力机制权重的空间矩阵;最后把得到的空间注意力机制矩阵对应相乘到原特征图上,得到新的特征图。
2.2 基于K-means聚类锚框算法
传统的YOLOv4模型[5]使用锚框来检测目标。在目标检测过程中,锚框的数量和大小决定了检测的准确度和速度,因为一个合适的锚框可以使特征学习和目标检测更加容易。YOLOv4基于VOC数据集对锚框进行聚类,其大小分别是(10,13)、(16,30)、(33,23)、(30,61)、(62,45)、(59,119)、(116,90)、(156,198)、(373,326),这与YOLOv3的锚框选取是相同的。针对不同数据集、不同检测物体大小和同分辨率的图像,不能统一使用同样的先验框,而且VOC数据集中的先验框大都是长宽比例相同的框。
在本文创建的虾苗数据集中,虾苗大多都是偏平的,完全采用基于VOC数据集格式的先验框是不符合需求的。因此,系统需要根据自己的训练集使用K-means算法重新对先验框的大小进行聚类。
K-means聚类是目标检测算法中获取适合自己数据集的常用方法,计算公式为:
[Jb1,b2=minw1,w2minh1,h2w1h1+w2h2-minw1,w2minh1,h2] (1)
[djb1,b2=1-Jb1,b2] (2)
式中,[J(b1,b2)]為虾苗检测模型的交并比;[w1]为预测框的宽;[w2]为真实框的宽;[h1]为预测框的高;[h2]为真实框的高;[djb1,b2]为K-means算法的度量距离。
2.3 损失函数
本研究基于YOLOv4改进的虾苗检测算法损失分为3个部分:类别损失、置信度损失、位置损失。类别损失采用二元交叉熵损失,即对每一个类别计算交叉熵损失,进行求和;位置损失采用CIoU Loss(Distance-IoU Loss);置信度损失采用二元交叉熵损失,具体公式为:
[Llogisticy,y=-ylogy-1-ylog1-y] (3)
[LCIoU=1-IoU+ρ2b,bgtc2+αυ] (4)
[LConfidencey,y=-ylogy-1-ylog1-y] (5)
[Losssum=Llogisticy,y+LCIoU+LConfidencey,y] (6)
式中:[y]为真实值,[y∈0,1];[y]为预测值,其计算公式为:
[y=σy] (7)
[σy=11+e-y] (8)
[?σ?y=σ1-σ] (9)
[y=wx+b=jwjxj+b] (10)
[?y?wj=xj] (11)
3 实验结果分析
3.1 实验评价指标
本文对目标检测模型评价过程中每个类别的每个等级分别进行评价,使用准确率(Precision)、召回率(Recall)、平均准确率(mean Average Precision,mAP)作为衡量模型精度的评价标准。同时,使用P-R曲线直观地显示模型性能。目标检测模型的检测速度使用每秒帧数(FPS)作为衡量标准。
3.2 虾苗数据集制作及标注
本文原始数据集包含1 000张带注释的图片。这些图像一部分是研究者在养殖企业实地拍摄的,另一部分是从互联网上随机抓取的。依据8.5∶1.5的比例,将数据集分成训练集和测试集。本文采用标注工具LabelImg对图像数据进行标注。LabelImg是一种视觉图像校准工具,其标注界面如图3所示。
3.3 实验环境及参数设置
实验环境是Windows 10操作系统,CPU处理器为AMD2600,其主频是3.4 GHz,GPU为1 060,实验平台是PyCharm(2018版)。所用的深度学习框架为Pytorch。
3.4 实验结果分析
3.4.1 基于改进的YOLOv4实验结果。为了验证SAM模块在改进的YOLOv4模型中的有效性,研究者设计了一个不加SAM模块的变体模型。不加SAM模块和加SAM模块的对比结果如表1和图4所示。当改进的YOLOv4模型未使用SAM模块时,模型的性能在虾苗数据集上的各指标均有较大程度的回落。这说明,在识别准确性和鲁棒性上,使用SAM模块的识别效果要优于不使用SAM模块的效果,证明了SAM模块在解决虾苗识别问题上的有效性。同时,从图4也可以看出,添加SAM模块后,虾苗的识别精度更高。
采用改进过的YOLOv4网络与传统YOLOv4、YOLOv3、SSD、MobileNet网络作对比,结果如表2所示[4-7]。从表2可以看出,与传统YOLOv4目标检测算法相比,使用改进的YOLOv4网络,准确度提升了1.5%,召回率提升了2%,同时在计算量和参数上减少了5%。
3.4.2 K-means算法聚类实验结果。研究者对虾苗尺寸进行聚类之后,当[K]=4时,曲线趋于平滑。因此,选择[K]=4作为锚框的个数,聚类的先验框为[(26,65)(30,70)(35,76)(40,80)]。
使用K-means聚类算法前后的mAP结果如表3所示。从表3可知,在虾苗数据集下,使用聚类算法后,改进的YOLOv4的检测mAP相比之前准确率提升了1.3%,召回率提升了1.5%,mAP提升了5%。
4 结论
本文提出一种基于改进的YOLOv4的智能识别与统计算法,该算法可以提高虾苗检测精度,同时降低运行时间。具体来说,在YOLOv4的网络输出阶段,将三个尺寸的特征图进行融合,然后對融合之后的特征图放入SAM注意力机制模型进行学习,让网络更好的学习虾苗的细节信息。另一方面,针对虾苗图像的尺寸特点,研究者采用K-means算法对YOLOv4的锚框进行重新选择。结果表明,本文提出的算法在准确率、召回率、mAP值的评价中均取得了最优或次优的结果。
参考文献:
[1]张建强,周玮,桑田成.对虾苗种计数装置:CN209473350U[P].2019-01-09.
[2]胡利华,闫茂仓,吴佳燕,等.一种虾苗计数装置及方法:CN111418537A[P].2020-05-13.
[3]范松伟,林翔瑜,周平.基于改进的卷积神经网络的虾苗自动计数研究[J].渔业现代化,2020(6):35-41.
[4] REDMON J,FARHADI A . YOLOv3: An Incremental Improvement[EB/OL]. (2018-04-08)[2021-02-01]. https://arxiv.org/abs/1804.02767.
[5] BOCHKOVSKIY A,WANG C Y,LIAO H . YOLOv4: Optimal Speed and Accuracy of Object Detection[EB/OL].(2020-04-23)[2021-02-01]. https://arxiv.org/abs/2004.10934.
[6]LIU W,ANGUELOV D,ERHAN D , et al. SSD: Single Shot MultiBox Detector[J]. European Conference on Computer Vision,2016(9):21-37.
[7]HOWARD A G ,ZHU M ,CHEN B ,et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[EB/OL].(2017-04-17)[2021-02-01].https://arxiv.org/abs/1704.04861.