APP下载

改进Mask R-CNN的真实环境下鱼体语义分割

2022-03-10黄佳芯邓博奇刘洋成

农业工程学报 2022年23期
关键词:鱼体注意力语义

郭 奕,黄佳芯,邓博奇,刘洋成

改进Mask R-CNN的真实环境下鱼体语义分割

郭 奕,黄佳芯,邓博奇,刘洋成

(西华大学电气与电子信息学院,成都 610000)

鱼体语义分割是实现鱼体三维建模和语义点云、计算鱼体生长信息的基础。为了提高真实复杂环境下鱼体语义分割精度,该研究提出了SA-Mask R-CNN模型,即融合SimAM注意力机制的Mask R-CNN。在残差网络的每一层引入注意力机制,利用能量函数为每一个神经元分配三维权重,以加强对鱼体关键特征的提取;使用二次迁移学习方法对模型进行训练,即首先利用COCO数据集预训练模型在Open Images DatasetV6鱼类图像数据集完成第一次迁移学习,然后在自建数据集上完成第二次迁移学习,利用具有相似特征空间的2个数据集进行迁移学习,在一定程度上缓解了图像质量不佳的情况下鱼体语义分割精度不高的问题。在具有真实养殖环境特点的自建数据集上进行性能测试,结果表明,SA-Mask R-CNN网络结合二次迁移学习方法的交并比达93.82%,综合评价指标达96.04%,分割效果优于SegNet和U-Net++,较引入SENet和CBAM(Convolutional Block Attention Module, CBAM)注意力模块的Mask R-CNN交并比分别提升了2.46和1.0个百分点,综合评价指标分别提升了2.57和0.92个百分点,模型参数量分别减小了4.7和5MB。研究结果可为鱼体点云计算提供参考。

深度学习;语义分割;注意力机制;鱼体分割;二次迁移学习

0 引 言

淡水鱼养殖具有非常高的经济价值。在淡水鱼养殖业管理中,准确获取鱼态信息,有利于产业人员及时发现养殖过程中存在的问题并对饲养计划做出合理调整。将鱼捕捞出水面进行人工测量的传统方法,不仅量化困难,对操作人员要求较高,且可能对鱼体造成不可逆的伤害,给产业带来不必要的损失[1],因此亟需研究一种非接触式鱼体测量方法。近年来,点云技术的发展为鱼类养殖测量技术提供了新思路,而点云计算结果的准确性依赖于目标的准确分割。

基于深度学习的语义分割模型[2-5]是近年来研究热点。Garcia等[6]使用Mask R-CNN[7]网络对鱼体进行自动语义分割,其IoU为84.5%。Yu等[8]使用Mask R-CNN对鱼类形态进行分割,并在纯净背景下和复杂背景下进行对比,在复杂背景下的分割准确性远低于纯净背景。刘斌等[9]对比FCN-8S和SegNet[10]对条斑鲨的身体组组成构建进行分割,在自建数据集上验证了SegNet语义分割准确度更高。Laradji等[11]使用基于计数全卷积网络进行鱼体语义分割,并在Deepfish上进行验证,IoU为86.2%。Nezla等[12]和Thampi等[13]基于UNet网络实现鱼体的分割,通过设置不同阈值进行分割对比。Yu等[14]在实现鱼体尺寸精确测量的过程中使用了UNet网络进行鱼体分割。王红君等[15]采用SENet[16]优化后的Deeplabv3+模型进行语义分割,在白色背景的高质量数据集下测试IoU达93%。但此方法计算权重算法多为人工设计,计算量大,且只能计算空间或者通道的神经元,无法建立三维权重。在其它领域,为了提高语义分割的精度,Sui等[17]在Mask R-CNN中引入CBAM[18]注意力机制检测地震造成的建筑物外墙的损坏,CBAM分别估计一维和二维的特征权重再将其组合起来,但此方法分两步,占用太多计算时间,且模型参数量大,不利于模型的移植和部署[19-20]。

为此,本文提出一种融合SimAM(Simple, Parameter- Free Attention Module)[21]注意力机制的Mask R-CNN网络(SA-Mask R-CNN),将SimAM注意力模块融入骨干网络中,在每一层残差网络中引入SimAM,利用能量函数为每一个神经元分配权重,实现三维空间的权重分配,增强鱼体关键特征的提取,缓解网络特征融合路径过长,在不断池化与下采样过程中的特征信息丢失问题,使低层特征信息被充分利用,从而减少分割错误。其次使用二次迁移学习训练方法,使用Open Images Dataset V6[22]高清鱼类图像并加载COCO数据集[23]预训练权重,在改进网络上完成第一次迁移学习[24],以利于网络在高质量图像中对鱼体特征的提取与学习,提升模型对鱼体边缘的表征能力;使用自建数据集并加载第一次迁移学习的权重在改进网络上完成第二次迁移学习,解决图像降质导致的鱼体语义分割效果不佳的问题,以实现在复杂环境下对鱼体更加精细化的语义分割。

1 数据集来源

训练数据集包括2个部分,第一部分来自谷歌开源数据集Open Images Dataset V6(简称V6数据集)中的鱼类图像,图像清晰度高、噪声少、前景和背景区分度大等优点,包含活体鱼体、烹饪鱼体等。试验选用162张高清鱼类图像作为第一次迁移学习的原始数据集。第二部分为自建数据集,利用Stereolabs ZED双目摄像机(ZED双目摄像机能够捕获110°广角视频,深度分辨率最高441×1242(15帧/s),帧率最高1344×376(15帧/s))于2021年10月18日在四川省某露天养殖池内采集的鱼体图像,拍摄图像分辨率为3840×1080(像素),受光线和浮游生物等影响,图像噪声多,且前景和背景的色彩区分度小,鱼体边缘细节模糊,选用224张图像作为第二次迁移学习的原始数据集。

由于所采集的数据集规模有限,直接使用该数据集进行训练会造成模型的过拟合。因此,为了提高模型泛化能力,利用数据增强的方法对数据集进行有效扩充[25-26]。分别对V6数据集和自建数据集进行翻转和旋转,同时为了在一定程度上改善自建数据集图像颜色对比度不高的问题,再使用对比度增强和颜色增强方式对自建数据集进行扩充。通过数据增强将V6数据集扩充至638张,自建数据扩充至1344张,并按8∶2的比例将自建数据划分为训练集和测试集。由于试验所用数据集并没有为图像分割做标注,因此分别对增扩后2个数据集中的每张图像使用Labelme软件[27]进行掩膜标注并设置对应标签。

扩充后数据集示例如图1所示,其中掩膜图使用Labelme软件标注。按鱼体在图像中占比大小分为小尺度与大尺度,将边界框面积与图像面积之比在0.08%~0.58%之间的目标定义为小尺度目标[28],将自建数据集中每张图像含鱼量超过4条以上的情况定义为较多鱼。V6数据集中小尺度鱼量为76条,大尺度鱼量为654条,数据集中多为单目标;自建数据集小尺度鱼量为509条,大尺度鱼量为1566条,数据集中每张图像多含2条鱼。由于V6数据集中大尺度和单目标图像居多,用于第一次迁移学习非常有助于网络对鱼体纹理特征的提取;自建数据集中小尺度鱼体较多,用于第二次迁移学习有助于网络对鱼体轮廓的提取。根据数据集特征分析,V6和自建数据适合作为二次迁移学习训练数据集。

2 鱼体语义分割模型构建

2.1 Mask R-CNN模型

Mask R-CNN是在Faster R-CNN[29]基础上改进的一种的算法,在目标检测的同时进行语义分割。Mask R-CNN在每个感兴趣区域RoI(Region of Interest)测掩膜的分支并应用于每个RoI的全卷积网络FCN(Fully Convolutional Network)[30],实现以像素到像素的方式预测掩膜。为了融合多尺度的特征,Mask R-CNN使用特征金字塔网络获取更深层次的特征信息。但低层次特征与高层次特征的融合路径太长,导致了低层特征的位置信息不能被充分利用[31],影响语义分割的精度。

图1 数据集样本及数据集特征

2.2 SimAM注意力机制

SimAM[21]是一种简单、无参数的卷积神经网络注意力模块,可用于特征提取后动态为特征分配加权,使网络更加关注有用信息。SimAM通过一种能量函数的封闭式解快速为每一个神经元分配权重,并保持整个模块的轻量性,能量函数如式(1)所示。

将建立的三维模型导入comsol软件中,进行网格划分,由下图可以看出,网格划分较好,进行有限元计算可以得到较为精确的结果;输入材料的基本参数及设定的外界条件,以天(d)作为计算单位,混凝土温度测试时间为20d,步长为3d,利用comsol软件,对在筏板基础中选取的测点进行模拟计算,与实测数据进行对比分析。

2.3 SA-Mask R-CNN模型构建

由于传统Mask R-CNN网络中存在低层特征与高层特征融合路径过长且缺乏对重点信息的关注,导致低层信息不能被充分利用的问题,同时SimAM注意力机制具有在不引入额外参数量的情况下,突出鱼体重点信息的优势。因此,本文将二者结合,提出一种融合SimAM注意力机制的Mask R-CNN鱼体语义分割模型,具体结构如图2所示。在神经学科中,信息丰富的神经元通常表现出与周围神经元不同的放电模式,且激活神经元通常会抑制周围神经元,即空间抑制,因此具有空间抑制效应的神经元应当拥有更高的重要性,赋予更高的权重。因此,在Mask R-CNN网络特征提取阶段引入SimAM注意力机制,利用能量函数分为每一个神经元估算权重值,再利用神经元不同的权重为图像中鱼体有关的像素点计算权重,获取空间三维权重信息。SimAM注意力机制的引入可以增强低层特征重要信息在整个特征层次中的作用,缓解低层特征向高层特征融合过程中丢失信息的问题,提高骨干网络的特征提取能力。另外,注意力机制的处理对象是全局三维整体信息,在实现特征提取和特征融合过程中速度更快。

注:x为特征,H为输入特征高度,W为输特征宽度,C为输入特征长度。

在特征提取阶段,本文使用ResNet101[32]网络与FPN(Feature Pyramid Network)作为骨干网络提取视觉特征。FPN通过高层特征上采样和低层特征自顶向下的连接,且在每一层做出预测,解决物体检测中的多尺度问题,提升小目标检测能力。图3为融合注意力模块的ResNet101+FPN。在特征提取阶段,ResNet101根据输入信息进行卷积和池化,不同深度下输出的特征图分别记为C1、C2、C3、C4和C5[33]。为了更好地实现注意力机制,本文在C1、C2、C3、C4和C5层中引入SimAM注意力机制,将输入图像在C1层中通过步长为2的7×7的卷积核进行特征提取和降维,再通过SimAM注意力机制自主学习,为最底层的鱼体语义信息赋予更高的权重,此时的特征信息主要为鱼体的纹理细节。再将图像送入C2层,经过3×3最大池化后依次进行1×1卷积核特征降维和3×3卷积核特征提取,最后使用1×1卷积核进行特征升维,再通过SimAM注意力机制增强鱼体特征信息的权重,经过3次卷积后,将特征图输入C4层,依次进行卷积,直至输出C5层特征图,此时特征图包含鱼体轮廓等高层语义信息,利用FPN实现低层高分辨特征与高层语义特征的融合。

在不同深度的特征图中为鱼体像素信息赋予更高权重,可以提升ResNet101与FPN鱼体关键特征的融合和表征能力。将具有空间区域信息的特征图输入卷积神经网络中,有利于网络对鱼体特征的学习,提高分割精度。

2.4 二次迁移学习

迁移学习是将源领域知识迁移到目标领域的一种训练方法。为了节省内存提高模型训练速度,快速收敛并取得理想效果,本文采用迁移学习的训练方法;同时为了解决采集图像的降质问题,本文采用二次迁移学习的训练方法提升模型的稳健性和鲁棒性,如图4所示为二次迁移学习流程。

利用COCO数据集预训练模型,在V6数据集上完成第一次迁移学习。利用第一次迁移学习训练最优模型结果,在自建数据集上完成第二次迁移学习。

注:C1、C2、C3、C4、C5为不同深度下得到的特征图;M2、M3、M4、M5为上采样得到的特征图;P2、P3、P4、P5、P6为不同深度特征图融合之后得到的新特征图。

图4 二次迁移学习流程图

在高质量数据集上借助注意力机制完成第一次迁移学习,有利于卷积网络对鱼体特征的提取,使网络获取更丰富的鱼体语义信息。第二次迁移学习有利于网络将第一次迁移学习结果迁移到复杂环境中,提升网络分割的准确性。两次迁移学习将具有相似特征空间的数据集通过特征变换的方式相互迁移,减少源域与目标域之间的差距,有利于网络在图像降质情况下对鱼体特征的学习,改善复杂环境下语义分割效果不理想的问题。

3 试验环境与设计

3.1 试验环境

模型的训练采用AMD Ryzen7 4800H的CPU、NVIDIA GeForce RTX 2060的GPU和运行内存为16GB的计算机。通过参数调整与比较,设置初始学习率为0.000 1,试验迭代50轮(Epochs)。使用CUDNN11.0为卷积神经网络提速,使用具有自适应学习的优化器Adam[34]替代传统的随机梯度下降(SGD)算法进行模型的迭代过程,使用Tensorflow作为深度学习框架,Keras作为高阶应用程序接口,使用Labelme进行图像标注。

3.2 试验设计

表1 试验设计

SegNet是文献[9]用于实现鱼体分割的网络,具有仅储存特征映射的最大池索引,解码器网络良好分割的效果。UNet++[35]是文献[12-14]研究方法的改进,具有通过整合不同层次的特征,提升分割精度。试验采用这两个网络模型进行比较,证明改进网络的有效性。

SENet[16]采用特征重标定策略,根据损失函数学习特征权重,在不额外引入空间维度的同时为每个特征通道赋予不同的重要程度。CBAM[18]是作用于前馈神经网络的注意力模块,沿通道和空间两个维度依次推断注意力图实现特征优化。使用SENet和CBAM注意力模块对Mask R-CNN进行改进是目前图像处理领域的主流方法。试验通过引入不同的注意力模块,验证本文引入SimAM注意力模块的先进性。

3.3 试验评价指标

式中表示语义类别总数,表示真实值,表示预测值,P表示将类别预测为类别的像素数量。TP为正确分割的像素数,FP为误分割的像素数,FN为漏分割的像素数。

4 试验结果分析

将所有模型在本文所构建的数据集上进行训练,以比较不同模型对同一问题的处理性能,其训练损失函数如图5所示。

图5 不同方法的训练损失

其中Mask R-CNN1表示使用Mask R-CNN进行一次迁移学习;Mask R-CNN2表示进行二次迁移学习;SE1-Mask R-CNN表示使用SE-Mask R-CNN进行一次迁移学习;CBAM1-Mask R-CNN表示使用CBAB-Mask R-CNN进行一次迁移学习;SA1-Mask R-CNN表示使用SA-Mask R-CNN进行一次迁移学习,SA2-Mask R-CNN进行二次迁移学习(下同)。对比不同模型训练50轮的损失值可知,CBAM1-Mask R-CNN的损失值下降速度最快,其次是SA2-Mask R-CNN,但在模型收敛后SA2-Mask R-CNN具有最小的损失值为0.086,即SA2-Mask R-CNN模型在训练集上的拟合程度最好。此外,使用同一网络模型二次迁移学习的训练方法在模型收敛后都具有更低的损失值。

为了验证本文改进方法的有效性,在自建数据集的测试集上进行验证,图6为不同方法的分割结果。Mask R-CNN在一次迁移学习情况下对大尺度鱼体的鱼尾分割缺失、小尺度鱼体分割遗漏的问题,经过二次迁移学习,缺失和遗漏得到一定程度的改善。SegNet在前景和背景区分度不明显的情况下对小尺度分割效果不佳,鱼体分割遗漏和缺失严重,网络模型鲁棒性和稳健性较差。U-Net++对降质图像中的鱼体分割同样存在缺失和遗漏,尤其对于鱼体细节部分的分割,表征能力较差。SE1-Mask R-CNN与CBAM1-Mask R-CNN模型的分割准确性有所提升,但相较于SA-Mask R-CNN对于鱼鳍和鱼尾细节的分割效果还存在不足。通过局部放大图对比SA1-Mask-R-CNN和SA2-Mask-R-CNN分割结果发现,在噪声较多情况下,SA2-Mask-R-CNN对鱼尾、鱼头的分割处理更加精细和完整,这是因为在二次迁移学习训练过程中,利用注意力模块在V6数据集上进行第一迁移学习时,网络更好地学习了鱼体细节纹理信息,因此在鱼体分割过程中具有更好的表征能力。

无论尺度大小,鱼量多少,SA-Mask R-CNN并结合二次迁移学习的方法。在现实复杂环境下对鱼体边缘都具有更好的表征能力,也具有更强的鲁棒性和泛化能力,有利于提升后续鱼类点云计算的精确率,减少人工对水产品的捕捞测量,促进鱼类养殖产业智能化发展。

使用测试集RGB数字图像在训练好的深度学习模型上进行语义分割,对比结果如表2所示。

表2中Mask R-CNN1各项指标都高于SegNet和U-Net++,其IoU分别提升了0.71和0.52个百分点,精确率分别提升了1.12和0.53个百分点,召回率分别提升了1.15和0.65个百分点,F1分别提升了1.14和0.59个百分点。SA1-Mask R-CNN分割精度和其他几个方法相比最高,较Mask R-CNN1的IoU提升了8.51个百分点,精确率提升了8.8个百分点,召回率提升了9.18个百分点,综合评价指标提高了8.99个百分点,鱼体语义分割效果明显提升。此外与王红君等[15]在纯白色背景下鱼体分割平均交并比达93%相比,本文模型不仅实现了更高的分割精度,而且试验使用数据集为真养殖环境,更具有实际应用价值。

为了进一步验证二次迁移学习的有效性,本文对比了不同训练方法的模型分割结果如表4所示。

图6 不同方法不同场景的分割结果

表2 不同方法分割结果

表3 引入不同注意力机制的分割结果对比

表4 不同训练方法性能对比

表4中SA2-Mask R-CNN模型预测结果的IoU达93.82%,精确率达96.98%,召回率达95.12%,F1达96.04%,较SA1-Mask R-CNN模型预测结果的IoU提升了0.67个百分点,精确率提升了0.82个百分点,召回率提升了0.27个百分点,F1提升了0.54个百分点。试验结果证明,在噪声较多的复杂真实环境下,利用具有相似特征空间的数据集进行迁移学习有助于网络更好地从高质量数据集学习鱼体特征并迁移到真实场景中来,可以提高网络模型分割的准确性,提升网络的鲁棒性和泛化能力。

综和分析表3和表4,SA2-Mask R-CNN模型较引入SENet和CBAM注意力模块的Mask R-CNN交并比分别提升了2.46和1个百分点,综合评价指标分别提升了2.57和0.92个百分点。

5 结 论

1)构建的SA-Mask R-CNN鱼体识别模型,以ResNet101、FPN和SimAM注意力机制作为主干网络,可以在受到噪声影响的复杂环境下较为准确的分割出鱼体,并表征出鱼体细节信息,为鱼体的三维建模和语义点云提供更加精确的结果。

2)与SENet、CBAM注意力模块相比,SimAM对于鱼体分割性能的提升更有效。引入SimAM注意力模块后的模型在测试集上的IoU分别提升了1.79和0.33个百分点,精确率分别提升了1.44和0.25个百分点,召回率分别提升了2.59和0.51个百分点,F1分别提升了2.03和0.38个百分点。分割结果可视化后的结果同样证明,引入SimAM注意力模块可以加强网络对鱼体特征的关注,提高了鱼体分割的能力。另外,在提高语义分割精度的同时,SA-Mask R-CNN模型参数量更小,更有助于模型的移植和部署。

3)二次迁移学习训练方法在SA-Mask R-CNN网络上较只使用一次迁移学习的IoU提升了0.67个百分点,精确率提升了0.82个百分点,召回率提升了0.27个百分点,F1提升了0.54个百分点,证明利用特征空间相似的数据集进行二次迁移学习的训练方法在噪声较多的复杂环境下有助于提升模型分割的准确性和鲁棒性。

[1] 李艳君,黄康为,项基. 基于立体视觉的动态鱼体尺寸测量[J]. 农业工程学报,2020,36(21):220-226.

Li Yanjun, Huang Kangwei, Xiang Ji. Dynamic fish body size measurement based on stereo vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(21): 220-226. (in Chinese with English abstract)

[2] 陈进,韩梦娜,练毅,等. 基于U-Net模型的含杂水稻籽粒图像分割[J]. 农业工程学报,2020,36(10):174-180.

Chen Jin, Han Mengna, Lian Yi, et al. Image segmentation of heterogeneous rice grains based on U-Net model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(10): 174-180 (in Chinese with English abstract)

[3] 任守纲,贾馥玮,顾兴健,等. 反卷积引导的番茄叶部病害识别及病斑分割模型[J]. 农业工程学报,2020,36(12):186-195.

Ren Shougang, Jia Fuwei, Gu Xingjian, et al. Deconvolution-guided leaf disease identification and disease spot segmentation model of tomato[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 186-195. (in Chinese with English abstract)

[4] Mo Y, Wu Y, Yang X, et al. Review the state-of-the-art technologies of semantic segmentation based on deep learning[J]. Neurocomputing, 2022, 493: 626-646.

[5] Liu S, Li M, Li M, et al. Research of animals image semantic segmentation based on deep learning[J]. Concurrency and Computation: Practice and Experience, 2020, 32(1): e4892.

[6] Garcia R, Prados R, Quintana J, et al. Automatic segmentation of fish using deep learning with application to fish size measurement[J]. ICES Journal of Marine Science, 2020, 77(4): 1354-1366.

[7] He K, Gkioxari G, Dollár P, et al. Mask R-CNN[C]// Proceedings of the IEEE international conference on computer vision. Venice, Italy, 2017: 2961-2969.

[8] Yu C, Fan X, Hu Z, et al. Segmentation and measurement scheme for fish morphological features based on Mask R-CNN[J]. Information Processing in Agriculture, 2020, 7(4): 523-534.5

[9] 刘斌,王凯歌,李晓蒙,等. 基于语义部位分割的条纹斑竹鲨鱼体运动姿态解析[J]. 农业工程学报,2021,37(3):179-187.

Liu Bin, Wang Kaige, Li Xiaomeng, et al. Analysis of striped bamboo shark body split-based separation of semantic parts[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(3): 179-187. (in Chinese with English abstract)

[10] Badrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.

[11] Laradji I H, Saleh A, Rodriguez P, et al. Weakly supervised underwater fish segmentation using affinity LCFCN[J]. Scientific reports, 2021, 11(1): 1-10.

[12] Nezla N A, Haridas T P M, Supriya M H. Semantic segmentation of underwater images using unet architecture based deep convolutional encoder decoder model[C]// 2021 7th International Conference on Advanced Computing and Communication Systems (ICACCS). IEEE, Coimbatore, India, 2021: 28-33.

[13] Thampi L, Thomas R, Kamal S, et al. Analysis of U-Net based image segmentation model on underwater images of different species of fishes[C]//2021 International Symposium on Ocean Technology (SYMPOL). IEEE, Kochi, India, 2021: 1-5.

[14] Yu C, Liu Y, Hu Z, et al. Precise segmentation and measurement of inclined fish’s features based on U-net and fish morphological characteristics[J]. Applied Engineering in Agriculture, 2022, 38(1): 37-48.

[15] 王红君,季晓宇,赵辉,等. SENet优化的Deeplabv3+淡水鱼体语义分割[J]. 中国农机化学报,2021,42(2):158-163.

Wang Hongjun, Ji Xiaoyu, Zhao Hui, et al. SENet optimized Deeplabv3+ freshwater fish body semantic segmentation[J]. Journal of Chinese Agricultural Mechanization, 2021, 42(2): 158-163. (in Chinese with English abstract).

[16] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA. 2018: 7132-7141.

[17] Sui H, Huang L, Liu C. Detecting building façade damage caused by Earthquake using CBAM-improved mask R-CNN[J]. Geomatics science of Wuhan University, 2020, 45(11): 1660-1668.

[18] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany, 2018: 3-19.

[19] Zhao Z, Chen K, Yamane S. CBAM-Unet++: Easier to find the target with the attention module “CBAM”[C]// 2021 IEEE 10th Global Conference on Consumer Electronics (GCCE). IEEE, Kyoto, Japan, 2021: 655-657.

[20] Shu B, Mu J, Zhu Y. AMNet: Convolutional neural network embeded with attention mechanism for semantic segmentation[C]//Proceedings of the 2019 3rd High Performance Computing and Cluster Technologies Conference. Guangzhou China, 2019: 261-266.

[21] Yang L, Zhang R Y, Li L, et al. SimAM: A simple, parameter-free attention module for convolutional neural networks[C]// International Conference on Machine Learning. PMLR, Seoul, South Korea, 2021: 11863-11874.

[22] Kuznetsova A, Rom H, Alldrin N, et al. The open images dataset v4[J]. International Journal of Computer Vision, 2020, 128(7): 1956-1981.

[23] Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//Proceedings of the European Conference on Computer Vision. Springer, Cham, Zurich, Switzerland, 2014: 740-755.

[24] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22: 1345-1359.

[25] Shorten C, Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(1): 1-48.

[26] Mikołajczyk A, Grochowski M. Data augmentation for improving deep learning in image classification problem[C]// 2018 International Interdisciplinary PhD Workshop (IIPhDW). IEEE, Swinoujscie, Poland, 2018: 117-122.

[27] Russell B C, Torralba A, Murphy K P, et al. LabelMe: A database and web-based tool for image annotation[J]. International Journal of Computer Vision, 2008, 77(1): 157-173.

[28] Kampffmeyer M, Salberg A B, Jenssen R. Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas, USA, 2016: 1-9.

[29] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. Advances in Neural Information Processing Systems, 2015, 28: 1137-1149.

[30] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3431-3440.

[31] 袁山,汤浩,郭亚. 基于改进Mask R-CNN模型的植物叶片分割方法[J].农业工程学报,2022,38(1):212-220.

Yuan Shan, Tang Hao, Guo Ya. Plant leaf segmentation method based on improved Mask R-CNN model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(1): 212-220. (in Chinese with English abstract)

[32] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770-778.

[33] 周飞燕,金林鹏,董军. 卷积神经网络研究综述[J]. 计算机学报,2017,40(6):1229-1251.

Zhou Feyuan, Jin Linpeng, Dong Jun. Summary of convolution neural network research[J]. Chinese Journal of Computers, 2017, 40(6): 1229-1251. (in Chinese with English abstract)

[34] Diederik P, Kingma, Jimmy B. A method for stochastic optimization[C]//The 3rd International Conference for Learning Representations, San Diego, 2015.

[35] Zhou Z, Rahman Siddiquee M M, Tajbakhsh N, et al. Unet++: A nested u-net architecture for medical image segmentation[C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Springer, Cham, 2018: 3-11.

Semantic segmentation of the fish bodies in real environment using improved Mask-RCNN model

Guo Yi, Huang Jiaxin, Deng Boqi, Liu Yangcheng

(,,610000,)

The semantic segmentation of fish bodies is the basis to realize the three-dimensional modeling and semantic point clouds, as well as the calculation of the growth information of fish. The accuracy of point cloud computing depends mainly on the precision of fish body segmentation. However, the long path of feature fusion in the traditional Mask R-CNN network can result in the low-level information containing the accurate location of the target failing to be fully used. In addition, the noise (such as light and water quality) can pose a great impact on the collected images in the real breeding environment, leading to quality degradation. The fish feature cannot be fully extracted for better edge segmentation using the traditional network. In this study, an improved Mask R-CNN model was proposed to combine the SimAM attention mechanism, in order to improve the precision of fish semantic segmentation in complex environments. Twice-transfer learning was also conducted during the training process. An attention mechanism was added at each layer of the residual network in the backbone network. The extracted features were dynamically assigned the weights, so that the improved network was utilized to focus on the information that related to the fish body, while maintaining the lightweight feature of the model. The first transfer learning was conducted to train the pre-trained model of COCO dataset on the Open Images DatasetV6 fish images, followed by the second transfer learning on the self-built dataset. Among them, the self-built dataset was the frame splitting of the captured video using a ZED binocular camera in the real culturing environment. The images in the self-built dataset shared the features of a lot of noise and complex backgrounds. There were similar feature spaces in the fish images from the self-built dataset and the Open Images Dataset V6. As such, the features with high clarity and less noise were conducive to the network learning the texture and detail information of the fish body. Twice-transfer learning was also used to alleviate the noise in the images from the two datasets with similar feature spaces. Experiments on the test set of the self-built dataset show that the IoU, F1, precision, and recall rates of the improved model were 93.82%, 96.04%, 96.98%, and 95.12%, respectively. A series of comparative experiments were conducted to verify the effectiveness of the improved model. The experimental results show that the segmentation performance of SA1-Mask R-CNN was better than that of SegNet and U-Net++. In contrast to the Mask R-CNN1, the IoU was improved by 8.51 percentage points, the precision was improved by 8.8 percentage points, the recall rate increased by 9.18 percentage points, and F1 was improved by 8.99 percentage points. Compared with the SE- and CBAM-Mask R-CNN, the IoU increased by 1.79 and 0.33 percentage points, the precision increased by 1.44 and 0.25 percentage points, the recall increased by 2.59 and 0.51 percentage points, F1 increased by 2.03 and 0.38 percentage points, respectively. Meanwhile, the number of model parameters decreased by 4.7 and 5 MB, respectively. Furthermore, two training methods were compared to verify the effectiveness of twice-transfer learning. It was found that the SA2-Mask R-CNN improved the IoU, precision, recall, and F1 by 0.67, 0.82, 0.27, and 0.54 percentage points, compared with SA1-Mask R-CNN. In summary, the improved model can be expected to improve the precision of fish semantic segmentation without increasing the number of model parameters, indicating the excellent deployment and porting of the model. At the same time, the precision of twice-transfer learning improved the semantic segmentation of fish bodies. The findings can provide a strong reference for the cloud computing of fish body points.

deep learning; semantic segmentation; fish body segmentation; attention mechanism; twice-transfer learning

10.11975/j.issn.1002-6819.2022.23.017

TP391.4

A

1002-6819(2022)-23-0162-08

郭奕,黄佳芯,邓博奇. 改进Mask R-CNN的真实环境下鱼体语义分割[J]. 农业工程学报,2022,38(23):162-169.doi:10.11975/j.issn.1002-6819.2022.23.017 http://www.tcsae.org

Guo Yi, Huang Jiaxin, Deng Boqi, et al. Semantic segmentation of the fish bodies in real environment using improved Mask-RCNN model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(23): 162-169. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.23.017 http://www.tcsae.org

2022-08-20

2022-11-25

四川省重点实验室项目(SCITLAB-1021);国家自然科学基金面上项目(61973257);国家自然科学基金青年项目(61901394)

郭奕,博士,副教授,研究方向为多媒体信息处理、数据挖掘及其应用。Email:lpngy@vip.163.com

猜你喜欢

鱼体注意力语义
让注意力“飞”回来
三维鱼体参数化建模
轴流泵内鱼体的运动行为与撞击损伤分析
淡水鱼水平往复振动头尾定向输送方法
淡水鱼腹背定向装置设计及试验
语言与语义
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊