基于水面红外图像的深海网箱鱼群夜间智能监测方法研究

2024-03-06要紫丹黄小华庞国良袁太平

南方水产科学 2024年1期

要紫丹，黄小华, ，李根, ，胡昱, ，庞国良, ，袁太平,

1. 浙江海洋大学，浙江舟山 316022

2. 中国水产科学研究院南海水产研究所/农业农村部外海渔业可持续利用重点实验室/广东省网箱工程技术研究中心，广东广州 510300

3. 中国水产科学研究院南海水产研究所热带水产研究开发中心/三亚热带水产研究院，海南三亚 572018

我国拥有丰富的海洋资源和广阔的内陆水域，作为全球最大的渔业生产国，为国内消费者提供了丰富、优质的水产品并大量出口国外。然而，由于长期过度捕捞、渔业管理不力以及海洋近岸环境污染等原因，海洋渔业资源面临严重衰退[1-2]。当前我国海水水产品的供应主要以海水养殖为主[3]，在海上养殖场的选择上，根据离岸远近主要分为近海养殖和深远海养殖两种方式[4]。近海养殖由于养殖空间受限、水体交换不畅，容易造成海域环境污染，其可持续性发展受到限制[5]；而深远海养殖水质优良、养殖空间大、病害发生率低，近年来得到快速发展，已成为我国水产养殖绿色发展的重要方向。在深远海养殖过程中，实时获取深海网箱养殖的鱼群动态数据并进行监测，对于提高养殖效率、提升鱼类品质和降低成本具有重要意义。然而，在大规模鱼群情景下，人工监测存在难以长时间持续、监测效果受限及效率不佳等问题。随着科学技术的不断发展，自动化和智能化的鱼群监测方法备受关注[6-9]。当前，主流的鱼群监测方法包括基于声学技术和基于视觉技术的监测方法。

基于声学技术的鱼群监测方法具有覆盖范围广、不损伤调查对象等优点[10-11]。有学者提出了利用不同声呐设备进行监测和管理的方法[12-14]，并取得了一些成果，但目前常用的渔业声学调查装备均为国外产品，价格昂贵，数据处理过程较复杂，且易受水下其他移动物体干扰，因而在实际环境下，鱼群监测的准确性仍有待提高。视觉方法则能通过图像分析技术给出更直观的鱼群监测结果[15]。视觉识别技术通过相机收集鱼类的图像信息，并通过计算机进行语义分析和决策，从而获取深海网箱养殖的鱼群动态数据并进行监测。李少波等[16]开发了一套远程水下鱼类实时识别系统；黄平[17]利用视觉识别技术，实现对水下鱼类行为的自动监测，精准化控制饵料喂养量；Lai等[18]实现了对水下鱼类的多目标跟踪。然而，由于水下成像环境特殊，水下图像经常受到各种问题的困扰，例如噪声干扰、光线衰减、水下散射、模糊的纹理特征、低对比度和颜色失真等，限制了其在深海环境中的应用。相比于水下相机，水面相机可避免污损生物附着，视野更大、清晰度更高。研究者通过从水面拍摄的图像中提取的鱼群活动信息，实现了鱼群监测[19-22]，但在夜间光线衰减时，普通相机在水面无法拍摄到清晰的鱼群活动数据。

鉴于此，本研究以深海网箱和养殖平台为载体，以水面红外摄像头为核心传感器，针对深海网箱鱼群监测的视觉感知问题开展研究，通过改进Faster RCNN 模型、椭圆拟合等关键技术实现对水面红外图像中深海网箱鱼群的自动监测，达成深海网箱养殖过程的无人或少人监测，提高监测的准确性和稳定性，为精准投料、高效安全养殖提供数据支撑。

1 数据采集及标注

水面红外图像能够提供网箱内鱼群的实时动态信息，包括鱼群的分布、密度、游动方向等。此外，由于红外图像对光照和颜色的鲁棒性，使得在夜间等光线较弱环境下的鱼群监测均有良好的效果。因此，本研究使用安装在“德海1 号”网箱[22]上的红外监控摄像头 (图1)，连续拍摄并记录鱼类夜间活动的图像数据。该摄像头为海康威视品牌的枪式摄像机，型号为DS-2CD6626B-IZHRS，具有200 万像素分辨率，镜头的焦距选择范围介于2.8～12.0 或8.0～32.0 mm，拍摄范围最远达150 m。进一步选用标注工具Labelme 对所收集的水面鱼类图像开展目标检测标注，共标注400 张图像，鱼类个体数量2 830 个。考虑到准确性，对人工难以识别、不太清晰的鱼未做标注，标注效果如图2 所示。网箱内养殖的鱼类平均体质量为7.5 kg，养殖密度约15 kg·m−3。

图1 “德海 1 号”网箱Fig. 1 "Dehai No.1" sea cage

图2 标注图Fig. 2 Labeled figure

2 鱼群自动监测方法

本研究中提出的鱼群自动监测方法，由鱼群识别与计数、鱼体分割和鱼体游向判断3 个功能模块组成。首先，通过红外相机采集鱼类图像，并利用改进的 Faster RCNN 模型经过特征提取和目标检测，实现鱼群的识别和计数，同时进行图片剪切，输出包围框表征鱼类个体位置。其次，从框图内选择亮度前20% 的像素点作为分割提示点，利用Segment Anything Model 对图像进行分割，生成鱼体分割图。最后，对鱼体分割图进行椭圆拟合处理，通过拟合的椭圆曲线可以判定鱼类的游向信息。鱼群自动监测流程如图3 所示。

图3 鱼群自动监测流程Fig. 3 Automatic fish school monitoring process

2.1 鱼类目标检测模型

水面红外图像具有起伏波浪产生高亮响应以及容易和鱼类混淆的特点。考虑到上述特点，本研究在目标检测网络上采用Faster RCNN 模型[23]，该模型属于两阶段检测器，与一阶段检测器相比准确率更高[24-27]。进一步利用FPN (Feature Pyramid Network)[28]来增强Faster RCNN，使其获得图像不同尺度的特征，更好地区分水波高亮点和鱼类个体。

FPN 包括自底向上的过程和自顶向下、横向连接的过程。自底向上的过程完成特征提取，输出不同尺度的特征图。自顶向下的过程是通过将更抽象、语义更强的高层特征图进行2 倍的上采样，并与自底向上生成的相同大小的特征图进行横向连接融合。Faster RCNN 的骨干网络采用Mobilenetv2[29]，它由一系列的小尺寸卷积核组成，具有深度可分离卷积，可有效减少模型的参数量和计算量[30]。在Mobilenetv2 中去除网络最后的平均池化层和全连接层，留下其前19 层深度可分离卷积层，将第4、第7、第14 和第19 层，即图中的C2—C5 作为FPN 的输入特征层，分别对应于Mobilenetv2 的不同深度。C5 层经过1×1 卷积得到M5，M5 进行2 倍上采样后与C4 层经过1×1 卷积后的特征进行融合，得到P4 特征层；依次类推，得到P3 和P2 层。最终得到的P2、P3、P4 和P5 特征图分别用来预测不同尺度的目标。改进的 Faster RCNN 模型以Mobilenetv2+FPN 作为特征提取网络 (图4)。

图4 改进后的特征提取网络Fig. 4 Improved feature extraction network

Faster RCNN 算法框架如图5 所示。首先，选择需要处理的图片，使用transforms.ToTensor ()函数将图片数据转换为PyTorch 张量，再应用随机水平翻转，指定翻转概率为50%；其次，将处理过的图片送入预训练的特征网络中，使用Mobilenetv2+FPN 网络为模型的特征提取网络，融合多尺度特征。接着，在构建的特征层上面分别进行RPN (Region Proposal Network) 操作；将获得的proposals 以及feature maps 输入到ROI 池化层(ROI pooling layer) 进行池化操作，固定大小为7×7；最后，在上一步的基础上连接两个全连接层，进行分类和边框回归。

2.2 鱼群识别与计数功能模块

通过目标检测模块，即可实现鱼群识别和计数功能。例如，给定一张水面红外图像样本，图片大小为1920×1080 像素，该照片中有若干条鱼。经过改进的Faster RCNN 模型处理后，每个鱼类目标都会被一个绿色矩形框标识，这个矩形框代表了该鱼类目标在图像中的位置，而其总数则代表了当前图像中鱼类目标的数量。此外，这些框中还附有分类标签和置信度。

2.3 鱼体分割功能模块

Segment Anything Model (SAM) 是Meta 发布的新模型，用于计算机视觉中的图像分割任务[31]。SAM 的目标是实现零样本分割一切，为 CV (Computer vision) 基础模型提供广泛支持和深度研究。该模型可以根据提示词进行图像分割，包括交互式点和框的提示。SAM 的功能涵盖了广泛的用例和零样本迁移，可以自动分割图像中的所有内容。此外，SAM 引入了图像注释数据集Segment Anything 1-Billion (SA-1B)，这是历史上规模最大的分割数据集，包含超过11 亿个高质量和多样性的分割掩码。

SAM 需要输入分割提示点，才能对目标进行分割，得到鱼体分割图。为获取有效的提示点，本文采用以下步骤：考虑到属于鱼体的点偏亮，在对应的鱼类目标子框图内部找到亮度最高的前20%像素点，并从中随机选择10 个点作为分割提示点，以帮助SAM 更精确地进行分割处理。以该鱼类目标子框图为例，从该框图亮度最高的前20% 的像素点中随机选择10 个点如下：(102,25)、(126, 28)、(92, 14)、(98, 24)、(104, 33)、(79,19)、(129, 27)、(43, 17)、(73, 8)、(67, 18)。接下来，将包含这些分割提示点以及对应的鱼类个体目标子框图输入到SAM 中进行处理，从而得到对应的鱼体分割图(图6)。

图6 分割结果图Fig. 6 Segmentation result diagram

2.4 鱼体游向判断功能模块

椭圆拟合技术是指通过计算和图像处理方法，根据一组散点数据拟合出一个最佳椭圆。在实际应用中，椭圆拟合技术通常用于识别和定位具有椭圆形状的目标[32-33]，例如应用于图像视觉测量、生物医学图像分析和计算机视觉等领域。椭圆拟合算法的基本原理是寻找一个可以在给定误差范围内覆盖所有数据点的椭圆。本研究利用OpenCV 库中定义的cv2.fitEllipse 函数，根据给定的像素点在鱼类目标子框图内对鱼体姿态进行椭圆拟合。

该模块的核心任务是分析和预测鱼群中每条鱼的游动方向。首先，创建一个与图像大小相同的全零矩阵，用于记录像素点在上述分割过程中被蓝色遮罩覆盖的次数。例如，图7-b 的宽度为144，高度为49，则需要创建一个49×144 的全零矩阵。接着，循环遍历输入坐标点和对应的标签，并对每个点进行预测 (被蓝色遮罩覆盖的像素点设置为1 表示正样本，未被覆盖的像素点设置为0 表示负样本)，累计每个像素点被遮罩覆盖的次数。通过分析和实验，发现覆盖次数不小于5 的像素点为在多次遮罩的覆盖下被认定为目标区域的像素点，图7-e 为覆盖次数不小于5 的像素点映射回框图的图像效果。通过选择这些覆盖次数较多的像素点进行椭圆拟合，可以更好地捕捉到目标鱼体的形状和轮廓特征。最后，将被蓝色遮罩覆盖次数不小于5 的像素点，用cv2.fitEllipse 函数进行拟合椭圆，并在鱼类个体目标子框图上绘制出拟合椭圆，完成的鱼体检测-分割-游向判断流程如图7 所示。

图7 鱼体游向判断过程图Fig. 7 Image of fish swimming towards judgement process

通过拟合椭圆的主轴方向，可以推测出鱼的大致游向。在对每个框图的分割结果图进行椭圆拟合操作后，通过拟合结果图可以获得椭圆的短轴相对于框图参考坐标系x轴的旋转角度。在图像的参考坐标系中，将x轴表示为水平方向 (从左到右)，y轴表示为垂直方向 (从上到下)。椭圆的角度是以图像的x轴为基准进行度量的，角度从0° 开始，逆时针旋转。取值范围介于0°～180°。需要注意的是，本研究仅确定了鱼可能的游动轴，并不能提供沿轴向前或向后游动，基于本文的游动轴，通过进一步对视频中连续帧图像的鱼类个体进行跟踪即可确定，该方法不在本文讨论范围。

3 实验

3.1 实验设置和指标评估方法

本研究构建了一个400 张图像的数据集，为了实现后续模型训练的公正性和有效性，编写了相应的程序，采取随机无重复抽样的方式对数据集进行划分，分别为225 张图像的训练集、75 张图像的验证集以及100 张图像的测试集。这种划分方式使得训练集与验证集，训练验证集与测试集的比例均保持在3∶1。实验训练和测试的平台环境如表1 所示。训练过程中使用的图像分辨率为1920×1080 像素，学习率为0.005，批量训练大小为1，为防止模型过拟合，设置了0.000 1 的权重衰减，训练次数为100 次。

表1 实验工作平台环境Table 1 Experimental platform environment

为衡量改进的Faster RCNN 模型和椭圆拟合等关键技术在鱼群识别、分割和游向预测的性能，本研究讨论了如何通过6 个主要的指标来评估网络模型的效果[31-32]：置信度、损失函数值、学习率、召回率、交并比以及平均精确率。

3.2 实验过程

利用本研究中自建的水面红外图像数据集中的训练集对改进Faster RCNN 模型进行训练，训练次数为100 次，并使用测试集进行评估，在训练过程中，观察了模型的平均精确率、损失函数值和学习率等变化趋势。从图8 可以看出，经过100 次训练，模型的平均精度均值已较为稳定，损失函数值和学习率均呈下降趋势，并最终趋于稳定，选择保存该模型。

图8 改进的Faster RCNN 训练时模型的变化情况Fig. 8 Changes in model during improved Faster RCNN training

3.3 结果展示

本研究评估了3 种流行特征提取网络：Mobilenetv2、VGG16 以及Resnet50，并结合特征金字塔网络 (FPN) 对模型性能的影响进行了详细的对比实验。从结果来看，Mobilenetv2+FPN 表现出显著优势，平均精确率为84.5%，平均召回率为60.8%，接近于VGG16+FPN 在AP 和AR 上的表现，而其检测速度仅为0.042 s，远快于VGG16+FPN 的0.077 s，显示出较高的运行效率。此外，由于Mobilenetv2 的轻量级结构，Mobilenetv2+FPN 对处理器要求低，部署成本低，特别是在计算资源受限的设备上，如需要轻量化部署的深海监测设备等应用场合，该模型尤为适用。因此，在保持较高的准确性同时，该网络还兼顾了检测速度和对资源的低需求，是现有实验条件下的最优选择。表2 展示了不同特征提取网络的具体对比情况，其中AP 值选取的IoU 阈值为0.5。

表2 不同的特征提取网络对比Table 2 Comparison of different feature extraction networks

利用训练好的模型进行推理预测。图9-a 为原始图像，图9-b 为使用改进的Faster RCNN 模型得出的预测结果图。图10 展示了对应的鱼体分割及游向判断结果。结果表明，在水面红外图像的鱼类数据集上，所提出的改进Faster RCNN 模型和椭圆拟合等关键技术能够实现对鱼群的自动监测。

图9 改进Faster RCNN 模型的预测结果图Fig. 9 Prediction results of improved Faster RCNN model

图10 预测结果Fig. 10 Predicted results

4 小结

本研究利用自建的水面红外图像鱼类数据集，通过改进的 Faster RCNN 模型和椭圆拟合等关键技术的综合应用，获取了深海网箱养殖过程中鱼群的活动数据，为鱼群的自动监测提供了有效的技术手段。对比传统方法和已有研究，本研究提出的方法在鱼群自动监测方面具有一定的优势和创新性。主要体现在以下3 点：1) 相比于水下相机，水面相机可避免污损生物附着，视野更大、清晰度更高；2) 功能多样，能够从原始的水面红外图像中获取丰富的鱼类信息。已有的鱼群自动监测方法[16-17,20]功能较为单一，而本研究通过鱼群识别与计数、鱼体分割和鱼体游向判断这3 个功能模块的协同工作，从原始的水面红外图像中获取鱼群的数量、位置、形状和游动方向等信息，为深海网箱养殖提供了重要的数据支持；3) 改进的Faster RCNN 模型采用Mobilenetv2+FPN 作为特征提取网络，AP 值从原始的70.0%提升到84.5%，提高了14.5%，在实现高精确率的同时，保持较快的检测速度，减少了计算资源需求。此外，改进的 Faster RCNN 模型对处理器要求低，部署成本低，在鱼群自动监测应用上，特别是对于有资源限制的设备，具备显著的实用价值和可行性。

然而，本研究提出的基于水面红外图像的深海网箱鱼群智能监测方法也存在一定的局限性，如在极端光照、遮挡、密集情况下的鱼类目标精确监测，这有待在后续研究中改进。未来的研究将重在提升模型的鲁棒性、效率以及开发适用于视频流的实时鱼类跟踪方法，以应对更复杂的应用场景和需求。