模糊水下图像多增强与输出混合的鱼类检测方法
2022-08-08覃学标黄冬梅杜艳玲徐慧芳
覃学标 黄冬梅,2 宋 巍 贺 琪 杜艳玲 徐慧芳
(1.上海海洋大学信息学院, 上海 201306; 2.上海电力大学电子与信息工程学院, 上海 200090)
0 引言
机器学习方法对水下图像中的鱼类检测成本较低且容易操作,因此被广泛应用于鱼种类的检测[1-5]、鱼类监测[6-7]、鱼类分选[8]、鱼类行为研究[9]、鱼类栖息地调查[10]、鱼群分析[11-12]和鱼类数量统计[13]等方面。
当前基于机器学习方法的鱼类检测研究主要有QIN等[14]提出的DeepFish模型,在Fish4 Knowledge数据集上检测精度为98.64%;YANG等[15]使用YOLO v3和Faster R-CNN模型对海参、扇贝、海胆的图像进行检测,其结果表明YOLO v3速度较快而Faster R-CNN精度较高;RAZA等[16]在自建数据集上使用YOLO v3模型开展检测试验,通过增加候选锚框、迁移学习和调整loss函数等方式对模型进行改进,与未改进前的模型对比,精度提高了4.13%。GRAY等[17]使用Mask R-CNN模型对无人机采集的鲸鱼图像进行检测,并对其体长进行了测量,测量结果与人工测量对比误差为5%。基于机器学习方法的鱼类检测获得了较高的检测精度和较快的检测速度,广泛应用于各种检测任务中。
养殖池、河道和入海口的水下图像,受水体浑浊度和水中光衰减的影响,普遍具有模糊、对比度低等特点。针对这类图像,一般使用图像增强方法进行处理。经过增强的模糊水下图像变得清晰[18-19],理想情况下可以提高鱼类检测的精度。但文献[20]发现图像增强带来的这种清晰,并不能直接提高鱼类检测模型的检测能力,甚至模型的检测精度出现了退化。导致这一问题的主要原因是增强方法的局限性,会带来明显的人为噪声[20]。因此,如何更好地利用水下图像增强方法实现高精度的鱼类检测是值得关注的问题。
本文重点关注在鱼类检测过程中模糊水下图像的前处理和后处理步骤,提出模糊水下图像多增强与输出混合的鱼类检测方法。首先利用多种图像增强方法对模糊水下图像进行增强,然后将增强后的图像分别输入鱼类检测模型得到多个输出,并对多个输出进行混合,最后利用非极大抑制方法(Non-maximum suppression,NMS)[21]对混合的结果进行后处理,获得最终检测结果。
1 检测方法
1.1 数据采集与处理
使用GoPro RX0型水下摄像机在室外水深1 m的养殖池中采集数据。采集时间为2020年5—6月13:00—16:00,图像分辨率为1 920像素×1 080像素,帧速率为50 f/s。受水体浑浊的影响,采集的图像均较模糊。视频每10帧选出一幅图像,从中取出具有一条或多条完整轮廓的鱼类图像,得到3 595幅鱼类图像。使用LabelImg软件将图像中的鱼类目标标注为fish,按比例7∶3随机划分为训练集和测试集,即训练集2 517幅,测试集1 078幅。后续试验对比均以测试集上的结果为准。为保证测试集数据的准确性,由3人分别对测试集中鱼的总数量进行计数,取平均数作为人工计数的结果。经过计算,测试集中人工计数鱼的总数为3 546条。
1.2 方法设计
本文利用5种图像增强方法对模糊水下图像进行增强,将增强后的图像分别输入鱼类检测模型得到多个输出。对多个输出进行混合,然后利用非极大抑制方法对混合的结果进行后处理。图1为本文方法的框架。
1.2.1水下图像增强
水下图像增强方法分为增强和复原两类[18]。图像增强方法通常以水下成像简化模型为基础,可表示为
I(x)=J(x)t(x)+A(1-t(x))
(1)
其中
t(x)=e-βd(x)
式中I(x)——水下图像
J(x)——清晰图像
A——背景光强
t(x)——透射率
β——衰减系数
d(x)——景深
图像增强的原理主要是通过估计成像模型中的参数,即透射率t(x)和背景光强A,然后再代入式(1)推导出清晰图像J(x)。
为了避免单一增强方法增强后出现精度退化的问题,本文选取两种增强效果较好的方法:对比度受限的自适应直方图均衡化方法(Contrast limited adaptive histogram equalization,CLAHE)[22]和相对全局直方图拉伸方法(Relative global histogram stretching,RGSH)[19],以及3种复原效果较好的方法:暗通道先验(Dark channel prior,DCP)[23]、无监督色彩校正(Unsupervised colour correction method,UCM)[24]和基于图像模糊和光吸收的水下图像复原(Image blurriness and light absorption,IBLA)[25],分别运用上述5种方法对模糊水下图像进行预处理,得到多个输入。
CLAHE是常用的图像增强方法,其基本思想是将图像像素直方图分布在全动态范围内,同时限制直方图的幅值来控制图像整体的对比度。RGSH同样是改变原图像的直方图分布,但该方法根据原图具体情况对红蓝绿各通道动态范围的取值进行动态限定,从而避免过度增强等情况。DCP是通过暗通道先验值和透射率对干扰像素进行校正达到图像还原的目的。UCM是基于颜色平衡对水下图像进行处理,通过平衡红蓝绿颜色和色相饱和度的分布对图像进行还原。IBLA是通过水下图像的模糊度和背景光估算图像的透视率,然后依据透视率对图像进行还原。
对于同一输入图像IInput,分别使用DCP、CLAHE、IBLA、RGSH和UCM这5种方法增强,增强后的图像分别记为IDCP、ICLAHE、IIBLA、IRGSH和IUCM。
1.2.2鱼类检测模型
文献[15-16]表明,YOLO模型在鱼类检测方面取得了较好的检测结果,故本文选择YOLO作为鱼类检测模型。YOLO由REDMON等[26]提出,广泛应用于各类目标检测任务中,其框架由输入、主干网络、颈部、头部4部分组成,图2为YOLO v4[27]的框架图。
将图像IInput、IDCP、ICLAHE、IIBLA、IRGSH和IUCM分别输入YOLO v4模型,记各自输出的检测框为BInput、BDCP、BCLAHE、BIBLA、BRGSH和BUCM,记对应的检测概率为SInput、SDCP、SCLAHE、SIBLA、SRGSH和SUCM,分别得到检测框和检测概率的混合结果集合为
B={BInput,BDCP,BCLAHE,BIBLA,BRGSH,BUCM}
(2)
S={SInput,SDCP,SCLAHE,SIBLA,SRGSH,SUCM}
(3)
1.2.3混合结果的后处理
设定阈值N,使用非极大抑制方法对混合结果B进行处理。N取0.3,与检测模型YOLO v4的取值一致。
首先,确定S中最大的检测概率Sm,从B中选出该概率对应的检测框Bm,予以保留;然后分别计算Bm与B中剩余检测框Bi的交并比IOU(Bm,Bi),计算公式为
(4)
当IOU(Bm,Bi) 为验证本文方法的有效性,使用采集的3 595幅图像分别在YOLO v3、YOLO v4和YOLO v4 tiny上开展试验,并对试验结果进行分析。试验环境为处理器AMD 1950X 3.4 GHz,内存32 GB,显卡GTX-1080Ti,操作系统Ubuntu 16.04。 分别使用DCP、CLAHE、IBLA、RGSH和UCM方法对测试集进行增强,代码来源于WANG等[18]公布的网站,所有参数均使用默认值。选择3幅图像作为样例展示增强后的效果,如图3所示。可以观察到,模糊的水下图像经过不同增强方法增强后呈现不同的效果,清晰度得到不同程度的提高。但同时也导致一些问题,例如,IBLA造成局部过度曝光,DCP结果整体偏暗等。 图3 不同图像增强方法处理后的增强效果Fig.3 Results of different image enhancements 为了更客观地检验图像增强后的效果,引入峰值信噪比(Peak signal to noise ratio,PSNR)对增强后图像相对于原始图像的失真程度进行评价。 表1为图3中3幅样例图像分别使用DCP、CLAHE、IBLA、RGSH和UCM方法增强后的PSNR,其值越大增强效果越好。可以看出,CLAHE方法增强效果最好,IBLA最差,与观察结果基本一致。 表1 样例图像增强后峰值信噪比Tab.1 Results of PSNR 选择平均精度(AP)[28]、检测数量和检测时间作为本文方法的评价指标。选择AP50作为检测精度衡量依据,其定义为预测框与真实框交并比大于0.5时视为正确。检测数量为检测概率大于0.3目 标个数。测试集中鱼类数量的真实值以人工计数为准。检测时间为单帧图像的检测时间。应用δ来衡量本文方法的提升幅度,其计算公式为 (5) 式中Δ——增量 C——基准值 δ——提升幅度 的将训练集分别输入YOLO v3、YOLO v4 tiny和YOLO v4模型进行训练,输入图像为原始图像,训练参数使用默认值,均训练到模型收敛。训练结束后,在测试集上开展检测试验,原始图像的检测结果和本文方法的检测结果对比如表2所示。 从表2中可以看出,对比原始图像的检测结果,本文方法在YOLO v3模型上检测精度提高了2.15个百分点,检测数量提高了15.5%;在YOLO v4 tiny模型上检测精度提高了8.35个百分点,检测数量提高了49.8%;在YOLO v4模型上检测精度提高了1.37个百分点,检测数量提高了12.7%。说明针对 表2 本文方法试验结果Tab.2 Experimental results of the proposed method 模糊水下图像,无论以何种目标检测模型为基础网络,本文方法都能提高模型检测能力。在检测时间上,由于增加增强后图像检测,检测时间出现了较大幅度的增大,YOLO v4-mix的帧速率为6 f/s,YOLO v4 tiny-mix的帧速率为74 f/s,但仍可以满足鱼类检测的实时性需求。 对比各目标检测模型可以看出,YOLO v4的目标检测能力明显优于YOLO v3,精度提升了5.63个百分点,检测数量增加了113条。为实现快速目标检测,YOLO v4 tiny对模型进行了压缩,导致其目标检测的能力下降,与YOLO v4相比,AP50下降9.84个百分点,与YOLO v3相比下降4.21个百分点。但是,在本文提出的增强混合框架下,YOLO v4 tiny-mix的检测能力显著提升,AP50达到91.75%,且鱼类检测数量达到3 461条,与人工计数结果最为接近。由于本文方法的多个图像增强和检测模型可以并行计算,通过与快速目标检测模型相结合,本文方法在实时鱼类目标检测上具有实用性。 对不同模糊水下图像增强方法对鱼类检测结果产生的影响进行分析,并使用样例图像对本文方法的检测结果进行可视化分析。由于YOLO v4模型的检测精度最高,因此在该模型上开展试验。 表3为原始图像和分别经过DCP、CLAHE、IBLA、RGSH、UCM方法增强后的图像与本文方法检测结果的对比。从表3中可以看出,经过CLAHE方法增强后图像的检测精度与原始图像的检测精度相近,而经过DCP、IBLA、RGSH和UCM方法增强后图像的检测精度和检测数量都出现了不同程度的下降。说明单一图像增强方法处理图像不能直接提高模型的检测能力,这一结论与KONOVALOV等[20]使用CLAHE增强图像后的检测精度一致。除CLAHE外,另外4种图像增强方法也得到类似结果。 表3 单一图像增强后检测结果对比Tab.3 Detection result of single image enhancement 结合表1中对图像增强效果的评价结果可以得出,检测精度退化与水下图像增强方法的效果有一 定的相关性。IBLA方法增强后的水下图像的失真最大,增强图像中的鱼类目标检测结果也最差。CLAHE方法增强后的水下图像的失真最小,增强图像中的鱼类目标检测结果也最好。 本文方法的检测精度和检测数量均优于原始图像的检测结果及单一图像增强方法增强后的检测结果。说明本文方法避免了图像增强后模型精度下降的问题,模型的检测能力得到了提升。 图4为原始图像和分别经过DCP、CLAHE、IBLA、RGSH、UCM方法增强后的图像以及本文方法可视化检测结果对比。从图中可以看出,原始图像中未被检出的目标经过增强后被检出。不同图像增强方法的检测结果不同。原始图像中被检出的目标经过增强后未被检出,说明经过不同图像增强方法增强后的检测结果与原始图像的检测结果存在互补性。本文方法保留了增强后图像和原始图像之间漏检的目标,避免了模型精度下降,提高了模型检测能力。 图4 原始图像和增强后图像检测结果对比Fig.4 Comparison of detection results before and after image enhancement 选取实时数据对本文方法进行应用验证。截取10 min的视频,以1 s为单位对视频中鱼类数量进行检测。由于YOLO v4 tiny-mix检测到的数量最高,因此在该模型上开展试验。图5为实时检测结果对比。 图5 实时检测结果对比Fig.5 Comparison of real-time detection results 从图5中可以看出,本文方法检测鱼类数量为9条,而YOLO v4 tiny检测最大值仅为6条。本文方法检测结果中3~5条占多数,而YOLO v4 tiny检测结果中1~3条占多数,两者相差较大。说明本文方法有效提高了模型的检测能力,并可以应用于鱼群实时计数的渔业生产中。 (1)试验表明针对模糊水下图像采用单一水下图像增强方法进行清晰化处理后,不能直接提高鱼类检测模型的检测能力,模型的检测精度下降。 (2)提出了模糊水下图像多增强与输出混合的鱼类检测方法,在YOLO v3、YOLO v4 tiny、YOLO v4模型上的检测精度分别提高了2.15、8.35、1.37个百分点,检测数量分别提高了15.5%、49.8%、12.7%,有效避免了单一水下图像增强造成的精度下降问题,提高了模型检测能力。 (3)本文提出的多增强与输出混合框架与轻量化快速目标检测模型YOLO v4 tiny相结合,能够实现高精度的实时鱼类目标检测,对于鱼群计数和鱼类类别检测等渔业生产具有实际价值。2 试验
2.1 图像增强峰值信噪比
2.2 试验结果
2.3 结果分析
2.4 应用验证
3 结论