APP下载

基于改进型MBLLEN网络的内窥镜图像增强算法研究

2024-08-06王利钢童基均陈佳龙刘轶丞

软件工程 2024年8期

关键词:内窥镜图像;图像增强;MBLLEN;U-Net;Hessian矩阵

中图分类号:TP391 文献标志码:A

0 引言(Introduction)

目前,已有许多增强算法应用于内窥镜图像的亮度与细节增强,例如传统算法有伽马变换、Retinex技术[1]、图像空间转换[2-3]、Txi算法[4]、导向滤波[5]。在深度学习方面,有许多无监督学习低光图像增强算法,例如XU 等[6]提出的SNR(Signal-to-Noise-Ratio)网络、MA 等[7] 提出的SCI(Self-Calibrated Illumination)网络及WU 等[8]提出的URetinex(Unfolding Retinex)网络。

内窥镜图像的亮度不均匀,传统算法仅能简单地改变全局像素信息,并且无监督低微光增强网络没有明确的学习目标,缺乏解释性,这些算法的应用结果均会产生色调改变及图像噪声。MBLLEN网络是LV等[9]提出的一种有监督的低光增强网络,具有多分支结构,解释性较好,但其增强结果仍存在色调改变问题。因此,本研究改进了低光照增强MBLLEN网络结构。为了解决内窥镜图像场景语义信息较少和深层CNN(Convolutional Neural Network)会出现梯度消失导致内窥镜图像亮度增强带来的色调改变问题,本研究还引入了Hessian矩阵的特征值,对全局线性结构做细节后处理增强。本研究提出的增强算法能在确保内窥镜图像质量的同时,实现出色的亮度和细节表现。

1 研究方法(Method)

本研究构建了内窥镜图像亮度增强数据集,并采用改进的MBLLEN网络有监督地对内窥镜图像进行增强。在亮度增强的内窥镜图像基础上,将其转化至高斯模糊域,引入Hessian矩阵的特征值,对内窥镜的全局线性细节进行增强,然后转回图像空域。内窥镜图像亮度与细节增强流程如图1所示。

2 改进型MBLLEN 网络(Improved MBLLENnetwork)

2.1 数据集预处理

内窥镜图像数据集中的亮度特征大致可以分为低光、光照正常、高光3类。由于高光的内窥镜图像较少,因此本文基于The Kvasir Dataset[10]内窥镜数据集中的低光图像和光照正常图像合成内窥镜光照增强数据集。

针对两种亮度特征的图像,对V通道做不同的亮度处理。针对低光图像,对其V通道做γ值大于1且小于1.5的伽马变换随机进行亮度恢复,目的是得到视觉效果较好的内窥镜图像;针对光照良好的图像,对其V 通道做γ值小于1且大于0.5的伽马变换随机进行亮度衰减,目的是模拟亮度衰减情况下的内窥镜图像。最终得到亮度视觉较差和亮度视觉良好的内窥镜图像对作为数据集。伽马变换如公式(1)所示:

2.2 改进型MBLLEN

MBLLEN是有监督多分支结构的深度神经网络,它能够学习低微光图像的亮度特征并进行增强。在内窥镜图像亮度增强任务中,MBLLEN的特征提取层深度较深,而医学图像语义信息有限,存在冗余的特征提取卷积层和遗忘特征信息等问题。同时,原有的特征增强模块无法增强深层次的信息,因此本研究对MBLLEN网络进行改进,对亮度受损的内窥镜图像进行增强。

改进型MBLLEN 网络结构如图2所示。本文调整了MBLLEN的卷积特征提取层的深度,将其修改为7层以解决深层网络丢失信息的问题。同时,为了防止梯度趋近零和加速收敛,用跳连接对特征提取层前后进行连接,使用U-Net结构替换了原有的特征增强层,用于增强内窥镜图像中深层次的亮度信息。

改进后的MBLLEN网络包含3种模块,即特征提取模块、特征增强模块及融合模块。

(1)特征提取模块是一个单流网络,具有7层卷积网络,每一层都采用卷积核大小为3×3的卷积,步长为1,填充大小为1,使用ReLU非线性激活函数。第一层的输入是低光照内窥镜图像,接下来6层的输入都是前一层的输出特征,也是特征增强模块的输入。特征提取模块每一层的输出结果尺寸均为32×h×w。

(2)特征增强模块为U-Net结构,其数量等于特征提取层模块的层数。每个增强模块的输入都是特征提取层的结果,输出是与输入图像大小相同的三通道图像。U-Net的压缩路径包含3次下采样,扩展路径包含3次上采样。压缩路径的下采样采用卷积核大小为3×3的卷积,步长为1,填充大小为1,每层的特征融合是卷积核大小为3×3的卷积,步长为1,没有填充;扩展路径的上采样采用卷积核大小为3×3的反卷积,步长为2,填充大小为1,额外填充大小为1。每层的特征融合采用的卷积核大小与压缩路径保持一致,保证输入尺寸与输出尺寸一致。所有的特征增强模块同时训练,但是没有共享任何学到的参数。

(2)融合模块接收所有特征增强模块的输出结果,生成最后的增强输出结果。所有的增强输出结果会被连接到一起,使用卷积核大小为1×1的卷积将图像按权相加在一起。

3 图像后处理(Image post-processing)

除了提升内窥镜图像亮度,本文还提出了一种基于图像Hessian矩阵特征值的隶属度增强算法,用于改善内窥镜图像中线性细节的表现,图像后处理流程如图3所示。

4 实验及结果分析(Experiment and resultanalysis)

4.1 实验数据集

本研究采用The Kvasir Dataset[10]胃肠道公开数据集,它包含8个不同类别的内窥镜图像,其中解剖标志有3类,病理结果有3类,内镜检查程序有2类。在The Kvasir Dataset中选取2 000张内窥镜图像,包含Z线、食管、胃肠等组织区域。选取其中的200张图像作为验证集,其余1 800张图像作为训练集。对训练集数据进行扩增处理,包含翻转、旋转、高斯噪声、高斯模糊4种操作,将图像扩增到9 000张。

4.2 实验环境与配置

改进型MBLLEN的优化器选取SGD(Stochastic GradientDescent),初始学习率设置为0.002,权重衰减系数设置为0.000 1,β1=0.9,β2=0.999。实验平台采用Ubuntu 16.04操作系统,搭载24 GB显存的GeForce RTX 3090GPU进行实验评估,利用开源深度学习框架Pytorch-1.13实现。

4.3 评价指标

4.4 实验结果与分析

为了验证改进型MBLLEN结构的优越性,本研究设计了消融实验比较改进前后的结构在数据集中的损失收敛差异,损失函数在不同结构下的表现如图4所示。图4中,A代表原MBLLEN网络结构,损失函数在20个epoch左右时收敛;B代表改为7层特征提取的MBLLEN网络结构,损失函数在15个epoch左右时收敛;C代表改成7层特征提取和增加了跳连接的MBLLEN网络结构,损失函数在17个epoch左右时收敛;D代表改成7层特征提取和U-Net的MBLLEN网络结构,损失函数在15 个epoch 左右时收敛;E 代表全部改进下的MBLLEN网络结构,损失函数在8个epoch左右时收敛。通过对比A与B发现,改成7层的特征提取MBLLEN网络由于网络变浅,损失函数收敛速度加快,但与原结构的收敛结果几乎没有差距,所以本研究不讨论原结构与7层特征提取结构的具体差异。通过对比B与C发现,跳连接结构缓解了网络中的梯度消失问题,提高了梯度的有效传播,加速了网络的收敛,并且更容易记住图像中的重要特征,使损失的收敛结果趋近0。通过对比B与D发现,U-Net结构在多层次上学习图像的局部和全局特征,加速了网络的收敛,并且收敛速度比C结构更快,但收敛结果与C结构相近。通过对比C、D、E发现,本文改进结构中的每一部分都对模型加速收敛起到了一定的作用,并且能将损失收敛至最低,与内窥镜图像的适应性更好。A和B的模型输出结果接近,如图5中的MBLLEN所示;C、D、E的模型输出结果接近,如图5中的本文算法;模型的图像输出结果也显示出改进后的模型与内窥镜图像具有更好的适配性。

为了验证本文算法的主观有效性,将算法的结果与其他主流方法得到的结果进行对比,选取典型的两张实验结果(图5和图6),从视觉上可以观察到Retinex、原结构MBLLEN、URetinex以及SCI算法在提高内窥镜亮度的同时,改变了图像的色调,增强算法调高了像素的亮度表现,同时降低了图像的质量,破坏了原图像结构;SATO[4]和ZHANG等[5]提出的内窥镜增强算法为图像展示了更多的血管或边缘细节,但提高的亮度有限且引入了不必要的细节噪声;本文算法的结果在亮度及线性细节前景增强前后的图像质量几乎没有降低,可以从图像中观察到更多的血管细节和组织边缘强度。

为验证本文算法的客观有效性,我们在200张验证集上应用了主流算法,并计算了平均指标,结果如表1所示。表1中的结果表明,本文提出的内窥镜图像亮度与细节增强算法相较于改进前的MBLLEN在PSNR、SSIM、DVBV三项指标上均有较大的提升;同时,与其他6种主流图像增强算法的对比结果显示,在PSNR和DVBV指标方面,仅落后于文献[5]中的改进引导滤波算法,在SSIM 指标方面,仅落后于引入自校准模块的SCI算法,总体排名前列。客观指标说明,本文算法能够在保证图像的质量与结构的前提下,提高图像的亮度及线性细节前景对比度。

5 结论(Conclusion)

本研究提出了一种改进型MBLLEN网络的内窥镜图像亮度与细节增强算法。首先,建立了内窥镜图像亮度增强数据集。其次,利用改进结构下的MBLLEN算法对内窥镜图像进行亮度增强,在原有的MBLLEN结构中缩短了特征卷积层,使用跳连接方式,将增强模块替换成U-Net结构,能够提高内窥镜图像特征的学习效率,并得到更拟合的亮度增强结果。最后,对内窥镜图像做高斯隶属度转化,引入Hessian矩阵特征值对图像像素的模糊域进行线性增强。消融实验证明了改进型MBLLEN网络结构的有效性,并且在主流的6种图像增强算法中,本研究增强的结果在主观视觉上表现良好,200张验证集的增强结果平均PSNR值为26.829,SSIM 值为0.868和DVBV值为131.372,在主流算法的增强结果中客观指标排名靠前,满足内窥镜图像在确保图像质量未改变的同时,提高亮度与细节表现的要求。

作者简介:

王利钢(1999-),男,硕士生。研究领域:图像与视频处理技术。

童基均(1977-),男,博士,教授。研究领域:人工智能,医学图像处理。

陈佳龙(2000-),男,硕士生。研究领域:图像与视频处理技术。

刘轶丞(2000-),男,硕士生。研究领域:图像与视频处理技术。