APP下载

融入交叉注意力编码的皮肤病变分割网络

2024-04-08李大湘杨福杰唐垚

光学精密工程 2024年4期
关键词:编码器全局图谱

李大湘,杨福杰,刘 颖,唐垚

(西安邮电大学 通信与信息工程学院,陕西 西安 710121)

1 引言

皮肤癌作为美国乃至全世界最常见的癌症,其发病率正在逐年快速上升,给全球健康带来了巨大的威胁与挑战[1]。临床上皮肤癌主要分为恶性黑色素瘤(Malignant Skin Melanoma,MSM)和非黑色素瘤皮肤癌(Non Melanoma Skin Cancer,NMSC),其中90%以上的皮肤癌死亡病例均由MSM 导致。临床上,医生通常采用“ABCDE”法则来辨别MSM,其中A,B,C,D 和E 分别表示痣的形状不对称、边缘不规则、颜色不均匀、直径改变、大小改变以及进展性改变[2]。通过早期发现,MSM 的5 年生存率可达99%,而延迟诊断导致生存率下降至23%[3]。因此,运用图像分割技术对每张皮肤病变图像进行目标区域的分割,具有较高的临床意义。

目前,皮肤病变图像分割方法可分为传统图像分割方法和基于深度学习的分割方法。其中,传统分割方法包括阈值处理、活动轮廓模型和监督学习方法[4],但由于皮肤病变图像中的病变区域与周围区域对比度低,且病变的位置、形状、颜色和边界各不相同,传统方法难以准确的分割皮肤病变区域。随着深度学习的发展,卷积神经网络(Convolutional Neural Networks,CNN)已广泛应用于各类分割任务,其中基于全卷积神经网络(Fully Convolutional Network,FCN)[5]和 UNet[6]的一系列扩展已取得良好的分割性能。例如:SpineParseNet[7]将用于三维粗分割的图卷积分割网络与用于二维分割细化的残差U 型网络组合,实现了对体积MR 图像的脊椎解析。UNet++[8]设计一系列嵌套且密集的跳跃连接,减少了编码器和解码器之间的语义差距;Attention U-Net[9]提出一种新型的注意力门控机制,并将其与U-Net 相结合,使网络能够自动学习并关注具有不同形状和大小的目标结构,同时抑制不相关的特征响应。该网络在腹部CT 的多标签分割问题上取得了良好的分割效果;CA-Net[10]提出了一个全面的基于注意力的CNN 网络,即通过向U-Net 网络中引入多个注意力模块,同时了解最重要的空间位置、通道和尺度信息,实现准确且具有可解释性的医学图像分割网络。虽然上述基于CNN 的方法能有效捕捉局部细节信息,但由于卷积结构存在局部感受野,该类网络通常无法对皮肤损伤图像中的目标形状和边界信息进行建模[11]。为了解决这一问题,文献[12]提出了一种基于视觉Transformer(Vision Transformer,ViT)的网络,其通过自注意力机制捕获长期依赖关系并编码形状表示,解决了卷积结构缺乏对图像中全局上下文理解的问题。受此启发,许多工作将Transformer 引入到医学图像分割任务中。例如:TransUNet[13]首先在编码部分使用CNN 提取底层特征图谱,然后通过Transformer对全局上下文信息进行建模,在解码部分对编码后的特征进行上采样,并采用跳跃连接技术,在CT 多器官分割任务中创造了新的记录。Trans-Fuse[14]通过并行的方式将CNN 与Transformer结合,使网络以更浅的方式有效地捕捉全局依赖性和低级空间细节,提高了网络建模全局上下文的效率。但由于自注意力机制的计算复杂度随图像大小的平方倍增加,导致大多数基于Transformer 的网络具有较高的计算复杂度和参数量,且其将输入视为1 维序列,仅关注于全局上下文建模,导致低分辨率特征图谱缺乏详细的定位信息。而这种信息并不能通过直接上采样进行有效地恢复,导致了粗略的分割结果。

针对上述网络存在的问题,本文提出一种融入交叉注意力编码的U 型混合网络(U-shaped hybrid network,UH-Net),用于皮肤病变图像分割。首先,本文构造了一个高效的多头门控位置交叉自注意力(Multi-head Gated Position Cross Self-Attention,MhGPCSA)编码器,并将其引入到U 型网络的最后两个层级中,用于建模全局上下文信息,使得网络能够捕获目标区域的形状和边界信息;其次,在跳跃连接中引入一个新的位置通道注意力(Position Channel Attention,Pos-CA)机制,以使网络在建模通道关系的同时保留精确的位置信息,提高其捕获病变区域的空间结构能力;最后,针对Dice 损失无法平衡假阳性(False Positive,FP)与假阴性(False Negative,FN)的问题,设计了一个正则化Dice 损失函数,使网络在推理过程中同时关注于输入图像的前景与背景区域,提高网络的分割性能。

2 网络构造

2.1 网络整体架构设计

针对皮肤病变图像中存在目标区域形状变化大,边界不明显的问题,本文提出一种融入交叉注意力编码的皮肤病变图像分割网络(UHNet),其网络结构如图1 所示,共设计了五层U型混合网络,其中前三层级采用的是卷积操作,以捕获浅层特征而使网络前端更注重图像的局部细节信息,而在网络的最后两个层级采用的是MhGPCSA 编码器,以弥补卷积操作建模全局信息能力的不足;在跳跃连接中,向融合后的特征图谱中引入PosCA 模块,用于编码通道信息,并将结果输入到解码器中。最后通过正则化Dice损失函数实现皮肤病变图像中目标区域的分割。

图1 UH-Net 网络整体架构设计示意图Fig.1 Schematic of overall architecture design of UH-Net network

2.2 MhGPCSA 编码器

为了在图像中学习语义信息的长期依赖关系,本节设计了一个新的门控位置交叉自注意力(Gated Position Cross Self-Attention, GPCSA)机制,且基于它构造了MhGPCSA编码器,并将其融入UH-Net的最后两个层级,使网络能够高效地捕获图像的全局上下文信息,以缓解卷积操作全局建模能力的不足,提高其分割性能。相关原理如下:

2.2.1 GPCSA机制

给定任意输入特征图谱F∈RC×H×W,其中C,H和W分别表示F的通道数、高度和宽度。首先,使用三个1×1卷积来投影特征图谱F,分别生成三个新的特征图谱Q,K和V,即:

其中:f1×1表示1×1 卷积,设f1×1卷积核个数均为C′,则Q,K与V∈RC′×H×W,即它们通道数均为C′;然后,在Q中的任意空间位置i(i=1,2,…,H×W) 上沿通道维度抽取特征向量qi∈RC′×1,并在K中抽取与位置i处于同一行或同一列(即十字形邻域)的所有特征向量,获得特征向量集合记为Ki∈RC′×(H+W-1),同理在V中抽取与位置i处于同一行或同一列的特征向量,获得特征向量集合Vi∈RC′×(H+W-1),则可得到qi∈RC′×1的交叉注意力输出zi∈RC′×1,即:

其中:Ki,u∈RC′×1与Vi,u∈RC′×1分别表示Ki与Vi中的第u个列向量表示qi的转置。

虽然上述交叉注意力机制可使网络在图像中学习语义信息的长期依赖关系,但由于该操作专注于建模全局上下文信息,导致低分辨率特征图谱缺乏详细的位置信息,而在图像分割任务中,不同目标的相对位置关系通常利于捕捉目标结构。因此,为了提高网络捕获目标结构的能力,受文献[15]的启发,设计了一个新的GPCSA机制(如图2 所示),即在计算注意力权值时,添加相对位置编码项与门控项,以使其对位置信息更加敏感,进而提高网络的分割精度,则公式(2)可改写为:

图2 门控位置交叉注意力(GPCSA)机制示意图Fig.2 Schematic of Gated position cross self-attention mechanism

最后,对于Q中的所有空间位置i沿通道抽取的qi∈RC′×1,按式(3)进行GPCSA 计算重组,则输入的特征图谱F被重构为一个新的特征图谱Z,该过程记为:

其中,Z表示GPCSA 重构的结果。

2.2.2 MhGPCSA 编码器

由于单个GPCSA 机制只能捕获每个像素对应的交叉路径的上下文信息,导致其无法与周围不在交叉路径中的像素建立联系,为了解决这一问题,可通过连续使用两层GPCSA 机制来对特征图谱的全局上下文信息建模,并在GPCSA 的基础上设计MhGPCSA 编码器,以使网络能够关注来自同一位置的不同通道间的子空间信息。图3 为设计的MhGPCSA 编码器结构示意图,对于输入的特征图谱F∈RC×H×W,对其编码过程可描述为:

图3 多头门控位置交叉自注意力编码器Fig.3 Multi-head gated position cross self-attention encoder

其中:BN(),ReLU()与MhGPCSA()分别表示层归一化、ReLU 激活函数与MhGPCSA 操作,Conv()表示C个不同1×1 核的卷积操作,Fˉ∈RC×H×W表示编码器的最终输出。MhGPC-SA 是GPCSA 的扩展,即并行地运行8 个GPCSA 操作,每个注意力头将从不同的视角捕获特征图谱F的长期依赖关系而挖掘其全局上下文信息,并将它们的输出串联起来作为最终重构结果,即:

其中:Concat[;]表示将每个注意力头的输出结果沿通道维度进行拼接。为了使F经MhGPCSA 重构之后,其输出Z′与输入F保持相同的维度,式(3)所示的每个GPCSA 头输出的维度C′设置为输入元素维度的8 分之一,即C′=C/8。

在SE-Net[16]等传统的通道注意力(Channel Attention,CA)机制中,对于输入特征图谱F∈RC×H×W(其中C、H与W分别表示其通道数、高度与宽度),通常采用”二维全局平均池化”将其综合为C×1×1 的特征描述符,即:

其中:FGAP∈RC×1×1表示输入经过池化 后的结果。显然,式(7)所示的二维池化(即同时沿高与宽二个维度进行池化)将每个通道的C个数压缩为一个数,导致生成的CA 权值不带有位置信息,若直接将其用在分割网络中,则不利于像素的精确定位而影响分割精度。所以,本节分别沿高与宽维度定义了“一维全局平均与最大池化”用于建模通道关系且兼顾空间位置信息,即:

图4 位置通道注意力机制Fig.4 Position channel attention mechanism

对于输入特征图谱F,先用式(8)和式(9)所示一维池化分别沿F的宽度轴和高度轴对其进行信息聚合,生成四种上下文描述符,,和;然后,由于平均和最大池化在特征聚合时发挥的作用存在差异,则不应对它们进行简单的相加融合。因此,引入两组自适应机制,分别对高、宽度方向的池化结果进行自适应融合,二个不同方向的融合图谱记为FX∈RC×H×1与FY∈RC×1×W;最后,在通道信息交互时,针对SENet 采用全连接层会存在通道降维而带来信息丢失的问题,PosCA 机制使用快速一维卷积实施通道交互,再结合Sigmoid 激活函数得到二个方向的注意力权重MX∈RC×H×1与MY∈RC×1×W,即:

其中:α1,β1,α2和β2表示自适应机制加权系数,作为可学习参数在网络训练过程中通过随机梯度下降法进行训练,⊗表示广播元素乘法,σ表示Sigmoid 函数。C1Dk×1×1表示核大小为k的一维卷 积,k值使用ECA[17]中的经验公式计算,即:

其中:|t|odd表示离t最近的奇数,C为通道数。γ和b均为超参数,本文在所有的实验中将其分别设置为2 和1,因此一维卷积核大小由通道数C自适应地确定;最后,将输入特征图谱F与MX,MY进行广播乘法,得到PosCA 模块的输出。其表达式为:

其中,⊗表示广播元素乘法。由式(13)可知,PosCA 机制可给F中不同空间位置处的数据赋于不同的注意力,即可有差别地为图像中不同目标给于相应的注意力而提高其定位能力,从而提高整个网络分割精度。

2.4 损失函数及正则化

在医学图像分割任务中,由于FN 较之FP 将付出更大的代价,则在网络训练过程中,希望所有“前景(病变区域)”都能被分割出来,所以传统的分割网络采用的损失函数均为Dice 损失函数[18],其表达式为:

其中,β为可学习的正则化参数,用于控制正则化项在网络训练过程中所占比重,其随网络的不断迭代自动地调整优化。分析式(15)所示的损失函数可知,由于(1-pi)的制约,若pi=1(即前景)则损失为0,所以正则化只关注背景区域被误分所造成的损失,即网络在训练时,若更多的背景被分割为前景(FP 过高)时,则更多的趋向于1,导致正则化项中的In(1-将更趋向于负无穷大,再与前面的“负号”结合,将导致损失变大,损失在梯度下降反向传播时,就会一定程度上约束更多的趋向于1 的情况,降低FP。这样一来,本文网络在训练过程中,经过不停地优化迭代,就会在FP 与FN 之间进行权衡,从而实现更好的分割结果。

3 实验结果及分析

3.1 实验数据及参数设置

本文的实验数据为ISBI2017 数据集[19]和ISIC2018 数据集[3,20],均为面向黑色素瘤检测的皮肤病变分析挑战赛使用的公共数据集,其中ISBI2017 数据集包含2150 张RGB 图片,ISIC2018 数据集包含2 594 幅RGB 图片,均采用二进制标注。由于数据集中图像的分辨率各不相同,且样本数量较少,为了增加样本的多样性而缓解网络训练时的过拟合问题[21],采用以下方法对数据集中的每幅图像进行扩充:首先,在角度区间[0,360)之内以45 度为步长,对原始图像进行8 种不同方向的旋转;然后,对旋转后的8 幅图像分别进行高斯模糊与RGB 平移处理,此时单幅图像可以扩充为24 幅不同的图片(即旋转的8 幅、旋转的8 幅经高斯模糊后的8 幅以及旋转的8 幅经过RGB 平移后的8 幅);最后,为了避免直接缩放而破坏原始图像的形状和纹理等信息,对增扩后的每幅图像进行中心裁剪,并将裁剪后的图像缩放为256×256 大小作为最终的样本图像。这样以来,ISBI2017 和ISIC2018 数据集经扩充之后样本数分别为51 600 和62 256 幅不同的图片,然后再分别按8∶1∶1 比例随机划分为训练集、验证集和测试集,用于网络的训练与测试。

实验中网络的具体参数:输入图像大小设置为256×256,批量大小为16,初始学习率为10-3,网络优化器为自适应矩估计(Adaptive Moment estimation,Adam),一阶矩估计指数衰减率设置为0.9,权重衰减系数为10-4,训练周期为200。在训练过程中使用余弦退火策略对学习率进行调整,并将最小学习率设置为10-5。实验的硬件环境为Intel(R)Xeon(R)Platinum 8358P CPU,工作频率为2.60 GHz,内存为80 GB,NVIDIA GeForce RTX 3090 显卡。操作系统为Ubuntu 18.04,编程语言为Python 3.8,所有程序均在Pytorch 框架下实现。

3.2 评价指标

本文使用交并比(Intersection over Union,IoU)、Dice 系数(Dice)、Hausdorff_95(HD95)距离、准确率(Precesion)和召回率(Recall)作为评价指标,用于衡量各种网络分割结果的好坏。其中,前4 种评价指标的计算公式如式(16)~式(19)所示:

其中:X为预测结果中皮肤病变区域的像素集合,Y为原皮肤病变图片真值中病变区域的像素集合,TP为分割结果中被正确分割的像素个数,FN为分割结果中被错误预测为背景的皮肤病变区域像素个数,FP为分割结果中被错误分割的前景像素个数。

Hausdorff(HD)距离计算公式为[22]:

表1 和表2 给出了本文网络与其他六种网络在ISBI2017 和ISIC2018 数据集上的性能指标、参数量(Params)和计算复杂度(GFLOPs),综合对比本文U 型混合网络(UH-Net)性能较优,且在计算复杂度和参数量方面具有明显的优势。与基于Transformer 的网络相比,UH-Net 网络参数是TransUNet 网络参数的0.74%,计算复杂度仅是其3.74%。可见对注意力机制进行改进,可有效地提高网络分割效率。与卷积网络U-Net相比,UH-Net 在分割性能、参数量和计算复杂度方面均具有明显的优势,表明UH-Net 具有良好的分割结果。

表1 ISBI2017 数据集上不同网络结果Tab.1 Results of different networks on ISBI2017 dataset

表2 ISIC2018 数据集上不同网络结果Tab.2 Results of different networks on ISIC2018 dataset

在表1 和表2 中本文网络UH-Net 召回率均最高,两个数据集上的召回率分别为86.26%和90.52%,召回率表示正确分割为前景像素数量与金标准中的前景像素数量之比,表明UH-Net可有效地挖掘皮肤病变区域信息,降低欠分割率。IoU 和Dice 可用于衡量真值与分割图像的相似程度,本文网络UH-Net 的IoU 和Dice 均最高,IoU达到84.42% 和84.12%,Dice达到91.48%和91.30%,表明UH-Net 分割结果更接近于真实标签。HD95 常用于衡量边缘分割精度,本文网络UH-Net 在两个数据集上的HD95均最低,分别为32.67 和33.24,表明本文网络UH-Net 可以有效地分割病灶区域的边缘信息。因此,与其他网络相比,UH-Net 具有良好的分割结果和较低的欠分割。

图5 给出了不同网络在ISBI2017 和ISIC2018 数据集上的分割结果,图5 中(a)~图5(d)来源于ISBI2017 数据集,图5 中(e)~图5(h)来源于ISIC2018 数据集,从上到下依次为原图、真 值(Ground Truth,GT),UNet,UNet++,TransUNet,TransFuse,MedT,UNeXt 和UHNet 分割结果。由图5 可知,与其他网络的分割结果相比,本文网络UH-Net 的分割结果更优。在图5(f)中,由于皮肤病变区域与其他区域对比度较高,本文网络与其他网络均能有效地分割出目标区域。在图5(h)中,皮肤病变区域边缘不明显,U-Net 和UNet++作为卷积网络捕获目标结构的能力不足,UH-Net 在网络的最后两个层级中引入MhGPCSA 编码器以及在跳跃连接中引入PosCA 机制,提高了网络捕获目标结构的能力,使得病变区域的边缘更加清晰。在图5(c)中,由于毛发干扰,皮肤病变区域不明显,导致网络在分割目标区域时容易过分割或欠分割,UHNet 通过将正则化Dice 损失替换传统的Dice 损失,以使网络同时关注与病变区域的前景和背景信息,提高了网络分割结果。对比结果表明本文网络UH-Net 可以有效捕获病变区域,提高网络的分割结果。

图5 在ISBI2017 和ISIC2018 数据集上不同网络的分割结果Fig.5 Segmentation results for different networks on ISBI2017 and ISIC2018 datasets

3.3.2 MhGPCSA 编码器分析

为验证MhGPCSA 编码器各部分对实验结果的影响,将本文网络UH-Net 进行如下调整:(a)使用卷积操作代替UH-Net 的MhGPCSA 编码器,记为Network_0;(b)将门控和位置信息从MhGPCSA 编码器中移除,记为Network_1;(c)仅将门控从MhGPCSA 编码器中移除,记为Network_2;(d)对UH-Net 不做任何更改。在ISIC2018 数据集上进行实验,结果如表3 所示。

表3 MhGPCSA 编码器的不同设置对实验结果的影响Tab.3 Effect of different MhGPCSA encoder settings on experimental results

由表3 所示的实验结果可知,Network_1与Network_0 相比,Dice 和IoU 分别提升了0.53%,0.78%,表明通过GPCSA 机制来建模输入特征图谱的全局上下文信息,可使网络的分割结果得到明显提升;Network_2 与Network_1 相比,Dice 和IoU 分别提高了0.35%,0.69%,表明向交叉自注意力机制中添加位置信息可提高网络捕获目标结构的能力,从而有效地提高网络的分割结果。UH-Net 与Network_2 相比,Dice和IoU 分别提高了0.23%,0.31%,表明在编码器中同时使用门控和位置信息,更加能够捕获图像的全局上下文信息,可进一步提高网络的分割结果。

3.3.3 PosCA 机制分析

为了验证本文提出的PosCA 机制的有效性,分别将UH-Net 的PosCA 机制舍弃(无)、仅保留PosCA 机制中沿宽度(+宽度注意力)或高度方向(+高度注意力)的一维全局池化以及将两组一维池化更改为对应的全局池化(+全局注意力),以了解在建模通道信息的过程中保留位置信息的重要性。在ISIC2018 数据集上的分割结果如表4 所示。与全局注意力相比,添加沿任意方向的注意力对网络分割性能的影响相当,但当同时考虑宽度注意力和高度注意力时,即UHNet,Dice 和IoU 分别提升了0.47% 和1.26%。因此,在增加可学习参数和计算成本相当的情况下,本文提出的PosCA 机制对网络的分割结果更有帮助。

表4 PosCA 机制的不同设置对实验结果的影响Tab.4 Effect of different PosCA mechanism settings on experimental results

从表5 实验结果可知,在ISIC2018 数据集上,使用MhGPCSA 编码器替换基线网络最后两个层级的卷积,Dice 和IoU 分别提升了1.16%和1.27%,HD95 减小了0.77,准确率和召回率分别提升了9.76%和1.14%,表明使用GPCSA 机制来学习图像语义信息的长期依赖关系,可有效提高网络捕获图像目标结构的能力,减少过分割;向基线网络中引入PosCA 机制,Dice 和IoU 分别提升了0.60%和0.79%,HD95 减小了0.20,准确率和召回率分别提升了8.98%和0.78%,而网络的计算复杂度和参数量增加较少,表明Pos-CA 机制可有效地保留图像中的位置信息;向Dice 损失中引入正则化项来训练基线网络,Dice和IoU 分别提升了1.06%和1.13%,HD95 减小了0.45,准确率提升了10.89%,而召回率略有下降,表明通过向Dice 损失中引入一个正则项,提高了网络在推理过程中对背景区域的关注度,可有效地降低过分割率。显然,本文设计的三个部件是有效的,能够有效地提高网络的分割精度。同时也可看出,与仅使用一个部件相比,三个部件进行两两组合可进一步提高网络的分割精度,且同时使用三个部件(即UH-Net),网络的分割性能最高,这证实了三个部件可以相互补充。

表5 消融实验结果Tab.5 Ablation experiment

4 结论

针对皮肤病变图像中目标区域与周围区域对比度低,且病变结构和位置变化大等问题,本文提出一种融入交叉自注意力编码的U 型混合网络,用于皮肤病变图像分割。首先,网络利用MhGPCSA 编码器对输入特征的全局上下文信息建模,弥补了卷积操作全局建模能力不足,提高网络的分割结果;其次,在跳跃连接中引入PosCA 机制来提高网络捕获目标空间结构的能力;最后通过一个新的正则化Dice 损失函数,使得网络能够在FP 与FN 之间进行权衡,减少过分割和欠分割。在ISBI2017 和ISIC2018 数据集上IoU 分别为84.42%和84.12%,且网络的参数量仅为TransUNet 参数量的0.74%,分割效率和性能优于现有网络,为辅助医生诊断提供了有效的帮助。

猜你喜欢

编码器全局图谱
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
绘一张成长图谱
落子山东,意在全局
基于FPGA的同步机轴角编码器
补肾强身片UPLC指纹图谱
基于PRBS检测的8B/IOB编码器设计
主动对接你思维的知识图谱
JESD204B接口协议中的8B10B编码器设计
新思路:牵一发动全局