APP下载

基于卷积融合和残差-注意力的脑卒中病灶分割

2023-06-08李凤莲张雪英王夙喆章洪涛

关键词:残差注意力卷积

张 岩,李凤莲,张雪英,王夙喆,章洪涛

(太原理工大学 信息与计算机学院, 太原 030024)

0 引言

脑卒中又名脑中风,是一种由各种诱发因素引起的脑动脉狭窄、闭塞或破裂而造成的急性脑血液循环障碍,分为缺血性脑卒中和出血性脑卒中[1]。在中国,脑卒中已成为继心脏病及癌症后的第三大死亡原因,每年因脑卒中而死亡的人数占全国死亡总人数的22.45%[2]。脑卒中具有发病急、致死率和致残率较高的特点,利用计算机辅助诊断技术对病变大小、位置进行检测对于患者的早期诊断具有十分重要的意义,而且大大降低了医生对病灶手工标注的工作量。磁共振成像(magnetic resonance imaging,MRI)由于具有高灵敏性、高可视化的特点,成为患者影像筛查的主要工具[3]。

近年来,随着计算机技术的发展,以卷积神经网络(convolutional neural networks,CNN)为代表的深度学习方法因其强大的特征提取能力而受到广泛研究,为医学图像处理方法带来了新的突破。Long等[4]提出的全卷积网络(fully convolutional network,FCN)通过在特征提取过程中使用下采样操作,在生成分割结果时进行插值上采样,实现了不改变图像大小的前提下对分割网络的端到端(end to end)训练。但是该方法会造成一定程度上的图像细节丢失。考虑到医疗图像具有丰富的空间信息(如复杂的纹理结构),而网络下采样过程容易丢失空间信息,基于编码-解码(encoder-decoder)的网络结构开始崭露头角。Ronneberger等[5]提出了UNet结构,它通过跳跃连接在对称的编码器和解码器之间建立不同尺度的特征融合通道,使网络可以更好地利用图像的全局和局部特征[6]。然而很多医学图像数据实际为3D的容积数据,因此Çiçek 等[7]通过将二维卷积层替换为三维卷积层构建了3D-UNet,实现了3D数据的端到端处理。由于3D卷积计算量较大,而2D卷积容易忽略层间信息,目前,将2D与3D卷积相结合的网络也受到了广泛关注。Zhou等[8]提出了一种在编码端结合2D和3D卷积的D-UNet结构,从而实现一种效率更高的分割结果。有的研究如杨振等[9]使用级联网络,将分割任务分解为感兴趣区域提取、精分割2个步骤。随着对神经网络的深入研究,注意力机制逐渐得到了广泛应用,并在一定程度上代替了级联网络。其核心是通过计算注意力图实现特征的重加权,以达到强化有效特征、抑制无效特征的目的。根据应用位置的不同,可以分为空间注意力与通道注意力。Fu等[10]将这2种注意力模块并联,提出了一种更有效的双通道注意力模块,用于自然图像的场景分割。Schlemper等[11]将注意力机制和UNet网络结合,提出了attention-UNet,实现了胰腺CT影像的病灶分割。由于卷积操作的感受野有限,Chen等[12]将基于自注意力机制的transformer模型和UNet网络结合,提出TransUNet,更好地建立了远距离依赖关系。Reza等[13]则在TransUNet的基础上提出了上下文注意力机制, 对局部的特征表示进行重校。

然而目前的分割算法还达不到符合医疗应用的要求[14]。主要存在以下问题:

1) 脑卒中MRI影像中,病灶区域和正常组织之间的边界模糊,且病灶形态多样化,造成类间差异小,类内差异大。

2) 随着网络深度增加,网络参数量增大,对计算资源要求高,同时也需要更多的数据去训练,否则容易导致过拟合,使得模型泛化能力差。

为解决病灶区域和正常组织之间的边界模糊、病灶区域小、分割难度大的问题,在UNet的基础上构建了一种优化的编解码网络模型,提出了双注意力卷积融合编码模块(dual-attention convolution fusion encoding,DCFE)和残差-注意力门混合解码模块(residual and attention gate decoding,RAGD)。

1 模型和方法

基于深度学习的医学图像分割通常有二维和三维2种网络结构。二维结构是通过将三维的图像切片后,独立送入网络进行逐片预测的。然而由于病灶区域是三维的,这种方法忽略了切片之间病灶信息的连续性,无法有效利用三维MRI影像数据的层间信息。而三维卷积神经网络可以通过三维的卷积和池化等一系列操作直接提取图像特征,但却随之引入了数倍的参数量。若数据量不足以训练其参数,极易产生过拟合。为提取更加丰富的上下文信息,在编码端的收缩路径上融合了二维和三维的卷积、池化、批正则化等一系列操作,分别提取MRI图像的每一张切片特征以及切片之间的特征,从而在获得更加丰富的层间信息的同时不引入过多参数量。引入并行的注意力机制来从位置和通道2个维度建立全局相关性,弥补卷积操作感受野有限的弊端,使得卷积融合后的特征表示能力进一步增强。此外,为了对目标特征进行强化,抑制不相关特征,提高小病灶的分割精细度,结合残差连接和注意力门的思想提出了RAGD模块,在隐式地抑制不相关区域的同时,有效地改善了解码端的梯度流动,缓解了梯度弥散和网络退化的问题,使网络更易于训练。为提高网络性能及加快模型收敛,加入了批处理归一化层(batch normalization,BN)。

图1 编解码网络结构

1.1 DCFE模块

引入D-UNet的思想,在编码端融合二维和三维网络结构,在不引入大量参数的前提下有效提取三维特征。图1中,基于双注意力的卷积融合编码模块(黄色模块)实现二维和三维特征的融合,其内部细节如图2所示。

图2 DCFE模块

(1)

式中:fs表示一系列通道压缩转换操作。

在语义分割任务中,分割目标区域由于尺度、亮度、形状等不同,常常导致类内差异大,分割精度不高。又由于卷积操作的感受野有限,不能充分提取全局的上下文信息。为解决这一问题,可以引入注意力机制来捕捉远距离依赖关系,从而提高网络的特征表示能力。D-UNet中使用的是S-E block[15]。该模块通过压缩-扩展操作,建立不同通道间的关系,得到通道注意力系数,从而对特征的不同通道进行加权,有效增强了通道维度的特征表示能力。然而,不足之处是没有考虑不同像素间的空间位置关系,而对于小病灶的精细分割来说,像素的位置间联系也十分重要,因为病灶的临近像素位置也更有可能是病灶。为此,引入dual attention network思想,构建基于双注意力的卷积融合编码模块,从通道和位置2个维度建立全局依赖关系,提高分割精度。图2中PAM(position attention module)和CAM(channel attention module)分别代表位置注意力模块和通道注意力模块。

(2)

式中:Fdatt表示双通道注意力模块。

1.1.1PAM模块

位置特征通过捕获像素间的上下文信息来得到,在医学图像分割中具有重要作用。直观上理解,病灶的邻近像素点更有可能是病灶,因此传统的特征提取网络常常由于忽略位置信息而导致错误分割。为在局部特征上建立像素间丰富的位置关系,引入如图3所示的PAM模块。

图3 PAM模块

(3)

(4)

式中:λP表示对PAM模块的重视程度,设置为1。

1.1.2CAM模块

高层次语义特征的每一个通道都可以看成特定分割结果的响应。这些响应之间相互关联,为此,引入通道注意力机制来建立不同通道特征之间的依赖关系,提高特定语义的特征表示,如图4所示。

图4 CAM模块

(5)

(6)

式中:λC代表通道注意力机制在注意力模块中的权重,设置为1。

1.2 RAGD模块

在编解码网络扩展路径中设计融入了RAGD模块。He等[16]提出的残差连接,在不引入参数量的前提下有效缓解了深层网络的梯度消失和梯度爆炸的问题,使得网络性能增强且更易于训练。

注意力门通过增强与目标相关的特征区域,抑制不相关区域来提高模型的预测能力。它替代了文献[17]提出的先定位感兴趣区域,再精分割的级联网络结构,大大减少了不必要的重复训练,在不引入过多参数的同时有效提升了模型性能。同时,其结构可以方便地同各种卷积神经网络结合在一起。基于上述贡献,将2种方法进行结合,提出RAGD模块,并用于网络的扩展路径中。该模块结构如图5所示。

图5 RAGD模块

图5中,xl为注意力门的输入特征,gl为高层次特征所定义的门控信号。这2个输入特征相加后,分别经ReLU函数、线性映射、sigmoid函数生成注意力系数α[18]:

(7)

(8)

注意力门输出的特征图zl=αl⊗xl, ⊗表示矩阵相乘运算。在RAGD模块中,将注意力特征图zl与深层次特征gl的上采样输出结果进行通道拼接,所得特征r作为残差模块的输入,F(r)表示一系列的卷积操作,则最终输出为:y=ReLU(F(r)+r)。y将作为下一级RAGD模块的深层次特征输入gl+1。

2 实验结果与分析

2.1 实验环境

实验所用数据集为开源数据集anatomical tracings of lesions after stroke (ATLAS),其中包含240个缺血性脑卒中患者T1加权的MRI病例数据,全部由专业医生进行病灶标签的手工标注[19]。每个病例包含189张分辨率为233×197的MRI图像切片。随机挑选192个病例作为训练集,24个病例作为验证集,剩余24个病例作为测试集。所有数据集均采用相同的数据增强方法,包括归一化、缩放和水平翻转。每个算法取5次随机实验的平均值。使用Dice系数、recall(召回率)和precision(准确率)来评价模型的表现。并选取了UNet、3D-UNet、attention-UNet、D-UNet等方法进行对比。

实验使用Python3.7、Tensorflow-GPU2.4框架,显卡为RTX3080(10 GB)。为提高网络性能及加快模型收敛,加入了批处理归一化层。为防止过拟合,加入了DropOut层。为解决脑卒中病灶与正常组织区域大小的不平衡问题,使用Dice loss损失函数,训练时设置Batch_size为16,学习率为0.001,并使用Adam优化器进行参数优化。

2.2 数据集预处理

数据预处理包含归一化、数据增强以及生成hierarchical data format(HDF5)格式3部分。归一化通过一系列变换将待处理的原始图像转换成相应的标准形式,使其对平移、旋转、缩放等仿射变换具有不变特性。数据增强可以丰富训练数据的分布、提高模型的泛化性能和鲁棒性、防止过拟合。由于在训练过程中,通常会使用大量的图片,而将这些图片放入一个文件中再处理的效率会高于对每张图片分别处理。HDF5文件可以实现这一目的。ATLAS数据集中图片分辨率为233×197,为方便训练,将其大小重塑为192×192,并将4张切片堆叠在一起作为网络编码端输入。训练集、验证集和测试集按照8∶1∶1的比例分别保存为HDF5文件。

2.3 评价指标

使用准确率(precision)、召回率(recall)和Dice系数(Dice similarity coefficient,DSC)这3个国际通用的语义分割评价指标来衡量算法的表现。表达式如式(9)—(11)所示:

(9)

(10)

(11)

式中:TP代表真阳性,TN代表真阴性,FP代表假阳性,FN代表假阴性。由公式可以看出,Dice系数是召回率和准确率的综合反映,而召回率相较于准确率更多关注了假阴性样本。由于在脑卒中病灶预测中阳性漏检的后果是更严重的,因此召回率比准确率更加重要。

2.4 实验结果

2.4.1DCFE模块的消融实验

为验证DCFE模块的有效性,与不使用二维和三维卷积融合的基础编解码UNet网络结构以及使用卷积融合加S-E block的D-UNet进行比较。为进一步探究编码端DCFE模块的最佳位置,在图1所示的位置2、位置3处分别嵌入DCFE模块进行维度融合,相应的三维卷积最大池化层数分别为2层和3层。

由图6分析可知,使用二维和三维卷积融合的D-UNet在各项指标上优于UNet网络。而在编码端位置2处使用改进的DCFE模块的网络结构则进一步相较于D-UNet在DSC及recall上分别提高了7.2%和3.5%,pecision下降了2.8%。由于DSC反应了分割的综合性能,而recall在脑卒中分割中比precision更重要,因此提出的DCFE模块在整体指标上更优,且三维卷积最大池化层数为2时最佳。这是因为引入了并联结构的双注意力机制,从位置和通道2个维度捕获全局特征,增强了编码端特征的表示能力。此外可以看出,随着三维卷积最大池化层数增加,参数量上升明显,但性能却随之下降,原因是网络训练过程中出现过拟合。因此将DCFE模块应用到位置3并未达到预期效果,后文的实验均在DCFE块位于位置2的情况下开展。值得注意的是,位置1并未添加DCFE模块进行实验,而是直接使用S-E block对卷积融合后的特征进行通道增强。原因是位置1处图片分辨率较大,而双通道注意力机制中的位置注意力模块在建立位置间的全局相关性时对显存资源需求较大,因此未进行实验,理论上来说,在显存资源支持的前提下,于位置1处应用DCFE模块也会在一定程度上提升模型性能。

图6 DCFE模块不同位置嵌入实验性能对比

2.4.2RAGD模块的有效性实验

图7展示了RAGD模块在测试集上的表现。以D-UNet在测试集上的表现为基准,可以发现在解码端融合RAGD模块后,DSC和recall均有明显提升,而以precision下降5.0%为代价,整体性能提升明显。

图7 解码端残差连接和全局残差连接实验性能对比

分析可知,跳跃连接处的注意力门增强了目标相关区域的特征,而残差连接改善了解码部分的梯度流动,缓解了梯度弥散和网络退化问题,使深层的网络更容易训练。经实验验证,使用全局的残差连接比只在解码端使用残差连接DSC提高了3.5%,为此,可将残差连接扩展至全局以获得更高的DSC指标。此外,RAGD模块的加入与单独使用attention gate的AG-DUNet相比,DSC提升了3.1%,也证明了所提出RAGD模块的有效性。

3.4.3本文方法与其他方法的结果分析

将上述2种模块分别融合到UNet网络中,并与UNet、3D-UNet、D-UNet等网络在ATLAS数据集上进行对比,其中2D-UNet、3D-UNet、D-UNet的性能引用自文献[8]。图8展示了本文方法与不同方法的对比结果,图9讨论了部分方法的参数量对比。由图可知,本文方法在DSC、recall和precision指标上分别达到0.62、0.69和0.57,优于对比方法的同时参数量不足3D-UNet的一半。

图8 ATLAS数据集上不同方法分割结果对比

图9 各方法参数量对比

此外,基于ATLAS数据集,回海生等[6]提出一种基于主辅路径的注意力补偿网络结构PAPAC-Net。Yang等[20]提出一种基于上下文推理及跨层融合的 CLCI-Net方法。Qi等[21]提出一种基于可分离卷积和特征相似性模块的X-Net方法。也与这3种方法进行了对比。考虑到对数据的前期处理,训练集、验证集、测试集的划分以及损失函数的不同,尽管所提出方法达到了更高的DSC值,只能说明该方法达到了同样研究中的较高水平。

图10为不同方法的分割结果图。第一列为脑卒中ATLAS数据集的原始MRI图像切片,第二列为医师标注图像。第三列至第七列分别为2D-UNet、D-UNet、attention-UNet、本文方法以及UNet结合RAGD的方法。由图可见,病灶区域在切片中占比很小,存在着严重的不平衡现象,且形状不规则。对于同一病灶,不同方法常常存在欠分割或过分割的情况。对比可知,本文方法在分割的细腻度上优于对比方法。DSC值可以达到0.62,并且具有最高的召回率,临床实际中阳性漏检的可能性更低。

图10 各方法分割结果图

3 结论

针对当前脑卒中MRI影像中病灶区域和正常组织之间边界模糊、病灶区域小、分割难度大的问题,提出一种优化的编解码网络结构。在编码端,结合二维、三维卷积融合以及双注意力机制,提出DCFE模块,分别建立空间和通道2个维度的全局依赖性。在解码端提出残差-注意力模块,改进UNet网络跳跃连接处高层次特征和低层次特征的融合效率,强化对目标特征的关注。实验结果表明,所提出的编解码网络模型比已有模型有更好的性能,且对比同一数据集的其他方法如PAPAC-Net,X-Net等,DSC值明显提高。未来的研究将针对数据的非平衡特点,采用深度学习的方法进行少数类样本生成,降低数据的不平衡性。

猜你喜欢

残差注意力卷积
基于双向GRU与残差拟合的车辆跟驰建模
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
平稳自相关过程的残差累积和控制图