APP下载

基于多感受野与分组混合注意力机制的肺结节分割研究

2022-05-31徐巧枝

关键词:分组注意力卷积

张 萍, 徐巧枝

(内蒙古师范大学计算机科学技术学院, 内蒙古呼和浩特 010022)

肺癌是人类健康和生命威胁最大的恶性疾病之一[1],尽早检测可以极大提高患者生存率[2]。电子计算机断层扫描CT(computed tomography)技术是目前检测肺癌的常用手段之一,对CT图像中的肺结节进行准确分割是肺癌诊断的重要步骤。利用计算机技术,对CT图像中的肺结节进行自动分割,可以快速获取有效信息,减少误诊和漏诊的发生[3]。

近年来,随着深度学习技术的发展,各种基于深度学习的肺结节分割模型被提出,并取得良好效果,例如:Wang等[4]提出中心聚焦卷积神经网络,该网络将分割区域周围的体积块作为输入并最终返回结节分割结果;Ajay等[5]提出一种基于深度学习的全卷积编码器-解码器网络(SegNet),用于从胸片中分割肺域,特别适合肺野分割;Liu等[6]提出物体检测网络Mask R-CNN用于提供结节轮廓信息;Singadkar等[7]提出一种深度反卷积残差网络的肺结节分割方法,捕获了准确的分辨率特征。肺结节分割的准确率对于后续诊断具有极其重要的意义,但是肺结节在肺部所占比例很小、形态不规则、与一些邻近组织和器官在视觉上非常相似,给分割任务带来困难,尤其当肺结节较小时,检测及精确分割的难度更大。

本文提出一种基于多感受野与分组混合注意力机制的肺结节分割模型MRF-GMA(multi receptive field and grouping mixing attention)。该模型首先利用多感受野特征结构获取多层次的信息,并提升不同尺度特征的表达,然后基于分组混合注意力机制将通道注意力和空间注意力组合,对输入特征分组计算注意力,最终对特征图进行“重组”,进而有效提高特征结构信息的表达,使得生成的结构信息更清晰。

1 相关工作

深度学习技术可以提取肺结节的深层特征,进而对结节进行自动分割。Wang等[8]提出一种用于肺结节分割的多视角卷积神经网络(convolution neural networks, CNN),以给定结节周围的轴状面、冠状面和矢状面视图作为输入分割结节。但是给定结节周围提取补充信息的方法是固定的,如果结节补充信息太大,会导致分割效果不理想。张花齐等[9]提出一种基于卷积神经网络和改进随机游走的算法,实现了较好的肺结节识别和分割效果。Huang等[10]首先利用CNN检测候选结节,然后再使用全连接网络(fully convolutional networks,FCN)对结节区域进行分割。但这些模型的特征提取部分仅在最后取样期间组合,会导致网络缺乏识别小目标的能力。Ronneberger等[11]提出的U-Net可有效结合低分辨率和高分辨率信息,在医学图像分割方面取得了更好的效果。

U-Net需要很强的泛化能力,而不同肺结节的差异较大,导致U-Net对小结节的识别能力和分割边缘的准确性不很理想。注意力机制提高了网络的小目标检测能力。Hu等[12]提出的注意力网络SE(squeeze-and-excitation networks),利用全局池化操作计算通道注意力,以较低的计算成本提高了小目标识别和分割的性能。然而,SE只考虑了通道间信息的编码,忽略了位置信息的重要性,而位置信息在视觉任务中对捕获物体结构至关重要,所以利用位置信息的空间注意力机制被陆续提出。例如:CBAM[13]利用位置信息来计算空间注意力;郝晓宇等[14]将空间和通道注意力共同用于U-Net网络的最底层,得到较好的分割效果;王磐等[15]将空间和通道注意力并行用于主干网络的末端,增加了特征图的全局相关性。

上述模型在肺结节分割方面,虽然取得较好的效果,但是在使用卷积操作提取特征时,都使用了常规卷积,导致其只能获取局部特征,不能捕获不同层次特征之间存在的语义差距,对肺结节结构信息不够敏感。这些问题导致它们对肺部细小结节的检测和定位能力仍不理想,甚至存在检测不到的现象,而且对于细小结节边缘的分割也不准确,会影响后续结节的分类及医生诊断。

为了解决以上问题,本文提出一种基于分组混合注意力,具有多感受野特征结构的肺结节分割网络MRF-GMA来解决小结节的精确定位、准确分割问题。该网络的主要特点包括:

1)基于多感受野的特征聚合模块,可以提取更丰富的语义信息,有效集成多尺度的上下文特征,改善网络对小结节特征信息学习不足的问题。

2)基于分组混合注意力机制,不仅可以使通道之间的信息进行交互,还可以捕获跨通道和位置的信息,有助于网络更准确地定位和识别感兴趣的目标。

3)混合损失函数结合了2个损失函数的特点,提升了优化效果和分割性能。

2 网络模型

2.1 概述

本文提出的基于多感受野与分组混合注意力机制的肺结节分割网络MRF-GMA如图1所示。

图1 MRF-GMA的网络结构Fig. 1 Network structure diagram of MRF-GMA

MRF-GMA采用经典的编码器-解码器结构,具有对称的特点。输入图像的通道数初始为1,随着下采样卷积操作,网络深度不断增加,特征图分辨率逐渐降低,通道数也逐层加倍。编码器的每一块由一个卷积块和一个多感受野特征聚合模块构成。为了降维,采用2×2的最大池化进行下采样,其中,每个卷积块包括一个3×3卷积,之后分别是DropBlock、批处理归一化(BN)层和非线性激活单元(ReLU)。多感受野特征聚合模块有助于提高不同尺寸结节的识别能力。

解码器层数与编码器一致,目的是恢复特征图的分辨率。为了将底层特征逐层扩展到与编码器相应级别特征相同的分辨率,解码器采用反卷积操作进行上采样,上采样将特征通道数从最底层的512层逐层减少到原始32层。此外,采用跳跃连接将编码器层的特征传送到相应解码器层。本模型先在跳跃连接上加入分组混合注意力模块,以提取重要语义特征,进而抑制背景区域;然后,将得到的特征与上采样特征叠加,并使用多感受野特征聚合模块对其进行融合;最后,通过一个1×1卷积和Sigmoid函数得到最终分割结果。

2.2 多感受野特征聚合模块

肺结节在CT图像中所占比例小、分辨率较低,导致结节分割精度不高,而多感受野特征和上下文信息在语义分割中起着至关重要的作用。本文受文献[16]中SK Net (selective kernel networks)启发,设计了多感受野特征聚合MRF(multi receptive filed feature fusion)模块,如图2所示。该模块可以利用多分支卷积核的自适应选择机制,实现自适应特征提取。MRF模块将输入特征映射通过不同感受野的卷积核进行融合,使得获取的信息更加丰富。

图2 多感受野特征聚合模块Fig. 2 Multi receptive field feature aggregation module

给定输入特征F∈RH1×W1×C1,MRF模块首先通过一个双分支结构分别进行2个转换FC3:F→F1∈RH2×W2×C2和FC5:F→F2∈RH2×W2×C2,得到2个特征F1和F2,如式(1)、(2)所示,其中FC3和FC5由卷积(Conv)、批量归一化(BN)和激活函数(ReLU)组成,卷积分别为3×3和5×5的2个不同大小的卷积核。为了控制来自多个分支的信息流,需要集成所有分支信息获得更丰富的特征。将2个分支的结果通过元素相加操作进行融合,然后把融合特征和2个分支结果采用通道叠加的方式得到聚合特征A1。特征A1融合了不同感受野的特征信息,具有深层次的信息,如式(3)所示。

F1=FC3(F)=ReLU{w1(F)} ,

(1)

F2=FC5(F)=ReLU{w2(F)} ,

(2)

A1=Concat[F1,F2,(F1+F2)]。

(3)

式中:Concat表示特征通道叠加操作;+表示元素求和操作;w1和w2分别为3×3和5×5的卷积参数;ReLU为激活函数。

对得到的融合特征A1进行3×3的卷积操作,送入SoftMax激活函数减少通道数,得到激活特征A2。由图2可知,特征A1不仅包含F1、F2的信息,还包含了F1和F2的聚合信息。然后,对A1进行卷积操作得到A2,进一步减少通道数。

获得特征A2后,将其分别与特征F1和特征F2相乘,再将2个特征进行元素求和操作得到A3,如式(4)所示。A3具有以下特点:

1)具有基础特征(F1、F2)和融合特征(A2)的表达能力;

2)加强了融合特征的聚合能力,可使基础特征得到更好的传递。

最后,通过卷积操作调整通道数,得到特征F′,如式(5)所示。

A3=A2⊙F1+A2⊙F2,

(4)

F′=w3(A3) 。

(5)

式中⊙为对应元素相乘,w3表示对A3的卷积操作。

综上所述,多感受野特征聚合模块MRF具有如下功能:

1)可捕获特征之间不同的依赖关系,包含不同级别的粒度、尺寸等,从而可获得足够的上下文信息。

2)通过使用增加的内核尺寸并行处理输入特征,捕获更多不同细节。

2.3 分组混合注意力

本文提出的分组混合注意力GMA(group mixing attention)模块包含3部分:特征分组(group)、混合注意力(mixing attention)和特征聚合(aggregation),如图3所示。首先,采用通道分割方式,将输入特征映射沿通道方向平均分成多个子特征以学习不同的语义特征。接着,并行处理各分组的子特征,并将通道注意力和空间注意力整合到每组的混合注意力模块中。其中:通道注意力分支使用全局池化生成通道统计信息后再使用全连接操作对通道向量进行缩放。对于空间注意力分支,采用组归一化得到空间统计信息后再生成与通道分支相似的特征。最后,将这2个分支连接起来,对所有子特性进行聚合,并利用“channel shuffle”实现子特性之间的信息流动,以提高性能。

图3 分组混合注意力Fig. 3 Grouped mixed attention

2.3.1 特征分组

2.3.2 混合注意力

(6)

(7)

此外,压缩操作Ffc可以更好地拟合通道间的复杂相关性,并减少参数量和计算量。

(8)

(9)

2.3.3 特征聚合

本文采用“channel shuffle”运算,聚合不同子特征之间的信息,使每个组的信息沿通道维度进行交互,最终输出与输入特征X相同尺寸的特征。

2.4 损失函数

分割模型的性能优劣不仅取决于网络结构,还取决于损失函数的选择,特别是在高度类不平衡的情况下。在CT图像中,结节和非结节区域的分布特点,使肺结节区域分割任务存在类不平衡的问题,在普通图像分割任务中广泛使用的损失函数并不完全适用于CT图像中的肺结节分割,还会导致分割性能不理想。GDL(generalized dice loss)可以自适应加权类来解决类不平衡问题,相比Dice Loss更适合对小目标的预测。计算公式如式(10)所示,其中:ε是正则化常数;C为类别数;gij表示类别j在第i个位置的真实像素类别;pij表示相应的预测概率值;Wj表示每个类别的权重,如式(11)所示。

(10)

(11)

受混合损失函数策略启发[18],本文还使用交叉熵损失函数(cross-entropy loss, CE)来加快网络收敛速度,如式(12)所示。

(12)

基于以上2种损失函数,本文设计了混合损失函数,如式(13)所示,其中,λ为权重因子,用于调节2种损失函数的权重。

L=LGDL(G,P)+λLCE(G,P)。

(13)

3 实验及结果分析

本实验使用的实验平台:Intel(R) Core(TM) i7-3770 CPU @ 3.40 GHz处理器,内存为16 GiB,并搭建了Keras深度学习库(以Tensorflow 2.1.0作为后端)和Python语言实验环境,训练过程依靠NVIDIA TESLA T4 16 GiB GDDR6 GPU进行加速。

3.1 数据集及预处理

本实验所使用的CT图像数据集来自内蒙古自治区人民医院,该数据集共包含5 200张肺部CT图像,数据标签均由专业医生手工勾画,用作算法评估的金标准。其中每例病人选取包含结节区域的连续切片,该连续切片前、后的无结节切片也被提取用作负样本训练网络性能。每例数据均包含一个病灶区域,整个数据集按照8∶1∶1分为训练集、验证集和测试集。

小尺寸肺结节在原始肺部CT图像中所占比例很小,导致正负样本不平衡。此外,CT图像边界具有大范围的无用区域(黑色区域),不仅影响模型收敛效果,还占用大量显存。因此,对图像进行了预处理, 图4所示。首先,将普通CT图像的DICOM格式转换为PNG格式;其次,从原始CT图像(512×512像素)中心裁剪大小为256×256像素的图片,保留肺部区域,以减少其他区域对实验结果的干扰;最后,将裁剪后的每个图像作为CT切片输入网络。

图4 预处理过程Fig. 4 Pretreatment process

3.2 训练及参数设置

将预处理后的CT图像直接输入网络,并将相应的标签图像用作金标准。在训练阶段,使用5倍交叉验证的方法评估网络性能,使用Adam作为网络优化器,设置Training epoch为200,初始学习率为0.000 01,batch size为32。为了防止过拟合,保存参数模型的最优结果,设置Early stopping为100。

为了获取最优的权重因子λ,本文通过实验分析λ的取值,结果如图5所示。从图5中可知,λ的取值决定了网络性能。在Dice相似性系数(DSC)评分中,λ设为1.25时,模型准确度最好,且λ=1.25和λ=1.5的效果相当。因此,本文将λ设为1.25时,模型整体性能达到最优。

图5 不同权重因子λ的比较Fig. 5 Comparison of different weighting factors λ

本模型训练集的损失函数变化曲线如图 6所示,结果表明,网络的损失函数随着训练迭代次数的增加不断降低,训练的早期阶段(迭代次数大约为20),损失函数快速收敛,随后趋于稳定。

图6 训练过程中损失函数曲线Fig. 6 Loss function curve during training

3.3 实验结果

3.3.1 评价指标

实验使用Dice相似性系数(DSC)、召回率(recall)和准确率(accuracy)对网络性能进行评估,指标值越大,表明分割结果与真实结果之间的重叠区域越大,相似度越高,分割精度也越高。

在医学图像分割领域,DSC系数是评价分割模型性能最常用的指标,其主要用于计算2个样本的相似程度,如式(14)所示。

(14)

式中:X表示模型预测结果,Y表示真实标注结果。DSC系数的最大值为1,表示分割结果最好,最小值为0,对应最低分割精度。

图像分割也可看作是一个像素分类任务,所以也可使用分类任务常用指标来评价网络模型的分割性能。准确率ηA体现了正确结果的预测比例,如式(15)所示;召回率ηR表示正确预测结果占实际正例的比率,如式(16)所示。

(15)

(16)

式中:NTP表示真阳性样本数,意味着网络的预测输出区域就是由医生手动标记的目标区域;NFN代表假阴性样本数,意味着网络的预测结果是背景,但实际上是肺结节区域;NTN表示假阴性样本数,表示网络没有将正确的肺结节区域分割出来;NFP代表假阳性样本数,表示网络将区域错误地分割为肺结节。

3.3.2 损失函数对比分析

为了评估混合损失函数的效果,本实验分别在所提网络模型中使用广义骰子损失函数(LGDL)、交叉熵损失函数(LCE)和混合损失函数(LGDL+LCE),结果如表1所示。

表1 不同损失函数对比分析结果Tab. 1 Different loss function results %

从表1中可以观察到混合损失函数的DSC和准确率达到了最优的分割结果,原因是针对小目标区域分割任务,仅使用一种损失函数会受到大面积背景区域的影响,导致训练困难、优化效果不好。对比DSC指标,LGDL损失和混合损失评分相似。对比召回率评分结果,发现LGDL损失获得了更高的性能,原因可能是背景像素和目标像素存在极大的类不平衡问题。总体来讲,混合损失函数结合了2个损失函数的特点,能够提升对网络的整体分割效果,缓解类不平衡的问题。

3.3.3 对比实验

为了验证提出的分组混合注意力和多感受野特征聚合模块的分割效果,将本文提出的网络分别与5个不同网络进行比较,分别是基线模型U-Net网络,加入注意力的U-Net+SE、U-Net+CBAM和U-Net+GMA,还有U-Net+MRF,结果如表2所示。

表2 不同网络方法的分割效果对比实验Tab. 2 Comparison of experimental results %

由表2可知,U-Net模型在肺结节分割方面具有较好的性能。但是,由于肺结节分辨率较小,会出现性能下降的问题,加入注意力模块可显著提高分割性能。本文方法在3个指标中均表现最佳,较基线U-Net网络在各指标分别提升了8.45、7.73和2.67个百分点。

随机选择3个预测可视化结果,将以上6种方法与金标准进行比较,结果如图7所示。从图7中第1、2行可以看出,本文方法对结节边缘的分割更精确。从第3行可以看出,加入注意力机制有助于提高小结节的检测能力,而仅加入多感受野特征聚合模块也可以检测到小结节区域,说明该聚合模块也可以捕捉到小目标区域。总体来讲,本文方法相比其他几种网络在目标边缘细节处理上更好。

图7 对比实验可视化结果Fig. 7 Contrast experimental visualization results

3.3.4 不同模型性能对比

实验基于本文的数据集,将提出的模型与FCN、SegNet、R2U-Net和Attention U-Net等4个分割模型进行对比,根据3.2节的参数分别训练网络,并将训练好的模型进行测试,结果如表3所示。由表3可见,本文方法MRF-GMA模型在DSC、召回率和准确率等方面均表现最优,相比Attention U-Net模型,分别提高了2.25、1.19和2.98个百分点。

表3 不同模型性能的对比结果Tab. 3 Performance comparison of different models %

实验用于比较的5种模型在编码器和解码器结构上基本相同,不同的是U-Net及其变体在解码器上采用级联运算,而其他网络采用加法运算。加法操作会导致数据维度下降和信息丢失,R2U-Net的编码器和解码器嵌入了多个递归残差卷积,具有更多网络参数,导致R2U-Net在处理本文的数据集时容易出现过拟合。Attention U-Net的目的是充分利用各个层次的特征信息,通过空间注意力对特征进行过滤。但是,这些结构仅使用固定卷积核,导致特征的重要信息被忽略。本文方法不仅使用分组混合注意力使通道信息进行交互,还使用多感受野特征聚合模块获取更丰富的语义特征,从而建立结节的细节和边界之间的关系,达到了提高分割效果的目的。

模型分割可视化结果如图8所示。通过比较发现,R2U-Net方法处理结节的能力稍弱,可能是其参数太多导致过拟合造成过分割或分割不足,FCN-32s和SegNet分割结果出现噪声,Attention U-Net包含注意力结构,分割结果较好。而本文方法可以准确地保留结节的完整结构和边界细节,相较Attention U-Net,在非孤立性结节(第4行,结节与胸膜连接,边界较难分割)上也可以准确区分结节和背景区域。其可能的原因是,分组混合注意力模块聚合了更多像素级信息,可以捕获真实结节区域和周围结构之间的细微对比度差异,从而得到更准确的分割结果。

图8 不同模型可视化分割结果Fig. 8 Visualize segmentation results of different models

4 结论

肺结节分割在肺癌的临床诊断中具有重要意义,但也充满挑战性。肺结节体积小、边缘复杂,背景区域所带来的样本不平衡等问题,都增加了结节检测和精确分割的难度。本文设计并提出一个多感受野与分组混合注意力机制的肺结节分割网络,相比现有工作,该网络共有3个方面的特点和创新:

1)基于多感受野的特征聚合模块,可融合具有不同核大小的多个分支来分割不同尺度的结节区域,获得更多的判别特征;

2)基于分组的混合注意力模块,可使网络能够准确地聚焦于目标区域,分组进行特征提取、聚合,使得不同通道特征之间可以进行信息交互;

3)混合损失函数的使用,有效解决了数据类不平衡的问题,提高了分割性能。

实验结果表明,本文方法可以更好地学习肺结节特征,捕获微小结节及边缘细节特征,在3个评估指标(IDSC=77.37%,ηA=80.98%,ηR=78.81%)上都表现出优越的性能。虽然实验结果较好,但准确率离临床应用还有一定差距,今后将继续研究更简单有效的网络框架。

猜你喜欢

分组注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
从滤波器理解卷积
分组搭配
怎么分组
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
分组
A Beautiful Way Of Looking At Things