基于多编码器的脑肿瘤分割算法研究
2024-06-03萧飞鹏宋亚男徐荣华罗兆林
萧飞鹏,宋亚男,徐荣华,罗兆林
(广东工业大学,广东 广州 510006)
0 引言
脑胶质瘤是一种常见的原发性脑肿瘤,对患者的生活质量和健康造成了巨大影响。准确而快速地对脑肿瘤进行定位和分割对于诊断、治疗和预后评估至关重要。传统的临床诊断需要依赖医生的专业知识手工分割肿瘤区域,这个过程不仅耗时而且容易出错[1]。因此,需要开发一种可靠的脑肿瘤自动分割方法辅助临床诊断治疗,减少人为标注的失误和差异,提升诊断的一致性、准确性和高效性。
由于磁共振成像(Magnetic Resonance Imaging, MRI)能够提供高分辨率的软组织解剖结构,因此主要将其用于脑肿瘤疾病的诊断和治疗。为了获得准确、全面的生物信息和组织特征,脑肿瘤分割通常需要具有不同成像参数的多模态MRI图像,其中T1加权成像(T1-Weighted Imaging,T1)、T1对比度增强成像(T1-Contrast-Enhanced Imaging,T1CE)、T2加权成像(T2-Weighted Imaging,T2)和流体衰减反转恢复(Fluid-Attenuated Inversion Recovery,Flair)在脑肿瘤诊断中被广泛使用。
随着人工智能及深度学习的迅速发展,基于卷积神经网络(Convolutional Neural Networks, CNN)的图像分割算法开始流行。2015年,Ronneberger等[2]提出的U-Net架构可以充分利用低层特征与高层语义信息,被广泛应用于医学图像分割任务,取得显著的成功。注意力机制借鉴了人类的注意力思维方式,取得了显著的成果。2018年,Oktay等[3]提出的Attention U-Net在2个大型腹部计算机体层摄影(Computed Tomography,CT)数据集进行实验,取得了比U-Net更高的灵敏度和精度。Transformer在自然语言任务中取得巨大的成功,因此也在图像分类、分割等任务中被广泛使用。2021年,Chen等[4]提出了TransUNet,利用Transformer结构实现全局特征的感知。由于普通卷积拥有固定尺度的感受野,因此上述的方法在医学图像分割中还存在小病灶漏识别、病灶边界分割不精准等问题。
脑肿瘤的诊断和分析通常需要结合不同的MRI模态来进行,因为不同模态的成像反映了人体不同的生物信息和组织特征,在脑肿瘤分割任务中融合多模态图像特征能够提高分割性能。因此,本文在网络结构上提出了一种基于多编码器的U形结构,使用Transformer、空洞卷积提取全局特征、多尺度特征;使用基于通道注意力的融合模块,对不同模态特征进行融合,提高分割精度。
1 本文方法
1.1 网络整体结构
文章提出的网络整体结构如图1所示。
图1 网络整体结构
模型的输入为T1、T1CE、T2和Flair这4个模态的数据,图1特征图尺寸的高度、宽度、深度、通道数分别表示为(H,W,D,C)。由于T1与T1CE、T2与Flair具有相似的特征,因此T1与T1CE、T2与Flair分别对应一个独立的编码器,用于提取不同的模态特征。编码器的卷积操作由多扩张卷积模块(Muti Dilated Convolution Block,MDCB)完成,该模块使用不同膨胀率的空洞卷积提取多尺度特征,使得模型更好地适应不同尺寸的目标;使用残差连接,提高模型的稳定性,使网络更易训练。在编码器的最后一层对4个模态的特征进行拼接后,使用Transformer模块对全局特征编码。在解码器部分,通过多模态特征融合模块(Multimodal Feature Fusion Block,MFFB)融合4个模态的特征,再进行上采样操作,恢复特征图的尺寸,完成分割。
1.2 MDCB
由于传统的卷积操作只能捕捉局部特征,而空洞卷积通过调整卷积核的空洞因子[5],可以增大感受野,从而更好地捕捉到更广阔的上下文信息,提取更全局的特征。因此,在该模块中,使用空洞因子L=1和L=2的空洞卷积提取多尺度的特征,使用残差连接缓解梯度消失和梯度爆炸,使网络更容易训练,提高模型的鲁棒性和性能。MDCB逻辑结构如图2所示。
图2 MDCB逻辑结构
1.3 Transformer模块
Transformer[6]模块是一种基于自注意力机制的神经网络模块,最初用于自然语言处理任务。其创新之处在于完全抛弃了传统的卷积和循环神经网络结构,引入了自注意力机制。Transformer模块由多个注意力头组成,每个注意力头都可以学习不同的注意力模式。在每个注意力头中,输入序列中的每个元素都与其他元素进行交互,通过计算注意力权重来捕捉元素之间的重要关系。通过加权平均的方式,将所有元素的信息进行融合,得到最终的输出。自注意力机制使得每个元素都能够考虑输入序列中所有其他元素的信息,从而更好地捕捉全局信息和长距离依赖关系。Transformer模块结构如图3所示。
图3 Transformer模块逻辑结构
1.4 MFFB
为了结合每个模态独有的特点,使模型能够学习到模态特有信息,本文使用基于通道注意力的MFFB,该模块逻辑结构如图4所示。首先对各个模态的特征进行拼接作为该模块的输入;其次引入经典通道注意力模块SE[7];最后加上卷积模块,用于加强全局特征的感知能力。
图4 MFFB逻辑结构
首先,通道注意力模块对输入的特征图在空间维度上进行平均池化,得到每个特征通道的全局平均值;其次,将全局平均值输入一个全连接层,用于学习每个特征通道的权重;再次,通过sigmoid激活函数,将学习得到的权重映射为(0,1)之间的权重值,表示每个特征通道的重要性;最后,将映射后的权重值应用到原始特征通道上,得到加权的特征表示。通道注意力机制使得网络可以自动学习每个模态每个特征通道的权重,从而增强特征的判别性和区分能力,提高网络的表征能力和泛化能力。
2 实验结果及讨论
2.1 实验数据及预处理
本文使用脑肿瘤分割挑战赛BraTS2018提供的数据作为实验数据[8],数据集包含MRI序列的4种模态组成,分别是T1、T1CE、T2和Flair,还包括一个由专业医生手工分割的真值标签序列。其中,T1模态反映组织的解剖结构;T1CE模态显示造影剂的病理性吸收;T2和Flair模态突出了组织水松弛特性。对某个病人脑部MRI序列的某一个切面的可视化图片如图5所示。
图5 MRI切片可视化
数据集共有285份数据,包含低级别胶质瘤75份,高级别胶质瘤210份,按照6∶2∶2的比例划分为训练集、验证集和测试集。在训练过程中,本文将原始大小为240×240×155的数据压缩成96×96×128,进行了归一化处理,分割任务是划分出增强肿瘤区域ET、肿瘤核心区域TC和全部的肿瘤区域WT。
2.2 实验环境
实验环境为Ubuntu 20.04.1操作系统,PyTorch2.0.1,使用NVIDIA 3090 GPU,批大小为2,训练400轮,训练的优化器选择Adam,学习率设置为0.0005,训练的损失函数选择Dice损失。
2.3 评价指标
本文使用医学图像分割领域中广泛使用的评价指标Dice系数(Dice Similarity Coefficient, DSC)和Hausdorff距离 (Hausdorff Distance, HD)来比较和评估分割结果[9]。DSC反映真实值与预测值的重叠程度,取值范围是[0, 1],值越接近1分割性能越好。DSC的计算式为:
(1)
其中,P∩T表示预测值P和真值T的交集,|P|+|T|表示预测值P和真值T的元素总和。
Hausdorff距离用于度量2个点集中最远点之间的距离,可以使用Hausdorff距离来评估预测分割结果与真实分割结果之间的差异,从而衡量分割算法的准确性和稳定性。较小的Hausdorff距离表示预测结果与真实结果之间的一致性较高,而较大的Hausdorff距离则表示预测结果与真实结果之间的差异较大。Hausdorff距离计算式为:
HD=Max(h(P,T),h(T,P))
(2)
其中,P和T分别表示预测轮廓和真实轮廓,h(P,T)和h(T,P)分别表示从P到T的单向Hausdorff距离和从T到P的单向Hausdorff距离。
2.4 实验结果与分析
为了验证本文算法的有效性,将本文算法与3D U-Net[10]、V-Net[11]、UNETR[12]、UNET++[13]进行性能对比。表1为所有方法的对比结果。从表中可以看出,本文方法在肿瘤的WT、TC、ET 3个区域的分割中,DSC的得分分别为89.07%、78.51%、74.87%,HD的得分分别为4.35 mm、4.04 mm、3.79 mm。与本文选择的基线模型3D U-Net相比,本文方法的DSC评分分别提升了0.25%、0.39%、1.13%,HD评分分别下降了0.31 mm、2.47 mm、0.43 mm。与其他对比的算法相比,本文方法取得了最佳的分割性能指标。
表1 不同方法分割结果对比
为了直观地比较各个方法的分割结果,本文展示了各种方法的分割效果对比结果,如图6所示。
图6 不同方法分割结果对比
2.5 消融实验
为了验证本文算法各个模块的有效性,本文进行了各模块的消融实验,消融实验中各模型也以相同的数据和参数训练得到。实验结果如表2所示。
表2 各模块消融实验结果
从实验结果可以看出,网络结构中仅使用多编码器架构,比3D U-Net效果要好,表明本文设计的基础架构是有效的;在多编码器架构加入Transformer模块和MFFB,综合DSC得分和HD指标进行评价,性能均有所提高,进一步表明了本文设计的各个模块的有效性。
3 结语
本文提出基于多模态特征融合的脑胶质瘤分割网络。首先,网络结构上采用2个编码器分别提取T1与T1CE、T2与Flair的特征,可以有效利用模态差异性。其次,使用空洞卷积提取多尺度特征,卷积操作中采用残差连接,使网络更容易训练,提高模型的稳定性。再次,在网络瓶颈层使用Transformer模块对全局特征进行充分感知。最后,在跳跃连接中使用基于通道注意力的MFFB对多模态特征进行融合。基于公开数据集BraTS 2018的实验结果表明:与多个现有的方法相比,本文方法表现出更好的分割性能,但是多编码器架构使算法的参数量更大,下一步将探索模型的轻量化,实现分割精度和算法复杂度之间的有效平衡。