基于改进U-Net模型和CBAM的脑肿瘤MRI图像分割

2022-10-24张晓倩金芊芊

现代计算机 2022年16期

张晓倩，罗建，杨梅，金芊芊，朱熹

（西华师范大学电子信息工程学院，南充 637009）

0 引言

社会在进步，计算机技术也在发展，现已经能为大脑研究提供更丰富的脑组织图像和有效信息。磁共振成像MRI也成为肿瘤分割的一个常用手段。它具有多参数成像，肿瘤位置更加敏感，脑组织成像更清晰等特征。虽然MRI能很好地显示脑组织结构和病变区域，但MRI图像存在伪影、偏场效应、灰度偏移场等问题。由于人工筛选MRI图像来预判早期脑肿瘤的方法非常耗时，所以引入深度学习技术是非常有必要的。

目前常用方法分为两大类，即传统和深度学习的图像方法。

阈值分割和区域生长法在传统方法中占很大比重，虽然它在脑肿瘤的治疗中取得了一定成果，但其图像处理算法的整体效果不是很好。这类算法常依赖于人为操作，因此存在一定的限制，需要根据实验的差异来设置约束值。实验得到的结果往往不是最精确的，还需要对其进行优化，这种情况就会导致实验的鲁棒性差，脑肿瘤分割效率低。

近年来，关于肿瘤分割的深度学习方法有很多。Zhang等采用两次分割MR图像的方法，先采用FCN模型粗分割训练，来检测肿瘤的整体区域，然后再用FCN模型进行二次精确分割，获得脑肿瘤的内部结构。但这会导致脑肿瘤图像局部信息缺失，分割精度也偏低。Ronneberger等提出的对称网络U-Net，对医学图像分割适应能力较好，成为医学图像的常用网络模型，本文模型基于此进行改进。Vittikop等在U-Net网络基础上加入了跳跃连接，将深浅层特征信息进行融合，这使得脑肿瘤图像能很好地弥补缺失的浅层信息，取得了较好的效果。

由于跳跃连接在U-Net模型中能够提高分割准确率，本文基于U-Net模型的同时保留跳跃连接来融合特征信息，并对模型进行了改进。首先，将深度残差块替换U-Net结构中的卷积块，弥补丢失的特征信息，避免梯度消失等问题；其次，利用Dy-ReLU替换深度残差模块中的ReLU激活函数，提高网络模型的非线性表达能力，解决梯度退化的问题；但U-Net中通过用跳跃连接来进行简单的图像拼接，容易丢失上下文特征信息，影响分割的准确性，对此，本文引入CBAM注意力机制，从空间和通道两方面来提取需加以关注的某些特征，提高分割的准确性。

1 本文方法介绍

1.1 网络模型

由于深度残差块在深度学习图像处理中可以避免梯度消失的问题，同时对浅层网络的分割效果有所提升，所以本文基于深度残差块进行改进并替换掉U-Net基础网络中的卷积块。并将CBAM机制引入U-Net，使关键信息在空间和通道上都聚焦，提高脑肿瘤分割的效果。

图1所示为本文的网络结构，由多部分组成，包括桥接、跳跃连接、编码、分类器和解码。其中编码和解码区域由四个改进的残差块组成，桥接区域由一个改进的残差块组成。一个改进的深度残差块由批标准化BN、动态激活函数Dy-ReLU、3×3的卷积层和恒等映射部分组成，这部分内容将在后面详细介绍。

图1 网络结构

编码区域主要由改进的深度残差块和下采样组成，下采样主要采用全局最大池化，其中一共进行了四次操作，每经过一次深度残差块，就将进行一次全局最大池化。经过深度残差块和下采样操作的时候，当图尺寸减小，其相应的通道数将增加。

桥接在网络模型中起着必不可少的作用，主要是用于连接编码和解码部分。解码区域主要由改进的深度残差块和上采样组成，其中一共进行了四次操作。上采样后通道数将会减少一半，图像尺寸扩大一倍。最后获得与输入的特征图像大小近似的图。分类器采用常用的方法，由1×1卷积和Sigmoid搭配而成。1×1卷积主要是用于降低计算量。最后通过Sigmoid对特征图进行映射来显示像素的类别。

跳跃连接实现特征映射的融合的方法是将编码的深、浅层特征级联。但由于编码区域提取到的特征信息效果很差，带来了大量的冗余特征信息。

针对编码区域提取了大部分的冗余信息，本文在深浅层特征融合之前，引入CBAM机制，从通道和空间两个方面都抑制冗余区域，提高特征提取的效率。

1.2 Dy-ReLU激活函数

激活函数通过引入非线性因素，使得模型具有非线性映射的能力。ReLU激活函数在分割中使用得非常频繁，然而它不会根据实验数据变化而变化，无区别对待所有的输入样本。但动态的激活函数则可以解决这个问题，本文通过引入动态校正单元Dynamic Rectified Linear Unit，Dy-ReLU来提高网络模型的非线性表达能力。对于输入的全局上下文信息，它通过辅助函数对其进行编码，对后续的分段线性激活函数具有指导性作用。

图2 Dy-ReLU示意图

()可以看作是由类似SE模块的超函数实现，主要是基于注意力机制来获取关于特征信息之间的重要性，随后通过重要度对有用信息和无用信息进行针对性的提取，最后将超参数映射到特征通道中。

先后经过全局池化层和全连接层，其中全连接层经过了两次，随后使用ReLU函数引入更多的非线性因素，让信道间的复杂情况拟合得更好。最后采用Sigmoid标准化输出。当SE模块中的计算完成后，最后的输出为：

1.3 深度残差模块

在深度学习图像处理中，传统观念认为网络进行更深层次的设计，效果会更好。但这也随之带来梯度消失的问题，而且浅层网络对分割效果的提升也不够明显。基于以上问题，He等提出一种残差网络。

图3 改进的残差块

残差公式如下：

如图4（a）所示是原始的残差块，通常在网络层数较大时，提取的特征信息较好。本文结构如图4（b）所示，是在残差块的基础上，用Dy-ReLU替换ReLU激活函数。为了解决训练中梯度退化的问题，采用恒等映射单元，将输入部分传递到后面的网络层，以促进特征信息的传播，很大程度上可以解决浅层特征在训练中丢失的问题。

图4 原始的与改进的残差模块

1.4 注意力CBAM模块

Woo等首次提出了CBAM双重注意力机制，它是在空间和通道都关注某些特征的注意力模块，双管齐下，在提取特征时着重关注一些特征层和空间区域，增强了特征图中有用的特征，在图像分割中取得更好的效果。

图5 CBAM机制示意图

式中代表输入；常用于表示sigmoid激活函数。

空间注意力机制主要从空间层面探讨特征图的关系来突出空间信息的重要性，其与通道注意力机制相辅相成。CBAM机制采用的卷积核大小为7×7，经过空间注意力模块后，得到最终的特征图。计算过程如下：

其中，7×7卷积核用表示。

2 实验及结果分析

2.1 数据集

实验使用的是MICCAI提供的公开脑肿瘤数据集BraTS2019和BraTS2020，BraTS2019包括335例患者，这部分数据用于训练。将BraTS2020相对于2019新增的数据用于测试，包括高级别胶质瘤34例。如图6所示，每个患者的MR图像都有4种模态T1，T1ce，Flair和T2和真实分割标签。每一个数据都包含四个方面：非增强肿瘤和坏死肿瘤、水肿区域、增强肿瘤及背景，分割中通常将这些不同的区域分为三个部分：①整体肿瘤，去除背景的所有部分；②肿瘤核心，由坏死、非增强和增强肿瘤部分构成；③增强肿瘤，主要由增强肿瘤部分组成。

图6 脑肿瘤四种模态

本文采用Z-score方法对数据进行标准化操作，先计算均值和标准差，再对所有图像采取单位标准化和零均值操作，最后对图像随机切割为160×160的大小。

2.2 损失函数

由于混合损失函数在医学图像中使用效果较好，本文的损失函数由Dice相似系数和交叉熵损失组合而成。交叉熵公式如下：

式中，、分别是真实标签与预测图中像素集合，g代表真实类别，g指第个预测图与第个真实标签的类别，p代表预测值，指第个预测图与第个真实标签中的预测值。在训练的时候，交叉熵通常用于优化，尽管可有效解决梯度消失的问题，但对于类不平衡的图像，它往往有所偏重，尤其对类别数较多的样本会偏向更多，这将使得网络的优化不够好。

对、分别进行计算，其中光滑算子用表示，主要用于避免分母为0的情况。Dice常用于学习网络参数，使预测值更接近真实值。混合损失函数的公式如下：

2.3 评价指标

Dice系数、HD距离和查准率常用作图像分割的评价指标，本文也采取相同的策略，公式如下：

公式中，指预测为正确的正样本个数，指预测为正确实际是错误的负样本个数，指预测为错误实际是正确的正样本个数。Dice系数是用于衡量相似性的，用于计算预测值与真实值的相似度；查准率是指正确预测总数占被预测总数的比例；表示预测值，代表真实值，d与d分别表示预测值与真实值的HD距离，HD表示预测与真实值的不匹配的最大程度，是d和d中的最大值，这表明值越小，分割越准确。

2.4 参数设置及训练

硬件环境：使用AMD EPYC 7302 CPU，内存大小为64 G，使用NVIDIA GeForce RTX3090 GPU，显卡24 G。软件环境：Pytorch深度学习框架，CUDNN8.0，CUDA11.0，Ubuntu 18.04.5 LTS，Python3.8。在训练时同时输入预处理后的图像和真实标签。25%、75%的数据集分别作为验证集和训练集，BraTS2020中新增部分用于测试集。训练过程中，学习率初始值为0.0003，动量0.9，迭代批量为32，训练迭代期为10000。用衰减系数为0.0001的Adma优化器优化。将早停法的值设置为20来防止过拟合。

图7所示为模型训练过程中损失函数变化的曲线图。连续实线是训练的损失，虚线是验证的损失。由图7可以看出，随着迭代次数的增加，网络的准确率在不断地提高，损失在不断地减少。当值趋近260时，网络趋于稳定。

图7 训练损失图

2.5 测试结果

本文选择FCN和U-Net两种常用的基础网络进行实验对比。表1展示了三种模型的分割结果。从表1可以看出FCN的结果很不理想，主要原因是特征信息都没有得到充分利用。U-Net可以看作是基于FCN改进的，融合跳跃连接来提取更多的信息，但由于获取的浅层信息较差，存在冗余，对分割效果产生了很大的影响。本文以U-Net为基础进行改进，改进后的模型在分割中效果较好，DSC较原U-Net模型有小幅提升，查准率在整体、核心和肿瘤增强区域依次提升2.59%、0.37%、2.52%，HD在各区域也有小幅提升，得到了不错的分割结果。

表1 模型对比结果

脑肿瘤MR图像分割结果如图8所示。从左到右依次为FCN、U-Net、真实标签和本文方法的分割结果。从图8可以看出，FCN分割效果较差，只能大概定位脑肿瘤的位置，内部分割不够精细。U-Net分割的轮廓清晰，但边缘还是不够细化，分割不是很准确。可以看出本文能够得到与真实标签更加相进的分割结果，效果明显得到改善，性能良好。

图8 对比实验分割结果图

3 结语

利用深度学习技术来分割脑肿瘤图像的方法是很重要的。本文采用改进U-Net模型的方法提高肿瘤的分割结果。利用改进的深度残差块获取特征信息，在跳转连接中引入CBAM注意机制，同时结合混合损失函数对数据进行优化，很大程度上解决了类不平衡的问题。实验结果显示，本文的方法能较大提升分割的精确度，分割结果也趋近于真实标签，但有一定的局限性。由于本实验使用的是三维数据，采用三维数据切片后的数据进行分割会丢失一些图像信息，影响分割精度。因此，下一步研究的重点是采用三维数据进行图像分割，来弥补图像丢失的不足。