基于U-Net改进的肺部轮廓与新冠病灶分割网络

2023-03-07林培阳郑茜颖

电视技术 2023年1期

林培阳，郑茜颖

（福州大学物理与信息工程学院，福建福州 350108）

0 引言

相较于传统的图像分割算法，基于深度学习的图像分割方法可以适应复杂多变的环境，在各种场景的图像分割任务中表现出了更高的精度和鲁棒性。卷积神经网络模型通过多阶段的卷积池化来提取图像中的特征，并在最后输出像素级的预测结果。LONG等人在2015年提出了全卷积网络（Fully Convolutional Network，FCN）[1]，将卷积神经网络的全连接层替换成全卷积层，在语义分割任务中取得了不错的性能。RONNEBERGER等人提出了U-Net[2]，采用编码器-解码器的对称结构，并在编码器和解码器之间加入跳跃连接，克服了FCN空间位置信息丢失的缺点，在许多医学图像分割任务中表现优异。ZHANG等人受残差神经网络的启发，提出了带有残差结构的Resdiual U-Net[3]，引入残差连接改善了网络退化的问题。PUNN在所提出的Inception U-Net[4]中利用Inception模块来提取多尺度的特征。Attention U-Net[5]使用通道空间注意力机制融合了编码器跳跃连接和反卷积的两部分特征。JIN等人将注意力机制引入了U-Net网络，提出了RA-UNet[6]，使用注意力机制聚合低级和高级特征，提取上下文信息。ZHOU在U-Net++[7]中，用多个层次的U-Net结构组成了U-Net++，并使用了多重联合损失，加快了网络的收敛并且有效提高了网络的性能。考虑到空间上的连续性，CICEK等人在2016年提出3D U-Net[8]使用了3D的卷积核，在具有连续性的数据集中表现优于传统的2D网络。MILLETANI在2016年提出的V-Net[9]中，使用了Dice Loss和LCE Loss的联合损失函数，解决了像素比率不均匀的问题，避免了背景对分割精度的过度干扰。LAN等人提出了Y-Net[10]，由两个编码器和一个解码器组成。KUANG等人提出了三路径编器的Ψ-Net[11]，DOLZ等人提出了多路径编码器结构，这些工作证明了在多模态输入中，编码器数量的增加有助于提升网络的性能。

在新冠病灶分割任务中，ZHANG[12]等人通过双输入Y型U-Net结构，通过肺结核数据集，探索了从非新冠肺炎的病理图像中提取共享知识的可能性，并证明了这种方法的分割效果优于经典的U-Net网络。FAN在Inf-Net[13]中使用并行解码器聚合高级特征，并生成全局特征图，利用隐式反向注意机制和显式边缘注意机制，对边界进行建模，增强了病灶的边界表示，提高了网络的性能。WANG提出了COPLE-Net[14]，使用了新的噪声鲁棒的NR-Dice损失函数，并引入双池化的下采样，在新冠病灶分割任务中Dice系数接近80%。PEI提出了一种多点监控网络MPS-Net[15]，将多尺度特征提取结构、筛网连接结构、多尺度输入结构和多点监督训练结构引入MPS-Net中，在新冠病灶分割任务中，Dice系数接近83%。KITRUNGROTSAKUL等人在Attention-Ref-Net[16]中提出了跳跃连接注意模块（Skip Connections Attention，SCA）来改进分割和精细化网络中的重要特征，提出了种子点模块（SPM）对用户输入的种子点进行转换，获得有用的信息，并在公共数据集和私有数据集上证明了其方法的有效性。

尽管以上这些工作通过引入先进的模块和复杂的结构来提高对新冠病灶的分割精度，并且在各自的数据集上表现优于传统模型，但是，由于新冠病灶的大小、分布和灰度的复杂性，很容易导致边界过度分割或欠分割。本文提出的方法能够很好地解决边界分割不准确的问题。本文的主要工作如下。

（1）使用带有残差连接的编码器代替标准卷积单元，并增加编码器解码器的数量，有助于模型更好地提取细节特征，提高分割的精度。

（2）引入自注意力机制，通过对高级特征的特征维度进行重新加权计算，学习特征的内在相关性，获得特征的局部相关性和全局相关性，从而获取特征的位置信息。

（3）筛选整理了只包含肺部轮廓标签和新冠病灶标签的分割数据集，使其更适合用于肺部轮廓分割和新冠病灶分割两项训练任务，并进行训练，证明了本文所提算法的有效性。

1 方法

本文提出的模型结构如图1所示。模型输入大小为512×512×1的CT图像，通过编码器提取到的最后一级特征大小为8×8×512，经过自注意力机制进行计算加权，然后通过解码器得到与输入图像大小相同的预测结果图像。编码器部分采用了带有残差连接的特征提取模块，有助于保留特征的空间信息，同时能够避免网络深度带来的梯度消失。与采用四级编码器和四级解码器的U-Net不同的是，该模型一共有六级编码器和六级解码器。加深的网络，有助于模型提取富含语义信息的高级特征；在编码器和解码器中间加入了自注意力机制模块，通过学习特征的内在相关性，来获得特征的局部相关性和全局相关性。

当然，我现在也理解了那些生活在阿拉伯半岛及周边地区的多金老爷们正抓紧时间整理车库，为库里南的到来而急切盼望的心情，毕竟见识过所谓的“最好”，才能明白什么才是“更好”。不过，就别追问我库里南的真实越野表现了，我真的不知道。如果您成为了库里南车主，那欢迎您分享自己的体验，我一定认真洗耳恭听。

图1 所提出的分割网络模型结构

1.1 编码器网络和解码器网络

编码器和解码器子模块如图2所示，可以分为特征提取支路和残差连接支路。首先，特征提取支路为两个连续3×3卷积，并分别在卷积层后面加入了BN层和ReLU层，通过批归一化层与激活函数来稳定每一层网络的特征。残差连接支路首先通过大小为1×1、步长为2、特征通道为输入特征两倍的卷积来匹配输出特征的维度，然后经过BN层和ReLU层与特征提取支路的特征进行合并，最终输出特征。解码器子模块接收两部分的输入，分别为来自编码器的特征和上级网络反卷积得到的特征，然后合并两部分的特征，再通过两次3×3卷积来融合特征并输出到下一级网络。

图2 编码器子模块（左）和解码器子模块（右）

1.2 自注意力机制模块

自注意力机制（Self-Attention）最早用于处理自然语言处理（Natural Language Processing，NLP）问题，当模型输入为大小不同的向量时，确定每个词向量之间的联系。自注意力机制通过构建词向量之间的关系矩阵，计算向量之间的相关性来寻找词与词之间的关系，从而联系上下文，达到更加准确的预测结果。在卷积神经网络中加入自注意力机制，可以利用特征内部固有的信息进行注意力的交互，减少对外部信息的依赖，增强特征的表达能力。

自注意力机制模块的结构如图3所示。输入Inputs为第六级编码器输出的高级特征，大小为8×8×512。在自注意力机制模块内部，共有三条支路和一条残差连接支路。第一条支路F1和第二条支路F2的作用是计算特征图在空间上的相关性。

为了减少计算量，首先，通过卷积核大小为1的卷积分别缩减F1和F2支路的特征通道数，从输入的512缩减到64，减少了计算量，这一步得到的特征大小均为为8×8×64。将两条支路中的大小为8×8的特征图拉长变为一维向量，分别得到通道数为64，长度也为64的两个特征矩阵。其次，对F1的特征矩阵进行转置，然后与F2的特征矩阵进行矩阵乘法的计算，得到位置关系矩阵α。矩阵α代表了特征图的每个像素之间的位置相关性。例如，α的第a行第b列的值代表着特征图向量的第b个值对第a个值的位置关系大小。每个向量值都需要计算其他64个向量值对该向量值的位置关系大小，所以位置关系矩阵α的大小为64×64。第三条支路F3的作用是和局部的位置关系矩阵α一起，计算整个输入特征的全局自注意力关系矩阵β。具体的操作是，先进行大小为1×1的卷积并同样将特征尺寸变为一维向量，得到大小为64×512的特征矩阵，然后将位置关系矩阵α进行转置，与F3的特征矩阵进行矩阵相乘，再把相乘的结果中长度为64的每一个一维特征向量重新转化为8×8的特征图，经过SoftMax层将得到的结果进行归一化操作，最终得到大小为8×8×512的全局自注意力关系矩阵β。β每个位置上的值，代表着整个输入特征矩阵对该位置上的特征值的相关性大小。最后，将得到的全局自注意力矩阵乘以比例系数μ，并将其与残差连接的输入特征矩阵相加，所得到的输出即为经过自注意力机制加权后的输出特征。自注意力机制的计算过程用公式可以表示为

式中：I表示输入特征，O为输出特征，C1，C2和C3代表不同的卷积操作，P代表转置操作，R代表形变，将特征尺寸拉成一维向量，S代表SoftMax层，μ为全局自注意力矩阵的比例参数。

1.3 损失函数

Dice系数是一种基于区域的度量方法，在图像处理中常用于评估区域重叠情况，可以用来评价模型分割的性能。Dice系数的值介于0和1之间，越接近1，代表分割结果与原始标签越接近，即分割效果越好。Dice Loss等于1减去Dice系数，可以作为损失函数，其值越接近0，代表模型分割效果越好。经过拉普拉斯平滑（Laplace smoothing）系数加权的Dice Loss，本文简称LD，可以避免计算过程中分母为0的情况，还可以减少训练过程中的过拟合，LD的计算公式如下：

式中：A代表的是分割结果为正的区域，B代表的是标签为正的区域，s是拉普拉斯平滑系数。

使用LD作为模型损失函数，当分割的前景区域较小时，较小的分割误差可能会导致LD大幅度变化，从而导致训练过程不稳定。常用的交叉熵损失函数LCE的计算公式为式（3）。

图像分割任务中，会使模型对背景部分给予更多的关注，因为相较于前景，背景区域更广，因此会影响学习效率，导致模型不收敛。本文使用LD和LCE的联合函数L作为模型的损失函数。

式中：λ代表的是LD和LCE的比值，本文取λ=0.5。

1.4 评价指标

为了度量模型预测结果的好坏，本文使用Dice系数D作为训练的评价指标，它的计算公式如下：

此外，为了更好地衡量模型分割的效果，本文引入了四个辅助评价指标：Jaccard相似系数（J），用于比较有限样本之间的相似性和差异性；Precision（P），表示在模型预测是Positive的所有结果中，预测正确的比重；Recall（R），表示所有样本的正例中，被模型被预测正确的比重；F1分数（F），同时衡量Precsion和Recall的一种方式。相关的计算公式如下：

2 实验

2.1 实验环境和数据集设置

本文的实验使用GTX 3080Ti显卡进行训练，使用的深度学习框架为Tensorflow2.4，所有的实验都是在相同的配置和环境下进行训练的。

本文使用的数据集在MA[17]等人提供的标记良好的COVID-19 CT Scans数据集的基础上作出改动。该数据集包含了20份新冠患者的肺部CT影像，共三千多张图片，每一张图片都包含了左肺、右肺和新冠感染病灶的注释。本文剔除了COVID-19 CT Scans数据集中不包含肺部轮廓的图片，保留了剩下的含有肺部轮廓但不一定含有新冠病灶的图片，一共得到了2 973张图片作为数据集。

实验分两部分进行，对比的网络模型采用了U-Net，U-Net++和Attention U-Net（简称A-U-Net）。第一部分实验为肺部轮廓分割实验，第二部分实验为新冠病灶分割实验。通过两个实验，分别测试模型对肺部轮廓和新冠病灶的分割性能。两个实验均随机选取1 773张图片作为训练集，600张图片作为验证集，600张图片作为测试集，初始学习率为1×10-3，Epoch为200。

2.2 肺部轮廓分割实验

表1为肺部轮廓分割实验进行的5次训练结果的Dice系数和5次结果的平均值。可以看到，本文提出的模型在5次训练中，Dice系数均高于其他对比模型，平均领先表现第二的Attention U-Net约0.186%。

表1 肺部轮廓分割实验训练结果

表2为模型在辅助评价指标下的表现。可以看到，本文提出的模型在J和P等评价指标上均优于其他对比模型，说明本文模型在肺部轮廓分割方面的性能优于对比模型，对肺部轮廓的分割结果更加接近原始标签。

表2 肺部轮廓分割实验结果在各评价指标上的表现

2.3 新冠病灶分割实验

在新冠病灶分割实验中，同样进行了五次训练，得到了如表3所示的结果。可以看到，本文提出的模型的Dice系数同样均高于对比模型，领先表现第二的U-Net约1.336%。表4为模型在其他评价指标下的表现，同样均优于其他对比模型。实验结果说明本文模型对于新冠病灶这种分布不均匀的小区域目标的分割效果更好，更接近原始标签。

表3 新冠病灶分割实验训练结果

表4 新冠病灶分割实验结果在各评价指标上的表现

2.4 实验结果分析

图5为肺部轮廓分割实验中，输入图片、肺部轮廓标签、对比模型分割结果和本文所提出模型的分割结果图。从第一组图可以看到，对于形状细长的肺部轮廓区域，U-Net和Attention U-Net分割的结果并没有正确地识别到肺部的边缘部分，而将细长的区域误分割为胸腔区域。虽然U-Net++的预测结果较为接近真实标签，但是分割结果比真实标签短了一点，存在欠分割。本文提出的模型能够正确识别该部分区域，并且分割结果几乎与真实标签重合。相同地，第二组图和第三组图中，本文提出的模型准确地对肺部轮廓进行了准确的分割，而其他对比模型均存在欠分割现象。在第四组图中，U-Net和U-Net++的分割结果错误地将左肺和右肺连接起来了，本文所提出的模型不仅准确地识别出左肺和右肺的边界，对左肺和右肺中间轮廓边缘的分割效果也优于其他模型。

图5 肺部轮廓分割结果图

图6为新冠病灶分割实验中，输入图片、新冠病灶标签、对比模型分割结果和本文所提出模型的分割结果图。第一组图中，新冠病灶分布在肺部的四个区域中，U-Net和U-Net++分割后的结果将距离较近的两个区域的边界连接起来了，Attention U-Net则是将其中一个区域误分割为两个独立的区域，本文提出的模型正确地识别了四个区域，并且边界接近真实标签。同样地，在其余三组图中，本文提出的模型相较于其他三个对比模型，能够达到更好的分解结果，在面积和边界上，更接近真实标签。

图6 新冠病灶分割结果图

通过实验结果可以看出，本文采用的更深的编解码路径和自注意力机制模块，能够有效地对肺部轮廓区域和新冠病灶区域进行分割。通过加深的编码器提取高级特征后，再对高级特征进行全局注意力矩阵加权，能够使模型更加关注有效的高级特征，提高对细节部分的定位，准确识别区域和边缘，达到更好的分割精度。

3 结语

本文提出了一种基于U-Net改进的医学图像分割网络，用于对肺部轮廓和新冠病灶轮廓的分割。该网络的编解码路径比U-Net更长，并在编码路径中加入了残差连接。同时，在编解码器的连接处加入了自注意力机制模块，自适应地学习特征的内在相关性，提高特征的表达能力。通过实验数据和对比图可以看到，所提出的分割网络在分割细节上表现优异，能够很好地克服新冠病灶轮廓分布不均、灰度接近肺部胸腔的问题。在肺部轮廓分割实验和新冠病灶分割实验中，本文所提模型均取得了比其他对比模型更好的精度，证明了该模型的有效性。