MSAG-TransNet：肺部CT图像中新冠肺炎感染新型冠状病毒感染区域的分割模型

2023-03-15祝鹏烜黄体仁李旭

浙江理工大学学报 2023年12期

祝鹏烜　黄体仁　李旭

摘要：針对现有新冠肺炎感染新型冠状病毒感染区域的分割方法存在形态特征提取不充分、感染区域检测不完整以及背景混淆等问题，提出了一种肺部CT图像中新冠肺炎感染新型冠状病毒感染区域的分割新模型：MSAG-TransNet模型。该模型在U型网络的基础上增加了多尺度特征抽取模块、Transformer语义增强模块和多重注意力门模块等3个新模块。首先设计了多尺度特征抽取模块来增强骨干网络的特征提取能力，通过多分支结构的深度可分离卷积，充分提取感染区域的形态特征；其次，设计了Transformer语义增强模块来捕获图像全局位置信息，整合局部形态特征；最后，设计了多重注意力门模块，将提取的特征与对应上采样过程的门信号拆分成不同分区，然后利用注意力门抑制各分区的无效特征，得到最终分割结果。该模型在两个公开的新冠肺炎新型冠状病毒感染CT数据集上进行实验，实验结果显示：分割图像的Dice系数分别为82.03%和76.67%，精确率为77.27%和72.34%，交并比为69.53%和62.16%；与其他主流模型相比，该模型能够提取更丰富的形态特征，检测到更完整的感染区域，并且得到更精准的分割结果。该模型可以更精确的定位和量化新冠肺炎感染新型冠状病毒感染区域，为临床诊疗提供可靠参考。

关键词：新型冠状病毒感染；CT图像；图像分割；卷积神经网络；U型网络；Transformer

中图分类号： TP391.4

文献标志码： A

文章编号： 1673-3851 （2023） 11-0734-11

引文格式：祝鹏烜，黄体仁，李旭.MSAG-TransNet：肺部CT图像中新冠肺炎感染新型冠状病毒感染区域的分割模型［J］. 浙江理工大学学报（自然科学），2023，49（6）：734-744.

Reference Format： ZHU Pengxuan， HUANG Tiren， LI Xu. MSAG-TransNet： Segmentation model of COVID-19 infected areas in lung CT images［J］. Journal of Zhejiang Sci-Tech University，2023，49（6）：734-744.

MSAG-TransNet： Segmentation model of COVID-19 infected areas in lung CT images

ZHU Pengxuan， HUANG Tiren， LI Xu

（School of Science， Zhejiang Sci-Tech University， Hangzhou 310018， China ）

Abstract： To solve the problems of insufficient morphological feature extraction， incomplete detection of infected areas and background confusion in the existing segmentation methods for infected areas of COVID-19， a new segmentation model MSAG-TransNet for infected areas of COVID-19 in lung CT images was proposed. This model adds three new modules to the U-shaped network： a multi-scale feature extraction module， a Transformer semantic enhancement module and a multi-attention gate module. Firstly， the multi-scale feature extraction module was designed to enhance the feature extraction ability of the backbone network， and a deep separable convolution of a multi-branch structure was used to fully extract the morphological features of the infected areas. Secondly， the global position information of the image was captured through the designed Transformer semantic enhancement module， and local morphological features were integrated. Finally， the multi-attention gate module was designed to split the extracted features and the gate signal corresponding to the upsampling process into different partitions， and then attention gates were used to suppress invalid features in each partition to obtain the final segmentation result. The model was tested on two publicly available COVID-19 CT datasets. Experimental results show that the Dice indexes of the segmented image are 82.03% and 76.67%， the accuracy rates are 77.27% and 72.34%， and the intersection and merger ratios are 69.53% and 62.16%， respectively. Compared with other mainstream models， this model can extract richer morphological features， detect more complete infected areas， and obtain more accurate segmentation results. Therefore， this model can more accurately locate and quantify the infected areas of COVID-19， and provide reliable guidance for clinical diagnosis and treatment.

Key words： COVID-19; CT image; image segmentation; convolutional neural network; U-shaped network; Transformer

0 引言

新型冠状病毒具有快速的传播能力和超强的感染性，自2019年底开始在全球各地不断蔓延，严重冲击国内外的医疗系统，对人类健康造成了极大威胁。据世卫组织统计，全球累计新型冠状病毒感染确诊病例超7.5亿、死亡病例超680万［1］。在疫情高峰期，医疗人员严重短缺，医疗资源挤兑现象时有发生。CT检查因能观察到磨玻璃影等典型的新冠肺炎新型冠状病毒感染表现，成为新型冠状病毒感染的重要影像学检查手段。但是，观察大量肺部CT图像并作出诊断是一项繁重的工作，且会因经验不足而导致误诊和漏诊［2］。临床上，对感染区域的分割一般由初级医师手动勾画，再由多名经验丰富的放射科医师审核。250张CT图像切片的分割需要大约400 min［3］。利用现有的计算机智能辅助诊断系统可以快速地从肺部CT图像中自动分割出新冠肺炎感染新型冠状病毒感染区域，不仅可以有效评估患者肺炎感染的严重程度及病变情况，提高诊断的准确率和效率［4-5］，而且能够避免医患交叉感染的风险。将性能更好的端到端语义分割模型移植到这些计算机智能辅助诊断系统中并进行算法升级［6］，可以提升肺炎感染区域分割精度，从而更好地分析肺部状况，制定治疗方案等。因此，设计一种分割结果更准确的模型，有助于医生诊疗新冠肺炎新型冠状病毒感染，对疾病诊断、疫情控制和患者治疗等都有重要意义。

传统的图像分割方法有阈值分割、边缘检测等，但是这些方法难以准确分割CT图像中灰度差异小或者边界模糊的目标，整体分割效果并不理想。随着深度神经网络技术的蓬勃发展，医学图像分割算法的性能得到了有效提升［7］。Ronneberger等［8］提出了基于全卷积神经网络设计的U-Net模型，该模型最初应用于细胞分割任务。由于该模型采用了U型结构，并使用跳跃连接将对应分辨率的特征信息引入上采样过程中，可以有效利用高级语义信息和低级特征，为后续分割处理提供不同尺度的信息。受此启发，各种U-Net变种模型被广泛应用于医学图像分割任务中，并取得了优异的分割性能［9］。Zhou等［10］提出了UNet++模型，通過嵌套不同深度的U-Net，对跳跃连接进行了改进，并对网络增加了深监督，在肺结节数据集上提升了分割性能。Oktay等［11］提出了Attention U-Net模型，设计了注意力门模块，使得模型可以自动学习聚焦目标结构，抑制图像中无关区域的信息。Isensee等［12］提出了自适应深度学习框架nnU-Net模型，该模型充分利用了不同数据集的特性，可以自主将相应的基本架构转移到不同数据集和分割任务中，该模型在多项比赛和医学图像分割任务中表现优异。Hatamizadeh等［13］提出了UNETR模型，直接将Transformer编码器［14］提取的特征跳跃连接到解码器中，该模型在多器官数据集上表现出较高的分割性能。Zhang等［15］提出了TransFuse模型，该模型可以将Transformer编码器分支和卷积编码器分支中的多尺度特征进行有效融合，在息肉分割等任务上取得了较精确的结果。在肺部CT图像分割任务中，Chen等［16］利用大量肺部CT图像数据训练UNet++模型，使模型的分割准确率达到与放射科医生相当的水平。谢娟英等［17］提出了XR-MSF-Unet模型，引入了融合多尺度特征的注意力模块，强化了模型的细节分割性能。顾国浩等［18］在U-Net基础上引入了循环残差模块和自注意力机制，加强了模型对特征信息的抓取，从而使模型在应对新型冠状病毒感染区域与血管相融时具有更高的分割精度。宋瑶等［19］采用预训练网络EfficientNet-B0进行特征提取，采用DUpsampling代替传统上采样，使设计的模型获取更多细节信息，在新冠肺炎新型冠状病毒感染公开数据集上提高了分割性能。余后强等［20］提出了PCA-Unet模型，用PCA对肺部CT图像中的新冠肺炎感染新型冠状病毒感染区域进行特征预提取，去除了图像中的噪声等因素干扰，使模型能够更准确地分割目标区域。

上述医学图像分割模型在新冠肺炎感染新型冠状病毒感染区域的分割中存在以下问题：首先，由于肺部CT图像中新型冠状病毒感染区域形态各异、大小不一且纹理复杂，现有模型存在形态特征提取不充分的问题。其次，新型冠状病毒感染区域通常分散于肺部CT图像的不同位置，由于卷积运算感受野较小，长距离空间相关信息的学习能力有限，难以准确定位感染区域。Transformer编码器可以通过自注意力机制很好地进行全局和长距离语义信息的交互，捕获全局语义信息，但其对局部信息的特征抽取能力较弱。因此仅使用卷积或仅使用Transformer编码器不能有效整合全局位置信息和局部形态特征，导致感染区域检测结果不完整。最后，新型冠状病毒感染区域通常表现为磨玻璃影、实变影及斑片状模糊阴影，感染区域可弥漫至整个肺区，且易与肺部气管、血管等混淆［21-22］。如果无法有效抑制无关背景的特征信息，那么肺部CT图像中的正常区域易被错误检测为感染区域，导致背景混淆，从而降低分割性能。

针对分割任务中感染区域形态特征没有得到充分挖掘、感染区域检测的不完整以及背景混淆等问题，本文提出了一种肺部CT图像中新型冠状病毒感染区域的分割模型。本文将该模型命名为MSAG-TransNet，由每个模块英文名称的字母组合而成。该模型首先设计多尺度特征抽取模块（Multi-scale feature extraction module， MS）来增强骨干网络的特征提取能力，通过多分支结构，利用多尺度深度可分离卷积提取不同形态感染区域的空间信息，使用空间注意力机制实现多尺度信息交互，充分提取感染区域的形态特征。其次，设计了Transformer语义增强模块（Transformer semantic enhancement module， Trans），将CT图像及特定形态特征拆分成序列特征，并输入Transformer编码器捕获全局位置信息，整合局部形态特征，充分利用卷积和Transformer的优点。最后，设计了多重注意力门模块（Multi-attention gate module， MAG），将提取的特征与对应上采样过程的门信号拆分成不同分区，利用注意力门抑制各分区的无效特征，从而突出感染区域的特征信息，得到最终分割结果。由于该模型融合了多尺度的形态特征和全局信息，并能抑制无效特征，因此有望提高新冠肺炎感染新型冠状病毒感染区域检测的完整性和背景区分度，进而提升模型的分割性能。将该模型移植到现有的计算机智能辅助诊断系统中，有望在不改变硬件的情况下提高分割结果的精度，更好地辅助医生诊疗患者。

1 本文模型

本文提出的MSAG-TransNet模型是一个端到端的语义分割模型。该模型采用编解码器体系，模型结构示意图如图1所示。该模型的骨干网络采用U-Net的架构方式，保留在医学图像分割任务上表现优异的U型结构和跳跃连接。整体网络共分5层，每层编码器由1个卷积块和MS模块组成，每个卷积块由2个相连的3×3卷积和线性整流函数（Rectified linear unit， Relu）组成，其中：C表示卷积块输出通道数。肺部CT图像经过5个MS模块增强的编码器进行4次下采样，抽取到尽可能充分的多尺度形态特征。在模型第1层和第5层设置Trans模块，其中第1层的输入由肺部CT图像和第1层编码器抽取的特征堆叠而成。第1层的输出分为两部分：一部分与第5层编码器抽取的特征进行堆叠，利用Transformer编码器进一步学习特征之间的远程依赖关系；另一部分与模型最终的上采样结果相连接。这一设计可以加强网络最低层和最高层的特征交互，整合全局和局部信息。下采样特征经过4次上采样恢复原有分辨率，这样会使得图像信息丢失。为减少有用信息丢失，并使模型有效抑制肺部CT图像中的背景信息，在每层跳跃连接中加入本文设计的MAG模块。

1.1 多尺度特征抽取模块：MS模块

由于患者感染程度不同，新冠肺炎感染新型冠状病毒感染区域形状多变，大小不一。即使同一感染者，在病程不同时期，其肺部感染区域也在不断变化［23］。在感染区域的分割任务中，需要利用各种形态的信息。但是单一尺寸的卷积核对特征抽取的能力不足，在分割时无法有效提取目标不同形态的特征，因此本文设计了MS模块，以获得感染区域更丰富的形态特征。

该模块通过多分支结构来实现多尺度特征的抽取，并通过空间注意力机制［24］提取CT图像中感染区域不同尺度的重要空间信息，最后对不同尺度卷积核抽取的特征进行加权，得到最终的特征图，实现多尺度信息的交互。MS模块流程如图2所示，其中：Oi表示该模块的输出特征图；Fi表示该模块的输入特征图；“DW，1×7”表示卷积核大小为1×7的深度可分离卷积操作，其他类似；“1×k”“k×1”“2×2”表示对应卷积核大小的常规卷积操作。

首先将骨干网络第i层卷积块提取的特征图Fi作为输入传入该模块，进行一次深度可分离卷积运算以进一步抽取特征，然后通过一个多分支深度可分离卷积抽取多尺度特征，每个分支的输出特征Sj的计算公式为：

其中：fDW（）表示深度可分离卷积操作，卷积核大小为5×5；fj（）表示第j个分支的计算函数。在每个分支中串联使用两个带状深度可分离卷积来近似不同尺度的大核深度可分离卷积。参考Guo等［25］提出的多分支模型的卷积核大小设置方法，本文设置3个分支，每个分支的卷积核大小分别为7、11和21。使用深度可分离卷积和串联使用1×k、k×1的带状卷积来代替一个k×k大小的卷积核，以减少模型的参数量，提高程序运行效率。带状卷积核作为传统方形网格卷积核的补充，抽取更多不同形态的特征。这里的分支数和卷积核大小的设置均可以根据任务不同进行调整组合。

为了有效整合各个分支的信息，本文对不同分支提取的特征Sj与fDW（Fi）进行逐元素（Element-wise）相加，随后用卷积建模不同通道间的关系得到中间特征S，S的计算公式为：

其中：fCon1（）表示卷积操作，卷积核大小为1×1。然后对S应用Woo等［24］提出的空间注意力机制进一步提取出重要的空间信息，得到空间注意力特征A，A的计算公式为：

其中：fCat（）、fAve（）、fMax（）分别表示通道堆叠操作、通道平均池化和通道最大池化；fCon7（）表示卷积核大小取7×7的卷积操作。

为了自适应地选择不同分支的权重，参考Li等［26］提出的“引导特征”（Attention guided feature）方法，进一步对得到的双通道空间注意力特征A进行步长为2的卷积操作，生成一个单通道空间分辨率减半的引导特征s，降低空间分辨率和通道数以提高效率。随后引导特征s经转置卷积生成3通道的注意力特征，用于自适应地选择不同空间尺度的信息。这里对注意力特征的通道应用指数函数归一化运算，得到第j个分支的自适应权重wj，计算过程可用式（4）—（5）表示：

其中：fReLu（）、fBN（）分别表示线性整流激活函数和批量归一化函数；fConk1（）、fCon1k（）分别表示卷积核大小k×1、1×k的卷积操作；fT（）表示卷积核大小为2的转置卷积操作。

该模块的最终输出特征圖Oi为输入特征Fi与各个不同分支特征的加权和的残差连接，可用式（6）表示为：

1.2 Transformer语义增强模块：Trans模块

由于肺部CT图像中的感染区域分散，因此较难得到位置准确、结构完整的新型冠状病毒感染区域分割图。本文针对感染区域检测不完整的问题设计了Trans模块。该模块通过改进Dosovitskiy等［27］提出的ViT模型，可以有效整合全局位置信息和局部形态特征。ViT模型将原本应用于自然语言处理领域的Transformer推广到了计算机视觉领域，首先将图像拆分变形并重组为序列特征，然后利用线性映射改变序列特征维度，最后把序列特征作为输入，利用Transformer编码器来捕获丰富的全局语义信息。但简单地把输入图像分割成几个较大的图像块很难抓取到图像的低层特征，如边和角等局部形态特征。因此将特定卷积提取的形态特征与Transformer捕获的全局信息融合，能充分利用卷积和Transformer的优点。

本文设计的Trans模块流程如图3（a）所示。首先将模型第1层编码器抽取的形态特征O1进行最大池化和平均池化操作，得到最大池化特征和平均池化特征，并将这2个特征与原图像堆叠成一个3通道的输入图像。其次将维度为H×W×3的输入图像拆分成维度为P×P×3的小图像块，拆分后的小图像块个数为N=H×W/P2。所有小图像块经过变形重组得到维度为N×L的序列特征，并通过线性映射，将原来的N×L维序列特征变成N×D维序列特征z0。然后将z0输入8个堆叠的Transformer编码器中，其中第4个Transformer编码器的输出特征z4，通过MAG模块跳跃连接最终的上采样结果。第8个Transformer编码器的输出特征z8，进行1个3×3卷积操作后，与最终的下采样特征O5堆叠，并进行拆分和线性映射。最后将该特征传入4个堆叠的Transformer编码器中，进一步融合全局信息。

Transformer编码器流程如图3（b）所示，其中：zi-1、zi分别表示每个编码器的输入和输出。Transformer编码器由一个多头注意力模块和多层感知机组成，其间采用残差连接，并在输入前进行层归一化（Layer normalization， LN）。输出zi可由式（7）—（9）计算得到：

其中：z、zmid分别表示层归一化序列特征和多头注意力提取的中间特征；fMSA（）、fMLP（）、fLN（）分别表示多头注意力、多层感知机和层归一化的函数。

1.3 多重注意力门模块：MAG模块

编码器下采样过程会极大压缩图像的信息，特征图的分辨率会随着下采样过程降低。在解码器部分，通过转置卷积或者上采样操作将这些低分辨率特征图恢复到原始分辨率大小时，需要填补很多空白内容。如果这个过程缺乏足够多的辅助信息，会导致大量有用特征与无关背景特征混杂。采用跳跃连接可以把相应分辨率的特征引入上采样或转置卷积过程，为最后的图像分割处理提供更多的信息。但是将编码器提取的特征图通过跳跃连接与解码器上采样的特征进行简单通道堆叠，会混入干扰分割的无效背景特征。因此，为了进一步突出对分割任务有用的图像信息，抑制无效背景特征，本文采用注意力门机制对特征进行有效融合。

本文对注意力门进行改进，设计了MAG模块。将特征图拆分成多个较小的特征块，每个小特征块学习不同的注意力门参数，自适应地利用门信号对不同区块中的像素点进行特征融合，进一步提高模型抑制无效背景特征的能力，从而精细化分割结果。MAG模块的流程如图4所示。其中：oij为编码器第i层抽取的特征Oi拆分后的小特征块；Gi为解码器部分第i＋1层特征上采样后的特征，在该模块中作为门信号；gij为Gi拆分后的小特征块；Ui为该模块第i层的最终输出。

首先把Oi拆分成M个小特征块oij，Oi的维度为C×Ho×Wo，oij的维度为C×ho×wo。拆分保持特征通道数不变，拆分后的特征块个数M=（Ho/ho）×（Wo/wo）。其中：Ho和Wo是Oi的高和宽；ho和wo是oij的高和宽。门信号Gi按同样的方式拆分成M块，每块gij与oij相对应，由gij作为oij的门信号进行后续的操作。拆分后的特征块分别进行不同的1×1卷积操作，并与线性整流激活函数和Sigmoid结合，生成各自的权重图yij，yij由式（14）计算：

其中：fCon3（）表示卷积核大小为3×3的卷积操作。将不同的权重图yij按位置拼接，得到与原始特征图大小相同的权重图Y，MAG模块的最终输出Ui由式（15）计算：

1.4 损失函数

本文模型运用交叉熵（Cross entropy）作为逐像素（pixel-wise）监督的损失函数Lce，Lce可用式（16）计算：

其中：Yseg和Pseg分别是实际的标签值和预测为正类的概率值。

2 实验结果与分析

2.1 数据集及评价指标

2.1.1 实验数据集

本文将MSAG-TransNet模型与7种主流模型在两个公开的新冠肺炎新型冠状病毒感染CT数据集上进行对比实验。数据集1来源于新冠肺炎新型冠状病毒感染CT肺部感染分割数据集［3］，该数据集由20例新冠肺炎新型冠状病毒感染患者的CT图像以及专家手动勾画的标签图像组成。文件以NifTi格式（*.nii）提供，使用nibabel包读取。CT图像的分辨率为512×512，原始数据的CT图像共有3520个切片。标签图像分为2类，分别是背景和感染区域。将原始数据中CT图像和标签图像转换成Png格式，剔除全阴的样本后剩余1844个切片，将其按病例划分为训练集和测试集，分别包含15、5个病例的切片数据，其中1482个切片用于训练，362个切片用于测试。

数据集2来源于网络公开数据［28］，该数据集由199例新冠肺炎新型冠状病毒感染患者的CT图像以及专家手动勾画的标签图像组成。CT图像的分辨率为512×512，原始数据的CT图像中共有13705个切片。将原始数据中CT图像和标签图像转换成Png格式，剔除全阴的样本后剩余4981个切片，将其按病例划分为训练集及测试集，分别包含160、39個病例的切片数据，其中3985个切片用于训练，996个切片用于测试。

训练中对图像进行随机缩放和长宽的扭曲、翻转图像、改变饱和度和明度等数据增强操作。

2.1.2 评价指标

本文采用Dice系数、精确率、交并比和Hausdorff距离这4个广泛使用的指标对实验结果进行量化评价，其计算公式为：

其中：DSC、Pr、IoU分别表示Dice系数、精确率和交并比；HD表示Hausdorff距离，mm；TP表示预测结果是正类，实际是正类的样例；FP表示预测结果是正类，实际是负类的样例；TN表示预测结果是负类，实际是负类的样例；FN表示预测结果是负类，实际是正类的样例；PB、GB分别表示预测结果和实际标签的边界点集；pB、qB分别表示PB和GB上的像素点的坐标。精确率越高，预测正确的感染区域占所有感染区域的比例越高。Dice系数和交并比指标越高，模型整体分割性能越好。Hausdorff距离越小，预测结果的边界距离和实际标签的边界越近。

2.2 实验配置及参数设置细节

本文模型通过Pytorch工具包在一块NVIDIA GeForce RTX 3060 GPU上进行训练。为了提高运行效率，将训练图片尺寸变为256×256，batchsize设置为2。本文使用SGD优化器进行网络优化，初始学习率设置为1×10-2，动量设置为0.99，权重衰减设置为5×10-5。学习率依据“polyLR”［12］更新，总共经过500轮的迭代训练。其他对比模型除nnU-Net外也按上述同样的方法进行训练，nnU-Net使用其默认的训练策略。本文模型在两个数据集上的训练曲线如图5所示，显示了损失函数值随训练轮数增加的变化情况。

2.3 实验结果分析

2.3.1 消融实验结果分析

为了证实模型中增加的不同模块的有效性，本文进行如下实验：在原始骨干网络的基础上，先后加入MS模块、Trans模块和MAG模块进行对比。实验结果如表1所示。在骨干网络上增加MS模块后，Dice系数、精确率和交并比分别提升了3.24%、5.01%和4.37%，各項指标增幅明显，这表明模型提取了更为丰富的形态特征。继续在模型中加入Trans模块后，精确率提升11.25%，这表明模型检测到了更完整的感染区域。由于模型将图像内更多的点预测为感染区域，精确率虽然大幅提升，但模型同时把更多的背景误分为目标，导致Dice系数和交并比仅提升了0.72%和1.01%。最后引入的MAG模块可以有效抑制无效背景特征，虽然精确率有所下降，但是Dice系数和交并比相较于加入了前两个模块的模型进一步提升了1.23%和1.75%，模型整体表现更佳。这表明了本文所提出的改进设计可以有效提升分割效果。

图6展示了消融实验的分割结果。从图6中可以看出，增加MS模块后得到的分割结果具有更准确的形态细节。继续增加Trans模块后，模型将图像中更多的点预测为感染区域，但是检测到更多感染区域的同时也将更多的背景错误分类。最后增加MAG模块，误分的无关背景得到了有效抑制。该结果进一步表明本文设计的各个模块有效。

2.3.2 分割结果的对比分析

为了进一步验证所提出模型的有效性，本文将其在上述公开数据集上与7种主流模型进行了比较，这些对比模型包括U-Net［8］、Attention U-net［11］、UNETR［13］、nnU-Net［12］、UNet++［10］、TransFuse［15］及BSNet［6］。表2和表3分别显示了以上不同模型在两个数据集上获得的Dice系数、精确率、交并比及Hausdorff距离。

实验结果表明，相较于U-Net，本文模型在两个数据集上的Dice系数分别提升了5.19%和4.84%，精确率提升了7.45%和9.92%，交并比提升了7.13%和6.11%，Hausdorff距离降低了4.1 mm和13.14 mm。相较于第二优的模型，Dice系数分别提升了1.92%和1.63%，交并比提升了2.71%和2.11%，Hausdorff距离降低了0.95 mm和3.85 mm。这表明本文模型在新冠肺炎感染新型冠状病毒感染区域分割的结果更精准。

图7显示了本文模型与其他模型的分割结果。结合图7、表2和表3的评价指标结果可知：

a）U-Net模型采用的U型结构和跳跃连接加强了编解码器之间的信息传递，但其使用单一尺度的卷积进行特征提取，无法充分获取图像信息，导致实验结果的分割精确率不高。

b）利用Attention U-net模型得到的评价指标结果明显优于U-Net，表明注意力门机制的引入可以提升模型分割肺部CT图像中新冠肺炎感染新型冠状病毒感染区域的性能。

c）利用UNETR模型得到的一些分割结果在形态上与实际标签差距大，该模型使用Transformer编码器完全替代卷积编码器，虽然提升了模型学习远程空间依赖性的能力，但是会损失很多局部细节信息。

d）nnU-Net模型使用的网络结构与U-Net一致，在实验中采用其默认的自适应训练方式，利用数据集特性自动设置超参数。由于其没有在本质上解决感染分割任务的问题，该模型得到的评价指标结果相较于U-Net没有提升。

e）TransFuse模型在编码器中以并行方式融合了卷积分支和Transformer分支，整合了全局语义信息和局部特征信息，相较于完全使用Transformer作编码器的UNETR提升了分割性能。由于Transformer的归纳偏置相比于卷积更少，需要大量数据才能得到更好的实验结果。在增加了数据量的第二个数据集上，该模型的精确率高于U-Net等卷积神经网络模型，但模型整体分割效果仍不理想。

f）利用UNet++模型进行实验得到的评价指标优于上述模型，该模型嵌套不同深度的U-Net来提取不同层次特征，并在网络中加入深监督，有效整合不同层次的特征。但该模型检测的感染区域仍然有所缺失，形态细节仍有不足。

g）BSNet模型在精确率上优于其他模型，该模型设计了双分支语义增强模块和镜像对称边界引导模块，对不同高级特征之间的互补关系进行建模，从而能够生成更完整的分割结果。但其误分了更多的背景区域，这使得该模型在其他指标上的表现不如本文提出的模型。

h）本文提出的MS模块可以提取CT图像中感染区域不同尺度的重要空间信息，充分融合多分支信息增强特征提取能力，分割的感染区域形态更接近实际标签。Trans模块对全局语义信息的提取更加准确，且能有效整合局部特征，可以检测出更完整的感染区域。MAG模块通过对特征图的拆分精细分配有用特征信息与无效背景特征的权重，有效抑制肺部无关背景信息。与上述主流方法相比，本文所提出的模型能更准确、更完整地定位和分割肺部CT图像中新冠肺炎感染新型冠状病毒感染区域。

各个模型的每轮平均训练时间及每张切片的平均测试时间如表4所示。每轮训练时间基于数据集1的实验计算。本文模型在数据集1上的每轮训练时长为175.85 s，每张切片的测试时间为0.18 s。虽然训练时间较长，但测试时间与其他模型相差无几，将训练完成的模型移植到计算机智能辅助诊断系统中可以在几乎不影响效率的情况下得到更好的分割结果。

3 结语

为了提升肺部CT图像中新冠肺炎感染新型冠状病毒感染区域的分割性能，本文提出了MSAG-TransNet模型。该模型在U型网络的基础上增加了MS模块、Trans模块和MAG模块。消融实验结果表明，所加的3个模块都能提升模型的评价指标。设计的MS模块有效整合了不同形态感染区域的空间信息，可以有效增强模型的特征抽取能力；Trans模块有效整合了全局位置信息和局部形态特征，可以使模型检测到更完整的新冠肺炎感染新型冠状病毒感染区域；MAG模块可以使模型有效抑制无关背景特征。与7种当前主流的分割模型相比，本文模型的各项算法评价指标更优。因此，本文提出的模型能够有效提升肺部CT图像中新冠肺炎感染新型冠状病毒感染区域的分割性能，更好地辅助医生诊疗肺炎新型冠状病毒感染患者。

参考文献：

［1］World Health Organization. WHO coronavirus（COVID-19） dashboard［EB/OL］. （2023-01-30）［2023-03-03］. https：∥covid19.who.int/.

［2］左斌，李菲菲. 基于注意力機制和Inf-Net的新冠肺炎图像分割方法［J］. 电子科技， 2023， 36（2）： 22-28.

［3］Ma J， Wang Y X， An X L， et al. Toward data-efficient learning： a benchmark for COVID-19 CT lung and infection segmentation［J］. Medical Physics， 2021， 48（3）： 1197-1210.

［4］Zhao W T， Jiang W， Qiu X G. Deep learning for COVID-19 detection based on CT images［J］. Scientific Reports， 2021， 11：14353.

［5］Wu J T， Leung K， Leung G M. Nowcasting and forecasting the potential domestic and international spread of the 2019-nCoV outbreak originating in Wuhan， China： A modelling study［J］. The Lancet， 2020， 395（10225）： 689-697.

［6］Cong R M， Zhang Y M， Yang N， et al. Boundary guided semantic learning for real-time COVID-19 lung infection segmentation system［J］. IEEE Transactions on Consumer Electronics， 2022， 68（4）： 376-386.

［7］彭璟，罗浩宇，赵淦森，等. 深度学习下的医学影像分割算法综述［J］. 计算机工程与应用，2021， 57（3）： 44-57.

［8］Ronneberger O， Fischer P， Brox T. U-Net： Convolutional networks for biomedical image segmentation［C］∥International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham： Springer， 2015： 234-241.

［9］王卓英，童基均，蒋路茸，等. 基于U-Dense-net网络的DSA图像冠状动脉血管分割［J］. 浙江理工大学学报（自然科学版）， 2021， 45（3）： 390-399.

［10］Zhou Z W， Rahman Siddiquee M M， Tajbakhsh N， et al. UNet++： A nested U-Net architecture for medical image segmentation［C］∥International Workshop on Deep Learning in Medical Image Analysis， International Workshop on Multimodal Learning for Clinical Decision Support. Cham： Springer， 2018： 3-11.

［11］Oktay O， Schlemper J， Folgoc L L， et al. Attention U-Net： Learning where to look for the pancreas［EB/OL］. （2018-5-20）［2023-03-03］. https：∥arxiv.org/abs/1804.03999.

［12］Isensee F， Jaeger P F， Kohl S A A， et al. nnU-Net： a self-configuring method for deep learning-based biomedical image segmentation［J］.Nature Methods， 2021， 18（2）： 203-211.

［13］Hatamizadeh A， Tang Y C， Nath V， et al. UNETR： Transformers for 3D medical image segmentation［C］∥2022 IEEE/CVF Winter Conference on Applications of Computer Vision （WACV）. Waikoloa， HI， USA. IEEE， 2022： 1748-1758.

［14］Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need［EB/OL］. （2017-12-06）［2023-03-03］. https：∥arxiv.org/abs/1706.03762.

［15］Zhang Y D， Liu H Y， Hu Q. TransFuse： Fusing transformers and CNNs for medical image segmentation［C］∥International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham： Springer， 2021： 14-24.

［16］Chen J， Wu L L， Zhang J， et al. Deep learning-based model for detecting 2019 novel coronavirus pneumonia on high-resolution computed tomography［J］. Scientific Reports， 2020， 10（1）： 19196.

［17］谢娟英，张凯云. XR-MSF-Unet：新冠肺炎肺部CT图像自动分割模型［J］. 计算机科学与探索，2022， 16（8）： 1850-1864.

［18］顾国浩，龙英文，吉明明. U-Net改进及其在新冠肺炎图像分割的应用［J］. 中国医学物理学杂志，2022， 39（8）： 1041-1048.

［19］宋瑶，刘俊. 改进U-Net的新冠肺炎图像分割方法［J］. 计算机工程与应用，2021， 57（19）： 243-251.

［20］余后强，徐怿璠，徐静蕾，等. 基于PCA的Unet网络用于新冠肺炎CT图像分割［J］. 现代信息科技，2022， 6（20）： 94-97.

［21］姬广海，黄满华，张庆，等. 新型冠状病毒肺炎CT表现及动态变化［J］. 中国医学影像技术，2020， 36（2）： 242-247.

［22］许玉环，吕晓艳，张见增，等. 新型冠状病毒肺炎不同临床分型的CT特征［J］. 中国医学影像学杂志，2020， 28（12）： 887-890.

［23］丁晨宇，秦立新，余辉山，等. 新型冠状病毒肺炎患者的CT表现及动态变化特点［J］. 临床放射学杂志，2021， 40（1）： 55-59.

［24］Woo S， Park J， Lee J Y， et al. CBAM： Convolutional block attention module［C］∥European Conference on Computer Vision. Cham： Springer， 2018： 3-19.

［25］Guo M H， Lu C Z， Hou Q， et al.SegNeXt： Rethinking convolutional attention design for semantic segmentation［EB/OL］. （2022-09-18）［2023-03-03］.https：∥arxiv.org/abs/2209.08575.

［26］Li X， Wang W H， Hu X L， et al. Selective kernel networks［C］∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Long Beach， CA， USA. IEEE， 2020： 510-519.

［27］Dosovitskiy A， Beyer L， Kolesnikov A， et al. An image is worth 16x16 words： Transformers for image recognition at scale［EB/OL］.（2021-06-03）［2023-03-03］. https：∥arxiv.org/abs/2010.11929.

［28］Roth H， Xu Z Y， Tor-Díez C， et al. Rapid artificial intelligence solutions in a pandemic： The COVID-19-20 lung CT lesion segmentation challenge［J］. Medical Image Analysis， 2022， 82： 102605.

（責任编辑：康锋）

收稿日期： 2023-03-03网络出版日期：2023-06-07

基金项目：浙江省自然科学基金项目（LQ21F030019）

作者简介：祝鹏烜（1993- ），男，浙江江山人，硕士研究生，主要从事医学图像分割方面的研究。

通信作者：李旭，E-mail：lixu0103@163.com