基于模态交互学习的多源心脏图像分割方法研究

2024-05-20钟乔鑫赵毅忠张飞燕陆雪松

磁共振成像 2024年4期

钟乔鑫，赵毅忠，张飞燕，陆雪松

作者单位中南民族大学生物医学工程学院，武汉 430074

0 引言

心血管疾病是全球范围内的重要健康问题，早期的诊断和治疗对于降低致死率有极大的帮助。MRI技术为心脏的解剖和功能成像提供了一种重要的途径[1]。例如，心脏磁共振（cardiac magnetic resonance, CMR）的平衡稳态自由进动（balanced-steady state free precession, bSSFP）序列能够清晰地捕捉到心脏运动和各子结构的边界[2]，晚期钆增强（late gadolinium enhancement, LGE）序列能够显示出心肌的梗死区域[3]，T2WI 序列能够显示急性损伤和缺血区域。通常可通过这些多模态CMR 图像的分割计算一些参数指标，定量评估患者的心脏功能，实现心血管病的精准诊疗。

临床上依靠人工对CMR 图像中的目标手动分割极其耗时，工作效率低下，分割结果因人而异，可重复性差[4]。因此，计算机半自动或全自动分割方法一直是医学图像处理的研究热点之一[5]。然而，多模态CMR 图像中固有的限制给分割带来挑战：（1）个体间心脏的形状、大小和位置差异较大；（2）由于噪声和病灶的原因，心脏各子结构的边界不太明显；（3）各模态间图像存在灰度不一致现象[6]。

目前，基于深度学习的方法在医学图像分割领域占据领先地位[7]。ZHOU 等[8]重新设计U 型网络框架的跳跃连接借助卷积神经网络（convolutional neural networks, CNN）提出一种新的架构UNet++用于语义和实例分割。ISENSEE等提出一种nnUNet分割方法，它无需人工干预，能够对新任务的数据预处理、网络架构、训练和后处理进行参数自动配置[9]。有研究首次采用ViT（vision transformer）[10]替换U-Net的瓶颈层，提升了腹部和心脏图像的分割精度[11]。还有研究利用Swin Transformer[12]作为基本单元构建U 型网络的编码器和解码器，分割实验结果表明这种纯Transformer 网络结构优于CNN 与Transformer 相结合的混合结构[13]。HUANG等[14]利用卷积操作构造一个前馈网络，以此替换经典Transformer 中的多层感知器（multi-layer perceptron, MLP），有效地获取长距离依赖和局部上下文用于医学图像分割。

对于多模态图像分割，大多数深度学习方法都是针对每种模态分别构建网络模型完成任务，没有利用模态间共有的信息。CHEN等[15]将多序列脑部MRI图像配准到同一空间，以通道的形式输入到残差网络实施分割。LI等[16]将已对齐的多模态MRI图像送入多尺度上下文全卷积网络（fully convolutional network,FCN），实现椎间盘的定位和分割。MORRIS等[17]利用良好的软组织对比MRI，通过3D U-Net 完成放疗中平扫CT 心脏子结构的分割。DOLZ 等[18]首先为每类模态图像单独构建网络通路进行特征学习，然后在语义层实施模态融合完成脑部组织的分割任务。WANG 等[19]提出一种Conjugate FCN 框架执行腹部多器官分割，它从多模态图像中提取成对样本进行学习，借助融合模块实现信息互补。尽管这些方法通过不同的融合策略实现了模态间的信息共享，但是它们在预处理阶段大都需要配准操作。配准是一种常用的技术，它将来自不同成像设备或成像时间点的多个图像对齐到统一坐标系中，这对于结合不同模态图像的互补信息进行精确的组织分割特别重要。配准使得来自不同模态的图像能够在相同的空间坐标系下进行分析，从而可以结合不同模态图像的互补信息，提高分割的准确度[15]。但是配准过程可能会引入误差，特别是当图像之间的变形较大时，或者图像质量不佳时，配准的精确度可能会降低[6]。多模态图像配准通常计算量大，需要较高的计算资源和时间[17]。不同模态图像的对比度可能差异很大，这可能会对配准精度和随后的分割任务产生负面影响[19]。

最近，一些研究者构建能够学习跨模态知识的深度网络分割未配准多模态图像。VALINDRIA等[20]研究和展示了利用双流网络进行未配准CT 和MRI交互学习的优势。DOU 等[21]提出一种紧凑的网络模型用于未配准多模态图像分割，其中内部激活层对于每个模态单独归一化。类似地，ZHOU 等[22]采用非线性形变增广图像数据，然后送入一个具有双归一化层的网络模型，从而处理多模态图像域自适应学习的问题。YANG 等[23]设计一个外部注意模块去学习模态间的结构语义一致性，该模块被嵌入到以Transformer 为基本单元的U 型网络实施未配准多模态图像分割。CHEN 等[24]利用跨模态一致性在解剖和语义空间约束深度网络模型，从而完成未配准CT和MRI的半监督分割。

在多模态CMR 图像分割挑战中，已有的分割方法大都需要配准预处理。针对这一问题，本文拟采用Swin Transformer 与CNN[25]相结合的方法，构建双流网络交替输入未配准CMR 图像，在模态共享的基础上完成分割[26]。这种双流U 型网络框架为CMR 图像的多模态分割提供了一种有效方法，通过在多模态信息的交互补充和共享特征的优化方面取得了显著成果，而在共享层引入的Swin Transformer模块，与简单的卷积操作相比，能够更有效地捕捉长距离依赖关系，利用全局特征更好地处理了个体间心脏的形状、大小和位置的显著差异。这一技术突破为心脏疾病的诊断和治疗提供了新的可能性，有望帮助医生更准确地识别心脏病变并提供个性化的治疗方案。

1 材料与方法

1.1 双流网络模型的构建

本文提出了一种名为双流Transformer UNet（Double Stream Transformer UNet, DSTUNet）的网络架构（图1），旨在有效地从两种模态的未配准图像中进行特征学习完成分割任务。未配准的多模态数据之间缺乏对应关系，因此在传统的编解码器架构中难以找到跨模态的相关性。为了充分利用不同模态之间的共性，DSTUNet采用编码器-共享层-解码器的流程，通过共享层连接不同模态的编码器和解码器。具体而言，在编码阶段，各模态图像被交替地送入各自分支实施编码，接着所获取的特征图都流入共享层，最后共享特征分开流出到各自分支实施编码。

图1 双流网络结构。Fig.1 Dual-stream network structure.

编码器由编码块组成，每个编码块包含卷积单元（Conv Unit）和步幅卷积（Strided Conv）[27]。如图2A 所示，卷积单元由2D 卷积（Conv）、批量归一化（batch normalization, BN）和激活函数（ReLU）构成[28]。特征图经过步幅卷积后，尺寸减半，通道数翻倍。所有卷积层的步长为1，填充大小为1，内核大小为3×3，步幅卷积的内核大小不变，步长为2。

图2 编码器与解码器基本单元结构。2A 为卷积单元结构；2B 为上采样单元结构。Fig.2 Basic unit structures of the encoder and decoder.2A represents the structure of the convolutional unit; 2B represents the structure of the upsampling unit.

共享层的主要作用是在多模态数据中实现信息的共享与交互，从而更好地学习到模态之间的共性信息，有助于提高模型的性能和泛化能力。本文提出的双流网络中，采用二维的Swin Transformer 模块作为共享层。该模块具备强大的全局建模能力，能够有效地捕捉多模态之间的相似性和联系[29]。Swin Transformer 模块结构如图3 所示，包括层归一化（layer normalization, LN）[30]，窗口多头自注意力（window multi head self attention, W-MSA）[31]，滑动窗口多头注意力（shift window multi head self attention, SW-MSA）和多层感知机（multi-layer perception, MLP）层[32]。整体计算过程见式（1）～（4）。

图3 Swin Transformer模块结构。LN：归一化层；W-MSA：窗口多头自注意力；SW-MSA：滑动窗口多头注意力；MLP：多层感知机。Fig.3 Swin Transformer module structure.LN: layer normalization;W-MSA: window multi head self attention; SW-MSA: shift window multi head self attention; MLP: multi-layer perceptron.

W-MSA 和SW-MSA 分别表示使用常规和移位窗口的多头自注意力。假设每个窗口包含M×M 块，多头注意力的计算方法见式（5）。

其中，Q、K、V称为查询向量、键向量、值向量，且Q,K,V∈RM2×d。d为Q、K的维度。B称为相对位置偏置也称为偏置矩阵，用于标记窗口内token 的相对位置关系[33]，且B∈RM2。

解码器的主要作用是重建特征和恢复分辨率[34]。如图2B 所示，其结构包括上采样（Upsampling）和跳跃连接。上采样将低分辨率的特征图放大，与下采样特征图融合[35]。跳跃连接整合浅层和深层特征信息，提高分割准确性和稳定性[36]。然后，恢复原始分辨率的输出经过Softmax 层产生概率标签映射，最后计算每个类别的最高Softmax 概率得到最终分割结果[37]。

1.2 验证实验

1.2.1 实验数据集

实验所用数据来自2019 年多序列CMR 分割挑战赛（MS-CMR 2019）的公开数据集[6,38]（https://zmiclab.github.io/zxh/0/mscmrseg19/index.html）。它包含了45 例心肌病患者三种模态（bSSFP、LGE 与T2WI）的CMR图像数据，采用的数据集遵守《赫尔辛基宣言》。bSSFP CMR 图像由8～12 个连续的心脏切片构成，这些切片覆盖了从二尖瓣环至心室基底部的整个心室区域，其典型成像参数如下：TR 2.7 ms，TE 1.4 ms，层厚8～13 mm，面内分辨率重采样为1 mm×1 mm。LGE CMR 图像是一种T1 加权、反转恢复、梯度回波成像序列，由10～18个切片构成，覆盖心室主体，其典型参数如下：TR 3.6 mm，TE 1.8 ms，层厚5 mm，面内分辨率重采样为1 mm×1 mm。T2WI CMR是一种T2加权的黑血谱预饱和衰减反转恢复序列，包含较少切片，其典型参数如下：TR 2000 ms，TE 90 ms，层厚12～20 mm；面内分辨率重采样为1 mm×1 mm。数据中左心室（left ventricle, LV）、右心室（right ventricle, RV）和左心室心肌（left ventricle muscle,LVM）结构已被专业医师人工勾画，被视为ground truth。

针对心脏部位分割任务，将这组数据45 个病例按照3∶1∶1 的比例进行训练集、验证集和测试集划分，采用5-折交叉验证的方法进行模型训练和评估[39]。为了提高模型的训练速度和提高模型的表现能力，所有图片被中心裁剪为224×224 大小，像素值被归一化为零均值和单位方差。

1.2.2 实验环境

实验环境包括软件和硬件两个方面，其参数配置见表1。

表1 实验环境Tab.1 Experimental environment

1.2.3 训练优化与损失函数

不同模态的数据具有不同的特征表示和信息表达方式，本文采用交替的方式输入两种模态的CMR图像进行网络训练。即在当前迭代中某模态图像流经ENCODER0，Shared Block，DECODER0。在下一次迭代中另一模态图像流经ENCODER1、Shared Block、DECODER1。训练过程中的每次迭代各模态图像都要流过共享层Shared Block。在测试阶段，测试图像通过属于该模态的网络分支即可推断分割结果。

在神经网络的学习过程中，反向传播算法是一种常用的优化方法，损失函数是反向传播算法中的核心部分，它用来衡量神经网络的预测值与真实值之间的差距，差距越小损失越小[40]。在训练过程中，通过反向传播算法不断优化模型，使得损失函数的值不断减小，最终达到最优结果[41]。常用的损失函数是交叉熵损失函数，多分类的交叉熵损失函数的计算公式见式（6）。

其中，M表示分类类别的数量；yic表示样本i的标签，若属于类别c则为1，否则取0；pic表示样本i属于类别c的概率。

医学图像分割中常用的损失函数是Dice-loss 损失函数，Dice-loss 计算公式见式（7），D的值越接近0说明模型的预测效果越好[42]。

其中，|A∩B|表示A和B的交集，|A|和|B|分别表示A和B的元素个数。

在图像分割任务中，由于不同类别像素的数量分布不均，常常会出现类别不平衡的问题。为了解决这个问题，可以采用结合交叉熵和Dice-loss 的损失函数[43]。本文使用的损失函数如公式（8）所示，其中，交叉熵部分用于衡量预测值与真实值之间的差距，而Dice-loss 部分用于衡量预测值与真实值之间的相似度[44]。交叉熵损失函数能够有效地处理类别不平衡问题，而Dice-loss 能够更好地衡量目标分割的精度[45]。因此，结合两种损失函数能够更好地平衡分割模型的精度和鲁棒性，提高模型的性能。

其中，α∈(0, 1)，在本文中，α的值为0.5。

1.2.4 对比实验

为了验证本文中双流网络模型的优越性，本文使用了UNet[27]方法与Swin-Unet[13]方法与本文方法进行对比。使用UNet 方法训练时，最大迭代轮数设置为200，批大小设置为4，使用SGD 优化器进行优化，并将初始学习率设置为1e-3。使用Swin-Unet 方法训练时，加载了patch_size为4，window_size为7的预训练模型，最大迭代轮数设置为200，批大小设置为4，使用SGD 优化器进行优化，并将初始学习率设置为1e-3。使用本文方法训练时，最大迭代轮数设置为10 000，批大小设置为2，使用SGD 优化器进行优化，并将初始学习率设置为1e-3。

1.2.5 消融实验

为了验证本文所加模块的有效性，本文将未加Transformer 模块的方法，即双流UNet（Double Stream UNet，DSUNet）与DSTUNet 方法进行了消融实验。进行消融实验时，最大迭代轮数设置为10 000，批大小设置为2，使用SGD 优化器进行优化，并将初始学习率设置为1e-3。

1.2.6 实验评价指标

为了评估分割算法的性能，本文使用了两个度量指标，其中包括Dice 系数[46]、最大表面距离（max surface distance, MSD）[47]。假设VA表示预测分割结果中的体素，VB表示ground truth 中的体素，得出公式（9）。

假设SA表示预测分割结果所构成的面，SB表示ground truth所构成的面，则有公式（10）。

d(SB,SA)表示SA中的某点到SB的最近欧式距离。Dice=0 表示两种分割没有重叠，Dice=1 表示两种分割完全一致。Dice 越大表明分割质量越好。相反地，MSD越小，表明分割质量越高。

1.2.7 统计学分析

为了评估两组数据间的差异是否具有统计学意义，本研究采用了Wilcoxon 符号秩检验。所有的统计分析均通过Python 编程语言（版本3.7）中的SciPy库（版本1.7.3）实现，使用了scipy.stats.wilcoxon 函数来执行检验。由于样本数据不满足正态分布的假设，且样本量较小（n=45），此非参数检验方法适合用于对成对样本的差值进行分析[48]，P＜0.05 认为差异具有统计学意义。

2 结果

2.1 bSSFP模态与LGE模态交互训练实验结果

为了验证本文方法在bSSFP 模态与LGE 模态交互训练中的有效性，我们将其与UNet、Swin-Unet 方法的测试结果进行了对比。在bSSFP 模态的CMR图像分割中，DSTUNet 相较于UNet 与Swin-Unet 的Dice 平均值均有显著提升（P＜0.001）。在LGE 模态的CMR 图像分割中，DSTUNet 相较于Unet 的Dice平均值有显著提升（P＜0.001），对比Swin-Unet 的Dice 平均值有所提升（P=0.001）。在消融实验中，与DSUNet 方法相比，bSSFP 模态的Dice 平均值提升并不明显（P=0.269），LGE模态的 Dice平均值有所提升（P=0.021）（表2）。这说明DSTUNet性能的提升可能主要是由于双流结构促进了两种模态的交互。此外，我们绘制了箱线图可视化LVM、LV和RV三个结构分割的Dice 结果的分布情况（图4）。在bSSFP 模态的CMR 图像分割中，DSTUNet 较UNet 与Swin-Unet，LVM 的Dice 平均值均显著提升（P＜0.001）（图4A）。DSTUNet 与DSUNet 相比，在LGE 模态的CMR 图像分割中，LVM 的Dice 平均值差异无统计学意义（P＞0.05）（图4B）。

表2 不同网络结构在bSSFP和LGE两种模态下的所有结构Dice系数平均值及MSD平均值Tab.2 The average Dice coefficient and average MSD of different network structures in the bSSFP and LGE modalities

图4 bSSFP 与LGE 模态分割Dice 值箱线图。4A：bSSFP 模态在不同网络下对不同结构的分割Dice 值箱线图；4B：LGE 模态在不同网络下对不同结构的分割Dice 值箱线图。*表示P＜0.05；**表示P＜0.001。LVM：左心室肌；LV：左心室；RV：右心室；bSSFP：平衡稳态自由进动；LGE：晚期钆增强。Fig.4 Boxplot of Dice values for segmentation of bSSFP and LGE modalities.4A: Boxplot of Dice values for segmentation of different structures using bSSFP modality across different networks; 4B: Boxplot of Dice values for segmentation of different structures using LGE modality across different networks.* represents P＜0.05; ** represents P＜0.001.LVM:left ventricular myocardium; LV: left ventricle; RV: right ventricle; bSSFP:balanced-steady state free precession; LGE: late gadolinium enhancement.

2.2 bSSFP模态与T2WI模态交互训练实验结果

为了验证本文方法在bSSFP模态与T2WI模态交互训练中的有效性，我们将其与UNet、Swin-Unet方法的测试结果进行了对比。在bSSFP模态的CMR图像分割中，相较于UNet、Swin-Unet 以及消融实验中的DSUNet 方法，Dice 平均值均有显著提升（P＜0.001）。在T2WI 模态的CMR 图像分割中，DSTUNet 相较UNet 的Dice 平均值有显著提升（P＜0.001），而对比Swin-Unet 的Dice 平均值有提升（P=0.025）（表3）。这说明DSTUNet 性能的提升可能主要是由于Swin Transformer 作为共享层提取全局特征进行交互训练。此外，我们绘制了箱线图可视化LVM、LV 和RV三个结构分割的Dice 结果的分布情况（图5）。在bSSFP 模态的CMR 图像分割中，DSTUNet 相较于UNet 与Swin-Unet，LVM 与LV 的Dice 平均值均显著提升（P＜0.001），并且与DSUNet 相比，LVM 与RV 的Dice 平均值显著提升（P＜0.001），LV 的Dice 平均值也有提升（P=0.004）（图5A）。在T2WI 模态的CMR图像分割中，DSTUNet 相较于UNet，LVM 与RV 的Dice 平均值显著提升（P＜0.001），与DSUNet 相比，RV的Dice平均值有提升（P=0.007）（图5B）。

表3 不同网络结构在bSSFP和T2WI两种模态下的所有结构Dice系数平均值及MSD平均值Tab.3 The average Dice coefficient and average MSD of different network structures in the bSSFP and T2WI modalities

图5 bSSFP 与T2WI 模态分割Dice 值箱线图。5A：bSSFP 模态在不同网络下对不同结构的分割Dice 值箱线图；5B：T2WI 模态在不同网络下对不同结构的分割Dice 值箱线图。*表示P＜0.05；**表示P＜0.001。LVM：左心室肌；LV：左心室；RV：右心室；bSSFP：平衡稳态自由进动。Fig.5 Box-and-whisker plots of Dice values for segmentation with bSSFP and T2WI modalities.5A: Boxplot of Dice values for segmentation of different structures using bSSFP modality across different networks; 5B:Boxplot of Dice values for segmentation of different structures using T2WI modality across different networks.* represents P＜0.05; ** represents P＜0.001.LVM: left ventricular myocardium; LV: left ventricle; RV: right ventricle; bSSFP: balanced-steady state free precession.

3 讨论

本研究提出了一种双流方式结合Swin Transformer的U型网络进行交互训练和学习的深度学习架构，针对CMR 图像的多模态分割问题进行了探索性分析。通过实验验证，我们发现模型在Dice 指标上取得了显著提升。本研究的主要创新之处在于无需进行配准预处理的情况下使用双流网络进行交互训练与学习，在共享层中让两种模态的信息进行交互，缓解了各模态间图像存在灰度不一致现象的问题，有效融合多模态CMR 图像的信息，并且共享层使用Swin Transformer 模块，相较于单纯的卷积操作能更好地捕捉长距离依赖关系，利用提取的全局特征有效地处理个体间心脏的形状、大小和位置差异较大的问题，这在之前的研究中是未被提及的。临床上，本模型的应用有望减少放射科医生在心脏图像分割中的主观性和不确定性，提供更准确的心脏病变评估和诊断，为临床决策提供辅助。

3.1 与现有研究对比

传统的UNet 模型结构简明，可以在有限的标注数据上取得较好的性能，但是由于使用传统的卷积操作，对于全局的图像特征提取能力有限[27]。最新的Swin-Unet 模型是基于Transformer 的架构，通过自注意力机制能够捕捉更丰富的全局信息，相比传统卷积网络，Swin Transformer 能够根据任务动态调整感受野，但是处理多模态的数据时需要配准预处理才能使多模态数据的特征共享[49]。本文模型可以通过双流的网络方式有效的处理多模态的信息，在编码器阶段使用卷积提取局部特征，然后在共享层使用Swin Transformer 提取全局特征进行交互训练与学习，可以更好地提取多模态数据中的全局与局部特征[50]。本文通过对比传统的UNet 模型，以及对比最新的Swin-Unet 模型验证无需进行配准预处理的情况下双流模型以及共享层对多模态信息交互的有效性。然后通过消融实验与DSUNet 进行对比来验证共享层使用Swin Transformer 的全局建模能力的在多模态分割中的有效性。

3.2 结果分析

本研究认为性能提升主要得益于双流U 型网络结构的设计理念，该结构通过共享层，有效促进了不同模态间特征的交互与互补。CHEN 等[15]通过将多序列脑部MR图像配准至同一坐标空间，并将其作为输入通道输入残差网络进行分割，证明了多模态分割在各个单独模态分割任务中均能提高Dice 系数，从而验证了该方法的有效性。MORRIS 等[17]利用MRI 中良好的软组织对比度，并通过3D U-Net 实现了放疗用平扫CT 中心脏子结构的分割，同样证明了在CT 心脏子结构分割任务中Dice系数的提升，进一步验证了该方法的有效性。在无需图像配准的前提下，本研究分别在bSSFP 和LGE 模态以及bSSFP 和T2WI 模态的对比实验中，均发现本文提出的模型相较于传统的单流模型UNet 和Swin-Unet，在Dice 系数上取得了显著的提升。这一结果表明通过双流网络进行交互式训练可以在无需配准操作的情况下有效地促进不同模态信息的互补，并融合多模态CMR图像的信息。在与DSUNet模型的对比实验中，本研究的模型在bSSFP和LGE模态的交互训练中，在LGE模态的Dice系数上相较于DSUNet模型实现了显著的提升；在bSSFP和T2WI模态的交互训练中，本研究的模型在bSSFP模态的Dice系数上也相较于DSUNet模型取得了显著提升。这些结果指出，相较于传统的卷积操作，共享层中使用的Swin Transformer 模块能更有效地捕捉长距离依赖关系，并利用提取的全局特征来有效处理个体间心脏的形状、大小和位置的显著差异。

3.3 研究的局限性与未来方向

尽管本研究取得了一定的成果，但也存在局限性。首先，性能提升可能受到数据集特性的影响，在LGE 图像中，心脏组织的病变特征具有较大差异性，斑块与纤维化组织的存在可能增加了分割任务的难度，进而影响了Dice 系数的稳定性。LGE 模态在不同网络下对不同结构的分割Dice 值中异常值的增加便是这一现象的体现。其次，模型的泛化能力仍需在更多和更多样化的数据集上进行验证。未来的研究可以探索将本框架应用于其他类型的多模态医学图像分割，使模型能够适应更多的场景。其次，注意力机制可以动态地为每个输入位置赋予不同的权重，使模型更加关注与当前预测有关的信息[51]，可以在网络中加入注意力机制，更好地捕捉输入序列之间的相关性，进一步提升模型的泛化能力[52]。

4 结论

本文将Swin Transformer 与U 型网络相结合应用到CMR分割任务中，能够更好地利用CNN局部特征和全局上下文信息，提高分割精度，为医生提供更准确的心脏解剖结构信息，有助于更精准地诊断和治疗心脏疾病，指导治疗方案的选择和调整。

作者利益冲突声明：全体作者均声明无利益冲突。

作者贡献声明：陆雪松采集并分析和解释了数据，对文章重要内容进行了修改；钟乔鑫起草和撰写了稿件，参与酝酿、设计实验，实施研究和分析解释数据；赵毅忠、张飞燕参与获取、分析与解释本研究数据，并对文章重要内容进行了修改。陆雪松获得国家自然科学基金项目与湖北自然科学基金项目资助。全体作者都同意发表最后的修改稿，同意对本研究的所有方面负责，确保本研究的准确性和诚信。