基于跨模态空间匹配的多模态肺部肿块分割网络

2022-02-24李家忻陈后金彭亚辉李艳凤

电子与信息学报 2022年1期

李家忻陈后金彭亚辉李艳凤

(北京交通大学电子信息工程学院北京 100044)

1 引言

在多模态任务特别是在多序列(该文称多模态)磁共振图像中，结构性成像呈现目标内部丰富的纹理信息，与之互补的，功能性成像呈现目标与背景的对比度信息，因此多模态学习对于肿块分割任务具有重要意义。然而磁共振成像(Magnetic Resonance Imaging， MRI)扫描时间较长，且结构性成像和功能性成像呈现结构信息存在差异(如T2权重磁共振图像，T2W和扩散权重磁共振图像，DWI)，因此扫描图像通常存在运动伪影、呼吸伪影，以及模态间局部结构信息不一致等问题[1]。对于基于特征融合的多模态肺部肿块分割算法，解决模态间空间结构失配问题是进行多模态特征像素级融合的前提[2]。

现有多模态图像分割算法有两种方式：图像配准与多模态分割两阶段算法和基于跨模态空间匹配的多模态分割算法。第1种多模态图像分割算法，须经过传统图像配准方法如刚性配准[3，4]、FFD非刚性配准[5]进行多模态分割网络输入的预处理。基于多模特征融合的多模态分割网络，早期相关工作主要关注输入图像融合和输出特征图融合[6]。由于输入级融合和输出级融合对多模态特征融合不足，Dolz等人[6]针对脑组织的分割问题，提出特征级融合超密集连接分割网络，将不同层的多模态特征图分别进行通道堆叠，作为下一层卷积网络的输入，以增强对不同尺度多模态特征的融合。基于特征级融合策略，Li等人[7]以残差U-Net作为骨干分割网络，将双路U-Net不同层的多模态特征图进行通道堆叠后，进行下采样进入下一层网络。这种采用特征级多模态融合的U-Net分割网络，在肿块分割任务上取得较好表现。然而以上基于像素强度的图像配准算法存在局部区域误匹配的问题[8]，且图像配准与图像分割两阶段算法配准迭代时间较长[9]。

除了图像配准和多模态分割两阶段算法之外，基于跨模态空间匹配的多模态目标分割算法是另一种策略。对于未配准的多来源输入，通过轮廓模型对两输入的预测分割掩模进行配准[10，11]。在解决心脏多序列磁共振成像中的失配问题时，在两模态的虚拟共同空间中，对多变量混合模型进行分割操作，同时在这个共同空间中进行多模态配准[12]，最终同时完成多模态心脏磁共振图像的配准和分割。在半监督多模态图像分割任务中，DAFNet[13]将不同模态图像解耦出解剖信息和模态信息。利用空间变换网络[14]对解耦出的解剖因子进行空间匹配，在半监督和无监督的情况下，利用对抗训练实现图像重建，最终实现多模态分割目标。这些多模态配准和分割联合算法存在模型复杂度高、配准与分割误差累计、模态重建对图像信噪比要求高等缺点。

针对以上两类现有多模态分割算法的不足，本文提出一种基于跨模态空间匹配的多模态分割网络。采用深度监督学习策略对空间匹配模块、分割模块和特征融合模块进行多损失函数联合约束，具有模型复杂度低、易训练、高分割精度的特点。可以更好地解决T2W和DWI图像肺部肿块区域空间失配的问题，提高多模态特征像素融合准确度，获得更高的肺部肿块分割精度。

章节安排如下：第2节介绍所提出算法的理论和模型结构，以及空间匹配和分割联合训练的算法和过程。第3节介绍实验数据、实验设置以及评价指标。第4节给出实验结果与分析。第5节对所提出算法和实验结果进行总结。

2 方法

现有部分多模态肺部磁共振图像肿块分割须采用模态间配准图像，针对两阶段多模态配准和分割效率较低的问题，提出多模态空间匹配和肺部肿块分割联合神经网络。如图1所示，该网络采用双路残差U型分割网络[15]作为分割主干网络。在分割网络基础上，将参考图像支路和浮动图像支路的分割掩模应用于空间变换网络，对目标肿块区域进行匹配。再将空间变换网络(Spatial Transformer Networks， STN)学习得到的变形场应用于两模态特征图，以获得局部区域匹配的多模态特征图。最后通过特征融合模块对已匹配的多模态特征图进行通道融合和特征提取，得到分割结果。采用多阶段训练和深度监督[16]的学习策略实现空间结构匹配与肿块分割任务的联合训练，对分割模块、空间匹配模块和特征融合模块分别采用不同损失函数进行约束，以高效实现多模态特征融合肿块分割的端到端训练。下面将在3个小节分别介绍模型各模块构成及其训练策略。

图1 多模态空间匹配分割联合训练模型

2.1 训练分割模块

2.2 训练空间变换模块

图2 空间变换网络

2.3 训练特征融合模块

3 实验

3.1 数据集

本文采用肺部磁共振图像实验数据集，获取于广州医科大学第一附属医院。通过飞利浦Achieva 3.0 T核磁共振系统扫描获得包括T2W和DWI等序列图像。实验选择横断面T2W序列和DWI序列图像作为两种模态输入，对多模态肺部肿块分割模型进行训练和测试。同时针对多模态图像分割任务，T2W图像和DWI图像采用相同层坐标系和相同层间距的系统设置进行扫描，以得到空间位置相匹配的T2W-DWI图像对。该数据集由57名患者的355张肺部横断面图像组成，经过肿块边缘手工标记结果的筛选，所有图像均包含直径不小于3 cm的肿块。原始T2W-DWI图像对经过预处理操作，统一为512像素×512像素分辨率和0.94 mm×0.94 mm物理分辨率。为平衡训练效率和计算负载，将T2WDWI图像裁剪为以肿块区域为中心的256像素×256像素分辨率图像。经以上预处理操作后的数据集，按照五折交叉验证分为训练集和测试集。为了克服数据量较小的局限，训练集数据经过翻转、旋转等方法扩增至原有训练集的8倍。

3.2 实验设置

3.3 评价指标

采用4个指标评估分割算法的性能：DSC(Dice Similarity Coefficient)、精确度(Pre)、灵敏度(Sen)和Hausdorff距离(Hausdorff Distance，HD)。DSC表示预测肿块区域和真实手工标记肿块区域的重叠面积相似度。Pre表明像素预测结果准确性。Sen计算所有像素预测正确的比率。Hausdorff距离描述了预测区域和标记区域轮廓的相似度。其定义为其中，A和B分别表示预测肿块分割掩模和真实肿块分割掩模。由于图像分割任务的目标是基于像素的二值分类问题，因此背景像素被分类为0，目标像素被分类为1。因此，HD测量预测的预测肿块分割掩模与真实肿块分割掩模的总距离。为了去除异常值，采用了Hausdorff距离的第95百分位(HD95)。

表1 多阶段训练超参数设置

4 实验结果与分析

4.1 联合模型有效性验证实验

为验证空间结构匹配和分割联合模型的有效性，将所提出的MMSASegNet与该模型的基准分割框架双路残差U型网络(Dual-path Res-UNet)进行消融实验对比。Dual-path Res-UNet没有多模态空间匹配模块以及与分割模块联合训练的训练机制。实验结果如表2所示，加粗字体数字为对比算法在同一评价指标的最佳测试结果。由表2可以看出在DSC指标上，MMSASegNet比Dual-path Res-UNet 提高0.026，性能提高3.14%，标准差降低0.022。在精确度和灵敏度指标上分别比Dual-path Res-UNet提高0.027，0.01，分别提高3.23%，1.16%。Hausdorff距离下降0.18像素，表现提高5.64%。上述结果表明，提出方法中的空间匹配模块和匹配分割联合训练策略具有有效性。

4.2 与其他多模态分割算法对比实验

为与现有多模态分割神经网络进行对比，将特征级融合多模态分割网络HDUNet[7]与图像级融合的单模态U型分割网络[17]分别在相同测试集上进行实验。同时为了对比本文提出的MMSASegNet采用STN空间匹配模块对其分割模型分割性能的影响，将测试集图像经过传统非刚性配准方法进行跨模态配准，得到配准后图像作为以上两个对比方法的测试数据，表3这两组采用已配准图像的实验被记为HDUNet with registration， Image-fusion Res-UNet with registration。另外与1阶段跨模态配准和多模态分割算法DAFNet进行对比。测试集数据上各方法的分割结果如表3所示，各个评价指标下的最佳结果用加粗字体表示。可以看出，对于T2W-DWI多模态图像对数据集，HDUNet采用传统非刚性配准方法进行配准后的测试数据，DSC下降0.012(1.45%)，精确度下降0.037(4.46%)，灵敏度上升0.021(2.41%)，HD95增大0.81像素(4.47%)。对于Image-fusion Res-UNet，采用传统非刚性配准数据后，DSC提高0.012(1.55%)，精确度提高0.025(3.11%)，灵敏度下降0.003(0.37%)，HD95下降0.22像素(1.12%)。以上实验结果与4.1节的消融实验结果对比表明，传统非刚性配准方法在T2WDWI图像对数据上不能很好地进行肿块区域的空间匹配，导致较差的模型分割性能。本文提出的MMSASegNet与以上5组实验结果相比，各项评价指标有明显提升，取得平均值最大、标准差最小的DSC和最小的95% Hausdorff距离。在Hausdorff距离上，基于像素级融合的HDUNet模型和基于图像级融合的Res-UNet模型，都对肿块区域的轮廓相似度更加敏感，且在网络正向传播过程中，肿块区域轮廓的差异会不断积累，导致MMSASegNet取得远低于4个对比实验的95%Hausdorff距离，低HD95表明该模型的肿块预测边缘与真实肿块轮廓距离的最大偏离值最小，预测分割轮廓整体与真实肿块轮廓相似度更高。另一种1阶段跨模态配准与多模态分割算法DAFNet，在测试集上取得较差分割结果，主要原因是其基于结构信息和模态信息的解耦与重建，其解耦和重建效果直接影响分割与空间匹配的效果。而此数据集中DWI模态图像分辨率较低，信噪比较低，解耦和重建效果较差。在模型复杂度方面，与两阶段配准分割算法采用传统配准方法，与采用神经网络的1阶段算法模型复杂度可比性不高，在表3中以横线表示，不参与比较。与DAFNet相比，MMSASegNet参数量几乎相同，训练时间大幅减少，测试时间更短。与另外两种多模态分割方法相比，MMSASegNet参数量更多，训练时间略长，但测试时间更短，且取得更好的分割精度。以上实验证明，本文提出MMSASegNet以较低的模型复杂度，可以实现较高的分割精度。

表3 对比实验在测试集的测试结果（即五折交叉验证结果的平均值）

对比方法在测试集分割性能定性分析结果如图3所示，每一行代表一组测试集图像及其分割掩模。红色区域表示预测肿块分割结果和人工标记肿块分割结果。从3组不同肿块特点图像分割结果可以看出，多模态空间匹配和分割联合模型在T2W模态图像上分割肺部肿块轮廓，可以取得更好的性能表现。在第1行图像肿块分割结果中，图3(d)、图3(e)列基于多路残差U型网络，预测分割结果存在假阳性区域，如图中黄色方框所示。如图中图3(f)、图3(g)列黄色方框所示，HDUNet在配准多模态图像和未配准多模态图像上，分割预测结果存在假阴性像素。如图3(i)列第3行黄色方框所示，Imagefusion Res-UNet在胸腔边缘预测出假阳性像素。从图3的肿块分割定性分析可以看出，MMSASegNet的肿块分割结果，与人工标记肿块区域的面积重合度最高，轮廓相似度最高，对假阳性像素和假阴性像素取得最平衡的抑制效果。

图3 肺部肿块分割结果定性分析

5 结束语

本文网络采用多阶段训练和深度监督学习策略，对多模态肿块区域空间匹配与多模态肿块融合、分割进行有效训练，以较低的模型复杂度，获得更高的肺部肿块分割精度。实验结果证明，与现有其他多模态目标分割网络相比，本文方法在肺部肿块测试集上分割精度更高，对于两模态肿块区域结构差异较大的图像对，可以取得更好的肿块区域空间匹配结果，因而获得更好的多模态特征图融合结果，取得面积重合度最高，轮廓差异度最低的肿块分割结果。本文算法对于多损失函数的损失权重需要经验获得，后续将探索空间匹配和分割模块的影响机制，以自适应分配损失权重，优化多目标训练效率。