基于同一特征空间的多模态脑肿瘤分割方法

2020-08-06秦志光

计算机应用 2020年7期

陈浩，秦志光，丁熠

（电子科技大学信息与软件工程学院，成都610054）（*通信作者电子邮箱qinzg@uestc.edu.cn）

0 引言

脑胶质瘤是最常见的原发性脑肿瘤，具有很强的侵略性和很高的致死率。根据世界卫生组织（World Health Organization，WHO）的脑肿瘤分级制度，可以将脑肿瘤分为四级，其中一、二级肿瘤被称为低级别肿瘤，三、四级肿瘤被称为高级别肿瘤。高级别肿瘤患者平均寿命往往只有两年。因此，早发现、早治疗往往能够大幅提高病人寿命。在临床中，核磁共振成像（Magnetic Resonance Imaging，MRI）技术是最常用的脑肿瘤诊断技术。目前，四种MRI 成像技术经常用于实际临床诊断上，分别是T1加权成像（T1-weighted MRI，T1）、钆增强对比的T1 加权（T1-weighted MRI with gadolinium enhancing contrast，T1c）、T2 加权成像（T2-weighted MRI，T2）和液体衰减反转恢复的T2 加权成像（T2-weighted MRI with FLuid-Attenuated Inversion Recovery，FLAIR）。由于病人MRI图像数量巨大，医生手动标注脑肿瘤耗时且效率低下，因此基于机器学习的自动脑肿瘤分割在辅助医生诊断、手术规划及术后恢复效果评估等方面具有巨大的作用。

近年来，许多基于机器学习的半自动化或自动化方法被用于脑肿瘤分割，这些方法往往基于聚类［1-4］、图模型［5-8］以及随机森林［9-11］等学习模型。但这些方法所依赖的特征常常是人工设计的特征。随着深度学习在图像、音频及自然语言等很多领域取得一系列的成功，深度神经网络也广泛应用在脑肿瘤分割上。文献［12］采用小的卷积核及减少下采样层构建了较深的卷积神经网络来分割脑肿瘤；在此基础上，文献［13-16］采用了多尺度卷积神经网络来实现脑肿瘤分割。此外基于U 型网络（U-Net）［17］、全卷积网络（Fully Convolutional Network，FCN）［18-19］及对抗生成网络（Generative Adversarial Network，GAN）［20-21］等网络结构的脑肿瘤分割算法也被广泛应用。这些算法的训练及测试都是基于四种模态的脑肿瘤影像，也就是将输入的四种模态数据经过多层卷积及非线性激活函数映射到一个特征空间中，并利用提取到的特征完成脑肿瘤的分割，但在实际中，若缺少一种或多种模态数据时，会导致训练好的网络无法正确提取特征，从而导致无法正确分割脑肿瘤，一种解决方式就是在训练时候随机选取多种模态的数据，但这会增加训练时间。因此，本文提出了一种新的方法，就是将每一模态的图像经过同一个神经网络映射到同一个特征空间中，并将多个模态的特征结合起来进行脑肿瘤分割。

本文详细讨论了基于同一空间的多模态脑肿瘤分割方法在脑肿瘤分割上的表现，并讨论了在数据缺失及增加的情况下，常规多模态分割方法及本文方法在脑肿瘤分割上的表现。此外，本文详细讨论了常规多模态分割算法及本文方法使用随机选择模态的训练方法的结果表现。

1 相关工作

深度学习目前已广泛应用在脑肿瘤分割上，其中最常用的网络为深度卷积神经网络。基于深度卷积神经网络的分割方法根据输入及输出方式，可以分为两类：一类是基于块的脑肿瘤分割；另一类是端对端的脑肿瘤分割。图1 展示了目前常用的基于深度卷积神经网络多模态脑肿瘤分割方法的基本框架，在基于块的脑肿瘤分割方法中，网路的输入是以滑动窗口方式从图像中选取的固定大小的块，然后使用多层卷积层获取图像块的特征，并利用该特征分类该像素块中心点的类别；端到端的脑肿瘤分割方法则是采用编码-解码的方式，输入是整幅图像或图像块，经过卷积层编码提取特征，然后通过解卷积层或卷积层进行解码，最终获得整幅图像或图像块中每个像素点的类别概率。文献［12］提出了一个单尺度的二维卷积神经网络实现了基于块的脑肿瘤分割。但是单尺度特征并不能很好地表示不同的脑肿瘤组织，因此文献［13-16］提出了使用不同大小的块及采用不同大小的卷积核来获取多尺度特征，并将多尺度特征联合起来对中心像素点进行分类。上述方法都是基于二维的块，虽然可以减少大量的显存占用，但是二维块缺乏图像之间的上下文信息，因此文献［22］提出了三维多尺度卷积神经网络来提取三维体素的多尺度特征。虽然基于块的脑肿瘤分割方法占用显存较少，但是由于滑动窗口的原因，导致存在大量的重复计算，耗时较高。不过基于块的方法可以通过平衡不同肿瘤组织块及正常脑组织块的数量，极大减轻数据不均衡问题。

不同于基于块的脑肿瘤分割方法，端到端的脑肿瘤分割方法则是将整幅图片或部分图片作为输入，输出同样大小的概率图。端到端的脑肿瘤分割方法主要基于FCN、U-Net 及GAN 等网络。输入图像通过多层卷积层来获取不同尺度的特征，然后网络利用上采样或者双线性插值的方法来获取每个像素点的特征，并利用这些特征获取像素点的类别概率。文献［17-19］给出了基于FCN 或U-Net 网络的脑肿瘤分割方法。文献［20-21］提出了基于GAN 的脑肿瘤分割方法，其中前一个利用GAN 生成多种虚拟的脑肿瘤图像作为一种数据增强方法，后一个直接利用GAN 生成多个分割结果。类似于基于块的多尺度方法，文献［23-24］提出了多层次方法。在端到端的分割网络中，低层卷积层获取的特征往往是低级特征且对应的输入图像区域较小，高层卷积层获取的特征往往是高级特征且对应较大的输入图像区域，因此，多层次方法是将低级特征同高级特征结合起来，从而得到更丰富的特征来分割脑肿瘤。相较于基于块的分割方法，端到端的分割方法更加方便快捷，但端到端的方法易受数据不均衡问题的困扰。

不论是端到端的多模态脑肿瘤分割方法还是基于块的多模态脑肿瘤分割方法，这些方法都是将多模态的脑肿瘤影像联合起来提取特征，若存在一个或多个模态缺失，将导致网络无法正确提取特征。

2 网络模型

本文提出的多模态分割方法不同于常用的多模态分割方法，本文是利用卷积神经网络的特征提取能力，采用相同的神经网络单独获取不同模态数据的特征，并将不同模态在同一特征空间下的特征结合起来用于分割脑肿瘤。因此，本文提出的模型包含两个部分（如图2 所示）：一个为特征提取部分；一个是融合分割部分。特征提取部分用来提取每一个模态的特征，融合分割部分则是将每一模态的特征结合起来用于分割脑肿瘤。

图2 所提网络总体框架Fig.2 Overall framework of the proposed network

2.1 特征提取

特征提取部分采用了编码-解码的方式来提取不同模态的特征，网络主要包含两个部分，分别是自底而上的特征提取过程和自上而下的特征提取过程。如图3 所示，自底而上的特征提取过程的输入为单一模态的图像数据，输入图像经过多个3×3 卷积层来获得不同层次的特征，其中底层卷积层获取的特征往往是低级特征，高层卷积层获取的特征往往是高级特征。为了更好地获取不同层次的特征，本文采用了最大池化的下采样方法来压缩低层特征，并将低层特征同高层特征结合起来，从而更加有效地融合不同层次的特征。自上而下的特征提取过程可以看作是解码过程，也就是利用高层特征逐步获取每一个像素点的特征。该过程由一系列的3×3解卷积层组成。此外，类似于自底而上的特征提取过程，自上而下的过程同样采用了多层次的方法，高层特征通过双线性插值的方式得到高分辨率特征，并同该层特征连接起来获取下一层特征，最终经过Sigmoid激活函数得到输入图像每个像素点对应的特征，最后一层的特征图数就是特征空间大小。

图3 特征提取Fig.3 Feature extraction

2.2 融合分割

本文采用了四种模态的脑肿瘤影像，每一模态的影像通过特征提取部分得到其在同一特征空间下的每个像素点的特征，设四种模态影像同一位置的像素点经过特征提取部分得到的特征向量为{a11，a12，…，a1M，a21，a22，…，a2M，…，a4M}，其中{ai1，ai2，…，aiM}表示第i（i∈[1，4]）种模态影像经过特征提取模块提取的特征向量，M表示特征空间大小。将该特征向量作为输入，经过一层全连接层后采用softmax 分类获得最终分割结果。由于本文采用softmax 分类，因此，损失函数选择为softmax交叉熵损失函数，其表示为：

其中：yi为标签的真值；pi为像素点被分成正确类别的概率；N为单个模态样本的数量。

此外，在本文中，将每一个模态影像通过网络映射到同一特征空间，该特征空间具有多个属性，本文希望每个模态影像映射过来后具有确切的属性，即尽量取0 或取1，因此加入了信息熵来迫使影像映射后具有特定的属性。该损失函数为：

其中：pij为第i个像素点在第j属性空间下的值。

因此综上所述，网络最终损失函数表示为：

其中：α1、α2为网络超参数。

3 实验结果及分析

3.1 数据集及评价指标

本文实验的数据来源于脑肿瘤公开数据集BRATS 2015，该数据集包含两个子集，分别是训练集和测试集。其中，训练集分为高级别肿瘤和低级别肿瘤，高级别肿瘤有220 个病人影像，低级别肿瘤有57 个病人影像。测试集则是混合了高级别肿瘤和低级别肿瘤，共有110 个病人影像。无论是训练集还是测试集，每个病人影像有四种模态数据，每个病人的影像大小为155×240×240。本文所有方法都是在训练集上进行训练，然后在测试集上测试，所有测试集的分割结果上传到Brats网站，并由网站评估结果。

本文方法的输入数据为4 模态MRI 图像，由于采集的设备不同以及不同模态MRI 图像的采集参数不同，因此不同MRI 图像的最大灰度值范围在300～4 000。为了使网络更好地工作，对数据进行了预处理。本文采用了文献［23］中的数据预处理方法：首先对MRI 图像中的脑组织区域数据进行零均值标准化，其次对所有数据进行截取，将其截取到［-5.0，5.0］，然后将数据缩放到［0.0，1.0］，最后将原始MRI 图像中灰度值为0的像素点设为0。

本文方法是将脑影像分为5 类，分别是正常组织或背景、水肿、坏死、非增强肿瘤和增强肿瘤。但在测试时，是进行三分类测试，其中坏死、非增强肿瘤和增强肿瘤称为核心肿瘤，核心肿瘤加上水肿区域为完整肿瘤，三分类测试就是评估完整肿瘤、核心肿瘤和增强肿瘤的分割。

本文采用Dice 系数来定性地描述分割结果，令A和B分别代表了真值和方法的分割结果，则Dice系数定义为：

3.2 网络超参数及训练

本文网络具体结构已在图2及图3中给出，卷积层和解卷积层采用了3×3 卷积核，其中最后一层卷积层的特征图数量设为384，其他卷积层和解卷积层的特征图数量设为128。此外，除了第一层卷积层和最后一层解卷积层，其他卷积层及解卷积层都接一个batch norm 层［25］，网络激活函数采用LReLU函数。本文采用了Adam 优化算法［26］，其momentum设为0.9。在训练时，网络超参数α1与α2分别设为1.0 和0.1。网络的batch 大小设为5，网络的卷积核参数由高斯分布N～（0，0.02）进行初始化，网络的偏置参数初始化为0。网络的初始学习率设为0.003，epoch设为32，学习率采用指数衰减的方式，衰减基数为0.55，衰减步数为每4个epoch衰减1次。

3.3 结果分析

本节将给出具体的实验结果，从三个方面对本文方法进行讨论：首先，讨论特征空间大小及全连接层大小对结果的影响；然后，给出数据缺失下，在四种模态上训练的联合特征网络及本文方法的表现；最后给出随机选取不同模态数据训练下的各方法表现。

此外，为了更好地对比，本文将特征提取模块单独抽离出来作为基准网络，该基准网络输入的是四模态影像，并提取四模态影像的联合特征用来分割脑肿瘤。

3.3.1 特征空间大小与全连接层大小对网络的影响

本文提出的网络首先是将多个模态的影像映射到同一特征空间，因此特征空间大小对网络将有一定的影响，本节首先讨论特征空间大小对网络的影响。

为了讨论特征空间大小对网络分割结果的影响，本文首先固定了全连接层大小，将连接层的神经元数目设为160，特征空间大小改变的结果展示在图4中。

图4 特征空间大小的影响Fig.4 Influence of feature space size

从图4中可以看出，即使特征空间大小为1，依然可以实现脑肿瘤图像的分割任务。当特征空间大小从1 增加到15时，网络核心肿瘤和增强肿瘤分割上的表现持续增加；当继续增大特征空间时，有轻微降低，但总体呈上升趋势。如表1中展示，当全连接层大小为160时，相比选择大小为25的特征空间，特征空间大小为40 的模型在核心肿瘤和增强肿瘤分割的表现上都有很大的提升。当全连接层大小为200时，特征空间大小为40 的模型在核心肿瘤和增强肿瘤分割的表现上仍然强于特征空间大小为25 的模型。随着空间大小增加，整体肿瘤的分割结果则趋于不变，核心肿瘤和增强肿瘤的分割则有上升趋势。但随着空间大小的增加，显存占用也在增加。

此外，在融合分割部分，所有模态图像经过映射后的特征串联在一起，经过全连接层，最后得到分类结果，因此，全连接层的大小对结果有一定的影响。表1 给出了不同全连接层大小的结果，当特征空间大小定为25时，随着全连接层大小的增加，核心肿瘤和增强肿瘤结果会有所提升，当特征空间大小为40时，全连接层大小增加，也提升了增强肿瘤的分割结果。

表1 不同的全连接层大小的DSC结果Tab.1 DSC results of fully connected layers of different sizes

虽然特征大小及全连接层大小的增加会提升肿瘤的分割效果，但不能无限增加，随着大小的增加，结果会达到一定的上限。

3.3.2 数据缺失下网络的表现

目前，绝大多数脑肿瘤分割算法是基于四种模态影像来训练的，但当测试时，有一种或多种模态缺失时，网络结果有什么变化呢？本节主要讨论使用四种模态影像训练好的网路在数据缺失下的表现情况。

首先讨论网络完全使用四种模态数据训练结果，表2 反映了基准网络和本文方法经过四种模态影像后在缺失FLAIR模态数据时的表现结果。在该实验中，本文方法的特征空间大小选为10，全连接层大小选为160，基准网络同本文方法都是经过全部四种模态影像训练，在测试时，以去掉FLAIR模态影像为例，结果如表2 所示。结果反映了联合提取四种模态影像特征的方法在数据缺失时不能正常地完成分割，而本文方法虽然表现下降较多，但是对数据缺失有一定的抵抗能力。

表2 网络在缺失FLAIR模态数据时的DSC结果Tab.2 DSC results of networks without FLAIR modal data

为了抵抗数据缺失，对于基准网络，可以采用在训练时随机选取不同模态的数据进行训练，但这种方式会导致训练时间增加，在同时采用四种模态数据训练时，基准网络的epoch大小选为32，当随机选取不同模态的数据进行训练时，epoch大小选为80，训练时间提升了一倍多。本文方法则是采用了另外一种方式，首先使用完整的四种模态数据进行训练，然后采用随机选取模态数据的方式对全连接层进行再训练，由于只有一层全连接层，因此大幅度缩减了训练时间。在该实验中，本文方法的特征空间大小选为40，全连接层大小为200，表3 给出了在随机选取四种模态数据训练后，采用四种模态数据进行测试的结果。

表3 网络采用不同训练方式的DSC结果Tab.3 DSC results of networks with different training strategies

由表3 的结果可以看出，当采用随机选取模态数据进行训练时，本文方法和基准方法相对于普通训练方式，在核心肿瘤分割的表现上都有下降，采用所有四种模态数据训练在没有数据缺失时，表现要好于随机选取模态数据进行训练，此外，训练时间也较短。从表3中看出，本文方法通过随机训练全连接层，在整体肿瘤分割上达到了基准方法的表现。

上述讨论了网络在随机选取模态训练后使用四种模态数据测试的结果，接下来讨论网络在随机选取模态训练后在缺失不同模态数据下的表现，其结果由表4 给出。从结果中可以看出，不同模态数据的缺失对网络有不同的影响，其中整体肿瘤分割更加依赖FLAIR 模态，而核心肿瘤和增强肿瘤分割更加依赖T1c 模态。此外，从结果看，本文方法相比基准方法更加依赖FLAIR 模态与T1c模态，容易忽略掉T1和T2模态的特征，在缺失T1 模态或T2 模态时，本文方法在整体肿瘤分割表现上要优于基准方法，同时本文方法虽在核心肿瘤及增强肿瘤分割中的表现弱于基准方法，但本文在训练上较基准方法更灵活且在数据缺失时调整网络更加方便。

表4 数据缺失下网络采用随机数据选取训练方式的DSC结果Tab.4 DSC results of networks with random data selection training methods under data missing

此外，本方法比基准方法更灵活，当新增模态数据时，基准方法需要重新训练整个网络，而本文方法则只需训练融合分割层。从表5中可以看出，在增加新的模态数据时，虽然本文方法效果并不理想，但本文方法仅通过重新训练融合分割层即可应对新增模态下的脑肿瘤分割。

表5 新增模态数据时本文方法的DSC结果Tab.5 DSC results of the proposed method when adding new modal data

4 结语

在实际应用中，脑肿瘤分割面临一个模态数据缺失及增加的问题，本文主要研究了网络在数据缺失及增加下的表现情况。因此，不同于现有网络通过提取多模态数据的联合特征来实现脑肿瘤分割，本文提出了一种将不同模态影像数据通过同一网络映射到同一特征空间并联合这些特征实现脑肿瘤分割的方法。当选取所有模态数据训练神经网络时，多模态联合的神经网络在数据缺失时无法正常分割，而本文方法依旧可以实现脑肿瘤分割；当随机选取不同模态数据训练时，多模态联合的方法虽然效果整体都不错，但往往消耗较长的训练时间，而本文方法则仅仅通过训练调整融合分割层来实现。此外，本文方法在新增模态数据下也有灵活的调整方式。然而，本文方法在分割网络中针对特定任务往往依赖于某一模态数据，因此在未来工作中，将研究如何在融合分割层中更好地融合不同模态的特征。