基于密集多尺度空洞卷积的脑胶质瘤图像语义分割方法

2023-02-17吴昌霖林予松

计算机应用与软件 2023年1期

吴昌霖杨关林予松

1(郑州大学信息工程学院河南郑州 450001) 2(郑州大学软件学院河南郑州 450002) 3(郑州大学互联网医疗与健康服务河南省协同创新中心河南郑州 450052) 4(郑州大学汉威物联网研究院河南郑州 450002) 5(中原工学院计算机学院河南郑州 450007)

0 引言

胶质瘤是一种中枢神经系统最常见的原发性肿瘤[1]，其发病率高、复发率高、预后差。对脑胶质瘤进行影像学分析，有助于临床诊断以及制定治疗方案[2]。传统工作模式下，需要由医生对核磁共振图像(Magnetic Resonance Imaging，MRI)的病灶区域进行手动标注。由于医生手动标注有主观性差异且耗时长，因此，如何对脑胶质瘤图像进行自动分割是当前的一个研究热点。

图像语义分割可以对感兴趣区域进行特征提取并进行区域划分，并附加语义标签，可应用于脑胶质瘤图像的分割和标记。传统的语义分割算法有尺度不变特征变换[3]、方向梯度直方图[4]等。这些方法的可用特征有局限性[5]，只能针对固定形态的图像进行分析，因此准确率难以提升。随着高性能计算技术的发展，基于深度学习的图像语义分割方法在性能上已经超越了传统算法。Shelhamer等[6]设计的全卷积神经网络(Fully Convolutional Networks，FCN)使用卷积层提取特征信息，使用最大池化下采样去除冗余特征，使用反卷积上采样恢复图像位置信息；该网络能获得逐像素的高精度特征，成为深度学习语义分割方法的基石。Badrinarayanan等[7]提出了SegNet网络，在下采样过程中记录了最大池化位置索引，并在上采样过程中恢复图像位置信息。Ronneberger等[8]设计了U-Net，使用跳层连接(skip)的方式融合对应尺度的特征信息，使得该网络能在相对少的数据量的基础上获取较为精确的分割结果。Chen等[9]设计了DeepLab网络，该网络使用条件随机场(Conditional Random Field, CRF)[10]对输出结果进行优化，通过采集近距离内像素之间的关系对分割边缘进行区分，从而达到清晰界定边缘的目标。

上述语义分割算法较传统方法在分割精度方面取得了很大提升，但仍存在下列问题：(1) 采用池化层进行特征提取，无法解决在池化过程中因数据压缩导致的空间位置信息丢失;(2) 逐层卷积过程中使用了多个卷积层，但只利用了部分层的训练特征，其利用率较低。文献[11]提出了空洞卷积的结构，可以在卷积过程中保留空间位置信息，文献[12]提出了同一尺度的多个特征密集连接的思想，用于解决数据量不足的缺点。本文结合文献[11-12]的思路，提出一种多尺度空洞卷积结合密集连接的脑肿瘤分割算法。算法首先设计一种特征实际感受野更大的空洞卷积结构解决传统方法中池化层造成的信息丢失问题，继而结合空洞卷积不改变特征图尺寸的优势，设计多尺度的密集连接网络，提高多层级特征信息的利用率。

1 语义分割模型的设计

语义分割模型如图1所示。

图1 语义分割模型分割流程

对MRI图像进行语义分割可分为4个阶段：图像预处理、特征提取、特征融合和语义分割。图像预处理阶段主要解决数据分布不均问题，进行图像标准化及归一化处理，消除图像噪声以及对图像进行语义标记。特征提取则采用深度学习方法获取图像特征。获取的特征经过特征融合，以提高分割准确率及鲁棒性。语义分割阶段主要对融合后的特征图像进行逐像素的概率预测并进行标签标记。

1.1 图像预处理

脑胶质瘤的MRI影像数据是多个研究机构的不同测量设备提供的，由原始图像和标签图像组成。扫描设备不同会导致图像尺寸不一，患者位置不同会导致感兴趣区域所处位置的较大差异，扫描设备、患者测量环境等因素会导致MRI图像中同一组织内的亮度发生变化即产生偏置场，破坏MRI影像。

本文首先将图像统一为240×240的尺寸，并采用数据去均值处理将图像数据进行标准化，接着使用归一化方式将像素的取值范围由0～255改变为0～1，以便深度神经网络进行处理。本文设计一种新的图像截取方法：以能够涵盖标记区域的框图的中心为基准，在对应的原始图像和标签图像的相同位置截取大小为64×64的图像作为实验使用的图像，解决图像背景区域面积过大及感兴趣区域位置偏差较大的问题，减少不必要的计算量。最后使用灰度直方图均衡化方法解决图像偏置场效应问题，使用高斯函数解决图像混合噪声问题。

1.2 特征提取

现有的语义分割算法大多是在全卷积神经网络模型的基础上改进而来。为了提取不同尺度的特征，该类模型多采用池化层进行特征降维[13-15]。使用池化层的过程中会对特征图进行压缩，导致数据的空间位置信息丢失，造成参数不可学习，以及较低尺度图像信息无法重建，限制了语义分割精度的进一步提升，同时给模型后处理造成负担。为解决这一问题，本文使用空洞卷积代替池化层进行特征提取。

空洞卷积将普通卷积对相邻像素进行采样改变为等间隔采样，由于空洞卷积不改变卷积核的大小，单次卷积计算量和普通卷积相同。增大采样间隔，感受野面积呈指数增加。通过空洞卷积提取的特征图像尺寸不变，并且包含像素的空间位置信息。图2为分别使用池化层和空洞卷积进行特征提取的特征图的效果对比。

(a) 特征图 (b) 池化层1(c) 池化层2(d) 池化层3

(e) 特征图 (f) 空洞卷积层1 (g) 空洞卷积层2 (h) 空洞卷积层3图2 不同特征尺度下的特征图

使用空洞卷积会面临如下问题：(1) 使用空洞卷积存在网格效应[9]，即卷积过程中对单位像素的重复采样或跳跃采样，降低了特征信息的利用率和精度。(2) 过高的采样间隔下提取的特征过于稀疏，造成高尺度信息的关联度过低导致边缘信息无效化[16]。

本文首先设计了卷积核尺度相同、采样间隔不同的空洞卷积以解决网格效应问题。神经网络获取特征的尺度由卷积核尺寸和步长共同决定，以感受野来衡量，如式(1)所示。

(1)

式中：R代表感受野；l代表特征图层数；k代表卷积核大小；S为步长。空洞卷积进行步长为1的采样，并使用膨胀率定义相邻采样点之间的距离，其实际感受野计算公式为：

R=k+(k-1)(r-1)

(2)

式中：r为膨胀率。设计使用小的膨胀率提取局部信息，大的膨胀率提取较长的距离信息，从而获取覆盖全图的感受野，所受约束如式(3)所示。

Mi=max[Mi+1-2Ri，Mi+1-2(Mi+1-Ri)，Ri]

Mi≤k

(3)

式中：Ri是第i层的感受野；Mi是第i层的最大感受野。为确保卷积过程中没有网格效应产生，不同的膨胀率之间不存在公约数。图3为多感受野下膨胀率从上至下依次为7、2、1的3层空洞卷积以残差网络[10]连接方式获取全图特征信息的示意图。对特征图进行卷积运算，其参数量、计算量分别为：

param=Cin×K×K×Cout

(4)

Flops=Cin×K×K×Hout×Wout×Cout

(5)

式中：Cin为输入通道数；Cout为输出通道数；Hout为特征图高度；Wout为特征图宽度；K为卷积核尺度。选取参数量和计算量最少的3×3卷积核。经计算，获取特征尺寸为2、4、8、16、32时所需膨胀率为1、2、5、9、17。考虑到较大膨胀率下特征相关度较低，边缘信息无效的问题，本文对膨胀率较高为9和17的空洞卷积采取感受野尺度不变、增大卷积核尺寸的方法降低膨胀率。最终设计的卷积层如表1所示。

图3 多尺度空洞卷积示意图

1.3 特征融合

相比于池化方法，空洞卷积计算过程特征图大小不变，计算成本有所增加，现有方法在使用空洞卷积时多回避这一问题，仅在神经网络末层进行空洞卷积，导致所得特征信息的分类依旧处于图像级别，并未达到像素级别。和已有的方法不同，本文在所有层均使用空洞卷积，从而获取更多的细节特征。

传统的神经网络层是串行连接的，L个网络层之间会有L-1个连接，密集连接结构则进行L(L+1)/2次连接。针对卷积方式获取高维特征时参数量、计算量过大的问题，本文提出DDNet(Dense Dilated Net)结构，使用密集连接方式对多尺度空洞卷积的提取特征进行融合。这种连接方式降低了网络深度和参数量，增加了网络宽度，避免了深层网络传递参数时引发的梯度消失。

在密集连接结构中，后续层的输入等于将之前各层的输出特征进行级联操作，再进行非线性变换H(·)，非线性变换公式为：

xl=Hl([X0,X1,…,Xl-1])

(6)

式中：H(·)由三种函数：批量标准化函数(Batch Normalization,BN)、激活函数ReLU和卷积操作共同组成。三者关系如下：

Hl(x)=W×R[B(x)]

(7)

式中：W代表权值矩阵；R代表激活函数；B代表标准化函数。

最终结构如图4所示。

图4 多尺度空洞卷积密集连接结构

输入的4模态MRI影像数据经1×1卷积后生成输入特征图，输入特征经过一系列空洞卷积的特征提取单元，获取了多个尺度感受野的特征信息，实现了更为密集的采样。

1.4 语义分割

经特征融合的特征图像以5种不同标签的分类概率表出。以分类结果的最大概率作为像素位置的语义标签即可得出进行语义分割后的标签图像。本文采用交叉熵损失函数解决类不均衡问题并进行标签图像的优化。交叉熵损失函数计算公式如下：

(8)

式中：gi是真实值；pi是分类层输出的预测概率值；v代表待预测中心体素块的个数。损失函数C是深度卷积神经网络输出图中每个空间位置的交叉熵的和。

2 实验结果及分析

实验采用2017年多模态脑肿瘤分割挑战赛(Brain Tumor Segmentation Challenge，BraTS)提供的数据集[17]。该数据来源于19种不同的扫描设备或机构。其中：210例为高级别脑胶质瘤；75例为低级别脑胶质瘤。每一个患者都有四种模态的MRI图像，分别是FLAIR、T1、T1c和T2图像。MRI图像的被保存为.nii格式,标记图像为多标签图像，其图像语义分为5类：坏死、水肿、非增强肿瘤、增强肿瘤和背景，对应标签1、2、3、4、0。

在实验数据的预处理方面，本文首先使用SimpleITK框架读取图像数据，然后使用Python环境下的pyplot函数将图像整理成大小统一的155×240×240的图像，接着对有标签存在的切片和对应的四种模态数据进行提取，获得了13 998组有效图像；然后用N4BiasFieldCorrection函数对数据进行了偏置场矫正，并进行了图像标准化、归一化等工作。为减少背景区域面积过大对计算造成的不良影响，提高计算效率，以标签中心像素为基准切割了大小为64×64的图像作为输入数据。

实验共分为4组，分别验证DDNet中不同结构的作用：空洞卷积的有效性、大卷积核提取高层特征的效果、密集连接结构的作用，并与其他算法在精确度和计算效率进行比较来验证本文方法的有效性。

2.1 实验1：特征图可视化

该实验使用池化层方法和空洞卷积方法分别进行特征提取并对特征图进行可视化，用于展示空洞卷积的性能，评估空洞卷积是否对脑胶质瘤图像的分割有效。

采用3次步长为2的最大池化层的串行语义分割模型的下采样阶段结构和膨胀率分别为2、4、8的空洞卷积结构进行对比实验。两种结构使用相同的输入图像和特征维度进行计算，并对同一尺度的特征图进行等权重的特征融合，融合后的特征图可视化结果如图5所示。

(a) 原始图像 (b) 池化层1 (c) 膨胀率2 (d) 池化层3 (e) 膨胀率8

(f) 原始图像 (g) 池化层1 (h) 膨胀率2 (i) 池化层3 (j) 膨胀率8图5 特征图可视化

图5中，(a)、(f)为原始图像，(b)、(c)、(g)、(h)分别展示了在提取相同尺度的细节特征时，使用1次池化和使用膨胀率为2的空洞卷积的效果，(d)、(e)、(i)、(j)分别展示了在提取相同尺度的高层特征时，使用3次池化和使用膨胀率为8的空洞卷积的效果。可以看出，空洞卷积比池化方法具有更高质量的细节信息且携带了更多的图像边缘信息。

2.2 实验2：融合特征性能对比

该实验使用不同尺度的空洞卷积进行融合，并评估分割结果，用于考量融合特征的性能。

实验使用了DDNet结构中的5个尺度的空洞卷积层以及1.2节中提到的膨胀率为9和17的卷积层，分别以C1-C7表示，其提取特征的尺度由低到高排列，C1、C2可提取较低尺度特征，C3、C4、C5、C6、C7可提取较高尺度特征。表2展示了不同尺度的空洞卷积在进行融合后的分割效果，“*”表示使用的连接。

表2 不同尺度空洞卷积融合的分割结果

可以看出，多尺度融合的方式可以提高分割准确率，较低尺度的浅层特征与较高尺度的深层特征融合可以获得较好的识别效果。使用密集连接的方式获得的融合效果最优。使用较大尺度卷积核提取较高尺度特征时比单纯使用3×3卷积核具有更佳效果。

2.3 实验3：不同语义分割模型对比

该实验使用本文设计的DDNet结构和语义分割经典模型FCN、2018年在医学图像分割上取得最好成绩的U-Net对相同图像数据进行处理，展示DDNet的分割性能。

DDNet结构将预处理后的图像特征通过卷积核大小不同、膨胀率不同的空洞卷积并进行密集连接。使用Softmax分类模型，将像素划分到概率最大的类别中。在训练过程中，每次迭代先计算输出层的预测分数，然后计算交叉熵分类损失函数，使用随机梯度下降法(SGD)作为优化算法。训练的批量大小为1，遗忘因子为0.99，权重衰减为0.005。使用多种不同学习率进行测试，如图6所示，学习率曲线由上至下依次为1E-10、1E-9、1E-8。学习率设为1E-8时，随着训练批次的增加，DDNet模型的收敛速度更快且趋于稳定。

图6 不同学习率下损失函数的收敛速度

使用灰度图像表现语义分割结果，灰度值从高到低依次为增强肿瘤、非增强肿瘤、囊肿和坏死。图7展示了不同方法的分割效果，其中：(a)、(b)、(c)、(d)为输入图像的t1、t1ce、t2、flair图像；(d)、(e)、(f)、(g)分别为FCN、UNet、本文算法DDNet和真实标签的分割结果。

(a) t1 (b) t1ce (c) t2 (d) flair

(e) FCN(f) U-Net (g) DDNet (h) 真实标签图7 不同分割方法的效果图

取医学图像分割指标Dice相对性系数对完整肿瘤(Complete)、核心肿瘤(Tumor)和增强肿瘤(Enhance)区域的精确度进行评估，其公式为：

DSC(X，Y)=2(X∩Y)/(X+Y)

(9)

式中：X表示人工分割的区域面积；Y表示算法分割的区域面积。DSC(X，Y)的变化范围为0～1，该值越大，表示分割结果与真实值的重合度越大，分割效果越好。使用语义分割评价指标MIoU对分类性能进行评估，其值为真阳样本数量和真阴样本数量、假阴样本数量、假阳样本数量之和的比，其公式为：

(10)

表3展示了上述方法的分割性能。

表3 不同语义分割模型的分割效果

和传统方法相比，DDNet使用空洞卷积替代了池化层，在分割完整肿瘤和增强肿瘤的分割精度上分别高了7.7%和6.0%，这说明使用密集多尺度空洞卷积进行特征提取和融合，能够获取到细节特征，有利于提高对微小目标的检测效果。

2.4 实验4：计算性能对比

该实验与FCN、UNet、单纯使用空洞卷积的模型Dilated进行对比，评估模型的计算性能。

以扩充通道数的方式保证每个尺度的像素特征参与计算次数相当，取参数量、计算量、平均推理时间为计算性能评估标准，计算卷积层、池化层、空洞卷积层、反卷积层、跳跃连接层使用的计算量和实际推理时间。取空洞卷积模型在每个尺寸上与UNet相同的通道数，实验结果对比如表4所示。

表4 不同语义分割模型的计算性能

结果表明，在使用DDnet进行计算时，网络的推理时间和计算量并未明显增加，空洞卷积结构有效提升了计算数据的利用率，密集连接方式则大幅降低了空洞卷积结构的计算量。

2.5 结果分析

实验1的结果表明，空洞卷积可以有效代替池化层，多尺度特征融合方式可以提高分割的准确率，通过密集连接结构把空洞卷积进行多尺度融合，可以在小幅增加计算量的情况下获取更高的分割质量。和同类语义分割模型对比，DDNet取得了较好的结果。

3 结语

本文针对现有脑胶质瘤语义分割模型中参数传递中信息丢失和图像尺寸特征单一的问题，提出一种结合空洞卷积和密集连接结构的脑胶质瘤图像语义分割模型。使用空洞卷积层代替普通卷积层和池化层，使用密集连接网络加强了特征间的相关性。和经典方法相比，改进的模型在分割精度上有所提升。这说明使用多尺度空洞卷积进行特征提取和融合，有利于提高对脑胶质瘤图像的分割效果。

在使用空洞卷积进行多尺度分割时，选取不同大小的卷积核会导致运算的效率和精度不同，逐像素叠加特征时产生重复计算会导致过拟合现象。选取更优的卷积核和膨胀率参数来解决过拟合问题，以及进一步提高精度，是下一步的主要工作。