MAA-Net：胃部肿瘤分割与T分期算法

2022-08-19周意龙卫子然蔡清萍高永彬

计算机工程与应用 2022年16期

周意龙，卫子然，蔡清萍，高永彬，马硕

1.上海工程技术大学电子电气工程学院，上海 201600

2.上海长征医院普外二科，上海 200003

胃癌是世界上最常见的恶性肿瘤之一，死亡率排在前三位。胃癌高发的主要因素是幽门螺杆菌诱导胃部炎症反应，继而引发胃癌。在世界上，大约每两个人中就有一人感染幽门螺杆菌。而除了易患胃癌的人群（例如患有胃病）以外，高盐饮食、作息不规律、重度饮酒抽烟也是胃癌高发的主要诱导因素。胃癌早期患者的症状并不明显，患者不会出现不适症状，而且大多数人对癌症的预防和检测意识薄弱，导致一经检查便发现癌症是中晚期，错过了最佳治疗时间。

由于医疗卫生资源和诊疗水平在地区间发展不平衡，导致胃癌患者临床确诊大都是晚期，错过治疗的黄金时期。因此，大规模筛查程序可以通过早期发现和治疗来帮助阻止胃癌发展。准确的诊断对于制定合理的治疗方案，判断预后和评估疗效非常重要。胃癌主要是由胃粘膜上皮的结构变化引起的，在计算机断层扫描（CT）图像中，胃粘膜上皮的结构变化呈明亮的椭圆形结构[1]。这种疾病普遍发生，全世界估计有3 亿多胃癌患者[1]。近年来，对于基于CT影像的医学图像研究[2-4]日益普及，基于CT 影像的医学图像分析方法可以对胃部疾病进行定量、定性的分析，因此癌区的自动分割和分类具有特别重要的意义。然而与肺结节、乳腺癌的结构不同，胃是空腔脏器，胃癌会在类环形的胃壁上以各种大小、形状和位置出现，胃癌的分割与T 分期仍然是一项艰巨的任务。因此，通过计算机辅助诊断技术对胃部肿瘤进行准确的分割和分类，对制定治疗方案，预断预后评估疗效具有重要的临床价值。

本文探索了一种多任务深度卷积神经网络MAA-Net，该网络同时对胃部肿瘤进行分割和分类。MAA-Net继承并延伸了著名的医学图像处理网络U-Net[4]和Y-Net[5]算法。通过卷积神经网络的特征共享，限制无关信息，关注有意义的特征，提高了网络的泛化能力。

本文提出的MAA-Net 胃部肿瘤分割与T 分期方法，主要贡献如下：

（1）融合了分割和分类这两种不同的方法，将深度学习用于胃癌CT影像的分割和分期。两条主线共享权重，共同地迭代优化。结果表明，在此任务中，所提出的方法优于同类方法。

（2）提出自适应特征融合模块，综合多个尺度的分割特征，利用多个不同层次的特征，得到准确的胃部肿瘤分割图。

（3）使用了一种混合损失函数，使网络以更快、更平滑的方式收敛。它结合骰子损失和焦点损失函数的优点，增强梯度传播。

1 相关工作

胃部肿瘤的分割和T 分期是现代医学影像辅助诊断胃癌中至关重要的一步。首先，胃癌是从胃壁的内侧（内壁）向胃壁的外侧（外壁）生长。胃壁从内到外可以分为黏膜层、肌层、浆膜层，当胃部没有肿瘤时，属于T0期；当胃部肿瘤生长在黏膜层但未突破黏膜层时属于T1期；当肿瘤突破黏膜层但未侵犯到肌层时属于T2期，以此类推，直至肿瘤突破浆膜层（外壁）时属于T4 期。在CT 影像分析方面，肿瘤的分割和T 分期的金标准均是由临床专家手动标注完成的，这是一项繁琐的任务。由于现代科技的发展，医疗数据呈几何倍的增长，而医生的精力和体力有限，且手动标注判断也会因为不可控的因素影响诊断的结果。因此面对如此重复繁琐的事情，急需一种能够全自动分析的方法。

近年来，在自然场景和医学场景的分割和分类任务[6]中，卷积神经网络（convolutional neural network，CNN）取得了很不错的成果。Krizhevsky 等人[7]提出的端到端的AlexNet，赢得了当年ImageNet 竞赛的冠军，深度学习也迎来了新一轮的春天。Simonyan 等人[8]继续加深卷积的深度提出了一个由19 层卷积层组成的VGG 网络。Christian 等人[9]提出了带有Inception 结构的GooLeNet。然而He等人[10]和Gao等人[11]分别提出了Residual 网络和DenseNet 网络，其拥有超过100 层的卷积神经网络结构，解决了因卷积层太深而导致梯度消失和爆炸的问题。随着各式各样网络的出现，Long等人[12]提出了具有划时代意义的语义分割网络——全连接网络（fully connected neural network，FCN）。在这之后，Ronneberger 等人[13]借鉴编解码的理念创造了经典的医学图像分割网络U-Net，对生物细胞图像进行自动的分割。许多医学图像分割都是在U-Net 的基础上进行研究，并且取得了很好的效果。例如，Gibson 等人[14]在U型网络的每个卷积块中引入密集连接，实现多个器官的分割。Fu 等人[15]在每个尺度上给出一个输入和相应的输出，提出了一个多输入多输出的M-Net。Peng等人[16]通过全局卷积网络来增加卷积核的大小获得更广的感受野。Gu 等人[17]的“CE-Net”，在肺部、眼底血管、细胞轮廓分割中表现都很优异。Zhao等人[18]提出了PSPNet，它将传统的扩张型FCN生成的像素级特征扩展到全局金字塔池特征，并结合了局部和全局信息来做出最终预测。Shibata 等人[19]通过对胃肠道内窥镜图像的分析检测实现早期胃癌的分割，但是其基于目标检测的方法来实现，分割的准确率不是很高。Sun 等人[20]使用特定的可变形卷积在病理图上实现胃癌的自动分割。Zheng等人[21]使用Faster RCNN 在增强CT 图像上实现胃癌的T分期。由此可见，胃部肿瘤的分割与T分期对于筛查胃部疾病、制定治疗方案有着至关重要的作用，同时也促进临床的诊断和CT 图像的分析。然而在大多数研究中，分类和分割通常是两个独立的任务。本文将分类与分割融合在一起，让分类网络更新参数的时候，帮助网络优化分割，让分割网络更新参数的时候，帮助网络优化分类。

2 方法

本文提出了MAA-Net，该胃部肿瘤分割与T分期算法的训练流程如图1所示，由分割主线与T分期主线共同组成。其中分割主线由多尺度输入、特征编码、跳跃连接、特征解码组成。图中A 表示在跳跃连接中引入Attention 机制，以此来提高目标区域的关注度；其后的自适应特征融合模块，将多个尺度的语义特征图经过全局最大池化和全局平均池化后进行叠加，然后经softmax得到自适应融合系数，最后和送入自适应特征融合模块前的语义特征图相乘得到最终的分割结果。训练网络的时候，首先单独训练分割主线得到胃部肿瘤的粗分割信息，然后将分割主线与T分期主线一同训练得到最终的胃部肿瘤精分割和T 分期结果。分割结果图和分类结果图（即T分期结果图）是MAA-Net的两个不同的输出。分类的结果是（每个像素）五种T 分期类型中最大的概率值对应的类别。本文使用多层感知机从全连接层提取的特征来预测胃癌的分期。

图1 总体算法流程Fig.1 Overall algorithm flow chart

在医学图像处理中，U 型网络这种“编码-解码”结构在很多任务中的表现都非常出色。但是这种类型的网络只有单一的分割掩码输出。由于胃部CT图像中肿瘤的特征不明显，目标较小，很难进行分割和T 分期。本文提出了MAA-Net，胃部肿瘤分割和分类的方法，该网络的结构框图如图2 所示。除了传统U 型网络单个分割掩码输出外，网络还添加了另一个并行的分类输出。T 分期主线中采用密集连接的空洞卷积模块（densely connected dilated convolution，DDC），来帮助网络在不增加计算量的同时提取更丰富和更高级别的特征并且提高卷积的感受野。分割主线与T 分期主线的权重共同迭代更新，解决了胃部肿瘤难以分割、肿瘤类型难以分类的问题。

图2 MAA-Net结构图Fig.2 MAA-Net structure

2.1 胃部肿瘤分割

胃部肿瘤分割主线中包括四个主要模块：多尺度输入特征编码模块、多核残差模块、带注意力机制的特征解码模块、自适应特征融合模块。

胃部肿瘤CT影像有其特性：不同患者的CT图像会有不同的表现，有些肿瘤会比较明显，有些肿瘤就相对较小难以分辨。为了应对这种特性，本文设计了一种多尺度输入的卷积神经网络，类似于图像金字塔的结构，可以提高网络的鲁棒性，对较小的肿瘤也可以实现分割。在特征编码部分，“主体”中使用在ImageNet 上经过预训练的ResNet 来提取特征，在每个尺度图片输入网络后，均对其进行卷积，然后与“主体”中的特征图进行通道的拼接；而在解码部分使用由1×1、3×3和1×1组成的反卷积模块来恢复更详细的语义信息，将不同尺度的分割预测特征图上采样到相同的通道数送入自适应特征融合模块。自适应特征融合模块结合多个尺度的分割预测图恢复更加精确的分割图。为了在扩大感受野的同时，提取不同感受野的特征信息，在U 型网络的底层，加入多核残差模块。此外，还在跳跃连接中添加了一种注意力机制，以减少不同尺度的特征要素之间的信息鸿沟并突出显示感兴趣的区域。

2.1.1 多尺度输入特征编码模块

特征编码模块中使用了在ImageNet 数据集上经过预训练的ResNet-34来提取胃部肿瘤的特征信息。多尺度输入特征编码模块保留了ResNet前四个残差卷积模块，删除了原始网络中后面的池化层和全连接层。除此之外，将四个不同大小的图片从不同的级层输入网络，经过3×3的卷积层之后，与级层中的特征图进行通道的拼接。与原始的编码器模块相比，这种多尺度输入的残差机制提高了网络的泛化能力，避免了梯度的消失，增强了网络的训练能力。残差块的流程图如图3所示。

图3 残差块的流程图Fig.3 Pipeline of residual blocks

2.1.2 多核残差模块

在上腹部CT 图像中，胃部肿瘤的大小、形态、位置和容积效应都是对该研究的挑战。中晚期的肿瘤通常比早期的肿瘤大得多，有些甚至比早期的肿瘤大十倍。而肿瘤也是以随机的形态随机生长在胃壁上。容积效应的存在也使得胃壁和肿瘤更加难以分辨。这些问题对胃癌的分割和T 分期有很大影响。对于这样一类大小、位置、形态都不具稳定性的肿瘤，提出了多核残差（multi-kernel residual，MR）模块来突出显示目标区域。结构如图4 所示。该模块主要依靠多个不同尺寸的核来检测大小不同的对象（肿瘤）并提取上下文的语义信息。

图4 多核残差模块结构图Fig.4 Structure of multi-kernel residue module

随着感受野增大，可以提取到的信息就越多。四个不同级别的输出池化层对应四个不同感受野的特征图。

在经过四个不同级别的池化层之后，使用1×1卷积来减少权重的维度和计算的复杂度。然后对其进行上采样，恢复至原图大小，最后与上一层的特征图拼接到一起。这种用不同的感受野的方法可以提取到不同视野下更加丰富的信息。

2.1.3 带注意力机制的特征解码模块

特征解码模块是用来恢复多核残差模块和特征编码模块中提取的高级语义特征。然而在上腹部CT图像中，每一例CT中肿瘤的大小和形状因切片而异，除此之外，部分图像还会有伪影和噪声的存在。对于卷积神经网络而言，滤除CT图像中不相关的区域和噪声很重要。由于卷积神经网络在提取深层特征的时候，会过滤掉一部分细节和边缘信息，本文将注意力机制[19]（attention mechanism，AG）通过跳跃连接融入特征解码模块，特征编码模块中每个级别的特征图与特征解码模块中相应位置的特征图融合在一起。通过融合低级特征和高级特征，网络既可以保留高级特征图中更高分辨率的信息，又可以保留低级特征图中的边缘信息，从而提高图像分割的准确性。除此之外，微调的注意力机制还可以补偿卷积和池化操作当中丢失的信息，注意力机制具体结构如图5所示。

图5 注意力机制示意图Fig.5 Schematic of attention mechanism

其中，σ1是超参为0.05的PReLU激活函数，σ2为sigmoid激活函数，W是卷积核为1×1×1的滤波器，Θatt是式（1）中线性变化的综合表示。在前向传播和反向传播过程中，注意力机制通过突出目标区域，抑制不相关区域，从而提高了模型的灵敏度和准确性。因此，将注意力机制直接添加到网络结构的跳跃连接中，以在保持高精度的同时去除外部器官的干扰，并增强整个模型的鲁棒性。

2.1.4 自适应特征融合模块

通过上述的U型网络，可以在多种不同尺寸上获得有用的分割特征。这些分割特征包含了整体和局部的信息，因此将这些特征融合起来可以得到更加精准的分割。为了高效地利用不同尺寸的上下文信息，本文提出了一个自适应特征融合模块（adaptive feature fusion，AFF）来学习与每种尺度相关联的重要信息并自动融合得分图（即softmax 之前的最后一层输出）。在得分图中，较大的值表示属于该类别的概率较高。如图6 所示，为了在每个尺度上利用相似的结构信息，首先将U型网络的多个输出传递到共享的卷积块中，以实现尺度不变性。最终将这些特征压缩到单个通道特征向量中，该向量表示每个尺度下的输出总得分。

图6 自适应特征融合模块Fig.6 Adaptive feature fusion module

全局平均池化（global average pooling，GAP）和全局最大池（global max pooling，GMP）可以提取每种尺度下的预测得分。在本研究中，将送入GAP 和GMP 得到的特征相加得到在i尺度下的得分Si。

然后将来自不同尺度的得分S相加并送入比例权重（softmax 激活函数）进行计算，以获取每个尺度的自适应权重。自适应权重Wi反映了特征i的重要程度。接着将自适应权重Wi与U 型网络的输出特征相乘，获得融合特征，其中比例权重计算公式为：

最后经过另一个softmax激活函数获得最终的分割结果：

其中，fi表示在i尺度下U型网络输出的特征图。

2.2 胃癌的T分期

在分类网络中，针对胃部肿瘤T 分期的复杂性，提出了一种密集连接空洞卷积模块（DDC）如图7 所示。DDC 模块以不同的空洞率（dilation rate）的空洞卷积，提取不同尺度物体的类别信息，从而提高网络分类能力。

图7 密集连接的空洞卷积模块示意图Fig.7 Illustration of densely connected dilated convolution module

该模块有四个带有不同空洞率的卷积分支，每个分支经过空洞卷积得到的特征图与上一层的特征图进行特征融合。最后将四个空洞卷积特征图与原始特征图融合送入网络的下一层。另外，在分类网络中以相同的空间分辨率在最后一个DDC 模块和第一个DDC 模块之间添加了残差连接。在T分期主线中，MAA-Net会生成Z维的向量，其中z是向量里的数值；Z表示胃癌的类别数，本文将Z设置为5，使用softmax函数σ对z中的数值进行归一化，生成另一个Z维向量Zˉ=σ(z)向量内的值分别对应于胃癌的T0至T4。

2.3 混合损失函数

在整个上腹部CT 图像中，肿瘤所占面积通常仅为整个图像的10%左右，这对训练过程有影响。大量背景会影响损失函数的拟合，这可能会导致局部最优解，而无法获得全局最优解。因此，提出了一种新的损失函数，该函数结合了骰子损失函数和焦点损失函数，以优化小目标与背景之间的矛盾以及正负样本数据的不平衡。

焦点损耗[22]函数是二进制交叉熵损耗（binary cross entropy，BCE）[23]的改进版，它通过添加调制因子来实现。这样可以减少由于上/下采样而引起的损耗。焦点损失函数的公式如下所示：

骰子系数损失[24]函数是整体相似度测量函数，通常用于计算两个样本之间的相似度。骰子系数损失函数减少了背景像素和目标像素之间的不平衡，因此在处理类别不平衡问题方面性能更好，其公式如下：

其中，δ∈[0,1]是可调整的参数，防止分母为0。

本文使用由上述两种损失组成的混合损失函数来提高收敛速度，并缓解数据不平衡的问题。原始的骰子系数损失函数将模型的重点放在了预测的结果和金标准的交集上，这对小目标很不友好，很容易忽略小目标的存在。而混合损失函数结合了焦点损失函数与骰子系数损失函数，不仅将模型的重点放在图像中目标位置上，而且还抑制了错误的分割。为了使焦点损失函数和骰子系数损失函数发挥各自的作用，首先，将骰子系数损失函数取对数，取其倒数来确保计算的值为正。然后，为焦点损失函数增加1/N的可归零因子。混合损失函数的计算公式如下：

其中，L1 和L2 分别是焦点损失函数和骰子系数损失函数。混合损失函数中的三个超参α、γ、δ，根据经验分别设置为1.2，0.5，0.8。本研究中定义了一个多任务损失函数L=Lseg+Lcls,Lseg是分割任务的混合损失函数，而Lcls是分类任务的交叉熵损失函数。

3 实验

3.1 实验环境

本研究是在带有单个GPU（Nvidia GTX 1080Ti）的Ubuntu16.04 64位操作系统上使用Pytorch框架来进行实验。系统的输入是经过预处理的大小为384×384的CT 图片。最近的研究[25]表明，使用SGD 优化器尽管速度会慢于Adam 优化器，但性能会更好。因此，本研究选用权值衰减为1×10-4，动量为0.9的SGD（stochastic gradient descent）来优化网络。学习率设置为1×10-4，共训练400轮。

3.2 实验数据

本研究使用的腹部CT数据由上海某医院提供。总共收集了50 例患者，每个切片的数量在30 到50 之间，但是腹部的CT 序列中只有少部分包含胃部肿瘤的切片。如图8所示，图（1）中红色箭头指向胃部肿瘤，黄色箭头指向胃。图（2）中仅包含正常的胃部。而图（3）是腹部CT 序列中不包含胃部的无关部分的切片，没有肿瘤和胃。因此统计分析出每组CT序列含有胃部肿瘤切片的数量约为10 张。在专业人员的手动筛选标注下，最终得到一个500 张CT 图像的数据集。CT 图像的初始大小是512×512。使用交叉验证法选择450张图像作为训练集，50张图像作为测试集。由于医学数据的特殊性，为了防止过拟合并增强网络的鲁棒性，对实验数据进行数据增强，增强的方式包括水平翻转、垂直翻转、比例缩放、随机位置裁剪和角度旋转。

图8 同一病人不同CT序列图Fig.8 Different CT sequence diagrams of same patient

3.3 实验结果

本研究使用平均交并比（mIOU）和准确率（Acc）作为主要的评估指标来评估网络性能。mIOU 是计算真实值像素和预测值像素两个集合的交集和并集之比。计算公式如下：

其中，真的正样本（TP）表示预测正确的正样本；真的负样本（TN）表示预测正确的负样本；假的负样本（FN）表示预测错误的正样本；假的正样本（FP）表示预测错误的负样本。

3.3.1 分割结果

为了验证本文方法的优越性，在相同的条件下进行对比实验。不同网络的可视化结果如图9 所示。图中总共5 行图片，分别对应5 位不同患者的腹部CT 图像。图（a）至图（e）分别是腹部CT的原始切片图像、Y-Net的分割结果、CE-Net的分割结果、本文方法的分割结果和手动标注的真实分割图。从可视化的结果来看，本文方法在肿瘤分割的位置、大小、形状等方面表现得最接近真实分割图。尽管分割结果还不是很理想，但也为胃部肿瘤的分割研究提供了价值。

图9 不同方法不同病人胃部肿瘤分割结果对比Fig.9 Comparison of segmentation results of stomach tumors in different patients with different methods

定量分析的结果如表1 所示，表1 显示了不同算法在平均交并比（mIOU）和准确率（Acc）上的表现。其中“-seg”表示仅训练网络当中分割部分。从表中可以看出，U-Net、Y-Net、AttU-Net、R2AttU-Net、CE-Net 和本文方法的平均交并比分别为0.228、0.494、0.325、0.597、0.636、0.843，本文方法在所有方法中效果最好。由于U-Net直接使用pooling对特征进行大幅度的降维，导致分割定位精度低，mIOU仅有0.228。本文方法在胃部肿瘤分割准确率上有了明显的提升，比经典的医学图像分割网络U-Net平均交并比高出约60%。

表1 比较各算法分割精度Table 1 Comparison of algorithm segmentation accuracy

3.3.2 T分期结果

在胃癌T 分期的任务中，将经过第一步训练得到的.pth权重文件，载入到第二轮训练当中。使用带有残差的DDC 模块获得特征图，然后通过自适应平均池化层获得高维特征向量。高维特征向量穿过全连接层生成一个128 维的特征向量。这些计算出的特征最终将胃癌分为五个类型（T0，T1，T2，T3，T4）。该模型的分类结果如表2所示。其中“-joint”表示同时训练网络中分割与分类部分。MMA-Net在进行分类特征提取的时候与Dense-Net 不同的是，所提模型分割主线提取的语义信息在反向传播的过程中帮助模型更好地学习分类特征，进而有益于分类，同理分类主线在提取特征的同时也帮助分割网络提升性能。将这种多任务的MAA-Net与最新的Dense-Net进行了比较，分类精度提高了约0.24。

表2 诊断分类结果Table 2 Diagnostic classification results

3.3.3 消融实验

为了证明所提出的MAA-Net 中各个模块的有效性，对使用的每个模块进行了消融实验。如表3 所示，mIOU被用作分割模型性能的主要评估指标，而准确性被用作分类模型性能的主要评估指标。将原始Y-Net称为“Backbone”。从表3可以清楚地了解到，网络中每个添加的模块性能都得到了提高。自适应特征融合模块将多个不同尺度的预测特征图经过softmax归一化处理得到最佳的权重，很好地解决了不同患者的图像特性的问题。在引入自适应特征融合模块后，mIOU 从0.704提高到0.821，这表明该模块对于分割任务很有效。而在反向传播过程中，分割网络和分类网络共享权重，因此分类的准确性也得到了提高。结果表明，结合使用这些模块能提供更好的性能。

表3 不同模块评估的消融实验Table 3 Ablation study for evaluation of different components

常用于卷积神经网络的损失函数莫过于Cross-Entropy Loss 了，但是针对胃部肿瘤这类形变较大，无明显规则的图像来说，其性能是有限的，而混合损失函数结合了焦点损失函数和骰子损失函数的优点。从表4 中也可以看出，混合损失函数在缓解类别不平衡和处理胃部肿瘤图像时优于经典的交叉熵损失函数。

表4 两种损失函数的定量分析Table 4 Quantitative analysis of two loss functions

4 结束语

本文提出了一种称为MAA-Net的新型端到端深度学习架构，该架构可以从腹部CT 中分割胃部肿瘤并执行相应的T 分期，以便医生可以制定针对性的手术方案。精准的胃部肿瘤分割和T 分期可以帮助改善临床应用。

首先，在第一步的粗分割阶段，由于胃部肿瘤的大小、位置和形状各异，提出了多尺度输入与自适应融合模块来将整体与局部的肿瘤特征信息相融合，解决了胃部肿瘤定位难的问题。在特征编码模块采用预训练的ResNet结构得到基础特征。然后，利用多个比率的池化层组成的多核残差模块扩大感受野并突出目标区域。此外引入注意力机制，抑制胃部肿瘤边缘无关的信息和噪声，保留并丰富边缘信息。最终得到粗分割的特征。在第二步胃部肿瘤精分割与T分期阶段，利用第一阶段得到的粗分割信息，进一步优化肿瘤分割结果。与此同时，使用混合损失函数来实现更快、更平滑的收敛，加快训练速度。

与现有的基于深度学习的方法进行比较，结果表明本文方法在分割的准确性和分类效果上均得到了显著的提高。在本研究中所得结果准确性不是很高，后续将对此问题进行改善，并对分割出来的结果进行三维重建，以更好地帮助医生进行辅助诊断。