基于卷积神经网络胃癌分割与T分期算法
2022-03-14周意龙卫子然蔡清萍高永彬马硕
周意龙,卫子然,蔡清萍,高永彬,马硕
1.上海工程技术大学电子电气工程学院,上海 201600;2.上海长征医院普外二科,上海 200003
前 言
据《全球癌症发病死亡统计报告》显示,2018年全球约有103.4 万新增胃癌患者,死于胃癌的人数高达78.3万[1]。从全球范围看,中国每年新发胃癌患者和死亡病例占到全世界的一半。中国癌症2018年报数据显示,我国胃癌发病率及死亡率均高居第2 位,其特点是早期胃癌比例低、进展期癌比例高(80%以上)、5年生存率低(35.1%),与韩国、日本等国家差距较大[2-4]。胃癌高发的主要危险因素是幽门螺杆菌诱导胃部炎症反应,导致胃癌发生。全球50%的人口存在幽门螺杆菌,在经济欠发达地区感染尤其普遍。幽门螺杆菌感染诱发胃黏膜炎症,促进胃内N-亚硝基化合物合成。除了自身胃病等胃癌高发人群以外,高盐饮食、作息不规律、重度饮酒抽烟也是胃癌高发的主要诱导因素。大约80%胃癌患者发现病况时已错过最佳诊治时机。我国胃癌防治工作仍面临严峻挑战,提高胃癌的早诊率是当务之急。
近年来随着深度学习的迅速发展以及大量数据和性能优越的硬件设施支持,利用计算机进行图像分割和图像分类的任务给人们的工作生活带来了许多便捷。胃癌CT图像的自动分割与T分期也成为可能,然而与肺结节、乳腺癌的结构不同,胃是空腔脏器,胃癌会在类环形的胃壁上以各种大小、形状和位置出现,所以胃癌分割与T 分期仍然是一项艰巨任务。本文提出一种以深度学习为基础的基于卷积神经网络的胃癌分割与T分期算法,该算法可以客观全面地对CT 影像进行分析,并能够给患者和医生提供较为可靠的诊断结果,可以辅助医生诊断,提高临床效率,缓解医疗资源不平衡。胃部肿瘤分割与分期的神经网络(Stomach Tumor Segmentation and Classification neural Network, SC-Net)继承并延伸了著名的医学图像处理网络U-Net[5]和Y-Net[6]算法,本文的主要贡献如下:(1)融合了分割和分类两种不同方法,首次将深度学习用于胃癌的分割和分期。两条主线共享权重、共同迭代优化。结果表明在此任务中所提出的方法优于同类方法。(2)引入注意力机制提高感兴趣区域的关注度,从而使网络具有更好的鲁棒性。(3)提出一个密集连接的空洞卷积(Densely Connected Dilated Convolution,DDC)块,以保留上下文信息并丰富更多高级特征,可以实现特征重用并提高效率。
1 相关工作
胃癌的分割和T 分期是现代医学影像辅助诊断胃癌中至关重要的一步。首先,胃癌是从胃壁内侧(内壁)向胃壁外侧(外壁)生长。胃壁可以分为黏膜层、肌层、浆膜层,当胃部没有肿瘤时,属于T0期;当胃癌生长在黏膜层但未突破黏膜层时属于T1期;当肿瘤突破黏膜层但未侵犯到肌层时属于T2期,以此类推,直至肿瘤突破浆膜层(外壁)时属于T4期。在CT 影像分析方面,肿瘤分割和T 分期的金标准均是由临床专家手动标注完成的,这是一项繁琐任务。由于现代科技的发展,医疗数据呈几何倍数增长,而医生的精力和体力有限且手动标注判断也会因为不可控因素影响诊断结果。面对如此重复繁琐的工作,急需一种能够全自动分析的方法。
自2012年Krizhevsky 等[7]提出的端到端的AlexNet 以15.3%的top-5 错误率赢得了第1 名,深度学习迎来了快速发展与应用。之后Szegedy 等[8]在AlexNet 基础上继续加深网络层的深度提出一个有19 层结构的VGG 网络。Srivastava 等[9]提 出 带 有Inception 结构的GooLeNet,使网络结构不仅变深,而且变“宽”,并且获得2014年ILSVRC 比赛冠军。He等[10]报道的深度残差网络(ResNet)用残差结构(几层卷局层之后的特征图与之前的特征图相加)将网络的层数突破100层,在加速优化防止梯度消失的同时还加快了网络模型的训练速度。受到ResNet的启发,Gao 等[11]提出DenseNet,其Dense block 内的任意两层之间都有连接,拥有比ResNet更密集的连接,但是计算参数只有深度残差网络的一半。随着Long等[12]历史性改造原始的CNN创造出全卷积神经网络FCN,使得CNN 在没有全连接层的情况下可以按照像素级别对图像进行分析。Ronneberger 等[13]针对FCN 存在的问题提出了最经典且最著名的医学图像分割网络U-Net,与FCN结构类似,U-Net采用了对称的编码-解码模式,首先用卷积层和池化层进行下采样组成编码部分提取语义特征,然后使用反卷积进行上采样组成解码部分恢复分割图,解码编码中间均使用跳跃连接将编码部分的低级特征crop 并与解码部分的高级语义特征融合起来再进行上采样。在当年U-Net 架构也取得ISBI 比赛的冠军。U-Net 以其特殊结构和优异性能成为科研人员最喜欢研究的内容之一。Xiao 等[14]和Wang 等[15]分别将U-Net 中的卷积模块利用残差(ResNet)思想和密集连接(DenseNet)思想进行代替,实现ResU-Net 对视网膜图像进行分割和DenseU-Net对图像进行去噪并且都取得很好效果。Alom 等[16]则将循环卷积网络与UNet 相结合,R2U-Net 在每一个卷积模块中都引入了循环,也在眼底血管CT 图、皮肤病理图和肺部CT 图等3个公开数据集上进行对比实验,证明了循环结构的可靠性。Oktay 等[17]在胰腺分割任务中加入Attention 机制在卷积提取特征的时候给特征图中的目标区域分配更高得分,使得网络反向传播更新参数的时候,会重点关注感兴趣区域。Fu 等[18]在每个尺度上给出一个输入和相应输出,提出了一个多输入多输出的M-Net。Gu 等[19]的“CE-Net”在肺部、眼底血管、细胞轮廓分割表现均很优异。Mehta 等[6]将U-Net 扩展另外一条路径实现了对乳房活检图像的分割与分类。Çiçek 等[20]考虑到二维卷积操作忽视了图像空间内的联系,使用三维卷积代替二维卷积,此外还使用Batch Normalization(BN)[21]抑制过拟合加快网络训练并得到了更精确的分割结果。Milletari 等[22]延续三维卷积的思想提出3D 代表网络结构V-Net,该架构使用卷积代替上采样和下采样,这种操作的好处是避免了由下采样或者上采样而丢失过多的边缘和细节信息。Gibson 等[23]将Dense 密集连接与V-Net 进行融合,在原始V-Net 每个卷积层中都使用Dense 连接,用来对腹部多个器官(8 个)进行同时分割。Sun 等[24]使用可变性卷积和多尺度网络在病理图像中实现了胃癌分割,其在病理图上的分割精度达到82.65%。Shibata 等[25]基 于Mask-RCNN从胃肠道内窥镜图像中自动检测早期胃癌,但是其分割的平均交并比(mean Intersection over Union,mIOU)只有71%。Zheng 等[26]利用快速区域卷积神经网络对晚期增强CT图像进行T分期。在大多数研究中,分割任务和分类任务通常是两个独立部分。本文考虑到分割与分类均是对同一样本进行研究,两种情况提取到的特征相互传播,相互更新迭代优化,会有益于任务完成。因此本文将分割与分类两个任务融合在同一个网络当中,同时实现胃癌的分割和分期。
2 方法
本文提出的SC-Net:基于卷积神经网络的胃癌分割与T 分期算法的训练流程如图1所示。训练总共分为两步,第一步:仅仅使用U 型网络训练分割部分,图中U 型网络中的A 表示注意力机制(Attention Mechanism),灰色方框表示卷积出来的特征图,最终得到粗分割结果;第二步:将第一步训练保存的权重载入到第二步当中进行训练,并且联合胃癌T分期与分割共同训练,图中黑色圆圈表示一个1×5 的向量,分别对应T0期至T4期5个类别。
图1 总体训练流程Figure 1 Overall training process
在医学图像处理中,U 形网络这种“编码-解码”模块在很多任务中的表现都非常出色,但是这种类型的网络只有单一的分割掩码输出。由于胃部CT图像中肿瘤特征不明显而且目标较小,很难进行分割和T 分期。针对此问题,本文提出了SC-Net:胃癌分割与T 分期算法。该网络结构框图如图2所示。除了普通U 型网络单个分割掩码输出外,SC-Net 还有另一个并行的分类输出。分割部分的网络参数与T 分期部分的网络参数在反向传播过程中相互更新权重、共同迭代更新,解决了胃癌难以分割、肿瘤类型难以分类的问题。
图2 SC-Net结构图Figure 2 SC-Net structure
图中特征编码部分采用了在ImageNet 上经过预训练的ResNet 残差结构来提取特征,特征解码部分使用由1×1、3×3 和1×1 组成的带有注意力机制的反卷积模块来恢复更详细的语义信息,注意力机制的引入可以减少不同尺度的特征要素之间的信息鸿沟并突出显示感兴趣区域。多核残差模块则是使用不同大小的池化核对同一特征图进行不同感受野的特征提取,图中绿色框表示DDC 模块,是针对胃癌在CT影像上的特点而提出的由多个不同空洞率的卷积层组成的模块,该模块利用空洞卷积的特性提取更丰富、更高级的特征。本文所设计网络的输入是原始的上腹部CT 图像,输出是胃癌的分割图与胃癌的T 分期结果(分类结果)。本文使用多层感知机从全连接层提取的特征预测胃癌分期,分类结果是逐像素对图像进行分析,最终从一个1×5的向量中选取代表5种T分期类型中概率值最大的作为T分期结果。
本小结中分别介绍获取胃癌粗分割和T 分期包含的不同模块:特征编码模块、多核残差模块、带注意力机制的特征解码模块、密集连接的空洞卷积模块。
2.1 特征编码模块
随着深度学习的发展,卷积神经网络俨然成为如今炙手可热的研究方向。然而,由于医学数据的特殊性,可用来使用的数据十分稀少,这就间接导致网络出现过拟合、分割精度低下。在这样的条件下,迁移学习的出现可以直接提高算法的鲁棒性,特别是在数据有限的情况下。本文利用这种思想,将在ImageNet 数据集上经过预训练的ResNet-34 使用到特征编码模块中提取图像的特征信息。在特征编码模块中保留了ResNet前4个残差卷积模块,删除了原始网络中后面的池化层和全连接层。与U-Net 的编码模块相比,这种残差机制提高了网络泛化能力,避免了梯度消失,增强了网络训练能力。残差块的流程图如图3所示。
图3 残差块的流程图Figure 3 Flowchart of residual blocks
2.2 多核残差模块
在上腹部CT 图像中,胃癌大小、形态、位置和容积效应都是对研究的挑战。中晚期的肿瘤通常比早期肿瘤大得多,有些甚至比早期肿瘤大10 倍。肿瘤也是以随机形态随机生长在胃壁上。容积效应也使得胃壁和肿瘤难以分别。这些问题对胃癌分割和T分期有很大影响。对于这样一类大小、位置、形态都不具稳定性的肿瘤,提出了多核残差(MR)模块来突出显示目标区域。该模块主要依靠多个不同尺寸的核检测大小不同对象(肿瘤)并提取上下文的语义信息。随着感受野增大,可以提取到的信息就越多。4个不同级别的输出池化层对应4 个不同感受野的特征图。大感受野可以提取更加抽象的特征,小感受野可以提取更丰富的细节信息,大感受野与小感受野相互结合,既拥有大感受野下提取的宏观信息也拥有小感受野下获得的精细的微小特征信息。其结构如图4所示。在经过4 个不同级别(2×2、3×3、5×5、6×6)的池化层之后,使用1×1卷积减少权重的维数和计算的复杂度。然后分别对4个特征图进行上采样,恢复至原图大小。最后将4 个经过处理的特征图与该结构输入的特征图拼接到一起。这种用不同大小感受野的提取特征的方法可以提取到不同视野下更加丰富的信息。
图4 多核残差池化模块结构图Figure 4 Structure of multi-core residual pooling module
2.3 带注意力机制的特征解码模块
在经过特征编码和多核残差模块提取深层语义信息后,如何合理使用这些深层特征信息也同等重要。而特征解码设计可以巧妙地将输入SC-Net的图片还原成原图大小的语义分割图。然而在上腹部CT影像中,除胃癌之外还有许多其他组织结构,如肝、血管、肾脏、胰腺等。除此之外,医学图像还具有个异性、特异性,每一位患者的CT 图像都是无法复制、独一无二的,部分图像还会有伪影或噪声存在。这些噪声、伪影和组织结构或多或少会对网络学习过程造成影响。为了最小化其他组织结构和噪声对网络造成的不良效应,本文在特征解码的同时引入微调的注意力机制。特征编码模块中每一层的特征图与特征解码模块中对应的每一层的特征图一同送入注意力机制中。通过融合特征编码中的低级边缘细小特征和特征解码中高级的深层语义特征,SC-Net既可以保留高级特征中的高分辨率信息又可以保留低级特征图中的边缘信息,从而提高整个网络图像分割的准确性。除此之外,微调的注意力机制还可以补偿卷积和池化操作中丢失的信息,微调注意力机制具体结构如图5所示。
图5 注意力机制示意图Figure 5 Schematic diagram of attention mechanism
从图5中可以看出注意力机制的输入分别由特征编码模块中的特征图g与特征解码中的特征图xl组成,而注意力机制的输出是经过计算得出的注意力系数α与解码中的特征图xl的乘积。其公式如下:
其中,σ1是超参为0.2 的PReLU激活函数,σ2为Sigmoid 激活函数,W是卷积核为1×1×1 的滤波器,Θatt是式(1)中线性变化的综合表示。注意力机制的两个输入分别为编码模块的特征图gi和对应的解码模块的特征图xli,输出是解码的特征图与注意力系数的 积=xli·αli。两个特征图拼接之后经过Prelu、Sigmoid两层激活函数再上采样得到注意力系数αli。
与原始注意力机制不同的是,本文采用PReLU函数替代ReLU 函数。PReLU 是ReLU 的通用式即前者是后者带参数的表达形式。与ReLU 相比,在网络更新迭代参数权重的时候,小于0的权重和偏置不会被暴力的置于0,而是使得小于0 的部分以较小的影响存在。两种函数的示意图如图6所示。
图6 ReLU和PReLU示意图Figure 6 Diagrams of ReLU and PReLU
SC-Net 正向传播和反向传播过程中,注意力机制实现了着重突出图像中的目标区域,抑制与感兴趣区域不相关的部分,从而提高模型的灵敏度和准确性。因此,将微调的注意力机制添加到网络中可以在保持高精度的同时去除噪声或其他组织结构造成的干扰,增强整个算法的鲁棒性。
2.4 密集连接的空洞卷积模块
对于胃癌T 分期,T0~T2期的肿瘤在CT 中大部分是以比较小的形态出现,而T3、T4期肿瘤却不存在类似规律,T3、T4期肿瘤在影像学上的表现有的形似锥形但是也突破到胃外部,有的却似一个球体显而易见十分突兀。在第二步联合训练中,针对胃癌5个分期的复杂性,提出一种密集连接的空洞卷积(DDC)模块,如图7所示。DDC模块是由不同空洞率的空洞卷积组成,不同空洞率的卷积可以提取不同尺度物体的类别信息,从而提高网络分类能力。
图7 密集连接的空洞卷积模块示意图Figure 7 Illustration of densely connected dilated convolution module
该模块有4个带有不同空洞率的卷积分支,每个分支经过空洞卷积然后与上一层的特征图进行特征融合。最后将4 个经过空洞卷积的输出与原始特征图相加送入网络的下一层。此外,在两个DDC 模块中添加了残差连接加强前后网络层参数的学习能力。
在T 分期算法中,SC-Net 会生成Z维的向量,其中Z是向量里的数值;Z表示胃癌的类别数,本文将Z设置为5,使用softmax 函数σ对z中的数值进行归一化,生成另一个Z维向量=σ(z) ,向量内的值分别对应于胃癌的T0~T4。
2.5 损失函数
在卷积神经网络中最常用也是最万能的损失函数是交叉熵损失函数。然而,在整个上腹部CT 图像中,肿瘤所占面积通常仅为整个图像的10%左右。在分割任务中,对于上腹部CT 图像这类有大量背景的数据而言,交叉熵损失函数是很不友好的。用逐像素分类的交叉熵损失函数进行训练很容易陷入局部最优解,这对训练有很大影响。骰子损失函数(Dice)是一个可以衡量预测值与金标准之间相似度的损失函数,可以优化小目标与背景之间的矛盾以及正负样本数据的不平衡[22]。其公式如下所示:
其中,N表示总的像素点数,δ∈[ 0,1 ],是防止分母为零的可调节的参数,pi∈[ 0,1 ]和gi∈{ 0,1} 分别代表预测值与ground truth。
在T 分期任务当中采用逐像素计算的交叉熵损失函数就显得恰到好处。
其中,N是像素点数,M表示类别数,pic表示对于样本i属于C类的预测概率值,gic∈{0 ,1} ,若预测的类别与样本i的类别相同则为1,不同则为0。结合胃癌的分割任务与T分期任务,定义了一个多任务损失函数:
Lseg是Dice 损失函数,减少了背景像素与目标像素之间的不平衡,而Lcls是交叉熵损失函数。
3 实验
3.1 实验环境
本研究是在带有单个GPU(Nvidia GTX 1080Ti)的Ubuntu16.04 64 位操作系统上使用Pytorch 框架进行实验,具体实验硬件如表1所示。系统的输入是经过预处理大小为384×384的CT图片。
表1 实验配置说明Table 1 Experimental configuration instructions
最近的研究表明,使用SGD 优化器尽管速度会慢于Adam 优化器,但性能会更好[27]。因此,本研究选用权值衰减为1×10-4,动量为0.9的SGD优化网络。学习率设置为1×10-4,共训练400轮。
3.2 实验数据
本研究中使用的腹部CT 数据是由上海长征医院提供。总共收集了50 例患者,每个切片的数量为30~50,但是腹部CT 序列中只有少部分包含胃癌的切片,如图8所示。
图8 同一病人不同CT序列图Figure 8 Different CT sequence diagrams of the same patient
统计分析出每组CT 序列含有胃癌切片的数量约为10 张。在多位专家手动筛选标注下,最终得到一个500 幅CT 图像的数据集。CT 图像的初始大小是512×512。按照交叉验证法进行数据集划分,最终450 张图像作为训练集,50 张图像作为测试集,评估算法性能。
3.3 实验结果
本研究使用mIOU和准确率(Acc)作为主要的评估指标来评估网络性能。mIOU是计算真实值像素和预测值像素两个集合的交集和并集之比。mIOU和Acc的值越大说明算法的性能越好。计算公式如下:
其中,True Positive(TP):预测的正样本与真实值也是正样本;True Negative(TN):预测的负样本与真实值也是负样本;False Positive(FP):预测的正样本而真实值为负样本;False Negative(FN):预测为负样本而真实值为正样本。
3.3.1 分割结果在相同条件下进行对比实验,图9显示不同网络的可视化结果。图中总共5行图片,分别对应5例不同患者的腹部CT 图像。从可视化结果来看,所提方法在肿瘤分割的位置、大小、形状等方面表现的最接近真实分割图。尽管分割结果还不是很理想,但也为胃癌的分割研究提供了价值。U-Net、Y-Net、AttU-Net、R2AttU-Net、CE-Net 与本文方法的平均交并比分别为0.272、0.494、0.325、0.597、0.636、0.721,准确率分别为0.994、0.955、0.992、0.986、0.970、0.987。本文方法在所有方法中效果较好,在胃癌分割准确率上有明显提升,比经典的医学图像分割网络U-Net平均交并比高出约45%,与CE-Net相比平均交并比提高8.5%,与R2AttU-Net 相比mIOU 提高12.4%。
图9 不同方法5例病人胃癌分割结果对比Figure 9 Comparison of the results of different methods for segmention of stomach cancer in 5 patients
3.3.2 T分期结果在胃癌T分期任务中,将第一步训练得到粗分割信息的.pth 权重文件载入到第二步训练中。使用带有残差的DDC 模块获得分类信息,然后通过自适应平均池化层获得高维特征向量。高维特征向量穿过全连接层生成一个128维的特征向量。最终得到一个5维向量,这些计算出的特征将胃癌分为5 个类型(T0,T1,T2,T3,T4)。该模型的分类结果如表2中所示。将SC-Net 与最新的Dense-Net 进行比较,分类精度提高约7.9%,表明使用SC-Net进行胃癌的T分期是完全可行的。
表2 诊断分类结果Table 2 Diagnostic classification results
3.4 对比实验
为了证明所提出的SC-Net中各个模块的有效性,对使用的每个模块进行消融实验,结果如表3所示。mIOU是分割算法性能的主要评估指标,而准确性(Acc)是分类算法性能的主要评估指标。将原始Y-Net称为“Backbone”。从表4可以清楚看到,网络中每个添加的模块性能均得到提高。其中,在引入注意力机制后,mIOU从0.648提高到0.704,在加入DDC模块之后,分类的准确率也提高了11.8%。这表明该模块对于分割任务很有效。而在反向传播过程中,分割网络和分类网络共享权重,因此分类的准确性也得到提高。结果表明结合使用这些模块能提供更好的性能。
表3 不同模块评估的消融实验Table 3 Ablation experiment for the evaluation of different modules
表4 两种损失函数的定量分析Table 4 Quantitative analysis of the two loss functions
4 结论
本文提出一种称为SC-Net的新型端到端深度学习架构,该架构可以从上腹部CT 中分割胃癌并进行T 分期,以便医生制定针对性的手术方案。精准的胃癌分割和T分期可以帮助改善临床应用。
首先,在第一步的粗分割阶段,由于胃癌大小、位置和形状各异,在特征编码模块采用预训练的ResNet 结构得到基础特征。然后,利用多个比率的池化层组成的多核残差模块扩大感受野并突出目标区域。此外引入注意力机制,抑制胃癌边缘无关的信息和噪声,保留并丰富边缘信息。最终得到粗分割的特征。在第二步胃癌精分割与T分期阶段,利用第一阶段得到的粗分割信息,进一步优化肿瘤分割结果。与此同时,使用多任务损失函数实现更快、更平滑的收敛,加快训练速度。
与现有的基于深度学习方法进行比较,结果表明所提方法在分割准确性和分类效果上均得到显著提高。但在本研究中所得结果准确性不是很高,后续将对此问题进行改善,并对分割出来的结果进行三维重建,以更好地帮助医生进行辅助诊断。