APP下载

基于反注意力机制U-Net网络的胃部肿瘤分割

2022-10-09王萍徐凯成张一弛王海玲蔡清萍卫子然胡尊琪

中国医学物理学杂志 2022年9期
关键词:胃部注意力卷积

王萍,徐凯成,张一弛,王海玲,蔡清萍,卫子然,胡尊琪

1.上海工程技术大学继续教育学院,上海 201620;2.上海工程技术大学电子电气工程学院,上海 201620;3.上海长征医院肠胃外科,上海 200003

前言

胃癌是最常见同时也是致死率最高的肿瘤之一,据调查显示,在我国因胃癌而死亡的人数占癌症死亡人口的第3位[1]。上消化道内窥镜检查(胃镜检查)是检测胃癌的金标准。但由于它是一种侵入性检查,不仅对医务操作人员有较高的技术要求,而且患者需要承受一定的痛苦[2]。除此之外,胃镜还有其局限性。例如,胃癌的浸润程度和淋巴结转移不能准确反映。而CT诊断胃癌是一种无痛高效的方法,并且CT数据可以从多个角度观察疾病的进展,也可以评估准确的浸润部位和程度。但是基于CT的术前分期诊断对专家经验依赖性强,且主观性强。通常需要几个专家讨论后确定结果。因此,它需要大量的人力和时间,对专家资源的需求也很高。基于深度学习方法,能够有效改善这类问题。在基于足够的训练数据下,神经网络模型可以先对胃部肿瘤的轮廓进行勾勒,然后对目标区域进行分类预测,在一定程度上辅助专家决策完成最后的诊断。

在医学影像中,对目标区域进行精细勾画,其分割结果能够为专家提供体积、形状等重要的临床指标。与传统自然图像相比,医学影像分割的难点主要有数据量少,图像质量低(对比度、模糊、噪音、伪影和失真),不同样本间器官组织差别较大等[3-4]。近年来,深度学习算法被越来越多地应用于医学影像分割任务中,使得传统算法在医学影像分割中的局限性得到了突破。由于U-Net网络在医学影像分割任务中的出色表现[5],被许多学者选择为基础框架,并以此展开进一步研究。Isensee等[6]在传统U-Net的基础上进行了调整,并将提出的算法应用于肿瘤分割任务中。Isensee等[7]在nnUNet增加了后处理,数据增强以及基于区域的训练,在BRATS 2020 竞赛中获得了第1 名。Zhou 等[8]采用3D ShuffleNet作为网络的编码层以减少GPU的显存,再将残差模块应用于解码层中解决模型退化问题。

但是在胃部肿瘤分割中,由于胃部肿瘤切割纹理不够清晰且分割边界较为模糊,导致胃部肿瘤分割的精准度大大降低。针对此问题,本文提出一种基于反注意力机制U-Net网络模型进行胃部肿瘤分割。这项工作的贡献是:(1)针对胃部肿瘤数据的特殊问题,提出基于反注意力机制的U-Net网络模型,使用反卷积注意力机制将粗提取的显著特征从富含边缘信息的低级特征中消除,留下具有较多不确定性的边缘区域,使得网络能够更多地关注轮廓信息,进而实现胃部肿瘤轮廓的优化处理;(2)在U-Net的上采样层中设置侧输出,通过使用损失函数对侧输出层进行优化,增加网络上采样过程中的约束,有效提升目标在还原过程中的表现;(3)在基于CT数据的胃部肿瘤分割场景中评估本研究的模型,证明方法的有效性。

1 相关工作

1.1 基于U-Net的深度学习分割算法

作为最具影响力的模型之一,全卷积神经网络(Fully Convolutional Networks,FCN)[9]将传统的分类神经网络的全连接层替换为由卷积运算组成的全卷积层,使得网络能够直接实现端到端的密集逐像素预测从而实现图像分割等任务。根据全卷积神经网络,Ronneberger等[10]修改了网络的结构,设计出了一种U型结构的二维分割网络,并取名为U-Net。

目前公开的医学影像数据较少,即使是公开的数据集,其样本量仍然十分有限,若使用较大的网络模型很容易在训练过程中发生过拟合,U-Net网络是一种轻量级模型,所以更适用于数据量普遍较少的医学数据。近年来,U-Net作为最热门的医学影像分割网络之一,越来越多的学者将U-Net作为baseline展开研究。

Milletari等[11]提出了U-Net网络的三维延伸网络VNet,虽然,V-Net网络的计算复杂度以及空间占用率更高,但是V-Net模型能够充分地利用医学三维数据的帧间信息,提升网络对缺乏纹理信息区域的预测表现。Oktay等[12]以U-Net为基础模型,在跳跃连接上添加了注意力门控机制,来控制不同空间位置上的特征的重要性,使得模型能够更多关注不同形状和大小的目标物体,并同时抑制了图像中不相关的区域。Alom等[13]提出一种结合U-Net、ResNet以及RCNN 3种网络优势的模型,该网络将循环残差模块(Recurrent Residual Block)代替传统U-Net的卷积、ReLU层,在不增加参数量的同时提升网络性能。Mou等[14]在解码层与编码层间分别采用空间注意力机制和通道注意力机制,通过采用矩形卷积核的形式来自适应地学习空间与通道上的曲线结构特征。

尽管U-Net网络在医学影像分割任务中有着十分出色的表现,但是近几年,有学者提出传统的U-Net结构还是存在着一些问题,所以研究者们针对U-Net的不足做出了自己的改进。Zhou等[15]认为U-Net直接通过跳跃连接(Skip-Connection)将浅层信息传递给深层并不合理,因此作者提出将多个不同深度的U-Net融合为一个网络,最后根据剪枝的方式获取合适深度的U-Net。Huang等[16]认为文献[17]中所提出的U-Net++并没有充分地利用全尺度信息,与传统U-Net将相同尺度的低级特征与高级特征进行合并不同,作者通过将不同尺度的低级特征利用跳跃连接向深层传递,将浅层的细节信息与深层语义特征融合,使得网络能够适应不同尺寸的目标器官。Seo等[18]认为U-Net目前主要存在3种问题:跳跃连接传递的重复的低像素信息会导致提取的特征模糊;高级特征中没有包含足够多的边缘信息;多次的pooling 层会导致小物体的丢失。作者对U-Net网络结构进行调整,通过对跳跃连接传递的信息进行筛选,使得网络能够保留边缘信息以及小物体并同时丢弃重复信息。

1.2 损失函数和优化器

神经网络的训练除了需要搭建网络结构外,还需要设置损失函数和优化器。损失函数是评价网络结果的一项指标,通常情况下其值能够反映网络当前的预测值与实际标注间的相似度,常用的图像分割损失函数有以下几种,基于概率分布的交叉熵损失函数、Focal损失函数[19]、基于区域的交并比(IoU)损失函数[20]、Dice损失函数[21]、Tversky损失函数[22]。不同的损失函数为网络提供了不同的优化目标。神经网络训练的方式是寻找合适的参数使得目标函数最小化,而这一过程是由优化器完成的,网络根据优化器对参数进行更新,常用的优化器有随机梯度下降优化算法和适应性矩估计优化算法。与模型自学习得到的参数不同,在对神经网络进行训练前,需要人为地设置参数,这类参数被称为超参数(Hyperparameter),研究者通过调整参数来对网络进行人为优化,以提高网络的性能,常用的超参数有学习率,网络隐藏层深度,批尺寸(Batch Size)等。

2 基于反注意力机制的U-Net网络模型

本文在U-Net 网络跳跃连接的基础上提出一种基于反注意力机制(Reverse Attentionmechanism)的优化模型[23-24]。通过反注意力机制为特征图消除显著的区域,使得网络能更多关注目标边缘信息。此外,随着网络深度的加深,神经网络的训练将逐渐变得困难。为了更好地训练网络,本文采用一种基于深度监督的模型监督各个深度解码层的训练[25]。同时,深度监督模型可以有效抑制梯度消失现象。图1显示了本研究所提出的基于反注意力机制的U-Net网络结构。

图1 网络结构图Figure 1 Network structure

2.1 反注意力机制

在实际的临床研究中,专家通常将病变区域分为两步。第一步是确定目标在原始图像中的大致位置。第二步是根据上一步粗提取的位置,结合周围的器官和组织,准确勾绘出病变的轮廓细节。全局与局部注意力机制对目标区域有较精确的定位,为了能获取目标的边缘特征,采用反注意力机制对编码层获取的粗糙特征进行优化处理。由于编码层最终得到低分辨率的高级语义特征,而高级特征的特征图经过多次卷积后会失去边缘信息,如果网络根据提取的低分辨率特征通过反卷积直接恢复目标尺寸,可能会导致分割结果在边缘处过于平滑,无法很好地恢复目标物体轮廓上的复杂结构。为了解决这类问题,引入反注意机制可以在不增加模型参数的情况下,通过消除当前预测的显著信息,引导网络关注剩余不确定性较大的轮廓区域细节。

反注意力机制的具体结构如图2所示,假设编码层的特征为e,反注意力权重为RA,则得到的反注意力输出特征F如式(1)所示:

图2 反注意力机制结构Figure 2 Structure of reverse attentionmechanism

其中,Θ代表逐元素相乘运算,i和c分别对应特征图中的空间位置索引以及通道索引。RA根据侧输出特征进行反运算获得。具体运算过程如下:以解码层d1为例,首先将特征d1通过一个填充为1 的3×3卷积和一个1×1卷积将通道进行缩放得到张量d1',为了保证侧输出尺寸与标注尺寸的一致,因此需要对d1'进行插值来提升特征图的分辨率,在解码层d1中选用的插值尺度因子为32。将d1'输入到sigmoid函数中进行取反运算后再与由1填充的张量相加,最终得到反注意力权重RA,其公式为:

其中,σ代表sigmoid激活函数。通过反卷积增大输出特征F的尺寸,最后将反注意力特征F与对d1'插值后的特征张量相加,来补回消除的特征,其公式如式(3)所示:

其中,conv1×1为1×1卷积,deconv为反卷积运算,up为插值运算。相似地,d2、d3通过相似的运算得到对应的输出结果。

首先通过U-Net对原图进行特征提取得到其浅层特征图,如图3所示。之后将显著特征从浅层特征中消除后,其效果如图4所示。通过观察可以发现,浅层特征图中的显著特征被删除,而边缘部分被保留下来,将处理后的特征传给了反卷积层中,网络根据反卷积得到的结果与上一级特征进行目标模型还原。相较于子任务为边缘检测的多任务学习模型,反注意力模型的主要优势在于参数量更少的情况下仍能在目标边缘上有着不错的表现,而多任务学习虽然提升了边缘表现,但网络的参数量也明显增加。

图3 浅层特征图Figure 3 Shallow feature map

图4 反注意力机制效果图Figure 4 Map after being processed with reverse attention mechanism

2.2 深度监督

网络的隐藏层中所有参数完全由网络自学习得到,在整个训练过程中是不受实验者所指导的。所以神经网络面临可解释性差的问题。为了提升网络的表征能力,研究者们会选择加深神经网络的深度。本文采用一种基于深度监督的模型,其基本思想是为神经网络中的某些层添加一些辅助的分类器,这些分类器起到了判断网络隐藏层中特征图质量好坏的作用。目前,深度监督算法主要分为两种形式,如图5所示。第一种形式是为每个浅层添加对应的侧输出,网络分别对每个侧输出进行监督;第二种形式是将各个浅层进行特征融合,再将融合结果通过一个统一的损失函数进行约束。本文采用第一种形式的深度监督模型,通过为浅层特征提供参照,使得网络能实现更精确的定位。

图5 深度监督的两种形式Figure 5 Two types of deep supervision

本文将深度监督分别应用于解码层的第1、2、3层中,为网络浅层提供了外部监督以及更精确的定位,由于解码层中浅层特征尺度较小,因此需要对特征图进行上采样,统一特征图与标签的尺寸。侧输出的损失函数为:

其中,wi为每个侧输出的对应权重,L为侧输出loss函数,G为标签,s为浅层输出,up为插值运算。

2.3 损失函数

在本研究中使用的损失函数是权值IoU损失函数(weighted IoU loss)和二值交叉熵损失函数。IoU损失函数是以IoU为基础的损失函数。IoU损失函数如下:

其中,gij表示原图的标签,pij表示网络的预测结果,H和W分别表示原图的长与宽。

与传统的IoU损失函数不同,为了能够让网络更多地关注难分类样本,权值IoU损失函数为不同样本设置了不同的权值,其定义式如下:

其中,γ为超参数,αij为每个像素对应的权值,对于较难分类的样本,则所分配的权重αij为一个较大的值,而较易分类的样本,所分配的权重αij为一个较小的值。因此,在训练过程中,网络会更多地关注较难分类的样本,而减少对较易分类的样本关注。

二值交叉熵损失函数定义式如下:

其中,yi'∈{0,1}表示样本的标签,yi∈[0,1],yi表示分割结果。

为了抑制过拟合现象,本文在权值基本损失函数上引入正则项,因此,完整的损失函数定义如下:

其中,Lreg代表L2正则化函数,λ代表正则化系数,w代表权重向量,‖ · ‖2为二范数。正则化的目的是为了防止网络中的参数过大,通过最小化正则化项使得权重不会过大,有效抑制了过拟合现象的发生。

3 实验

3.1 实验数据

本研究中使用的数据是由上海长征医院提供的440 组临床增强CT 数据,其中包含了不同分期的上腹部CT 影像数据,实验中所用图像的分辨率均为512×512,在这440 组数据中,本实验采用390 组数据来训练神经网络,50 组作为测试数据来评估网络性能。

3.2 实验设置

本研究基于U 型分割网络的实验平台为Ubuntu 16.04,使用了基于Python 3.6的Pytorch框架来搭建神经网络模型,实验中使用的CUDA版本为10.1,显卡型号为11 G的NVIDIA GeForce GTX 1080 Ti。本文采用Adam优化算法来对网络参数进行迭代更新,在训练过程中,使用poly学习率衰减策略来调整学习率,更新公式为:

其中,base为基准学习率,power参数能控制曲线的形状并设置为0.9,初始学习率(lr)为2×10-4,总迭代次数(total_inter)设置为150,inter为当前迭代次数。

3.3 评估标准

在介绍本文所使用到的评估指标前,首先对混淆矩阵的概念进行简单介绍。混淆矩阵(Confusion Matrix)又被称为误差矩阵,是机器学习中一种评价分类结果的矩阵,常用的评价指标均可以由混淆矩阵的各个元素进行组合获得符号定义如下:真阳性(True Positive,TP),将正样本预测为正类的样本个数。假阴性(False Negative,FN),将正样本预测为负类的样本个数。假阳性(False Positive,FP),将负样本预测为正类的样本个数。真阴性(True Negative,TN),将负样本预测为负类的样本个数。对上述4种类型的样本进行组合后的含义如下所示。TP+FN+FP+TN:所有样本的个数;TP+FP:预测为正类的样本个数;FN+TN:预测为负类的样本个数;TP+FN:实际为正类的样本个数;FP+TN:实际为负类的样本个数;TP+TN:预测正确的样本个数;FP+FN:预测错误的样本个数。混淆矩阵是一种简易且迅速的可视化工具,通过观察混淆矩阵的结果有助于研究者了解当前模型的情况并对模型进行后续针对性的调整。

本文采用的评估指标是平均IoU和准确率(ACC)。IoU的定义如下:

IoU是一种统计两个样本之间相似性的指标,在分割任务中,IoU为预测结果和标注的重叠部分与两区域整体之比,该值越大则说明预测结果与标注区域重叠率越高,理想情况该比值为1,此时FP和FN的值为0,即两个区域完全重叠。

ACC的定义如下:

该指标代表预测正确的像素占图像中总像素的比值,即判断在所有预测结果中有多少是预测正确的。

4 结果

在本节中对基于反注意力机制的网络模型进行量化分析以及可视化结果的展示,并与U-Net、ET-Net和Attention U-Net作对比。

4.1 结果对比

本研究所使用的对比算法分别是U-Net、ET-Net和Attention U-Net。通过观察表1 和图6 中的量化结果对比,本文所使用的方法的相比于U-Net、Attention U-Net和ET-Net有了较为明显的效果提升。在IoU 和ACC 上,本文所提出方法的IoU 达到81.14%,ACC达到99.52%,然后根据混淆矩阵得到受试者工作特征(Receiver Operating Characteristic,ROC)曲线[26],如图7 所示。相较于对比模型中表现最好的ET-Net,本文所使用的模型分别在IoU 和ACC上实现了1.42%和0.03%的提高,相较于传统的U-Net,本文所使用的模型在IoU 和ACC 上分别提升1.75%和0.09%。

图6 量化结果对比图Figure 6 Comparison of quantified results

图7 反注意力机制下的U-Net的ROC曲线Figure 7 ROC curve of U-Net with reverse attention mechanism

表1 胃部肿瘤分割的量化结果(%)Table 1 Quantitative results of gastric tumor segmentation(%)

为了能更清晰地观察分割细节,放大后的可视化结果如图8 所示。在可视化图中展示了本文算法与U-Net和ET-Net在胃部肿瘤CT数据集上的分割结果对比。图8a是未经处理的CT原图,图8b为原图所对应的标签,图8c、d 分别为对比方法AttentionU-Net和ET-Net 的分割结果,图8e 为本文结合反注意力机制和深度监督的分割可视化结果。为了从全局的视角观察不同模型的分割整体,对图8中受试者对应的所有分割结果进行三维重建,如图9所示。在三维重建图中用俯视视角展示了本文算法与U-Net和ET-Net在胃部肿瘤CT 数据集上的分割结果对比。通过本实验所得到的分割结果表现得更为出色,其边缘细节与标注更为接近。由此可以证明,通过消除显著特征保留边缘的方式能够有效地让网络去关注轮廓细节,实现更精准的分割。

图8 胃部肿瘤分割放大图Figure 8 Zoom-in of gastric tumor segmentation

图9 胃部肿瘤分割三维重建的比较结果Figure 9 Comparison of three-dimensional reconstruction of gastric tumor segmentation

4.2 消融实验

为了评估网络中各个模型的表现,在本节中将展示网络中每个模块在单独实验中得到的结果。表2消融实验的结果对比,以U-Net单独进行的实验,IoU和ACC分别为79.37%和99.45%;反注意力机制单独进行实验时,IoU和ACC分别为80.64%和99.50%,相较于U-Net分别提升了1.27%和0.05%;深度监督单独作用时,IoU和ACC分别为80.45%和99.52%,相较于U-Net分别提升了1.08%和0.07%。根据消融实验定量结果可以证明,本文提出的基于U-Net的二维分割网络能够有效提升胃部肿瘤分割任务中的精确度。

表2 胃部肿瘤分割的消融实验结果(%)Table 2 Results of ablation experiment for gastric tumor segmentation(%)

5 总结

本文采用了反注意力机制,在编码层粗提取的特征基础上,对胃部肿瘤轮廓特征进行更进一步的优化提取。与传统注意力机制不同,反注意力机制通过消除显著特征,使得网络更多地关注物体的轮廓信息。其次采用了深度监督模型,这类模型能为网络浅层提供辅助的分类器,有效地提升网络在浅层中的表现,同时也抑制了梯度消失现象的发生。最后在基于上腹部CT胃部肿瘤数据上进行实验,结果证明了本研究所采用的基于反注意力机制和深度监督算法在胃部肿瘤分割上得到更准确的结果,相较于传统U-Net网络性能得到了较大的提高。

猜你喜欢

胃部注意力卷积
为什么坐过山车时胃部会发痒
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
胃部爱情
胃部反酸吃什么好
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
联合检测血清胃蛋白酶原和胸苷激酶1在胃部疾病诊断中的意义
A Beautiful Way Of Looking At Things