APP下载

结合多分支结构与自注意力机制的医学图像分割模型及其应用

2021-11-22孙占全田恩刚胡川飞

小型微型计算机系统 2021年11期
关键词:残差分支卷积

闫 超,孙占全,田恩刚,胡川飞

(上海理工大学 光电信息与计算机工程学院,上海 200093)

1 引 言

随着医疗科学技术的快速发展,医学影像成为医生了解和分析病情的重要参考信息,在诊断疾病、评估治疗等方面发挥着重要作用.医学图像分割是将医学图像中具有特殊含义的区域分割出来,并提取相关特征,为临床诊疗和病理学研究提供可靠的依据,辅助医生做出更为准确的诊断,是对医学图像进行对象提取、定量分析以及三维重构等处理中一个必不可少的阶段[1].由于不同医学图像形态各异、结构复杂,且同一组织图像的强度、颜色或纹理等特征类似,难以区分.因此,从医学影像中识别病变组织的像素点,获取这些病变部位的信息特征具有一定的技术难度[2].传统自动分割的方法主要包括基于图谱的方法[3-5]、基于形变模型的方法[6]、基于主动表观模型的方法[7-9].这种依靠配准的分割方法需要过多的人机交互过程来完成目标特征的提取,自我学习能力较弱,当面对差异较大或者形态复杂的图像时,分割精度和效率上不是很理想[10].

近年来,计算机硬件性能迅速提高,基于卷积神经网络的深度学习方法应运而生,例如AlexNet[11],DeepLab[12],GoogLeNet[13],ResNet[14]和DenseNet[15],这些网络以其强大的特征提取能力被广泛地运用在视觉识别任务中.在医学图像分割方面,加州大学伯克利分校的Long等人提出的全卷积网络(Fully Convolutional Network,FCN)[16]以AlexNet网络结构为基础,将全连接层全部转化为卷积层,使得输入图像尺寸不再受到限制,减少了冗余结构,适用性更加广泛.Ronneberger等在FCN思想的基础上,提出U-Net网络架构[17],利用编码器与解码器之间的级联操作将图像高层信息与浅层信息融合,丰富了图像的细节特征,在对神经元、细胞瘤和HeLa细胞的医学图像分割任务之中得到了广泛地应用.Wang等人提出了一种结合深度残差网络和U-Net架构的R-U-Net神经网络[18],并将其应用于股骨区域自动分割,相比于传统方法优势明显,实现了批量股骨区域的高精度自动分割.Gu等人提出一种上下文编码网络CE-Net(Context Encoder Network)用于2D医学图像分割,网络捕获了图像更多抽象信息并且并保留空间信息特征[19],最终在视神经盘、细胞轮廓等多个医学图像分割任务中取得了很好的分割效果.

标准的U-Net网络架构层数较少,模型简单,在面对多种复杂医学图像时存在特征提取不足的问题.为了让卷积神经网络有更好的学习能力,最直接有效的方法是使网络层数更深,但是纯粹的增大网络有以下的缺点:1)参数太多,若训练数据集有限,容易导致过拟合;2)网络越大,计算复杂度越大,难以应用;3)网络越深,训练的过程之中往往会出现梯度消失和梯度爆炸的情况[20],难以优化模型.为了解决上述问题,本文在U-Net网络的基础上,引入多分支结构和残差结构.将不同尺度的卷积层聚合在一起,一方面增加了网络的宽度,另一方面增加了网络对特征大小的适应性,从而能够更好地提取各种不同尺度的特征.随着神经网络层数的加深,残差网络能够很好的缓解网络退化的问题,减少梯度消失或者梯度爆炸带来的风险[21].此外,普通卷积层没能充分利用特征之间的全局依赖关系进行建模,忽略了图像中像素与像素之间的相关性.而自注意力机制[22]在建模全局依赖关系以及计算效率上表现出良好的性能[23].自注意力机制是注意力机制[24]的一种形式,与空间[25]、通道[26]注意力不同,该机制以所有位置的特征加权和来计算响应,更有利于捕捉数据或特征的内部相关性,从而提高对医学图像的分割精度.

受U-Net模型、Inception模型、Residual模型和自注意力模型的启发,为了更好的完成医学图像分割的任务,本文提出一种结合多分支结构与自注意力机制的U-Net卷积神经网络模型:(Self-attentive Inception U-Net,SAIU-Net),具体如下:

1)基于U-Net网络架构,通过跳跃连接的形式,将特征映射从下采样直接传输到上采样,弥补了下采样过程中丢失的信息.

2)基于Inception结构,将设计的多尺度残差卷积块嵌入在U-Net结构中,拓展网络特征提取的宽度,充分提取多尺度信息;每个模块使用残差连接,防止梯度消失,避免网络退化.

3)在编码和解码网络中间引入自注意力机制模块,在融合多尺度信息的同时捕获特征之间位置的关联性,提高分割精度.

4)在肺部分割、眼底血管分割和肾部分割3种不同的医学图像分割任务上进行实验评估,SAIU-Net模型在DICE相似性系数(DSC)、准确性、特异度等多项评价指标上均高于已有的医学图像分割方法,证明了模型能够有效地提高医学图像的分割精度.

2 改进的图像分割模型

2.1 SAIU-Net网络架构

本文提出的SAIU-Net结构如图1所示.该网络和基础的U-Net网络相似,采用了具有跳跃连接的编解码体系结构,将下采样支路的高分辨率与上采样层的特征进行融合,提高分割定位的准确性.SAIU-Net网络主要包括3个部分:编码部分和解码部分以及自注意力机制模块.自注意力机制模块设计在编解码网络中间,计算像素特征之间位置的关联性,加强有效信息的权重,融合下采样之后的图像特征,并为上采样提供良好的基础信息.多分支残差模块嵌入在编解码网络的各个卷积层之中,拓展网络宽度,提取多尺度特征信息,提高对医学图像的分割精度.在编码过程中,将训练图像输入到模型中,每经过一个多尺度残差块,不同尺寸的感受野都会自适应的捕捉不同大小的图像特征信息,特征图通道数将增加一倍;下采样采用2×2的Max-pooling卷积层进行特征整合,每经过一次下采样模块,特征图的大小长宽尺寸将减少一半.在解码过程中,每经过一个多分支残差块,不同尺寸的感受野都会自适应的捕捉不同大小的图像特征信息,特征图通道数将减少一半;上采样采用Upsampling2D将特征图的大小增加一倍.在最终的输出中,预测图像与输入图像尺寸相同.

图1 SAIU-Net模型整体结构图

2.2 多分支残差模块

为了将不同分支上不同大小感受野所捕获的特征进行聚合,本文在编码部分和解码部分里面提出了一种改进的多分支残差块,通过多个不同尺寸的卷积层来拓展网络宽度,以学习到图像多尺度的特征信息.此外,为了有效地实现梯度传播,避免网络退化,本文在网络框架中使用残差单元和批处理(Batch normalization,BN)层来加快网络的训练速度,提高网络运行效率.

多分支残差模块如图2所示,输入特征共经过4条支路.前3条支路的功能是提取图像不同尺度的特征信息,融合不同感受野下采集的图像特征.第1条支路采用1×1的卷积核进行特征映射,同时加入BN操作.第2个条支路同样采用1×1的卷积核进行特征映射,为了扩大感受野,使用3×3的卷积核进行特征提取,然后加入BN操作.类似地,第3条支路在第2条支路的基础上进一步多出3×3的卷积核和BN层.第4条支路是一个残差单元,直接将输入连接至输出,由于包含一个恒等映射,一定程度上可以解决网络退化问题.最后,将4条支路汇合,进行Concatenation操作作为最终的输出.

图2 多分支残差模块

假设特征图输入为XL,输出为XL+1.GN×N()代表卷积核为N×N大小尺寸的卷积操作,GB代表BN层.Concatenation操作用*表示.那么,该模块可以用公式(1)表示:

XL+1=G1×1{GB(G1×1(XL))*GB(G3×3(G1×1(XL)))*GB(G3×3(GB(G3×3(G1×1(XL)))))}+XL

(1)

结合多分支残差模块的图像与公式可知,在前3个并行的卷积层中,为了捕获图像更广泛和更深层次的语义特征,文中设计了感受野为1×1的卷积核,感受野为3×3的卷积核和感受野为5×5的卷积核(两个kernel size为3×3卷积核串联的感受野相当于5×5).大的感受野用于识别图像中的较大目标特征,小的感受野用于提取图像的细微特征,然后将不同尺度的图像特征信息用Concatenation的方式进行深层次聚合.这在处理较为复杂的医学图像分割任务时发挥着重要作用.最后,辅以残差网络结构,缓解网络退化问题,加速网络训练进程.

2.3 自注意力机制模块

自注意力机制在建模全局依赖关系以及计算效率上表现出良好的性能.因此,引入自注意力机制能够使网络高效地对上下文关系进行刻画,增强特征的表征能力.

自注意力模块如图3所示,假设输入特征图为F∈RC×W×H,其中C,W,H分别表示通道数、宽度和高度.在第1条分支路径中,F输入到1×1卷积层,生成新特征图F0∈RC′×W×H,其中C′=C/8.然后通过Reshape操作将F0的维度转换为C′×(W×H),即F0∈RC′×(W×H).对于单张特征图而言,就是将W×H大小拉直,输出为1×(W×H)大小;对于Batchsize大小而言,输出为B×C/8×(W×H).在第2条分支中,将F0进行相同的操作,生成F1∈RC′×(W×H).

图3 自注意力机制模块

通过Permute操作将F0进行转置,然后与F1相乘,并其进行Softmax运算以提取相关性.注意力矩阵α的计算方法如公式(2)所示:

(2)

第i行表示第i个像素位置上所有通道的值.第j行表示第j个像素位置上所有通道的值.αj,i表示第j个位置对第i个位置的影响程度,可以看作是第j个位置与第i个位置的相关程度,从而构成全局上下文任意两个元素的依赖关系.自注意力机制以所有位置的特征加权和来计算响应,捕获局部区域变化间的相关性,相比于传统的卷积运算,减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性.

在第3条支路中,先对特征图F进行1×1的卷积操作得到F2∈RC×W×H,然后通过Reshape操作将F2的维度转换为C×(W×H),即F2∈RC×(W×H).通过Permute操作将α进行转置,将其乘以F2,得到自注意力层输出为β∈RC×(W×H),使用Reshape操作将β的维度转换为C×W×H,即β∈RC×W×H.将自注意力层的输出乘以比例参数μ,与输入特征图F相加,F′=μβ+F,自注意力F′即为全局相关特征.

综上所述,自注意力机制中的第1条支路和第2条支路应用卷积层获得降维的特征,生成自注意力矩阵,该矩阵模拟任意两个元素之间的依赖关系;然后,将第3条支路乘以自注意力矩阵以获得反应全局背景的自注意力层;最后,按一定参数比例融合自注意力层和原始图像特征以获得最终的全局相关特征.自注意力模型通过学习不同区域特征之间的依赖关系,获得图像的全局特征,提高对图像细节特征的识别能力,进而提高对医学图像的分割精度.

3 实验结果与分析

3.1 实验数据集

本文使用肺部分割、眼底血管分割和肾部分割3种不同的医学图像分割任务对SAIU-Net模型进行评估.肺部分割任务中使用的数据集来自2017年Kaggle数据科学碗的“Finding and Measuring Lungs in CT Data”竞赛(1)http://www.kaggle.com/kmader/finding-lungs-in-ct-data,该数据集收集了2D和3D的肺部CT图像,本实验中将使用2D图像进行评估,包含267张分辨率为512×512的图像.眼底血管分割任务中使用的数据集为DRIVE[27].DRIVE数据集包含40张彩色眼底图像,其中20张图像用于模型训练,8张图像用于模型验证,12张图像用于模型测试,每张图像的大小为580×580.肾部分割任务中使用的数据集为上海市某医院提供的肾部检测影像,每1例患者对应一幅图像,共包含400张图像及其对应的标签.这3个数据集的示例图像如图4所示,第1列为肺部数据集图像及其对应标签,第2列为眼底血管数据集图像及其对应标签,第3列为肾部数据集图像及其对应标签.

图4 肺部数据集,眼球血管数据集,肾部数据集

3.2 评价指标

为了定量评估SAIU-Net模型的性能,本文选用的评价指标包括:DICE相似性系数(dice similarity coefficient,DSC)、Jaccard指数(jaccard similarity coefficient,JSC)、准确性(Accuracy,AC)、敏感度(Sensitivity,SE)、特异度(specificity,SP)和F1分数(F1-score).各项指标公式如下:

(3)

(4)

(5)

(6)

(7)

(8)

其中,GT表示人工手动分割的图像,SR表示模型预测的结果.TP(True Positive)表示真阳性,它表示人工分割和算法分割公共区域的像素个数.FP(False Positive)表示假阳性,它表示在算法分割区域内,在人工分割区域外的像素个数.TN(True Negative)表示真阴性,它表示人工分割和算法分割外部公共区域的像素个数.FN(False Negative)表示假阴性,它表示人工分割区域内,在算法分割区域外的像素个数.

3.3 实施细节

实验的主要硬件配置是英特尔Seon Silver 4116 CPU和单块英伟达TITAN XP GPU.本文提出的SAIU-Net模型是以基于Python的深度学习框架Pytorch实现.实验使用交叉熵作为模型训练的损失函数,使用随机梯度下降(Stochastic Gradient Descent,SGD)优化器,其动量和权重衰减分别设定为0.9和0.0005.初始学习率为0.001,训练迭代周期为120,同时采用学习率阶段衰减策略在每30个迭代周期衰减学习率,衰减系数为0.1.训练输入图像的批数据量为4,同时采用随机水平翻转作为数据扩增方法,增强网络的泛化能力.

3.4 肺部分割

肺部数据集包含267张图像和相同数量的标签.实验使用90%的数据作为训练集,10%的数据作为测试集.为了使训练的模型稳定可靠,本实验采用5倍交叉验证以验证模型的有效性.图5展示了各个模型对肺部图像的分割结果,第1列为原始图像,第2列为真实标注图像,剩下各列分别是以下模型的输出:SegNet,FCN-8s,U-Net,ResU-Net,SAIU-Net.可以看出,SegNet和FCN-8s分割出的肺实质部分不够连续,存在一些空洞,尤其是FCN-8s的分割结果,存在较多明显的斑点.U-Net和ResU-Net由于跳跃连接表现出较好的性能,但仍有部分像素预测错误.SAIU-Net在以上基础上进一步融合不同尺度信息,且自注意力机制增强了图像特征的表征能力,使最终分割结果有着较为完整的边缘和区域.

图5 各算法肺部图像分割效果对比

各模型的定量分割结果如表1所示.为了保证实验结果的公平性,SegNet、Fcn-8s、U-Net和ResU-Net的实验采用了与SAIU-Net相同的训练方式,如损失函数、优化器等.可以看出,SAIU-Net在多个评价指标下都表现出了良好的性能.DICE系数是评价分割精度最有效的指标之一.本实验中,SAIU-Net模型的平均DICE系数为0.9853,比排名第2的ResU-Net模型高了0.23%.除此之外,在JSC指数,准确性、敏感度、特异度和F1分数等指标上SAIU-Net模型的结果也都优于其他模型.说明了多分支残差结构能够有效减少连续下采样带来的信息损失,解决网络退化问题,而注意力机制更加关注目标区域的输出,可有效增强模型的分割效果.

表1 各算法肺部图像分割效果对比

3.5 眼底血管分割

DRIVE中数据量相对较少,为了降低过拟合的影响,对数据集进行了增广处理.由于所用数据集中视网膜图像是一个圆形区域,因此将图像随机旋转固定角度,可以模拟不同的采集环境而不会改变图像自身结构,然后使用Gamma 校正对图像的亮度进行调整.每幅图像增广两次,这样DRIVE 由40张增广到120张,在模型的训练阶段每次随机选取其中的100张用作训练,剩下的20张用于测试.各模型输出的眼底血管分割结果如图6所示,从左到右分别为原始图像,真实标注图像,SegNet,FCN-8s,U-Net,ResU-Net,SAIU-Net模型的输出图像.由于视网膜眼底血管数据集图像比肺部数据集图像复杂,SegNet网络模型的输出图像略显模糊.U-Net,FCN-8s,ResU-Net网络模型和SAIU-Net模型的分割结果相近,肉眼较难分辨,进一步定量分析,从表2中可以看出,相比于其他模型,SAIU-Net表现出了更好的性能,在DICE 系数,JSC指数,准确性、敏感度、特异度和F1分数等指标上分别比排名第2的ResU-Net模型高出了0.21%,0.23%,0.15%,0.98%,0.22%,1.83%.一般的,网络深度越深越宽,能学到的图像特征信息越多,性能也越好.SAIU-Net模型网络结构丰富,尺度多样,具有良好的抗梯度消失的性能,而且与之结合的自注意力机制模块进一步增强了有效信息特征表达能力,因而可以获得较好的分割效果.

表2 各算法在DRIVE数据集上的分割效果对比

图6 各算法在DRIVE数据集上的分割效果对比

3.6 肾部分割

肾部图像分割任务是对患者检测影像的肾部区域进行分割,从而为进一步的医学诊断提供参考依据,共包含400张图像及其对应的标签.实验中,80%的数据将用于训练和验证,剩下的数据将用于测试,使用5倍交叉验证.分割结果如图7所示,从左到右分别为原始图像,真实标注图像,SegNet,FCN-8s,U-Net,ResU-Net,SAIU-Net模型的输出图像.可以看出,FCN-8s模型分割的部分样本将非肾部区域划分为肾部区域,存在一些偏差.其他各模型分割结果较为相似,其中SAIU-Net模型的分割结果与真实标签最为接近,分割效果最好.各模型的定量分割结果如表3所示.SAIU-Net在多个评价指标下都表现出了良好的性能,其DICE系数为0.9268,比排名第2的ResU-Net模型高了0.53%.结果表明,本文提出的SAIU-Net引入自注意力机制模块,弥补了全局相关性的特征刻画,因此与其他模型相比,对于全局性的细节部位具有更好的分割能力.而多分支残差模块可以使得SAIU-Net比原来的网络更加深入和有效,该模块可以在不引入梯度消失的情况下有效地加深网络的深度,使网络能够学习到更多的图像特征.

表3 各算法肾部图像分割效果对比

图7 各算法肺部图像分割效果对比

3个不同的医学图像分割任务实验充分证明了SAIU-Net模型具有良好的适应性和分割精确性.

3.7 方法有效性分析

多分支残差模块对结果的影响:为了验证多分支模块提升分割精度的有效性,本文构建了不包含多分支残差模块和包含多分支残差模块的基础U-Net网络在肾部数据集上进行实验.实验结果如表4第1行和第2行所示,多分支残差模块能够提升大约0.61%的DICE指标,验证了多分支模块拓展网络提取特征的宽度,从不同的尺度学习到图像更多的特征信息的能力,进而提高了分割精度.

表4 在肺部数据集上验证方法有效性的实验结果

自注意力机制模块对结果的影响:与验证多分支模块的方式类似,构建了不包含和包含自注意力模块的网络.为了尽可能避免其他模块对结果的影响,实验分为两组,如表4所示,第1组为第1行和第3行,第2组为第2行和第4行.两组分别在基础网络和包含多分支模块的网络上,验证了自注意力机制的有效性.可以看到,自注意力机制模块的两组实验中,对分割结果均有大约0.63%的准确率提升.此实验结果表明,自注意力模块的可学习融合方式,有益于增强模块提取特征本身的全局性,有效提升网络最终的分割结果.

4 结 论

本文针对基于深度学习的医学图像分割技术,在U-Net网络的基础上,提出一种结合多分支残差结构与自注意力机制模块的卷积神经网络模型(Self-attentive Inception U-net,SAIU-Net).模型采用多分支结构提取并融合图像不同尺度的特征,来弥补图像在上采样和下采样过程中所丢失的信息;采用自注意力机制模块,捕获特征之间位置的关联性,提高分割精度.通过在肺部、眼球血管、肾部3个医学图像数据集上进行仿真实验,证明了相比于其他方法,SAIU-Net在相似性系数、Jaccard指数、准确性(Accuracy,AC)等评价指标上达到了更好的结果.同时,消融实验验证了自注意力机制模块和多分支残差模块的有效性.

猜你喜欢

残差分支卷积
基于全卷积神经网络的猪背膘厚快速准确测定
多级计分测验中基于残差统计量的被试拟合研究*
基于残差-注意力和LSTM的心律失常心拍分类方法研究
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
一类离散时间反馈控制系统Hopf分支研究
融合上下文的残差门卷积实体抽取
软件多分支开发代码漏合问题及解决途径①
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①