APP下载

基于U型结构的CT图像分割算法

2022-07-11康文瀚高毓曼

西南科技大学学报 2022年2期
关键词:残差瓶颈卷积

康文瀚 范 勇 高 琳 蒋 勇 高毓曼

(1.西南科技大学计算机科学与技术学院 四川绵阳 621010;2.成都信息工程大学区块链产业学院 成都 610225)

深度学习方法在医学领域涉及CT图像分割、MRI图像分割、计算机辅助诊断等等。完全卷积神经网络[1]或编码器-解码器结构[2]在医学图像分割领域中较为常见。2015年MICCAI会议上提出的U-Net[3]分割模型采用对称路径融合多层信息获得多尺度特征。一方面,U-Net网络在Encoder阶段获取图像中的上下文信息,在Decoder阶段采用上采样方法将图像恢复到输入图像分辨率。另一方面,U-Net网络通过长连接(Long-concatenate)将图像的全局信息和局部信息进行融合,提高了网络对特征信息的学习敏感度。文献[4]基于U-Net结构提出了以三维数据作为输入进行训练的3DU-Net模型,3DU-Net网络解决了由于二维切片造成的上下文信息丢失的问题。文献[5]提出U-Net++网络模型。U-Net++在Unet基础上采用密集跳跃连接弥补缺失的语义信息。文献[6]提出的Res-UNet模型是在U-Net基础上通过使用加权注意力机制和跳跃连接使模型可以学到更多的鉴别特征。文献[7]结合可变形卷积和U-Net网络提出DU-Net网络,该网络通过大量的上采样提取上下文信息获得更高的输出分辨率。文献[8]引入密集连接模块到U-Net结构中,使模型达到去除伪影的效果。文献[9]采用两个Vnet-S网络级联的方式分别对CT影像进行粗分割和细分割。MultiResUNet[10]利用Multiblock扩展U-Net模型,使网络能够从多分辨率进行分析训练。文献[11]利用全尺度跳跃连接代替U-Net模型的长连接,使得高级语义信息与低级语义信息进行结合,获得更高的分割精度。文献[12]引入DenseNet模块应用于卷积层中,用于提升对小区域中特征提取能力和避免梯度消失问题。文献[13]提出的CRF 3DU-Net网络分别利用3DU-Net和全连接条件随机场对图像进行粗分割和细分割,可以使网络提高像素间的关联性。文献[14]将最优密集预测单元引入Deeplabv3+ 网络中减少分割过程中出现的不完全分割情况。虽然上述网络对U-Net模型的改进在分割中具有积极作用,但都忽略了图像中远距离特征之间的关联关系。

针对神经网络中忽略图像中远距离特征之间的关联关系造成的过分割问题,本文在编码器阶段与解码器阶段之间采用双路径长连接的方式使模型在每个特征之间建立关联关系,丰富图像的有效特征且有利于解决梯度消失问题。双路径的长连接方式分别由建立特征之间关联关系的注意力路径和丰富特征的残差路径组成,有利于减少医学图像中器官的过分割问题,获得更好的分割效果。在卷积层采用改进的瓶颈结构替换传统卷积层,利用上采样与下采样后的特征弥补丢失的浅层特征。在MSDSpleen数据集[15]上验证了模型的有效性。

1 双路径医学图像分割模型

1.1 AR-UNet模型结构

本文提出一种基于U型结构的具有双路径长连接方式的医学分割模型AR-UNet(Attention-Residual U Network),模型总体结构如图1所示。

图1 AR-UNet网络结构图Fig.1 Network structure diagram of AR-UNet

图1中注意力路径代表双路径长连接方式中的建立特征之间关联关系的注意力路径,残差路径代表双路径长连接方式中的由N个残差块组成的提取特征的残差路径。在Encoder阶段和Decoder阶段,每一层由改进的瓶颈结构组成。Encoder阶段与Decoder阶段之间通过双路径的方式进行长连接。

AR-UNet与U-Net不同,受文献[16]影响 AR-UNet在U-Net基础上利用改进的瓶颈结构替换传统的卷积层,使模型利用上采样和下采样后的特征弥补卷积过程中所造成的浅层特征信息丢失。借鉴文献[17]在上采样和下采样过程中使用卷积替换池化层有助于增加相邻特征间的依赖性。AR-UNet利用双路径长连接的方式替换U-Net中的长连接方式,可以使模型在每个特征之间建立关联关系,同时提取更丰富的多尺度特征。

1.2 图像预处理

采用边界投影获取器官边界的预处理方式与对像素的预处理方式不同。该预处理方式利用球坐标系将前景体素与背景体素之间的连续坐标投影到矩形框,从而获取用于AR-UNet网络模型训练的器官边界部分。预处理具体步骤如下:

步骤1:定义一个带符号的矩阵C(x,y,z),C(x,y,z) 包含每个整数坐标(x,y,z)与边界β之间带符号的欧式距离,用于判断坐标体素与边界之间的距离偏差。

(1)

其中:V表示真值标签的坐标集合;当C(x,y,z)为正时,表示坐标体素位于边界内部;当C(x,y,z)为负时,表示坐标体素位于边界外部;当C(x,y,z)为 0时,表示坐标体素位于边界。

(2)

(3)

1.3 双路径长连接

近年来基于编码器和解码器的思想广泛应用到深度学习。在编码器阶段由于下采样造成的边缘信息的丢失,在解码器阶段通过反卷积所弥补的仅仅是丢失的部分边缘信息,因此长连接成为编码器与解码器之间弥补信息丢失的重要方式。

在器官图像分割任务中,本文在经过弹性边界投影(Elastic boundary projection ,EBP)[18]预处理后的边界图像中引入由注意力路径和残差路径组成的双路径长连接方式,该方式不仅在图像中每个空间位置上的特征之间建立关联关系,而且丰富了在长连接过程中对不同尺度特征的信息提取。双路径长连接方式如图2所示。图2中路径1为注意力机制路径,该路径使网络能够在不同尺度的特征图中建立特征之间的关联关系,这样可以脱离空间距离的限制,使图像中相似的特征之间具有长依赖关系,从而通过聚合每个空间位置上的特征丰富局部特征的上下文信息,提高局部特征的表达能力,达到减少器官过分割的目的。路径1将每个尺度在Encoder阶段的输出特征图L输入空间注意力机制,对图像的每个特征之间建立关联关系。路径2为残差路径,该路径对编码器阶段不同尺度的特征进行提取,这样可以丰富编码器和解码器之间的特征信息。路径2将每个尺度在Encoder阶段的输出特征图L输入由N个残差块组成的残差路径,在提取丰富的特征信息的同时解决梯度消失问题。

图2 双路径长连接结构图Fig.2 Structure diagram of dual-path long connection

双路径长连接方式过程可用式(4)描述:

Fo=f1×1(Att(L)+Res(L))

(4)

其中:输入特征图为L∈Rc×w×h;c,w,h分别代表通道数、宽和高;Att表示注意力路径;Res表示残差路径操作;fN×N表示包括卷积核为N×N的卷积计算。

注意力路径Att 操作过程如下:当L输入注意力路径时会进行 4 个分支操作,其中reshape,transpose分别表示矩阵变维操作和矩阵转置操作。

分支1用于获取特征图的空间位置信息。分支1过程如下:

L1=f1×1(f1×1(L)+f3×3(L))

(5)

(6)

分支2生成由每个空间位置上的特征与所有空间位置上的特征之间关联起来的关系图S,用于捕获每个空间位置上的特征之间的关联关系。分支2整体过程如式(7):

(7)

分支3利用关系图S与输入特征图生成由所有特征相互关联后的特征图。分支3过程如下:

L3=f1×1(f1×1(L)+f3×3(L))

(8)

M=reshape(reshape(L3)⊗reshape(S))

(9)

其中:L3∈Rc×w×h;M∈Rc×w×h。

分支4如式(10)、式(11):

FA=εM+(f1×1(L)+f3×3(L))

(10)

LA=f1×1(FA)+f3×3(FA)

(11)

其中,FA∈Rc×w×h;LA∈Rc×w×h;ε为尺度系数。ε初始化为0,在网络模型中逐渐学习尺度系数ε,通过所有相互关联的特征与原始特征的加权和的方法聚集每个空间位置中的特征,从而丰富局部特征的上下文信息,达到减少器官过分割的目的。

残差路径Res操作的过程如下:

resi=f1×1(Fi)+f3×3(Fi)

(12)

Fi=resi-1

(13)

Res(L)=resN

(14)

其中:resi表示第i+1个残差块;Fi表示经过第i个残差块后的特征图;i表示残差路径中存在的残差块数量,i=0,1,2,3,…N。当i=0时表示输入特征图L。

1.4 改进的瓶颈结构

本文使用改进的瓶颈结构替代传统的卷积层,能够利用下采样与上采样后的特征弥补卷积过程中造成的浅层特征丢失。

文献[19]指出传统的卷积层和池化层中进行特征提取时普遍存在特征丢失等问题,并且随着网络模型逐渐庞大和网络层次逐渐加深,梯度消失也随之出现。为克服上述问题,借鉴文献[16],本文引入改进的瓶颈结构替换传统的卷积层。传统的残差结构和本文中所采用的改进的瓶颈结构分别如图3所示。图中Conv3×3表示卷积核为3×3的卷积操作,BN表示归一化操作,ELU[20]表示激活函数。改进的瓶颈结构利用特征融合弥补了卷积操作中造成的浅层特征丢失的问题。改进的瓶颈结构具体步骤如下:

图3 传统的残差结构与改进的瓶颈结构示意图Fig.3 Schematic diagrams of traditional residual structure and improved bottleneck structure

步骤1:对于输入改进的瓶颈结构的特征图Fin,经过一次ConvBlock1操作产生的特征图F1与下一次ConvBlock2操作产生的特征图F2进行融合,获得新的特征图F12。对特征图F1中的特征充分利用,弥补了在ConvBlock2操作中造成的特征丢失。

步骤2:F12经过ConvBlock3操作后产生特征图F3。

步骤3:与输入改进的瓶颈结构的特征图Fin再次进行特征融合获得单个尺度的输出特征图Fout。对Fin中的特征充分利用,弥补由于ConvBlock1,ConvBlock2,ConvBlock3操作造成的特征丢失。

2 实验

2.1 实验数据集

使用医学分割中的公共数据集用于评估本文方法的有效性。MSDSpleen数据集,数据来自Memorial Sloan Kettering Cancer Center的捐赠者。MSDSpleen数据集中包括41张高分辨率CT图像,从中随机选择21张作为训练集,20张作为验证集和测试集,其中图像的宽和高都为512像素,沿着轴向的长度范围在31像素到168像素之间。

2.2 实验环境与过程

实验的PC环境为Ubuntu 20.04.2系统,Intel(R) Xeon(R) CPU,GPU为NVIDIA GeForce 1080Ti,12 GB内存。在Pytorch深度学习框架中进行训练与测试。

在实验过程中首先使用弹性边界投影(Elastic boundary projection,EBP)[18]预处理方式将高分辨率的CT图像处理为尺寸为120×120像素的2D图像。其次将预处理后的2D图像输入到网络中进行训练,得到模型的最优参数。最后将测试集中的图像输入具有最优参数的模型中得到分割结果的CT图像。训练过程中采用小批量样本的方式训练模型,小批量样本大小设置为16个,损失函数采用MSEloss,采用初始学习率为0.001和权重衰减系数为0.000 1的Adam优化器,并且每经过1个epoch学习率变为原来的1/2,双路径长连接方式中选用残差块数量N=3。

2.3 评价指标

本文实验以DSC度量(Dice similarity coefficient)、Jaccard相似系数(Jaccard similarity coefficient)、精确率(Precision)、过分割率(FPR ,False positive rate)为评价指标。

(15)

(16)

(17)

(18)

其中:TP表示真阳性;FP表示假阳性;TN表示真阴性;FN表示假阴性。DSC度量的取值范围[0,1],DSC值越大表示预测的分割结果与真值标签重合区域占比越大,即预测的分割结果越好。Jaccard相似系数用于衡量分割预测的分割结果和真值标签之间的相似度,Jaccard值越大表示两者之间的相似度越高,即预测的分割结果越接近真值标签。精确率表示在预测的分割结果中判断为阳性的样本中真阳性的比例,精确率值越大表示分割结果越好。过分割率表示在预测的分割结果中将真值标签以外的部分分割出来的比率。过分割率越低表示在分割结果中出现假阳性的占比越小。

2.4 有效性验证

为了验证双路径长连接方式和改进的瓶颈结构的有效性,本文在MSDSpleen数据集上分别做了EBP+残差路径(EBP+Res),EBP+注意力路径(EBP+Att),EBP+双路径长连接(EBP+DoubleCat),EBP+改进的瓶颈结构(EBP+Bot)和EBP+双路径长连接+改进的瓶颈结构(EBP+DoubleCat+Bot)实验。实验结果如表1所示。

表1 模型有效性验证Table 1 Verification of model effetiveness

从表1可知,EBP和EBP+Res,EBP+Att,EBP+DoubleCat相比较,双路径长连接方式能够有效利用图像中的特征信息,同时提取更多有效特征,它通过注意力路径使模型建立特征之间的关联关系,通过残差路径使模型在长连接中提取丰富的特征信息,从而提升算法精度。EBP和EBP+Bot比较表明,改进的瓶颈结构对算法的提升有促进作用,改进的瓶颈结构能够将上采样与下采样后的特征用于弥补卷积造成的浅层特征信息丢失的问题,可以使网络模型保留更完整的特征信息。由EBP+DoubleCat和EBP+Bot的评价指标可知,双路径长连接方式和改进的瓶颈结构均能提高分割精度,双路径长连接方式能直接根据编码器阶段的特征图学习图像中的重要特征信息从而提升算法效果,而改进的瓶颈结构依托弥补丢失的浅层特征信息提升性能。在改进的瓶颈结构的基础上添加双路径长连接方式不仅能丰富特征信息,还能通过建立每个特征间的关联关系充分利用这些特征,提升算法的分割效果。

2.5 实验结果与分析

为验证AR-UNet模型的优越性,与5个算法(U-Net[3],EBP[18],Deeplabv3+[21],CCNet[22],ResUNet[23])进行对比,其中包括了用于分割任务的先进模型。U-Net是医学图像中用于分割的2D模型,为了有效对比分割精度,统一采用弹性边界投影的图像预处理应用于所有对比算法中。EBP采用的模型为2D的VNet[24]模型。Deeplabv3+模型是一个2D模型,它采用金字塔结构和编解码器结构结合的方法提高图像分割精度。CCNet利用十字交叉注意力模块捕获每个像素间的长依赖关系获得更多的有用上下文信息。ResUNet将残差结构与U-Net结构相结合提高医学图像分割领域中的精度。本文算法及其他5个算法在MSDSpleen数据集上的DSC度量、Jaccard相似系数、精确率、过分割率如表2所示。

从表2可知,本文算法在DSC度量、Jaccard相似系数、精确率、过分割率上均比其他算法表现优异。在MSDSpleen数据集上DSC度量达到了93.60%,超越了其他5种算法。图4展示了所有模型在MSDSpleen数据集上定性结果比较。从定性和定量比较的结果可以看出,双路径长连接方式与改进的瓶颈结构能够明显提升分割效果,有双路径长连接方式的网络能够使图像中相似的特征之间建立长依赖关系并提取更多特征,所以器官图像更容易被分割。此外,改进的瓶颈结构可弥补卷积过程中造成的部分信息丢失,能够减小特征信息丢失带来的图像分割不佳的影响。

表2 不同算法在MSDSpleen数据集上的实验结果Table 2 Experimental results of different algorithms on MSDSpleen dataset

图4 模型定性结果比较Fig.4 Comparison of qualitative results of models

3 结论

本文提出了一个提取丰富的特征信息并将图像中的特征信息相互关联的用于CT图像器官分割的模型AR-UNet。AR-UNet网络中采用了双路径长连接方式,它们代替编码器和解码器之间的长连接方式使模型在每个特征之间建立关联关系进而增加相似的特征之间的长依赖关系,同时提取丰富的有效信息。该网络通过使用改进的瓶颈结构替换传统的卷积层弥补丢失的浅层特征。实验结果表明,在医学图像分割的公共数据集MSDSpleen中,AR-UNet能够有效提高器官图像分割的精度,同时也说明,医学图像分割中不仅相邻的特征信息之间可以提供有效的上下文信息,远距离的相似特征之间也会提供有效信息。

猜你喜欢

残差瓶颈卷积
基于全卷积神经网络的猪背膘厚快速准确测定
多级计分测验中基于残差统计量的被试拟合研究*
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于图像处理与卷积神经网络的零件识别
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
融合上下文的残差门卷积实体抽取
堵塞:绿色瓶颈如何威胁清洁能源业务 精读
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
在突破瓶颈中成长