基于三维循环残差卷积的脊柱CT图像分割

2024-04-23杨玉聃张俊华刘云凤

计算机工程 2024年4期

杨玉聃,张俊华,刘云凤

(云南大学信息学院,云南昆明 650504)

0 引言

脊柱是人体的重要骨性结构,作为运动和神经的枢纽支撑着人类日常活动。然而各类脊柱疾病的发病率却日益增长,脊柱的计算机断层摄影(CT)图像分割有助于后续目标识别、特征测量或辅助诊断评估脊柱相关疾病,因而具有重要的实际意义。

目前,脊柱图像分割方法主要分为传统方法与深度学习方法2类。由于传统方法算法复杂、分割精度低、结果误差较大,因此难以解决实际的问题。人工智能的不断发展弥补了传统方法精度低的缺点。深度学习方法大多是针对CT图像切片进行分割的,虽然能得到良好的精度,但是忽略了切片与切片间丰富的图像信息。SHUVO等[1]基于U型网络(U-Net)[2]和迁移学习设计了一个轻量级的系统用于椎体分割。于文涛等[3]在UNet++[4]的基础上改进网络,使用残差连接模型代替原有的跳跃连接,解决了网络退化问题。ZHANG等[5]基于Segmenter[6]进行脊柱分割,对于分割后的结果进行自适应优化,解决了椎块之间的粘连问题。周静等[7]提出一种基于多尺度的特征融合注意网络来分割颈椎,增强了对颈椎细节部分的提取,提升了分割的完整性。上述二维(2D)分割方法都只考虑了局部区域,往往会丢失重要的空间信息,因此三维(3D)分割是医学图像分割上需要探索的重要领域。

目前针对脊柱CT图像的三维分割仍然面临着挑战,如脊柱复杂的形状结构、椎体与椎体之间多变的空间位置关系、椎体与相邻器官组织之间相近的灰度值等。3D-UNet[8]是基于U-Net提出的三维医学图像分割网络,其将网络中的二维卷积替换为三维卷积进行体素分割,在许多医学数据集上都表现出了良好的分割效果。LIU等[9]通过3D-UNet对第5节腰椎和第1节骶椎进行自动分割,从而实现快速准确的腰骶椎间孔(LIVF)模型重建。LI等[10]在3D-UNet的基础上融合了一种新的残差路径,来解决脊柱分割时编码器与解码器之间特征丢失的问题。TAO等[11]先使用轻量化的3D Transformer对椎体进行标记,在标记后训练一个针对所有椎骨的编码器-解码器网络来完成椎骨的分割。LI等[12]基于对抗生成网络分割三维脊柱,先建立空间特征提取层共享图像的特征表示,再基于反卷积堆栈的扩展路径将上下文信息传播到更高层。刘侠等[13]提出一种融合加权随机森林的自动3D椎骨CT主动轮廓分割方法,解决分割网络对初始轮廓敏感和分割不准确的问题。上述分割方法保留了图像的重要空间信息,但在面对脊柱复杂的结构时,网络对于上下文特征的提取能力不够,因此分割精度不高,难以应用于计算机辅助诊疗中。

针对上述问题,本文提出了一种基于三维循环残差卷积模块的U型网络,主要贡献如下:

1)提出三维循环残差卷积代替普通卷积构成网络基础模块,使每层网络不断累积递归残差卷积层的特征,同时解决随着网络深度增加产生的梯度消失问题。

2)设计高效密集连接混合卷积模块,通过扩大感受野增强网络对多尺度特征的提取能力,减少细节特征的丢失。同时采用密集连接的方式融合编码器与解码器之间的特征信息。

3)针对解码器与编码器不同层级间语义信息差异较大的问题,提出双特征残差注意力模块代替简单的跳跃连接进行深浅层语义特征融合。

4)在编码器的前端引入三维坐标注意力机制,使得网络从一开始就关注感兴趣区域(ROI)。

1 研究方法

1.1 三维脊柱CT图像自动分割框架

本文网络结构如图1所示(彩色效果见《计算机工程》官网HTML版,下同),主要包括编码器、底部模块和解码器。图像经过预处理后,被裁减为若干个64×64×64的立方体进行端到端的自动分割。图像首先会经过三维坐标注意力机制来同时捕获跨通道信息、位置信息和空间信息,使模型开始定位并关注脊柱位置区域。采用三维循环残差模块对图像进行特征提取,循环卷积在时序上能有效地累积椎体特征信息,通过权重共享建立网络对体素之间的长期依赖,而残差结构可以加速网络的收敛。本文采用卷积核大小为2×2×2、步长为2的卷积对图片进行下采样,下采样层还包括激活函数ReLU和层标准化(LN)处理。图像在4次下采样后到达底部的高效密集连接混合卷积模块进行编码器与解码器之间的过渡。在上采样过程中,考虑到层级间的特征差异性,使用双特征残差注意力机制模块来融合高、低级语义特征。图像经过4次上采样后,还原为输入的64×64×64的大小,通过预测处理后还原成原始CT图像的大小。

图1 脊柱CT图像自动分割框架Fig.1 Automatic segmentation framework of spine CT image

1.2 三维坐标注意力机制

注意力机制可以使神经网络关注感兴趣的区域,SE[14]注意力机制将特征图压缩成通道注意力向量再与输入特征图结合进行通道特征的加强,但却忽略了图像的空间位置信息。CBAM[15]通过加入空间注意力模块弥补了SE忽略空间位置信息的不足,但CBAM只能捕获局部关系,无法对远距离依赖进行建模。HOU等[16]提出了坐标注意力(CA)机制,为了获取图像的精确位置信息,分别对图像的长和宽进行编码,将横向和纵向的位置信息编码到通道注意力中,使移动网络能够关注大范围的位置信息,在有效捕捉图像长程信息的同时避免带来过多计算量。本文将CA机制所关注到的位置信息关系从二维拓展到三维,除了长、宽位置信息外,将高的位置信息同样编码到通道注意力中。改进的三维坐标注意力机制如图2所示。

图2 三维坐标注意力机制Fig.2 3D coordinate attention mechanism

将图像的长(H)、宽(W)、高(D)3种位置信息进行编码,即对3个维度分别用(H×1×1)、(1×W×1)、(1×1×D)大小的卷积核进行平均池化操作。将通道注意力分解为3个方向的二维特征编码,得到捕获全局感受野的注意力感知图。每个维度的注意力感知图分别表示如下:

长为h的第c个通道的注意力感知图Zc,h(h)表示为:

(1)

宽为w的第c个通道的注意力感知图Zc,w(w)表示为:

(2)

高为d的第c个通道的注意力感知图Zc,d(d)表示为:

(3)

对3个方向的注意力感知图进行拼接,送入卷积核大小为1×1×1的共享卷积中,为了减小模型的复杂性,将其维度降低为原来的C/r。经过批量归一化处理后得到形如C/r×(W+H+D)×1的保留了三维度空间信息的中间特征图f:

f=δ(F13([Zc,h(h),Zc,w(w),Zc,d(d)]))

(4)

其中:F13()表示用卷积核大小为1×1×1的卷积对特征图进行操作;δ表示非线性激活函数Sigmoid;[, ,]表示沿某个维度对特征向量进行拼接(Concat),且f∈C/r×(H+W+D)。将特征图沿空间维度分离成3个独立的张量,分别送入卷积核大小为1×1×1的三维卷积后得到每个方向的特征图:fh,fw,fd,将每个特征图的通道数调整为原始通道数大小,生成的gc,h、gc,w和gc,d3个注意力权重表示如下:

gc,h=σ(F13(fh))

(5)

gc,w=σ(F13(fw))

(6)

gc,d=σ(F13(fd))

(7)

其中:σ表示非线性激活函数Sigmoid;F13()表示用卷积核大小为1×1×1的卷积调整通道数,且满足fh∈C/r×W、fw∈C/r×W和fd∈C/r×D。最后将得到的3个注意力权重与原始输入xc(i,j,k)相乘得到输出的注意力权重yc(i,j,k),表示如下:

yc(i,j,k)=xc(i,j,k)×gc,h(i)×

gc,w(j)×gc,d(k)

(8)

上述注意力机制可以改进SE和CBAM等注意力机制中编码全局空间信息时将全局信息压缩成一个标量而难以保留重要空间信息的缺点。三维坐标注意力机制能够跨通道捕捉单方向上的长距离关系,同时保留另外2个方向上的空间信息,帮助网络更准确地定位目标,捕捉感兴趣区域。

1.3 三维循环残差模块

单个卷积前馈网络只在有限的单元具有较强的上下文提取能力,因此需要通过增加卷积层来增强网络的特征提取能力,但随着网络层数的增加,又将面临梯度消失和梯度爆炸等问题。为了解决上述问题,受残差网络[17]和二维循环卷积网络[18]的启发,本文提出了三维循环残差模块(RRB),随着时间的推移,迭代权重可以有效累积图像特征,时序的权重累积有利于捕捉体素之间的关系,使每个单元能够将上下文信息合并到当前层中的区域,且循环卷积操作并不会增加额外的参数量。改进后的网络增强了对于图像特征的提取,以便更精准地分割出结构复杂的目标,同时也解决了随着网络层数增加而面临的梯度消失问题。

在分割任务中能够精准地区分背景和目标像素是神经网络必须达到的效果。与一般前馈网络不同,在普通卷积神经网络中,当前层中单位的感受野大小是固定的,只有在更深的层才能获得更大的感受野。而循环卷积却可以通过权值共享,在保持可调参数量的情况下获得更大的感受野,循环连接的效果相当于增加网络深度却又不增加参数量,残差连接可以解决神经网络随着层数的增加可能面临的梯度消失、网络退化等问题。三维循环残差卷积模块结构如图3所示,其中输入图像经过2个三维循环卷积后,与原始图像进行相加得到输出。单个三维循环卷积和总时间步长T的展开卷积层如图3右侧所示,其中,t代表时间步长。若t=2,则得到最大深度为3、最小深度为1的前馈网络,包含1个三维卷积层和2个三维循环卷积层组成的子序列。当t=0时,将图像输入三维循环卷积层;当t=1时,对图像首次进行卷积核大小为3×3×3的前向卷积操作;当t=2时,将输入图像以及第1次前向卷积操作的输出整体作为第2次前向卷积操作的输入;以此类推。随着时间步长的增加,前层中越来越多邻域单元的状态都受到其他单元的影响,因此,通过共享权重单元在输入空间中的感受野也会增大。

图3 三维循环残差卷积模块Fig.3 3D recurrent residual convolution block

对于位于第m个特征图上的(i,j,k)处的单元,其在时间步长t的输出可表示为:

Oijkm,l(t)=(Wm,f)T×xl,f(i,j,k)(t)+

(Wm,r)T×xl,r(i,j,k)(t-1)+bm

(9)

其中:xl,f(i,j,k)(t)表示第l层前馈三维卷积的输入;xl,r(i,j,k)(t-1)表示第l层三维循环卷积层的输入;Wm,f和Wm,r分别表示第m个特征图的前馈卷积层权重和循环卷积层权重;T表示总时间步长;bm表示偏差。整个三维循环残差模块的输出xl+1可以表示为:

xl+1=xl+f(Oijkm,l(t))=

xl+max(0,Oijkm,l(t))

(10)

根据对比实验结果,本文选取总时间步长T=2的三维循环残差卷积模块作为基础模块,在输入层和输出层之间建立长期依赖关系,帮助模型更好地学习复杂的结构特征。

1.4 高效密集连接混合卷积模块

图像经过多次下采样会降低输入特征图的分辨率,在到达编码器和解码器之间的底层后,将经过多次上采样恢复输入特征图的分辨率,从而达到特征提取的效果。但是经过多次下采样后再进行上采样操作会导致一些边缘特征和较小特征的体素丢失。针对此类问题,本文提出了一个高效密集连接混合卷积模块(EHCM)来减少编码器与解码器之间底层信息的缺失,其结构如图4所示。

图4 高效密集连接混合卷积模块Fig.4 Efficient dense-connected hybrid convolution module

EHCM模块主要是利用不同空洞率的空洞卷积提取不同大小的尺度特征,而密集连接的方式可以有效地聚合特征,将不同空洞率大小的多尺度特征进行聚合可以提高网络对不同尺度目标的分割能力。采用空洞卷积进一步增大网络感受野,由于空洞卷积的卷积核并不连续,图像经过多个相同空洞率的空洞卷积后会导致网格效应[19]:上下文信息不连续,存在严重的信息丢失。空洞率的大小会影响对目标特征的提取能力,若空洞率过大,则对于较小物体而言会存在信息丢失的问题,因此,针对不同的目标物体需要选择合适的空洞率。考虑到三维卷积的成本大小和网格效应,本文选择空洞率分别为1、2、5、卷积核大小为3×3×3的卷积进行操作,如图5(a)所示,若在空洞率都设置为2的情况下对图像进行连续的空洞卷积操作,得到的特征图会存在像素级别的缺失,图中白色方块表示卷积核未采集到的部分,虽然扩大了感受野,但是会损失一些细小的特征信息。将空洞率分别设置为1、2、5对图像进行连续的卷积操作,如图5(b)所示,得到的特征图感受野是连续的且不存在体素缺失的问题,相较于普通卷积既增大了感受野,又保持了图像信息的连续性。

图5 相同卷积核不同空洞率下的特征图感受野Fig.5 Receptive field of feature map with the same convolution kernel and different void ratios

1.5 双特征残差注意力

3D-UNet中采用跳跃连接来融合编码器和解码器间不同级别的特征,但是由于浅层特征和深层特征之间存在较大的语义差异,跳跃连接只是简单连接而不能有效地融合具有语义间隙的特征,从而会限制网络分割的性能。针对这个问题,本文提出了一种双特征残差注意力机制(DRAM)来解决浅层的低级信息和深层的高级信息之间的语义差异问题。DRAM将编码器和解码器中的层级特征利用残差连接和激活函数实现非线性化拟合,通过聚合不同层级特征对全局上下文进行建模,其结构如图6所示。

图6 双特征残差注意力机制Fig.6 Double-feature residual attention mechanism

对编码器的层特征Gen和解码器的层特征Gde分别进行卷积核大小为3×3×3的卷积操作,与原始特征进行残差连接后,为了保留更多的信息,将得到的2种特征进行拼接得到多尺度特征图Eed,表示如下:

Eed=(Gen+F33(Gen))©(Gde+F33(Gde))

(11)

Eed通过激活函数ReLU实现多尺度特征的非线性化。对得到的非线性化特征图进行卷积核大小为1×1×1的卷积操作来调整通道数。使用Sigmoid激活函数对卷积后的特征进行归一化处理,得到注意力权重。将原始的编码器的层特征Gen和解码器的层特征Gde进行线性叠加,进一步扩大感知域,最后与注意力权重相乘得到最终输出结果E,表示如下:

E=σs(F13(σr(Eed)))×(Gen+Gde)

(12)

在式(11)和式(12)中:F33表示卷积核大小为3×3×3的三维卷积操作;F13表示卷积核大小为1×1×1的三维卷积操作;©表示Concat操作;σr表示ReLU激活函数;σs表示Sigmoid激活函数。

2 实验

2.1 数据集与预处理

为了验证本文网络的性能,采用脊柱分割挑战公开数据集CSI2014[20]进行实验。该数据集包含10例青壮年的胸腰椎CT扫描图像,每例标签都由多名专家手动标注,图片大小为512×512×600像素。考虑到计算机资源限制,本文将原始CT图像随机裁剪为多个大小为64×64×64像素的图像。在裁剪过程中,整个CT图像都将被裁剪到且不会出现重复裁剪的现象。随机选取8例作为训练集、1例作为测试集、1例作为验证集,考虑到数据集个数限制,本文采用十折交差验证法[21]来获取模型的平均指标。对于训练集,本文从包含标签部分的图像中随机选择40%的图像进行水平翻转、随机旋转、随机缩放等操作进行数据增强。经过预处理后,得到7 104幅训练图像、642幅验证图像和640幅测试图像。

2.2 实验环境

实验环境主要配置如下:实验操作系统为Windows 10,GPU采用RAM大小为16 GB的NVIDIA GeForce RTX 2080,采用Python 3.7和Tensorflow 2.4支撑的Keras框架。在实验过程中,批处理大小设置为2,初始学习率设置为0.000 1,采用Adam优化器计算自适应学习率,训练轮次为500次。训练过程中使用了早停法,将限制条件设置为30,当验证集Dice相似系数(DSC)连续30个epoch内不再提升,则自动停止迭代,选取最佳权重模型。

2.3 评价指标

本文选择Dice相似系数、像素准确率(PA)、精确率(Pre)以及召回率(Rec)作为评价指标。Dice相似系数可以衡量2个样本的相似度,取值在0到1之间,公式如式(13)所示:

(13)

像素准确率表示预测正确的像素样本数量占总像素样本数量的比例,公式如式(14)所示:

(14)

精确率表示模型预测为正确的像素样本中,实际的正确像素样本数量占预测的正确像素样本数量的比例。用此标准来评估预测正确像素样本的准确度,公式如式(15)所示:

(15)

召回率表示实际为正确的像素样本中,预测正确的像素样本数量占总实际正确像素样本数量的比例。用此标准来评估所有实际正确的像素样本被预测出来的比例,公式如式(16)所示:

(16)

在上述公式中:NTP代表真阳性,即正确地预测出脊柱像素的样本数量;NFP代表假阳性,即错误地将背景像素预测为脊柱像素的样本数量;NTN代表真阴性,即正确地预测出背景像素的样本数量;NFN代表假阴性,即错误地将脊柱像素预测为背景像素的样本数量。

2.4 实验结果及分析

2.4.1 消融实验

为了验证本文网络的性能,以3D-UNet为基础设计4个模型的消融实验:第1个模型(Model_1)将3D-UNet中所有卷积换成三维循环残差卷积,针对三维循环残差卷积模块中总时间步长T对网络性能的影响,本文设置了Model_1(T=1)、Model_1(T=2)、Model_1(T=3)、Model_1(T=4)4种方案;第2个模型(Model_2)在最优Model_1的基础上引入三维坐标注意力机制;第3个模型(Model_3)在Model_2的基础上将编码器与解码器之间的模块替换成EHCM;第4个模型(Model_4)在Model_3的基础上引入DRAM,Model_4表示本文网络。

表1和图7分别展示了消融实验的数据指标和预测图像切面效果图,结合图表可知:将3D-UNet改进为Model_1(T=2)时,DSC提升了4个百分点,从分割效果图也能看出网络对脊柱特征判断更加有优势,错误分割部分的明显减少说明了三维循环残差卷积模块相对于传统三维卷积模块可以更有效地累积椎体特征;从Model_1到Model_2,引入三维坐标注意力机制后加深了网络对脊柱位置的关注,错误分割相对减少;Model_2到Model_3,利用EHCM模块中不同空洞率卷积的密集连接可以很好地将网络底层的信息从底层编码器过渡到解码器中,关注到细小体素的特征信息;Model_3相比Model_2在细节处理时表现得更好;Model_4相比Model_3DSC提升了1.77个百分点,说明本文提出的DRAM能更好地融合语义差别较大的不同级特征,达到更接近标签的分割效果;从3D-UNet到本文网络Model_4DSC提升了7.65个百分点,错误分割、遗漏分割的部分明显减少,直观地体现了本文网络的分割优势。

表1 消融实验数据指标Table 1 Indexes in ablation experiment %

图7 消融实验预测图像切面效果图Fig.7 Section renderings of predicted images in ablation experiment

2.4.2 与其他分割网络的对比

使用3D分割网直接对三维图像进行分割相较于二维分割可以更好地保留图像的空间信息,尤其是对于脊柱这类空间结构较为复杂的物体,但是由于三维卷积的运算量较大,会消耗更多的计算机资源。目前三维分割网络的发展并不像二维分割网络一样成熟,本文选择了V-Net[22]、nnU-Net[23]、3D Dense-UNet[24]、3D Attetion U-Net[25]、3D Residual U-Net和UNETR[26]等经典三维分割网络进行对比实验,证明本文网络优于这些三维分割网络。

在相同数据集和环境配置下进行对比实验,实验结果如表2所示,其中,粗体表示最优值。为了更加直观地看出不同网络的三维分割效果,本文将预测结果和原始标签转换为STL文件进行三维效果可视化展示,如图8和图9所示。V-Net的DSC仅为84.18%,从分割效果可以看出,在面对结构复杂的目标时,V-Net的分割效果较差,其将部分周围的器官组织错误分割成脊柱;3D Attention U-Net、3D Dense-UNet和3D Residual U-Net在一定程度上更加关注目标区域,但是出现大片椎体粘连现象;nnU-Net在一定程度上能有效地捕获全局特征,但网络对细小信息提取能力不够,分割结果存在小部分假阳性现象;UNETR和本文网络效果较为接近,但是本文网络在分割细节上更加优秀,且4个数据指标均高于UNETR。对比实验结果证明了本文网络的分割性能要优于对比的这6种分割网络。

表2 不同网络的对比实验结果Table 2 Comparative experiment result of different networks %

图8 CSI2014数据集对比实验三维可视化效果1Fig.8 3D visualization rendering 1 of CSI2014 dataset comparison experiment

图9 CSI2014数据集对比实验三维可视化效果2Fig.9 3D visualization rendering 2 of CSI2014 dataset comparison experiment

2.4.3 与脊柱分割方法的对比

本文使用的CSI2014数据集是脊柱挑战赛的公开数据集,目前有很多不同的分割方法,将本文网络与这些方法进行对比,对比结果如表3所示,其中,粗体表示最优值。SEITEL等[27]使用单个统计多目标形状+姿态模型进行分割,该模型配准使用边缘检测从CT体积中提取椎骨边缘点云,通过重复迭代配准进行分割,这种方法相对复杂且不能很好地提取特征。QADRI等[28]基于层叠稀疏自动编码器分割脊柱CT图像,相比SEITEL等[27]所提出的方法提高了椎体特征的可分辨性,但分割效果达不到实际需求。LI等[10]使用三维空洞卷积和残差路径结合的UNet-3D网络分割脊柱,虽然保留了空间信息,但是忽略了对细小特征的关注,易丢失下文信息。LI等[29]利用多尺度卷积块提取不同大小的感受野来增强网络对椎骨结构的感知能力,增加注意力模块感知特征通道图之间的关系、探索位置和通道维度的特征,使得精度有了大幅度提升,但网络只能捕获切片之间的关系,忽略了空间信息。本文网络能够有效地分割脊柱,减小网络中浅层特征和深层特征之间存在的语义差异,并且保留原始空间信息,因此,本文分割方法的DSC优于这些脊柱分割方法。

表3 不同脊柱分割方法对比Table 3 Comparison of different spine segmentation methods

2.4.4 腰椎数据集分割

为了进一步验证本文网络的性能,采用由昆华医院提供的20例包含5节腰椎的CT数据集,部分CT图像在裁剪的过程中保留了1节胸椎,分割标签均由医生手动标记。随机选取14例作为训练集、3例作为测试集、3例作为验证集进行实验。采用上述对比实验中的7个三维网络对腰椎进行分割,分割结果如表4所示,其中,粗体表示最优值。标签和分割结果的三维可视化效果如图10所示。本文网络的各项评价指标均高于其他的网络,从可视化对比图可以看出,除了本文网络和nnUNet外的其他网络均错分出了不同大小的区域,其中VNet更是将胸椎分割成腰椎。棘突作为脊椎上比较有特点的结构相对椎体分割难度较大,本文相比nnUNet在棘突的分割细节上表现更好,且与原标签更为接近,验证了本文方法的优良性能。

表4 腰椎分割对比实验结果Table 4 Comparative experiment result of lumbar segmentation %

图10 腰椎数据集对比实验三维可视化效果Fig.10 3D visualization rendering of lumbar dataset comparative experiment

2.4.5 模型参数量与分割性能对比

为了更加准确地分析模型性能,结合上述2个数据集的分割实验,给出了本文网络与其他三维分割模型的参数量、平均分割精度以及运行时间的数据对比,如表5所示,其中,粗体表示最优值。本文模型参数量为4.39×107,因为残差连接和循环操作均不会增加参数量,所以本文网络参数相对于原始模型3D-UNet参数增加不多,相比nnU-Net减少了3.12×107,而UNETR参数量几乎为本文模型的2倍。在分割测试运行时间方面,本文网络仅比最快的3D Dense-UNet慢0.9 s,但是比nnU-Net和UNETR分别快了1.5 s和1.3 s,且本文网络的平均分割精度最高,因此本文网络的分割性能整体要优于其他7种分割网络。

表5 模型参数量与分割性能对比Table 5 Comparison of model parameters quantity and segmentation performance

3 结束语

本文提出了一种基于三维循环残差卷积的U型网络进行脊柱CT图像的三维分割。三维循环残差模块随着时间步长的增加,通过权重迭代有效地累积椎体特征,解码器与编码器之间的EHCM通过密集连接不同空洞率的卷积模块对不同感受野下的特征进行融合,减少了边缘特征和较小特征的消失。同时,提出DRAM来代替简单的跳跃连接进行编码器和解码器直接的特征融合,解决了深层与浅层之间语义信息差别较大的问题。本文还引入了三维坐标注意力机制使得网络关注感兴趣的区域。在CSI2014数据集和腰椎数据集上的分割结果表明,本文网络优于对比分割网络和不同数据集下的脊柱分割方法。对于分割后还需要对脊柱进行三维重建的问题, 本文方法也更加方便可行,具有实际意义。在后续的工作中,将会研究多类别的三维分割方法,分割并具体地识别出每一节椎体。