基于Non-local的腰椎间盘突出患者多裂肌分割方法
2023-10-22王子民
李 夏 ,胡 巍 ,王子民
(1.桂林电子科技大学 计算机与信息安全学院,广西 桂林 541004;2.桂林市人民医院 脊柱骨病外科,广西 桂林 541004)
腰椎间盘突出症(lumbar disc herniation,简称LDH)是临床上常见的腰腿痛疾病。影像学研究表明[1-2]:慢性腰痛患者多裂肌的厚度和横截面积明显减少,多裂肌的脂肪含量明显高于无腰痛的患者;慢性腰痛患者有多裂肌萎缩的情况,多裂肌的萎缩程度与病程和疼痛相关[2-3]。由于磁共振(magnetic resonance imaging,简称MRI)图像的对比度低,脊柱和周围结构之间的界限不清楚,图像数据的爆炸性增长等原因,人工阅片的缺点也逐渐显现。因此,使用计算机自动识别多裂肌的病变部位,即多裂肌脂肪浸润部位,辅助LDH 分析尤为重要。
传统的图像分割方法包括阈值法[4-5]、区域生长分割算法[6-7]和基于活动轮廓的分割算法[8]等。但随着处理图像数量的增加,分割耗时长,且易出现分割不足或分割过度的情况。
随着计算机技术和人工智能技术的发展,医学图像处理方面出现了许多新的研究成果。2015 年,Long等[9]提出了用于图像分割的全卷积网络(fully convolutional network,简称FCN),该网络用卷积层替换全连接层,并使用上采样操作恢复图像的维度。Ronneberger等[10]提出了采用编码器-解码器结构的U-Net,还提出了跳跃连接,通过上采样的特征映射连接到相应的编码器部分,用于语义信息的传递。Milletari等[11]提出了适用于三维图像分割的V-Net网络,通过引入残差结构来避免梯度消失,加速网络收敛。Zhou等[12]提出了U-Net++网络,将1到4层的U-Net全部连接在一起,让网络自动学习不同深度的特征。申亮亮等[13]提出了基于SOM-FCM 的脑肿瘤图像分割算法。Tang等[14]开发了一种双重紧密连接的U 形神经网络,对CT图像中的椎管、硬膜囊和椎体进行分割,以帮助诊断腰椎管狭窄症。Kafri等[15]通过SegNet网络对腰椎MRI进行语义分割来检测腰椎管狭窄。DCSAU-Net[16]是用于医学图像分割的更深层次、更紧凑的分裂注意力U 型网络。吴相远等[17]提出了一种基于U-Net++的脊椎MRI图像分割方法。上述方法解决了细节分割的问题,但在分割过程中出现了不同层次的图片特征融合问题。Gu等[18]提出了CE-Net网络,该网络用ResNet[19]作为特征提取器,引入了密集空洞卷积和残差多尺度池化帮助融合信息,有效提高了分割效果。MA-Unet[20]是一种基于多尺度和注意力机制的医学图像分割方法,通过注意力机制将局部特征与其相应的全局依赖性相结合,从而挖掘全局上下文信息。Su等[21]提出了用于医学图像分割的多尺度UNet(MSU-Net),该网络对U-Net网络的卷积块进行了调整,将多个具有不同感受野的卷积序列组成多尺度块,使网络从图像中获取更多样化的特征信息和更好的特征图。Sinha等[22]使用引导式的自注意力机制来获取更丰富的上下文依赖关系,该方法能够将局部特征与其对应的全局特征结合起来,并以自适应的方式显示相互依赖的通道映射。基于U-Net[23]的网络的连续池化和卷积会降低图像的分辨率,导致部分空间信息丢失,难以提取更多的特征,从而导致分割精确度较低。
1 本方法
基于Non-local的腰椎间盘突出患者多裂肌分割方法的网络结构如图1所示。首先以U-Net网络作为骨干网络并进行修改,网络的编码器由4个混合池化卷积组成,在网络的中间部署了一个由2个级联卷积组成的卷积模块。解码器由4个卷积模块组成,每个模块由Non-local模块和一个3×3的卷积构成。
图1 基于Non-local的腰椎间盘突出患者多裂肌分割方法的网络结构
1.1 混合池化卷积模块
由于连续的下采样操作会降低特征图的分辨率,同时也会降低全局特征与局部特征间的相关性。为了提高全局特征与局部特征间的相关性,构造了混合池化卷积模块(hybrid pooling convolution,简称HPC)来代替传统的卷积模块。编码器部分由4个混合池化卷积模块组成。混合池化卷积模块由1个卷积模块和2个并行的下采样分支组成,如图2所示。首先,输入图经过2个卷积层,然后输入2个下采样分支。在第1个下采样分支中,将特征图输入2×2的平均池化层(average pooling),再经过2个卷积层的处理,将特征图再次输入2×2的平均池化层。在另一个下采样分支中,首先经过2×2的最大池化层(max pooling),再经过2个卷积层的处理,将特征图再次输入2×2的最大池化层。最后,将通过2个下采样分支得到的特征图进行合并,作为下一阶段的输入。下采样操作可降低图像分辨率,并保留图像重要信息,但池化操作在提取图像特征的同时也会丢失部分特征。平均池化可保留背景信息,最大池化可提取特征纹理,将2个下采样分支得到的特征图进行融合,可保留更多信息,减少空间信息的丢失,增强了网络提取特征的能力。
图2 混合池化卷积模块
1.2 Non-local模块
Non-local[24]的基本思想是某像素点处的响应是其他所有点处的特征权重和,将每个点与其他所有点相关联,最终实现每个像素的全局感受野。其结构如图3所示。第一步,输入特征图为C×H×W,C是特征图的通道数,H是特征图的高,W是特征图的宽。特征图分别经过3个1×1卷积核,将通道缩减为C/2,得到C/2×HW。第二步,将第2个分支矩阵进行转置得到HW ×C/2,与第3个分支得到的结果C/2×HW进行矩阵乘法,得到HW×HW的矩阵,然后经过softmax进行归一化。第三步,将归一化得到的结果与第一分支的矩阵C/2×HW进行矩阵相乘,得到C/2×HW的结果。第四步,对矩阵C/2×HW再使用一个1×1卷积核,将通道恢复为原来的C,得到C×H×W的特征图,它与输入特征图形状一致。最后,将两者进行相加。
图3 Non-local模块
1.3 损失函数
损失函数为Dice Loss,其计算式为
其中:pi为预测分割的第i个像素;gi为ground truth的第i个像素。
2 实验
2.1 数据集
通过收集医院腰椎间盘突出患者的腰椎MRI图像得到原始数据集。该数据集包含311名腰间盘突出患者的腰椎MRI图像,突出的腰间盘位于L4~L5腰椎区域。由于图像来自不同时期和不同设备,数据不一致,需对图像做预处理操作。第一步,将所有图像的分辨率统一为224像素×224像素;第二步,为了使实验中使用的数据更可靠,删除模糊不清的图像;第三步,由于患者在拍摄过程中的不规则运动会导致图像模糊,图像中出现较多的噪声干扰,通过高斯滤波器减少图像噪声;第四步,多裂肌和周围肌肉的灰度值相差较小,对图像进行自适应直方图均衡化,增强图像的对比度,使分割更易于观察;第五步,通过镜像和旋转图像,得到含有1 244张图像的数据集,其中984张用于训练,108张用于验证,152张用于测试。原始图像与预处理后的图像如图4所示。
图4 原始图像与预处理后的图像
2.2 实验设置
实验的程序基于Pytorch框架实现,操作系统为Ubuntu 16.04 64。优化器为Adam,初始学习率为1×10-3,总计训练120个epoch。
以在脊柱多裂肌数据集测试集上的分割结果作为评价标准。为了评估不同方法的分割性能,采用的评价指标为Dice系数(dice similariy coefficient,简称DSC)、JAC card index(JAC)和Hausdorff distance(HD)。DSC 用来衡量重叠程度,HD 代表ground truth与分割边界之间所有最小距离的最大距离。DSC和JAC值越大,网络性能越好;HD值越小,网络性能越好。
1) DSC的计算式为
2) JAC与DSC的关系为
3) HD的计算式为
其中:p为预测分割的像素集;g为ground truth的像素集。
2.3 实验结果与分析
将本方法与其他方法进行对比分析,可视化结果如图5所示。从图5可看出,本方法的分割精度优于大多数现有方法。
图5 本方法与其他方法的可视化结果对比
表1为本方法与其他方法的对比结果,相较于U-Net[10],本方法在DSC上提升9.5%,在JAC上提升了11.3%,在HD 下降了74.6%。相较于CENet[18],本方法在DSC上提升11.4%,在JAC上提升了13.7%,在HD 下降了71.8%。相较于MSUNet[21],本方法在DSC上提升2.2%,在JAC上提升了2.1%,在HD下降了34.8%。实验结果说明,文中的分割精度优于大多数现有方法。
表1 本方法与其他方法的对比结果
第二组实验是针对各模块对实验的影响分析,实验结果如表2所示。实验数据表明,在编码器-解码器中分别引入混合池化卷积模块(hybrid pooling convolution,简称HPC)和Non-local模块,可以提高网络的性能。
表2 各模块对实验的影响
3 结束语
提出了基于Non-local的腰椎间盘突出患者多裂肌分割方法。一方面,将通过混合池化卷积得到的特征图进行融合,可以保留更多的信息,增强了网络提取特征的能力;另一方面,Non-local模块将每个点与其他所有点相关联,最终实现每个像素的全局感受野。本方法优于现有的大部分网络框架,同时在分割可视化的结果上,本方法的分割精度优于大多数现有方法。