基于注意力机制的腰椎间盘突出患者多裂肌分割方法

2023-12-26王子民贺泽华关挺强

吉林大学学报(信息科学版) 2023年5期

李夏,胡巍,王子民,贺泽华,周悦,关挺强,郭欣

(1.桂林电子科技大学计算机与信息安全学院,广西桂林 541000; 2.桂林市人民医院脊柱骨病外科,广西桂林 541000)

0 引言

腰椎间盘突出症(LDH:Lumbar Disc Herniation)是一种常见的脊柱疾病。当椎间盘长期受力时,位于椎间盘中心的胶质髓核会向椎管方向移动,压迫神经根,从而引起腰椎间盘突出。LDH与脊柱稳定有很大关系[1],椎旁肌在保持腰椎正常功能和稳定性方面发挥关键作用。其中多裂肌作为腰椎椎旁肌群中最大且最内侧的肌肉,通过维持脊柱之间的平衡保持脊柱节段的稳定性。研究表明,与健康人相比,LDH患者出现了多裂肌萎缩和脂肪浸润的情况[2-4]。目前,医生诊断方法是通过分析多裂肌核磁共振(MRI:Magnetic Resonance Imaging)图像中的病变部位即多裂肌中脂肪浸润部位诊断病情。LDH自动分析的关键步骤是能精确分割腰椎轴向MRI图像中的多裂肌脂肪浸润部位。

2016年,Cunningham等[5]开发了一种方法,可使用超声波实时分割出5块双侧颈部肌肉和脊柱。2018年,Xiao等[6]构建了一个群体平均MRI图谱,用于处理和评估腰椎椎旁肌的图像。但随着图像数量增加,手动分割图像的内部可靠性降低,传统方法无法准确地分割出目标区域。

近年来,卷积神经网络在CT(Computed Tomography)、MRI等方面的应用越来越广泛,并成为计算机视觉研究的首选技术。Imran等[7]提出了渐进式对抗式语义分割模型,用于糖尿病、视网膜病变和胸部X射线3个数据集的分割。Amir等[8]通过CNN(Convolutional Neural Networks)框架对脊柱腰椎MRI和椎间盘体积病理区域进行放射学分级。Han等[9]提出了循环生成对抗网络,用于自动分割和分类磁共振成像中的椎间盘、椎骨和神经孔。Kafri等[10]提出SegNet网络,对腰椎MRI进行语义分割从而检测腰椎管狭窄。Gu等[11]提出CE-Net(Context Encoder Network)网络,该网络融合了多尺度信息,有效地提高了分割效果。赵梓淇等[12]提出使用U-Net网络对肺结节分割。Tang等[13]开发了一种双重紧密连接的U形神经网络对CT图像中的椎管、硬膜囊和椎体进行分割,帮助诊断腰椎管狭窄症。Su等[14]提出了多尺度U-Net用于医学图像分割。Gao等[15]提出UTNet(U-shape Hybrid Transformer Network),该模型将自注意力集成到卷积神经网络中,用于增强医学图像分割。孙晖等[16]采用SegNet网络和基于SVM(Support Vector Machine)的图像分割两种方法,实现了眼角膜图像的自动提取。王雪[17]提出基于U-Net的多尺度和多维度特征融合的皮肤病变分割方法。虽然人们已经提出许多基于U-Net方法,但网络的连续池化和卷积操作会导致部分空间信息丢失,难以提取更多的特征,致使分割精确度较低。

在分割多裂肌的脂肪浸润部分时,存在以下技术难题:1) 目标和周围结构之间的边界通常不够清晰; 2) 多裂肌的形状变化很大,患者之间甚至患者的每个脊柱水平都有显著变化; 3) 原始图像数量较少。为解决腰椎间盘突出病人的多裂肌分割问题,笔者提出一种基于注意力机制进行多裂肌分割的方法(AMUNet:Attentional Mechanism U-Net)。该网络利用了编码器-解码器的结构,引入注意力机制(AM:Attention Mechanism)[18]模块和空洞空间卷积池化金字塔(ASPP:Atrous Spatial Pyramid Pooling)[19]模块。

笔者主要贡献包括:1) 基于U-Net[20]网络,引入了注意力机制模块,利用注意机制增加了表现力,更加关注多裂肌的特征并抑制不必要的特征和噪音,有效地帮助信息在网络中流动; 2) 引入空洞空间卷积池化金字塔模块,该模块将不同大小的空洞卷积核堆叠,可以有效地提取不同尺度的信息。

1 基于注意力机制的腰椎间盘突出患者多裂肌分割

1.1 AMUNet算法

基于注意力机制的腰椎间盘突出患者多裂肌分割算法(AMUNet),其整体结构如图1所示。该模型首先以U-Net作为骨干网络,然后在编码器和解码器的基本单位中引入注意力机制模块提取深层特征,最后在特征提取后引入空洞空间卷积池化金字塔(ASPP),该模块将大小不同的空洞卷积核叠加,捕获丰富的上下文信息。

图1 网络结构图

1.1.1 注意力机制模块

注意力机制解决了池化操作导致的图像信息丢失、分割精度低等问题。注意力机制模块由通道和空间注意力模块组成。该模块利用位置和通道的加权方式,从图像的通道和空间两个维度获取注意力特征图。然后,其将注意力与输入特征图进行逐元素相乘,以实现自适应特征优化。由于注意力机制模块更加注重多裂肌的特征并对多余的特征和噪音进行抑制,从而有效地促进信息的传递。同时该模块可以获得更丰富的上下文相关性信息。注意力机制模块结构如图2所示。

图2 注意力机制结构

假设输入的特征图为I∈RC×H×W,其中C、H、W分别表示特征图的通道数、高度和宽度。首先将输入特征图输入到通道注意力模块,获得通道注意力特征图MC∈RC×1×1,将输入特征图和通道注意力特征图相乘得到中间特征图I′∈RC×H×W。然后将中间特征图I′∈RC×H×W输入到空间注意力模块,得到空间注意力特征图MS∈RC×1×1。最后将中间特征图和空间注意力特征图相乘,得到包含通道和空间注意力的特征图I″∈RC×H×W。具体计算方法如下:

通道注意力模块可以关注不同通道之间的特征关系,通过学习自动获取每个通道间的重要特征信息。其模块结构如图3所示。首先,对输入特征图I∈RC×H×W通过最大池化和平均池化操作,进行维度压缩,然后将通过多层感知器得到的特征图进行基于元素的叠加运算,再经过sigmoid函数,生成最终的带权重的通道注意力特征图MC∈RC×1×1。通过将该向量与原始的特征图相乘,可将注意力向量应用于特征图中的每个通道,从而增强相关通道之间的表示能力,提高网络的判别能力。通道注意力机制的计算方法如下:

图3 通道注意力机制结构

(3)

空间注意力模块可以关注不同空间之间的特征关系,获取不同空间的特征。其模块结构如图4所示。首先对输入特征图I′∈RC×H×W进行最大池化和平均池化操作,提取不同大小的空间特征,然后将得到的两个特征图做concat操作,接着进行一次卷积运算将特征图降维为1个通道。最后通过sigmoid函数,得到含有权重的空间注意力特征图MS(I)∈R1×H×W。空间注意力机制的计算方法如下:

图4 空间注意力机制结构

(4)

1.1.2 空洞空间卷积池化金字塔

在图像分割过程中池化操作会丢失信息,而空洞卷积在不丢失图像信息情况下扩大了感受野,有效聚合上下文信息。空洞卷积有一个新的参数,称为扩张率,当设置不同扩张率,有不同的感受野,从而获得多尺度信息。文中在编码阶段和解码阶段中间引入了空洞空间卷积池化金字塔模块。该模块的结构如图5所示。该模块由多个不同扩张率的空洞卷积并行组成,扩张率分别为6、12、18和24。这些卷积层可在不同尺度下捕获图像的特征,从而使网络能理解不同尺度下的信息。然后将多个扩张率的特征图级联在一起,进一步提高了模型的感受野和语义信息。最后,级联的特征图通过一系列卷积层融合和压缩,生成最终的分割结果。

图5 空洞空间卷积池化金字塔结构

1.2 损失函数

文中的损失函数为Dice Loss,该函数计算方法如下:

(5)

其中pi表示预测分割的第i个像素,gi表示ground truth的第i个像素。

2 仿真实验

2.1 数据集

通过收集医院腰椎间盘突出患者的腰椎MRI图像得到原始数据集。该数据集包含311名腰间盘突出患者的腰椎MRI图像,突出的腰间盘位于L4-L5腰椎区域。由于图像来自不同时期和不同设备,数据不一致,因此对图像做预处理操作。第1步,将所有图像的分辨率统一到224×224像素。第2步,为使实验中使用的数据更加可靠,删除模糊不清楚图像。第3步,由于患者在拍摄过程中的不规则运动会导致图像模糊,图像中出现较多的噪声干扰,通过高斯滤波器减少图像噪声。第4步,多裂肌和周围肌肉的灰度值相差较小,对图像进行自适应直方图均衡化,增强图像的对比度,使分割更易于观察。第5步,通过镜像和旋转图像,得到1 244张的数据集。其中984张用于训练,108张用于验证,152张用于测试。数据集预处理结果如图6所示,图6a是原始MRI图像剪裁后的图像,图6b是经过高斯滤波、自适应直方图均衡化处理后的效果图,图6c是经过镜像处理的图像。

2.2 实验设置

实验程序是基于Pytorch框架实现的,操作系统为Ubuntu 16.04 64。该模型的优化器为Adam,参数β1为0.9、β2为0.999,ε为1×10-8。Batch size为4,初始学习率为1×10-3,学习率每30个epoch衰减10倍,共计120个epoch。

以在脊柱多裂肌数据集测试集上的分割结果作为评价标准。为评估不同方法的分割性能,文中采用的评价指标为:Dice系数(DSC:Dice Similariy Coefficient)、Jaccard相似系数(JAC:Jaccard Index)和豪斯多夫距离(HD:Hausdorff Distance)。DSC衡量预测结果和标签之间的相似性,DSC值越大,相似性就越高。JAC用于比较样本之间重叠程度的指标,JAC数值越大,样本之间的重叠程度越高。HD是描述两组点集之间相似程度的量度,因此HD对边界分割非常敏感。HD值越小,网络性能越好。评价指标的计算方法如下:

1) DSC的计算公式:

(6)

2) JAC的计算公式:

(7)

3) HD的计算公式:

DHD(p,g)=max(h(p,g),h(g,p)),

(8)

(9)

(10)

其中p表示预测分割的像素集,g表示ground truth的像素集。

2.3 实验结果与分析

2.3.1 对比实验

该组实验为笔者方法与其他方法进行对比分析,表1是该组实验结果,相较于U-Net算法[20],笔者方法在DSC上提升7.8%,在JAC上提升了10.1%,在HD上下降了69.5%。相较于CE-Net[11],笔者方法在DSC上提升9.9%,在JAC上提升了12.5%,在HD上下降了66.7%。相较于MSU-Net[14],笔者方法在DSC上提升0.5%,在JAC上提升了0.9%,在HD上下降了29.7%。实验结果表明,笔者方法的分割精度优于大多数现有方法。

表1 不同算法的指标对比

该组实验的可视化结果如图7所示。Input是腰椎原始图像,Ground truth是多裂肌中脂肪浸润部分的标签,然后依次是U-Net、CE-Net、笔者方法对脂肪浸润部分的预测结果。实验结果表明,笔者方法优于现有的大部分网络框架,通过对分割可视化结果进行分析和比较,笔者方法能更准确地区分多裂肌的脂肪浸润部分。

图7 不同方法的分割结果对比

Grad-CAM(Gradient-weighted Class Activation Mapping)[23]通过计算最后一个卷积层中每个特征图对图片类别的权重,然后将这些权重与最后一个卷积层的特征图相乘并求和,最后把加权和的特征图映射到原始图片中,生成热力图(Heatmap)。通过热力图可以显示图像中预测的重要区域,深灰色部分代表模型重点关注的特征区域。本组实验通过Grad-CAM生成了热力图,如图8所示,将生成的热力图与Ground truth进行比较,文中网络能较准确地定位分割目标。

2.3.2 消融实验

该组实验是针对注意力机制模块(AM)对实验的影响分析,分别在编码器(Encoder)中引入AM,解码器(Decoder)中引入AM,在编码器-解码器(Encoder-Decoder)中同时引入AM。表2是该组实验的结果。实验数据表明,在编码器-解码器(Encoder-Decoder)中同时引入AM,此方法分割精度较高。

表2 注意力机制模块在网络不同位置的指标对比

该组实验是针对各模块对实验的影响分析。在编码器-解码器中分别引入AM模块和ASPP模块,然后进行了相应的训练和测试。表3是本组实验结果。实验数据表明,在U-Net基础上添加了AM模块和ASPP模块后,笔者方法在DSC上提升7.8%,在JAC上提升了10.1%,在HD下降了69.5%,这表明该策略能有效提高模型的分割性能。

表3 各模块在测试集上的指标对比

2.3.3 推理时间对比实验

该组实验是在笔者方法与U-Net[20]检测单张图片的推理时间分析。笔者方法检测单张图片的时间为1.329 s,如表4所示。由于笔者方法添加了AM模块和ASPP模块,因此在推理时间方面相较于U-Net[20]网络会有所增加,但在分割效果方面有了显著提升。

表4 UNet和笔者方法检测单张图片的推理时间对比

3 结语

笔者提出了基于注意力机制的腰椎间盘突出患者多裂肌分割方法。该网络利用注意力机制更加关注多裂肌中病灶的特征,过滤掉无用的信息,从而提高的分割精度。同时在特征提取后使用空洞空间卷积池化金字塔模块,增加了感受野,从而更好地融合上下文信息,以提升网络模型的性能。最后,在腰椎间盘突出患者多裂肌的MRI数据集上进行了实验,实验结果表明,笔者模型具有更好的性能,提高了多裂肌脂肪浸润部位的分割精度。