基于U-net改进的臂丛神经超声图像分割方法
2024-01-18王传涛刘思宇张锦华蔡昊轩
王传涛,刘思宇,张锦华,蔡昊轩
(1.北京建筑大学 机电与车辆工程学院,北京 102616;2.北京建筑安全监测工程技术研究中心,北京 102616)
臂丛神经阻滞麻醉的关键步骤在于识别臂丛神经结构,准确地分割臂丛神经不仅可以在临床手术中辅助医生对病人进行快速准确的区域麻醉,降低对医生的临床经验要求,减轻医生的工作量,而且具有减轻患者术后疼痛,加快患者术后恢复等优势。超声(Ultrasound,US)因其无创、实时、无放射性损害和低价等特点,已经成为临床上识别臂丛神经结构的重要手段。在超声图像采集过程中,由于成像原理的局限性以及设备的扰动性,图像中容易产生大量噪声,从而造成医生对神经结构的位置信息不敏感。因此,准确地分割臂丛神经超声图像有助于提高医生的工作效率。传统的分割方法大多通过图像间的灰度值差异、边缘信息的连续性等特征进行分割,针对超声图像中的神经分割问题,García等[1]提出了一种基于斑点去除和贝叶斯形状模型的分割方法,非局部均值滤波器能够在保留神经结构边缘信息的同时去除噪声。Giraldo等[2]提出一种基于非参数贝叶斯分层聚类的神经分割方法,该方法将无限高斯混合模型(iGMM)和层次聚类(HC)相结合,起到重点分割感兴趣区域和提高信息可理解性的作用。González等[3]提出了一种用于神经结构的半自动分割方法,其中非线性小波变换用于特征提取,分类阶段采用高斯过程分类器。上述传统分割方法大多需要医生手动干预,且针对含有大量噪声、神经结构形态不一的臂丛神经超声图像容易出现过分割、欠分割的现象。
近年来,基于深度学习的图像分割方法以其省时、省力且具有较高普适性的特点被广泛关注[4-6],其中Ronneberger等[7]提出的U-net网络模型因其独特的编码器—解码器结构在医学图像分割领域取得了不错的效果。相较于传统的图像分割方法,基于深度学习的方法通过对图像不断进行卷积操作以达到有效提取图像中多层次特征信息的目的,从而提高分割精度,且将图片输入训练好的模型中可直接得到分割结果,不需要耗费医生大量的精力。为了进一步提升分割精度,大量学者基于U-net网络模型设计出了新的架构,Zhou等[8]为了减少编码器与解码器之间的特征图差异,提出了U-net++网络模型,在网络中重新设计了跳跃连接结构,并增加了可对不同分割任务进行剪枝的深度监督,实验结果表明其分割效果确实优于U-net。Oktay等[9]提出的Attention U-net在U-net的编码器和解码器之间添加了集成注意力门(AGs),其可以在突出局部区域特征的同时抑制不相关区域的特征信息,有效地提升了分割精度。Ibtehaz等[10]通过将ResNet中的残差思想与U-net相结合提出了MultiResUNet,为了增强U-net的多分辨率分析能力,使用MultiRes模块替代了卷积操作,取得了不错的分割效果。Chen等[11]提出的TransUNet将Transformer和U-Net的优点相结合,不仅可以较好地提取全局语义信息,还可以有效利用CNN获取到的低层细节信息进行精确定位。上述基于U-net网络模型改进的深度学习分割方法虽然在特定训练任务中提升了分割精度,但是普遍存在模型复杂度高、训练速度慢的问题,同时臂丛神经结构在超声图像中具有占比较小、位置信息不同和形态不一的特征,进一步增加了分割的难度。因此,笔者基于注意力机制和空洞卷积对U-net网络模型进行改进,提出了一种新的网络模型用于自动分割臂丛神经超声图像,该模型主要有3个创新点:1) 在U-net编码器的卷积和下采样操作连接中引入通道注意力机制,赋予分割目标更高的权重,增强网络对浅层特征的提取能力;2) 在编码器与解码器之间的跳跃连接中引入空洞空间金字塔池化模块,使网络可以有效提取神经结构的多尺度特征信息,提高模型的分割精度;3) 在不显著增加参数量的情况下,模型的复杂度和推测时间都得到了提升。
1 网络模型
1.1 改进后的U-net网络模型整体框架
针对臂丛神经超声图像分割目标不明显、噪声多和边缘不清晰的难题,提出了一种基于注意力机制和空洞空间金字塔池化模块的深度卷积神经网络模型,图1给出了该模型的整体框架,该模型以U-net为主干网络,包含编码器、注意力模块、空洞空间金字塔池化模块和解码器4个部分。在得到臂丛神经超声图像后先对其进行数据增强操作,避免因数据量少限制分割精度的提升,在不失真的情况下将超声图像尺寸统一改为256×256,并将灰度图像输入到模型中。在编码器中先对图像进行两次卷积,再将卷积得到的特征图输入到注意力机制模块中,以增加分割目标的权重,经过注意力模块后进行下采样操作,起到缩小图像分辨率并保留关键信息的作用。在模型本身的跳跃连接中,首先把经过注意力模块后得到的特征图输入空洞空间金字塔池化(ASPP)模块,再将输出得到的特征图复制到对应的解码器中进行通道上的拼接,这样可以有效地将编码器中的浅层特征和解码器中的深层特征结合并融合神经结构的多尺度信息。在解码器中先对卷积后输出的特征图采取上采样操作以恢复图像分辨率,然后将经过上采样和改进后跳跃连接得到的拼接图进行两次卷积操作,在解码器的最后一步利用1×1的卷积调整特征图的通道数,通过Sigmoid激活函数转换特征图中的像素值,最终通过Dice损失函数实现臂丛神经超声图像的掩膜分割。
图1 基于U-net改进的网络模型结构图Fig.1 Structure diagram of the improved network model based on U-net
1.2 注意力机制模块
为了解决U-Net网络模型在卷积层提取特征信息时将超声图片中的噪声和无用信息传递到下一个卷积层的问题,笔者在模型中引入了通道注意力机制模块。随着SENet[12]的提出,近年来有不少学者将注意力模块添加到所设计的主干网络中。实验证明:添加注意力模块确实可以显著提升模型的精度,然而不可避免地会增加网络模型的参数量及复杂度。因此,笔者将Wang等[13]提出的高效通道注意力网络(ECA-Net)作为注意力模块,ECA-Net可以看作是对SENet的一种改进,该方法提出了一种不降维的局部跨通道交互策略,利用一维卷积进行适当的跨通道交互可以在保持性能的同时降低模型的复杂度。图2为ECA-Net通道注意力模块的网络结构图,其中H为特征张量的高,W为特征张量的宽,C为特征张量的通道数。首先,基于每个通道对输入的特征张量进行全局平均池化;然后,利用1D卷积提取池化得到特征序列,特征序列经过sigmoid激活函数得到每个通道的权值;最后,与输入的特征张量相乘,得到通道注意力模块的输出。在ECA-Net中获取所有通道的依赖关系是低效和不必要的,而卷积具有良好的跨通道信息获取能力,因此ECA模块用1D卷积替换了SENet中的两次全连接。实验结果表明:在嵌入U-net网络模型后,ECA模块的性能得到了显著提升。
图2 高效通道注意力模块Fig.2 Efficient channel attention module
1.3 空洞空间金字塔池化模块
由于超声设备在图像采集过程中设置的参数不同、手法不同,且根据臂丛神经超声图像的标签数据可以看出臂丛神经结构的大小不一,形态各异,这导致网络模型不能有效地提取特征信息,进而不能达到理想的分割精度。为了解决上述问题,笔者在模型中加入了空洞空间金字塔池化(Atrous spatial pyramid pooling,ASPP)[14]模块,该模块通过不同膨胀率的空洞卷积和全局平均池化来实现超声图像中不同尺度的特征信息提取,能有效地提升分割性能,图3为ASPP模块的结构示意图。由图3可知ASPP模块的第1步需要由5个卷积层并行操作:第1个卷积层使用1×1的卷积核对输入的特征图进行卷积运算,经过批量归一化处理后得到输出特征图;第2~4个卷积层让输入的特征图分别通过膨胀率为6,12,18且卷积核大小为3×3的空洞卷积,空洞卷积可以在不改变卷积核大小的情况下扩大感受野,从而对特征信息进行更多的提取,经过批量归一化处理得到输出特征图;第5个卷积层首先要缩小原始图像的尺寸,以便获得全局的上下文信息,然后对输入特征图的各个通道进行全局平均池化,接着通过1×1的卷积构成新的特征图,卷积后同样进行批量归一化处理,最后利用双线性插值法对图像尺寸进行还原。在5个并行卷积层操作完成后,首先对每个卷积层得到的输出特征图进行拼接,以增加不同尺度特征图之间的相关性,因为是在通道维度上对特征图进行拼接,所以得到的通道维数是原特征图的5倍;然后利用1×1的卷积对得到的特征图进行降维;最后经过批量归一化操作得到ASPP模块输出的特征图。
图3 空洞空间金字塔池化模块Fig.3 Atrous spatial pyramid pooling module
2 实验与分析
2.1 实验数据及参数设置
使用超声神经分割竞赛中的臂丛神经超声图像作为数据集,该竞赛在2016年由Kaggle平台发布[15],共有5 635张超声图像原图及5 635张专家标注的标签图像,将数据集按照9∶1的比例划分为训练集和测试集。由于样本数量受到限制,为了使训练样本覆盖更多的目标特征,笔者采用数据增强技术,包括水平、垂直翻转和随机缩放。
本实验的硬件环境为NVIDIA GeForce RTX 3090显卡,操作系统为Windows 11,编程语言为Python 3.8,所有程序均在Pytorch框架下实现,实验中所有的配置都相同,具体的网络参数设置如下:输入的图像尺寸为256×256,迭代次数为100,Batch_size大小为8,初始学习率为0.000 1,优化器选用Adam(Adaptive moment estimation)。
2.2 评价指标
本实验采用戴斯相似性系数(Dice similarity coefficient,Dice),交并比(Intersection over union,IoU)、精确率(Precision)和召回率(Recall)作为臂丛神经超声图像分割方法的评价指标,并与SegNet[16],U-Net,U-net++进行比较。评价指标的具体定义如下:
对于超声图像的分割问题,最终分割结果是把目标区域和背景区域进行划分,也可以看作是二分类问题,其中,被正确预测为神经结构的像素个数称为真阳性(True positive,TP),被正确预测为背景区域的像素个数称为真阴性(True negative,TN),被错误预测为神经结构的像素个数称为假阳性(False positive,FP),被错误预测为背景区域的像素个数称为假阴性(False negative,FN)。
1) 精确率(Precision,P)。精确率是指预测为神经结构的像素个数中有多少被正确预测,其计算式为
(1)
2) 召回率(Recall,R)。召回率是指原始神经结构的像素个数中有多少被预测正确,其计算式为
(2)
3) 戴斯相似性系数(Dice similarity coefficient,Dice)。Dice是评估两个区域相似度的函数,在本实验中,表示模型分割的区域与专家标注区域的重叠率,其范围为[0,1],其计算式为
(3)
4) 交并比(Intersection over union,IoU)。IoU通过神经结构像素的真实值和预测值的交集与并集的比值来评估模型的分割性能,其范围为[0,1],其计算式为
(4)
式中:Vseg为预测区域;Vgt为真实区域。
2.3 分割结果与分析
为了验证笔者模型的分割性能,与当下主流的Segnet,U-net和U-net++网络模型进行比较,图4展示了4种网络模型得到的分割结果,其中图4(a)为臂丛神经超声图像的原图,图4(b)为专家标注的金标准图,图4(c)为笔者模型得到的预测图,图4(d~f)依次为Segnet,U-net和U-net++网络模型得到的预测图。由图4可知:Segnet网络模型预测图的边缘较粗糙,U-net和U-net++网络模型预测图都出现了严重的过分割、欠分割现象,而笔者模型得到的预测图与专家标注的金标准中神经结构的形状更加类似且边缘更加平滑。这说明在编码器中加入注意力模块可以有效地抑制随着网络深度的增加而造成的信息丢失,并且对网络浅层提取到的边缘信息赋予更高的权重。此外,臂丛神经结构在位置信息、尺寸上都存在着差异,而U-net,U-net++和Segnet网络模型中仅使用了单一尺寸的卷积核对特征图进行卷积操作,这样无法获得分割目标的多尺度信息。因此,笔者在U-net网络模型的跳跃连接中添加了ASPP模块,通过设置不同膨胀率的空洞卷积实现对臂丛神经结构不同尺寸特征的信息提取,并将融合的特征图传递到解码器部分,与解码器上采样后得到的特征图进行拼接。
图4 不同模型分割效果图Fig.4 Segmentation effect diagram of different models
为了证实笔者模型确实存在最优的效果,使用不同的评价指标与Segnet,U-net和U-net++网络模型进行对比实验,分割结果如表1所示。
表1 不同模型的分割结果对比
由表1可知:笔者模型在精确率、召回率、Dice和IoU这4个评价指标上的分割结果均优于Segnet,U-net和U-net++。与本实验所用的主干网络U-net相比,笔者模型在精确率上提高了11.27%,召回率上提高了5.61%,Dice上提高了9.72%,IoU上提高了9.03%。一方面,说明在U-net网络模型编码器部分引入ECA-Net通道注意力模块,可以在卷积操作提取特征的基础上进一步加强模型对边缘特征的学习能力并赋予分割目标更高的权重;另一方面,对比U-net和U-net++网络模型可知,单纯的跳跃连接操作并不能显著提升模型的分割性能,笔者在跳跃连接中引入ASPP模块,能将深层特征与浅层特征有效地拼接,并融合多尺度信息,从分割结果来看,分割精度得到了进一步提升。
为进一步证明笔者模型相较于其他主流的网络模型更具有优势性,选用单张图片的预测时间作为衡量模型实时性的指标,参数量和计算量作为衡量模型复杂度的指标,结果如表2所示。由表2可知:笔者模型对于单张图像的平均预测时间为25 ms,仅比U-net增加2 ms,虽然模型的复杂度高于U-net,但是模型的精度得到了较大提升;与另外两种分割网络模型相比,笔者模型的实时性和复杂度均相对较优。
表2 不同模型的实时性和复杂度对比
3 结 论
提出了一种基于U-net改进的臂丛神经超声图像分割方法,其利用高效通道注意力(ECA-Net)机制抑制U-net编码器中的无关信息并且增加目标通道的权重,通过与空洞空间金字塔池化(ASPP)模块相结合,提高分割网络对不同尺寸臂丛神经结构的特征提取能力。实验结果表明:笔者模型较其他方法在神经结构的欠分割和过分割处理方面的综合能力更强,与基于U-net改进的模型U-net++相比,不仅能够降低模型的复杂度,而且具有更优的分割精度和实时性。如何在不降低模型分割精度的情况下减少模型中的网络参数,使其能够真正应用到实践中辅助医生诊断是下一步的研究方向。