U-Net支气管超声弹性图像纵膈淋巴结分割
2022-10-21刘羽吴蓉蓉唐璐宋宁宁
刘羽,吴蓉蓉,唐璐,宋宁宁
1.合肥工业大学生物医学工程系,合肥 230009;2.徐州医科大学医学影像学院,徐州 221004;3.南京市第一医院,南京 210006
0 引 言
超声弹性成像技术(ultrasound elastography,UE)又称实时应变成像技术(real-time elastography imaging),基本原理为:由于不同靶组织(正常和病变)的弹性系数不同,加外力后其应变会存在差异,通过收集靶组织在某时间段内的各片段信号,以黑白、伪彩或者彩色编码的方式将差异显示在原图像上,实现超声弹性成像。在肺癌的诊断和治疗中,准确的肺癌纵膈淋巴结诊断至关重要(何海艳 等,2016)。超声弹性成像技术联合经支气管针吸活检术已逐步用于肺癌纵膈淋巴结的诊断,该技术称为超声内镜引导下的经支气管针吸活检术(endobronchial ultrasound-guided transbron-chial needle aspiration,EBUS-TBNA),通过在支气管镜前搭载超声探头,并应用电子凸阵扫描彩色能量多普勒超声系统,能更生动地显示及定位病变(李灵芝 等,2018)。图1展示了常规超声图像和叠加彩色编码的弹性图像。一般来说,病变的淋巴结硬度较大,受到挤压后变形程度小,在弹性图像中表现为蓝色;与之相反,正常的淋巴结表现为红色或绿色。超声弹性成像技术在肺癌淋巴结病变诊断上的作用吸引了很多学者的关注(Huang等,2017b;王虹 等,2018),然而当前关于支气管超声弹性图像的研究中,淋巴结通常需要专业医师手动分割,费时费力,极大限制了相关研究的开展。因此,研究弹性图像淋巴结自动分割方法具有重要意义。
图1 常规超声图像和弹性图像
医学图像分割的目的是将医学图像中感兴趣的目标区域分割出来,为疾病诊断与治疗提供更可靠的依据。近年来,依靠深度神经网络强大的特征学习能力,深度学习在多种医学图像分割问题中进行了成功的应用。例如,肝脏肿瘤分割(刘云鹏 等,2020)、肺肿瘤分割(郝晓宇 等,2020)、脑肿瘤分割(江宗康 等,2020)、眼底血管分割(高颖琪 等,2020)等。在基于深度学习的医学图像分割研究中,U-Net(Ronneberger等,2015)是一种最为常用的网络模型,具有编码器—解码器结构。其中,编码器旨在捕获更高级的语义特征并逐渐减少特征图的空间维度,解码器则用于恢复对象细节和空间维度。为了进一步提高U-Net的性能,许多学者将学习能力更强的VGGNet(Visual Geometry Group network)(Simonyan和Zisserman,2014)、ResNet(residual neural network)(He等,2016)和DenseNet(dense network)(Huang等,2017a)等网络结构融入U-Net框架。例如,Guo等人(2019)将VGG作为U-Net的编码器,在息肉分割任务中获得了较高的分割精度;Abedalla等人(2020)将在ImageNet上预训练过的ResNet作为编码器部分,在胸部X射线图像气胸分割问题中取得了很好效果;Li等人(2018)基于DenseNet模型设计编码器,提高了肝脏和肝肿瘤分割的精度。此外,很多学者将注意力机制引入U-Net网络,旨在选择出对当前任务更关键的特征。例如,Oktay等人(2018)在U-Net框架下添加通道注意力模块,在腹部CT(computed tomography)多标签分割问题中得到了很好的应用;Woo等人(2018)将空间注意力机制与通道注意力机制相结合,相比于只关注通道注意力机制取得了更好的分割效果。
然而,目前对于支气管超声弹性图像纵膈淋巴结分割问题的研究还较少,特别是尚未发现深度学习用于淋巴结分割问题的相关工作报道。在此背景下,本文开展基于深度学习的支气管超声弹性图像纵膈淋巴结分割方法研究,主要贡献包括:1)收集了一个用于支气管超声弹性图像分割问题研究的数据集,包括205幅支气管超声弹性图像及其相应的淋巴结分割标签;2)在此数据集上测试了 6种典型的U-Net结构深度网络模型的分割性能,并结合上下文提取器和注意力机制设计了一种超声弹性图像淋巴结分割新方法,取得了较好的分割结果。
1 数据集
表1 穿刺淋巴结信息
数据集包含205幅弹性图像及其相应标签,弹性图像的分割标签均由经验丰富的资深医师手动标记出淋巴结区域。图2展示了3组弹性图像和相应的分割标签。
图2 弹性图像和分割标签
2 方 法
本文在收集的数据集上测试6种典型的U-Net结构深度网络模型的分割性能,包括基础U-Net(Ronneberger等,2015)、VGG U-Net(Guo等,2019)、Res U-Net(Abedalla等,2020)、Dense U-Net(Li等,2018)、CE-Net(Gu等,2019)和Attention U-Net(Oktay等,2018),并结合上下文提取器和注意力机制设计了一种新的淋巴结分割网络ACE-Net(attention context encoder network)。表2列举了上述7种U-Net模型编码器和解码器的结构特点。在分割任务中,网络输入均为支气管超声弹性图像,输出均为预测的淋巴结分割图像。
表2 7种U-Net模型编码器和解码器的结构特点
2.1 基础U-Net
图3为基础U-Net的网络结构,包括特征提取和上采样两部分(编码器和解码器)。特征提取部分下采样4次,每经过一个池化层尺度缩减2倍,共缩减16倍。上采样部分相应上采样4次,并在每个上采样阶段使用跳跃连接,即将上采样阶段通道与特征提取对应阶段通道进行融合。U-Net采用与全卷积网络(fully convolutional network,FCN)(Shelhamer等,2017)完全不同的特征融合方法,通过“拼接”将特征在通道维度拼接在一起,形成更厚的特征,从而确保最后恢复的特征图包含更多的低维特征,也使不同尺度的特征得到融合。
图3 基础U-Net网络结构
2.2 VGG U-Net
VGG U-Net将VGGNet作为U-Net的编码器部分,可以提取更深层的特征,图4为VGG U-Net的网络结构。在VGG网络中,使用2个连续的3×3卷积核代替1个5×5卷积核,使用3个连续的3×3卷积核代替1个7×7卷积核。使用连续的小卷积核代替大卷积核的主要目的是在保证具有相同感知野的条件下提升网络的深度,并填充边缘信息,在一定程度上提升神经网络的效果。
图4 VGG U-Net网络结构
2.3 Res U-Net
Res U-Net进一步将特征提取能力更强的ResNet作为U-Net的编码器部分,图5为Res U-Net的网络结构。ResNet模型的核心是建立前面层与后面层之间的“短路连接”,即残差块。图5 中的残差块(residual-block)在输入与输出之间建立了直接的关联通道,使网络专注于学习输入输出之间的残差,使梯度的反向传播更有效,避免梯度爆炸和消失。
图5 Res U-Net网络结构
2.4 Dense U-Net
Dense U-Net将DenseNet作为U-Net的编码器部分,图6为Dense U-Net的网络结构。DenseNet的基本思路与ResNet相同,但是它建立的是前面所有层与后面层的密集连接,通过特征在通道上的拼接实现特征重用。在密集块(dense-block)中,每个密集层(dense layer,DL)都会与前面所有层在通道维度上拼接在一起作为下一层的输入。这种连接方式相当于每一层都直接连接输入,使特征和梯度的传递更加有效。
图6 Dense U-Net网络结构
2.5 CE-Net
基于U-Net的分割方法通常会存在连续的卷积和池化导致部分空间信息丢失问题。对此,CE-Net(context encoder network)应用上下文提取器来解决此问题。上下文提取器可以保留更多的空间信息并捕获更高级的语义特征(Gu等,2019),图7为CE-Net的网络结构。上下文提取器主要包括密集空洞卷积模块(dense atrous convolution,DAC)和残差多核池化模块(residual multi-kernel pooling,RMP)。
图7 CE-Net网络结构
DAC模块的内部结构如图8所示。在DAC模块中,空洞卷积以级联方式堆叠,共5个级联分支,其中1个分支参考ResNet结构,其他4个分支参考Inception结构(Szegedy等,2015)。每个分支空洞卷积比率从1到1、3、5逐渐增加,每个分支的感受野(从左到右)分别是3、7、9、19。不同的感受野适用于不同尺寸的对象。在每个分支中用1 × 1的卷积进行线性激活。通常,大感受野的卷积可以比较完整地提取大对象的抽象特征,而小感受野的卷积对于小对象则更好。通过组合不同比率的空洞卷积,DAC模块能够提取不同尺寸对象的特征。
图8 DAC模块内部结构
残差多核池化主要依靠多个有效的感受野来检测不同大小的目标。RMP模块内部结构如图9所示。RMP用4个不同大小的感受野(2×2、3×3、5×5和6×6)进行下采样,4个分支输出4个不同尺寸的特征图。在每个池化分支后,经过1×1卷积将通道数变为1,然后对低维特征图进行上采样,使它与原始特征图具有相同尺寸。最后,将原始特征图与上采样的特征图进行拼接。
图9 RMP模块内部结构
2.6 Attention U-Net
Attention U-Net(Oktay等,2018)使用一种用于医学成像的门控注意力(attention gate,AG)模型接在每个跳跃连接上,AG各变量见原文献网络结构,如图10所示。使用注意力模块对下采样同层和上采样层上一层的特征图处理后,再与上采样后的特征图进行拼接。将下采样同层和上采样层上一层的特征先经过卷积层转化为相同尺寸,两个特征相加后可以融合下采样层的结构化信息和当前层的纹理信息,再经过线性整流ReLU(rectified linear unit)函数和sigmoid函数,得到注意系数后,再与原始下采样同层的特征相乘,从而强调本层的显著性区域特征。
图10 Attention U-Net网络结构
2.7 注意力上下文编码器网络
在上述模型基础上,本文设计了一种注意力上下文编码器网络(attention context encoder network,ACE-Net),主要包含基于残差网络的编码器、上下文提取器和基于AG的解码器3部分,如图11所示。使用在ImageNet数据集上预训练且去掉平均池化层和全连接层的34层残差网络ResNet-34作为编码器提取特征,可以避免梯度爆炸和消失。上下文提取器的作用是提取不同形状和大小的对象特征,从编码器的输出中进一步提取深层信息,同时保留尽可能多的空间信息。基于AG的解码器可以抑制输入图像中的不相关区域,同时突出对当前任务更关键的特征。
图11 本文设计的ACE-Net网络结构
3 实 验
3.1 实验设置
分割网络的预测结果为像素分类的概率值,即像素是否为淋巴结的概率值,故进行一个二值化操作。设置阈值0.5,令概率值大于等于0.5的像素取值1,否则取为0,得到分割的二值图像。
3.2 评价指标
评价指标使用Dice系数(Dice coefficient,DC)、敏感度(sensitivity,SE)和特异度(specificity,SP)。Dice系数是医学图像分割最为常用的一种评价指标,用于计算两个样本的相似度,取值范围是[0,1],计算为
(1)
式中,P和G分别为模型预测的淋巴结区域和真实标注区域的像素集,∩为两个像素集对应点的与运算,|·|为像素数量的代数求和运算。
敏感度和特异度的计算式为
(2)
(3)
式中,TP表示预测为淋巴结实际为淋巴结的像素个数;TN表示预测为背景实际为背景的像素个数;FP表示预测为淋巴结实际为背景的像素个数;FN表示预测为背景实际为淋巴结的像素个数。
3.3 实验结果分析
表3为7种网络的测试结果。U-Net网络淋巴结分割的Dice系数、敏感度和特异度结果为0.820 7、85.08%和96.82%,其他改进版本的U-Net网络的分割性能在此基础上均有一定提高。本文方法的Dice系数、敏感度和特异度结果为0.845 1、87.92%、97.04%,在Dice系数和敏感度方面取得了最优值,分别比次优值高0.005 5和0.16%,比基础U-Net高了0.024 4和2.84%,在特异度方面取得了次优值。
表3 不同网络淋巴结分割结果
图12为7种网络淋巴结的分割结果。由4幅真实标签(ground truth,GT)图像可以看出,每幅图像淋巴结的大小和形状都有很大变化,这为精准分割增添了很大难度。本文方法由于增添了上下文提取器,能够自动提取不同形状和大小的对象特征,可以较好地解决这个问题。从分割结果看,7种网络模型基本都可以较好地分割出淋巴结的位置,其中,本文方法的分割结果更加精确。
图12 不同网络的淋巴结分割结果
4 结 论
在支气管超声弹性图像研究中,通常需要专业医师手动分割淋巴结,这是一个费时费力的工作。为此,本文开展基于深度学习的支气管超声弹性图像纵膈淋巴结自动分割方法研究。本文收集了一个包含205幅支气管超声弹性图像及其相应分割标签的数据集,在此数据集上测试了6种典型的U-Net结构深度网络模型的分割性能,并结合上下文提取器和注意力机制设计了一种支气管超声弹性图像纵膈淋巴结分割新方法。实验结果表明,本文模型与对比网络模型在淋巴结自动分割任务上均取得了良好效果,其中本文方法取得了最高的分割精度。由实验结果可以看出,以U-Net为代表的深度学习模型在支气管超声弹性图像纵膈淋巴结分割任务中具有很大潜力,将上下文提取器和注意力机制融入U-Net网络可以一定程度上提升淋巴结分割精度。此外,本文收集的数据集将有助于推动支气管超声弹性图像淋巴结分割问题的研究。由于实验数据集规模比较小,虽然做了数据增强处理,但分割性能还不是很理想,后续工作拟不断增加数据集的规模,从而进一步提升分割精度。