多尺度监督U-Net甲状腺结节超声图像分割

2022-11-19周晓松赵涓涓

太原理工大学学报 2022年6期

周晓松，赵涓涓

(太原理工大学信息与计算机学院，山西晋中 030600)

甲状腺结节是内分泌科常见疾病之一，其影像特征呈现形态欠规则、边界欠清晰、结节内部不均匀的特性。截止到目前为止，全国大约有4%～7%的人患有明显的感知性甲状腺结节，19%～67%的群体在超声检查过程中易发现甲状腺结节的迹象，虽然这些结节大多为良性结节[1-2]，但仍然对人体有极大的潜在危害。而恶性甲状腺结节严重危害人体的健康，容易导致甲状腺癌和其他甲状腺相关症状的发生，因此甲状腺结节的早筛查和早治疗是提高治愈率的关键环节。在临床试验中，医师通常根据甲状腺结节的形状、钙化和囊实性等特点来筛选和诊断甲状腺结节的危害等级[3-4]。然而，现今的一些甲状腺结节诊断方法是通过将甲状腺超声图像和医师的医学经验进行结合，人工和物力成本都比较高且容易造成医师诊断疲劳，同时由于不同的医师对甲状腺结节具有不同的认知能力容易导致筛查结果差异较大的问题。此外，对于一些医疗条件较差的地区，还可能有漏诊和误诊的风险。近些年来，随着深度学习的飞速发展，计算机视觉与医学领域的结合越来越密切，通过构建神经网络训练医学模型实现对甲状腺结节的智能辅助筛查和诊疗可提高医师诊断精度。针对甲状腺结节早期症状的筛查是预防患病的最佳方法，利用计算机断层扫描技术筛查甲状腺结节是目前最常使用的早期疾病诊断方法，首先从甲状腺结节超声图像分割出结节，然后根据结节的形状、钙化和囊实性等病理特点诊断结节的良恶性。因此，甲状腺结节的病灶分割在甲状腺辅助诊断过程中起着极其重要的作用。

目前，在对甲状腺结节检查检测的过程中易受到回波扰动和斑点噪声的影响[5]，导致超声图像上的甲状腺结节会呈现边缘模糊、细节不清楚的问题，使得现有的分割方法难以实现甲状腺结节的精细分割，出现分割区域误判的问题。针对以上问题，本文旨在利用深度学习技术实现对超声图像甲状腺结节的精确分割，协助放射科医师进行诊断，避免误诊和漏诊的现象发生。

1 相关工作

目前，研究人员提出了大量的图像分割方法，基本上分为基于传统算法和深度学习的两类图像分割方法。

1.1 传统的图像分割方法

传统的图像分割方法通常可以分为基于活动轮廓模型的方法[6]和基于区域的方法。

基于活动轮廓模型的方法其主要思想是预先设定甲状腺结节的轮廓边缘，然后再设计能量函数实现甲状腺结节的边缘处演化，从而实现甲状腺结节的细化分割，其分割过程就是求解能量泛函最小值的过程。张晶[7]提出改进边界停止函数的DRLSE分割模型和结合局部信息改进的CV分割模型，不仅降低了初始位置的敏感性，还增强了对边缘模糊的甲状腺超声图像的边界检测定位能力并且提高了灰度分布不均匀的甲状腺结节超声图像分割结果的准确性。王昕[8]提出一种结合高斯概率分布和局部方差变量的LIC模型用于分割甲状腺结节超声图像中的病灶区域，该方法利用分水岭算法获得初始轮廓的方式，不仅提高了病灶区域的分割精度和模型训练速度，而且降低了传统模型对初始轮廓的敏感性。但大部分基于活动轮廓模型的方法通常需要设定初始轮廓，然而超声图像潜在的噪声、斑点和低对比度的问题会干扰基于活动轮廓模型方法的分割精度，因此急需一种新的方法用于实现超声图像的精细分割。

基于区域的分割方法更加关注区域特征的内部相似性，该方法主要通过利用图像内部具有相似属性的区域与其他区域的属性差异进行分割。LEIJA et al[9]采用了对比度受限的自适应直方图均衡化方法，提出了一种基于分水岭的图像分割算法，从而实现了乳腺超声图像的边界提取。AARNINK et al[10]基于局部标准差在多分辨率框架下识别图像中的均匀区域和非均匀区域进而实现对目标区域的分割。在大多数甲状腺结节超声图像中，不同组织区域的灰度分布均不明显，并且不同区域的灰度值的差异不大，需要预先了解形状和位置才能进行特定区域的分割。此外，甲状腺结节特别是恶性结节通常存在不规则轮廓，导致目标病灶区域与周围的健康区域难以区分，因此基于区域的分割方法通常达不到理想的分割结果。

传统的计算机辅助诊断方法通常先定位甲状腺结节，然后再利用结节的边缘和纹理等特征实现病灶区域的进一步分割。但是由于光照不对称、折射、散斑、声学阴影、混响回波等外部环境的影响，导致甲状腺超声图像在某些部位存在对比度低、模糊、嘈杂等特性，这些因素导致了传统的分割方法并不适用于甲状腺结节超声图像的精细分割。

1.2 基于深度学习的分割方法

与传统的分割方法相比，基于深度学习的分割方法不需要手工制作的特征，而且卷积神经网络(convolutional neural network，CNN)对图像分层特征表示使其在医学图像分割领域具有非常优异的适应性。此外，用于特征学习的CNN对于图像噪声、模糊和对比度等内在信息不敏感，这使基于深度学习的分割方法在对医学图像进行分割的过程中取得较好的分割结果。文献[11]介绍了大量的基于深度学习的医学图像分割方法，本文主要介绍了代表性较为突出的方法。

近年来，人们提出了许多基于卷积神经网络(CNNs)的分割方法[12-14]，并将其应用于超声图像分割中，其分割效果优于传统方法。这些方法中大多都是基于编码器-解码器(encoder-decoder)的结构，这种结构是目前非常流行的端到端架构之一，如全卷积神经网络(FCN)[15]、U-Net[16]、SegNet[17]、U-Net++[18]等模型。这些网络通常采用编码器用于提取图像的特征信息，使用解码器将提取的特征图恢复到原始图像的尺寸大小，并输出最终的分割结果。在这一过程中，这些网络通过设计不同的神经网络模块实现不同尺度特征信息的聚合，通过采用高效的特征融合策略注重结合多尺度上下文信息，从而显示出自己独特的优势。虽然端到端结构对于医学图像分割是非常实用的，但由于模型结果较为复杂，导致网络灵活性更低，也降低了模型的可解释性。RONNEBERGER et al[16]提出的U-Net网络是第一个编解码结构，这一网络已广泛应用于医学图像分割领域中，具体网络结构如图1所示。

图1 U-Net网络结构

与自然图像的分割相比，医学图像通常带有噪声并且边界较为模糊。因此，仅依靠图像的底层特征很难对医学图像中的目标进行检测和识别。同时，医学图像也缺乏细节信息，仅依靠图像的语义信息也无法获得准确的边界。U-Net解决了简单的卷积神经网络在医学图像分割上的问题，它采用了对称结构和跳跃连接，有效地融合了低水平和高水平的图像特征信息，为医学图像分割任务提供了完美的解决方案。目前，U-Net已成为大多数医学图像分割任务的基准，并且激发出很多有意义的改进。文献[13]将甲状腺结节分割作为一个块分类任务，通过忽略块与块之间的关系，表明基于CNNs的模型能够准确有效地在甲状腺超声图像中分割多个结节。ZHANG et al[19]提出了级联UNet和CH-UNet，分别对甲状腺结节进行分割并实现良性和恶性结点的分类，取得了很好的效果。

在U-Net的基础上，BADRINARAYANAN et al[17]在SegNet模型的解码器阶段，通过在最大池化过程中采用编码器阶段中的池化，有效提高了边界轮廓的质量，减少了模型的参数量。ZHOU et al[18]在提出的U-Net++中引入了一个非常密集的跨越连接编码器网络，通过删除原来的跳跃连接并且将每两个相邻的节点进行连接，同时进一步使用密集连接，设计了一个剪枝策略来加快模型的推理。然而，不论是简单的UNet、SegNet还是紧密嵌套的U-Net++模型都缺乏全面探索足够特征信息的能力。

除了网络结构的改进，一些能够有效提高网络泛化性的部件也被加入到网络模型中。文献[20]提出了一种基于空洞空间卷积池化金字塔(atrous spatial pyramid pooling，ASPP)融合特征的甲状腺结节超声图像分割模型算法，将空间金字塔池化和深度可分卷积相结合，解决了在更好地捕获上下文信息的过程中映射特征的大小会发生变化的问题。ASPP可以进一步提取多尺度信息，它主要包括以下几个部分：1) 一个卷积核为1的卷积层和三个卷积核大小为3的卷积层，卷积核大小为3的卷积层采用不同大小的空洞率来保持特征图维度；2) 与四个卷积层并行的一个全局池化层，来获取原始图像水平的特征图，并使用双线性插值恢复到原始相同尺寸的大小；3) 最终将(1)和(2)得到的特征整合为一个特征图送入一个1×1卷积层中得到最终的结果。

文献[21]提出了一个边界感知上下文神经网络(BA-Net)用于二维医学图像分割，以获取更丰富的上下文并保持良好的空间信息。该研究提出了一种新的交互注意机制，将两个任务连接起来，实现不同任务之间的信息互补，有效地利用边界信息为更好地分割预测提供了强有力的助力。总而言之，这些ASPP和注意力机制等部件在医学图像分割领域起到了辅助作用，对提高网络模型的分割效果能够起到正面的影响。注意力机制是一种非常有效的模块，被广泛应用于许多模型中。该机制自动获取输入通道中有用信息的权重，从而使用这些信息来提升模型的关注点并且抑制不相关信息。具体通道注意力如图2所示。

图2 通道注意力

在目前的研究中，UNet网络仍然是许多研究的基础架构[22-24]，这是因为UNet在小数据集上的分割有很好的效果。相比于UNet++等模型来说，UNet模型相对简单，容易在其基础上进行改进，并且在模型训练的过程中不容易产生过拟合的现象。基于以上论述和超声图像的特点，本文提出了一种基于U-Net网络模型用于甲状腺结节超声图像分割，称为MSA-UNet.该模型将U-Net模型作为主干网络，设计出一种多尺度监督策略，并将其加入到解码器部分，然后结合改进的ASPP部件来提升对不同结节的分割效果。此外，为了提高模型对结节的定位能力和甲状腺结节的边缘信息，在多尺度监督部分加入了通道注意力。

2 本文方法

2.1 MSA-UNet网络结构

本文设计了一个多尺度监督架构用于分割二维超声图像中的甲状腺结节。图3显示了本文提出的模型总体架构。该模型基于UNet架构进行构建，主要由三个模块组成：解码器、编码器和多尺度监督模块。在解码模块中通过使用四组下采样方法和卷积运算用于生成四个不同尺度的语义特征映射，其中第四个特征映射通过改进的空洞空间卷积池化金字塔(atrous spatial pyramid pooling，ASPP)模块用于获得更具表现力的特征信息，之后通过上采样和跳跃连接用于恢复语义特征图中的细节特征信息，并通过四个卷积层生成语义特征表示，生成大小为16×16×1、32×32×1、64×64×1、128×128×1、256×256×1的四个特征映射图。同时，在每个卷积模块之间有一个改进的注意力模块，该模块实现了当前层与下一层的特征信息结合。在解码器模块中，卷积层之后是一个最大池化层，其内核大小为3×3，步幅大小为2像素，填充大小为1像素。而在编码器模块中，卷积层之后是采样大小为2像素的上采样层。最后，利用softmax层用于生成每层解码器的输出深度特征在两个类标签上的分布。

图3 MSA-UNet网络结构

2.2 数据预处理

由于整个超声图像中包含大量复杂的背景信息，并且目标病变面积只占整张图像的1/6(图4(b))，这将会对甲状腺结节特征的提取产生较大负面影响，所以本文通过提取原始甲状腺超声图像中的ROI(感兴趣的区域)来验证本文所提出的方法的有效性，具体的流程如图4所示。

图4 数据预处理流程

首先，本文根据金标准得到病变区域的外部矩阵(图3(a)中黄色部分)，并根据矩阵得到病变区域左上角(Xmin,Ymin)和右下角(Xmax,Ymax)的坐标，根据公式(1)计算病灶中心点Lc坐标(Xc,Yc):

(1)

然后选取一个尺寸大小为256×256像素的矩形区域(图4(b)中的蓝色部分)，以Lc为中心进行剪切，得到ROI区域。本文之所以选择256像素作为剪切块的边缘长度，是因为大部分病变区域的宽度和高度都小于256像素。从图5可以看出，大多数病变区域的宽度和高度都小于256像素，其中条形图的黄色程度表示宽度和高度的分布。X轴和Y轴代表的是病变区域外部矩阵的宽和高，Z轴代表的是处于当前宽和高的结节数量。

图5 病灶面积宽度和高度的二值直方图

2.3 改进的空洞空间卷积池化金字塔

为了更好地获取输入特征图的多尺度上下文信息，可以使用不同系数的多次卷积来获取不同尺度的特征图。但这也会带来一些负面的影响，比如改变特征图的大小等问题。因此本文采用了空洞空间卷积池化金字塔来解决映射特征大小变化的问题，并且在此过程中将ASPP与深度可分离卷积相结合，形成了一种新的ASPP改进模块，以此将输入图像的通道和空间信息分离，如图6所示。

图6 改进的ASPP模块

改进的ASPP模块对上一层的特征图进行卷积运算，主要分为以下几个部分:

1) 第一层使用1×1卷积层，然后利用ReLu激活函数进行非线性激活，最后使用Batch Normalization(BN)进行归一化。

2) 第二至第四部分分别使用空洞率为6、12和18的可分离卷积进行卷积，然后同样使用ReLu激活函数和BN进行处理。

3) 第五层使用最大池化，然后采用1×1卷积层，最后使用上采样进行图像分辨率的恢复。

在完成五次卷积操作之后，将得到的特征图进行1×1卷积操作，并将其进行BN归一化，得到最终的预测特征结果图。

2.4 改进的注意力模块

图7 改进的通道注意力模块

2.5 多尺度监督策略

2.6 损失函数

本文提出的网络通过多个不同尺度的监督用于输出共同学习的语义信息，损失函数定义为所有分支输出的总和，具体计算公式如下所示：

(2)

其中Lfinal、Li分别是网络中最终输出的损失值和不同尺度的输出值，K表示分支的数量，λi是不同输出损失的权重值。为了简化问题，本文将λ1、λi分别设置为1和0.1.对于每个分支，将得到5个不同规模的输出，每个输出对应一个损失。本文直接利用二元交叉熵(binary cross-entropy，BCE)计算Li.BCE是二元分类和分割任务中广泛使用的损失函数，定义如下：

LBCE=-∑(x,y)[g(x,y)log2(p(x,y))+(1-g(x,y))log2(1-p(x,y))] .

(3)

式中：g(x,y)∈[0,1]是像素(x，y)的标签，p(x,y)∈[0,1]是不同分支的预测结果。

同时，利用Dice损失和BCE损失用于计算最终的损失值Lfinal，从整体和局部两个角度衡量两幅图像的相似性。其定义如下：

Lfinal=μ1LDice+μ2LBCE.

(4)

Dice损失可定义为：

(5)

式中，ε是一个常数，以防止被零除。在本文的实验中，μ1，μ2都设置为1.

3 实验与分析

本文的所有实验使用了山西省当地医院提供的数据集的图像来获取1 083名患者的超声检查图像和超声检查报告，并且医院机构审查委员会批准了整个收集过程，每个数据都由经验丰富的医生进行标记。本文将超声病例图像中不相关的部分去除用于保留有用的信息。此外，由于原始数据包含复杂的背景信息，为了能够更为清晰地展示实验结果，本文仅对ROI进行实验，其中第2.1节介绍了本文ROI提取的方法。同时本文的所有实验都专注于分割任务，并且采用了召回率、精确率、Dice系数和准确率的评价指标来验证所提出方法的有效性。

3.1 实验细节

本文的所有实验在深度学习框架Pytorch进行验证。本文将甲状腺输入图像的大小调整为256×256，并且将其像素值标准化为[0,1].所有实验都在Nvidia Titan XP 12GB显卡和Intel(R)Xeon(R)Bronze 3106 CPU@1.70 GHz×8计算机上进行训练，batch size大小设置为8.所有的模型参数进行随机初始化，并且最大学习率设置为0.01，分别在20和100个epoch之后衰减10倍。实验所采用的优化器为Adam算法，Beta参数设置为(0.9,0.999)，权重衰减率设置为1×10-8.为了实验的严谨性，本文实验过程中的测试图像均采用尺度大小为256×256的甲状腺结节超声图像。

3.2 实验可视化与数据

本节通过甲状腺结节的分割结果来评估本文所提出分割方法的有效性。此外，本小节还通过一些预测分割结果的可视化用于评估本文所提分割方法的性能，其中定量和可视化结果如图8所示。

图8 不同方法可视化分割结果

定量比较：表1展示了6种目前最新的甲状腺图像分割方法(第1-7行)与本文所提方法(第8行)在召回率、精密度、Dice系数和精确度方面的不同表现，这些方法包括FCN、SegNet和UNet等经典的基于编码器-解码器结构的网络，以及文献[25]中基于多任务的分割方法和文献[19]中提到的应用于TNSCUI2020挑战赛上的级联UNet.特别地，由于文献[19]中的方法应用了许多后处理的策略来保证结果的精确性，本文所使用的级联UNet剔除了文献[19]中后处理的方法，从而来保证本文中所有实验的公正性。为了得出公正的结论，本文使用相同的评估代码评估了所有方法的分割结果。为了进一步证明本文所提出方法的每个组成部分的有效性，本文进行了几次对比实验，实验结果如表2、表3和表4所示。所有的结果都在相同的测试集上进行评估，并且得到的所有评价指标的数据是在达到验证集上的最高Dice系数的实验数据。

表1 与现有算法的比较

如表1所示，本文所提出的方法与其他6种基于深度学习的方法在所有的评价指标中都有着显著的提升并且在准确率和Dice指标上达到最大值。SegNet与UNet++的分割精度优于FCNs与FCN8s，这说明了跳跃连接可以提高甲状腺结节超声图像分割的准确率。但是更为复杂的模型连接并不能保证分割精度的提升，相反会导致复杂模型很难训练。与其他模型相比，采用复杂连接的UNet++模型在性能上有细微的下降。FANG et al[25]提出的模型采用了额外的边界掩模来训练网络，这给分割结果带来了一定程度提升，说明多任务训练能够对模型带来正向的反馈。

从图8的不同方法可视化分割结果可以直观看出，FCNs和FCN8s的分割结果边缘带有针状毛刺现象，SegNet与UNet的分割结果存在着部分“孤岛”的现象，文献[19]和级联UNet的分割结果边缘相比真实的标签存在不规则的突起现象。从表1的实验结果和图8的可视化结果可以看出，本文的方法优于其他七种方法。

本文对改进的ASPP模块进行评估。通过比较表2可以看出，改进的ASPP模块极大地提高了模型分割性能。值得一提的是，每项评估指标的增量都在1%以上，这说明不同大小的感受野能够帮助模型提高编码器模块的特征表达能力。

表2 改进的ASPP模块的消融实验

进一步评估图2中的模型不同数量的掩码约束对于模型精度的影响(不同数量掩模的解码器用Mi表示，M1代表只用一张原始大小的掩模对模型推理进行约束，并且i=1,2,3,4,5).从表3可以看出，随着掩码数量的增加，Dice系数和精确度也逐渐增加。特别是当掩码数量大于3时，模型的整体分割性能增长速率开始下降。这说明合适的掩码数量对模型的分割性能有着较为显著的提升。

表3 不同数量损失函数的消融实验

在表4中，本文将不同数量的注意力模块对于模型的性能影响进行了对比(不同数量注意力模块的解码器用Di表示，Di代表只包含最上方的注意力模块的解码器，并且i=1,2,3,4,5).可以看出解码模块的数量与模型的性能是正相关的。特别是当解码模块的数量为1时，本文所提出的方法退化成

表4 不同数量解码模块的消融实验

为基础U-Net模型。

4 结论

本文提出了一个基于多尺度注意力的监督甲状腺结节分割模型MSA-UNet。首先，利用不同尺寸的掩码和改进的注意力模块用来选择甲状腺图像的多尺度特征表达，之后利用改进的ASPP模块用来获取不同感受野的特征表示。此外，本文还提出了一种新的损失函数用于模型的训练，通过考虑不同尺度分支的依赖关系使这些分支进行相互影响，最终使得预测更加准确。实验结果表明，本文所提出的方法比现有的方法具有更好的分割性能，能够实现更加准确的甲状腺结节超声图像分割。但提出的模型在使用了有效的监督策略和改进的模块来提升模型的性能的同时，也不可避免地增加了模型的复杂度和训练时间，不利于模型在可移动设备上的部署。在未来的工作中，可将本文分割方法进行进一步优化，设计更高效的网络模型降低模型复杂度，实现甲状腺结节超声图像的精细分割。