融合多尺度空间特征的甲状腺结节超声图像分割

2024-04-29崔少国张宇楠

计算机与现代化 2024年3期

崔少国，张宇楠

（重庆师范大学计算机与信息科学学院，重庆 401331）

0 引言

近年来，甲状腺结节的发病率逐年升高，它严重危害人体的健康［1］。截止到目前，甲状腺结节的超声检出率可达20%～76% ，其中5%～15%最终诊断为甲状腺癌［2］。目前临床检查甲状腺结节的方法主要有：超声检测、细针穿刺细胞学检查、血清学检查、计算机断层检查（CT）与核磁共振成像（MRI）。而超声检测属于完全无损、无创、无辐射的检查技术，且因其检测实时、价格低廉和重复性好等优点已逐渐成为大多数医院诊断甲状腺疾病首选方法［3］。

甲状腺结节超声图像斑点噪声严重，且灰度不均匀，给病灶分割及疾病诊断带来了很大的挑战［4］。传统超声图像分析方法主要依赖医生的主观判断［5-6］，对临床经验要求极高，且对于一些医疗设施较差的地区，还可能存在误诊和漏诊的风险。随着计算机技术的不断发展，计算机辅助诊断（Computer Aided Diagnosis，CAD）已成为如今医学领域研究的热点［7］，医学影像分割是CAD进行诊断的基础，为医生提供了重要的临床辅助诊断信息［8-9］。因此，实现一种高效的甲状腺结节超声图像分割方法具有很高的临床意义［10］。

随着医学影像数据的快速增长及计算机性能的提升［11］，深度学习以其快速、客观等优势，在医学影像领域的应用取得了突破性的进展［12］，它能够直接处理原始数据，并能够自动提取出大量有效的高阶特征，从而实现甲状腺结节的准确分割。基于卷积神经网络的深度学习模型在医学图像分割领域取得了很好的应用效果［13］，许多模型都是基于编码器-解码器的结构，如全卷积神经网络（FCN）［14］、FusionNet［15］、U-Net［16］、U-Net++［17］、ResUNet［18］等模型。

目前，卷积神经网络已成为大多数医学图像分割任务的热点，并且做出很多有意义的改进。文献［19］以U-Net为基础网络，提出了一种标记引导的超声甲状腺结节深度网络分割算法，该算法虽然没有加重医生的操作负担，但仍需要人工标注结节边缘的标记点。文献［20］提出了条件分割对抗网络cSegAN 模型，在分割器网络S 中引入了一种多扩张率卷积块对结节区域进行定位，分割出二值掩膜，但针对小结节的分割还有待加强。文献［21］在Mask-R-CNN 网络的基础上设计了一种具有多任务处理能力的网络框架，能够同时进行甲状腺结节检测、分割和分类的任务，但该模型依然对于小尺寸的结节分割效果较差。文献［22］提出基于注意力机制的半监督神经网络对甲状腺结节超声图像进行分割，该网络通过使用弱注释的分类数据和少量完全注释的分割数据来完成甲状腺超声图像的分割，并取得了较好的分割结果，但该模型的泛化能力还有待提升。文献［23］将DCNN用于超声甲状腺结节的分割，把分割问题制定为一个patch 分类任务，忽略patch 之间的关系，训练网络生成分割概率图，且首次将CNN 用于甲状腺结节的分割，但存在分割边界不清晰的问题。

针对上述问题，本文提出一种基于多尺度特征和坐标注意力机制的甲状腺结节超声图像分割算法。首先，对下采样采用步长为2 的卷积代替池化层，以防止细节信息丢失。接着，引入坐标注意力机制，实现对甲状腺结节的准确定位。然后，构建可以获取多尺度特征的轻量空洞空间金字塔池化模块，并应用于编码的最后阶段。通过训练测试和实验对比，结果表明本文方法可以更好地优化边缘信息，并在小结节和形态不规则的结节中，也能实现更准确的分割。

1 本文方法

1.1 模型总述

本文以U-Net网络为基准模型，提出一种融合多尺度空间特征的甲状腺结节超声图像分割算法，即CMSF-UNet 模型。整个网络由编码部分（左侧）和解码部分（右侧）组成，具体结构如图1所示。

图1 CMSF-UNet网络结构图

其中，卷积层组的左上角和右上角分别为输入的通道数和输出的通道数，卷积层组的左下角和右下角分别为输入的特征图大小和输出的特征图大小，绿色箭头是卷积核为2×2、步长为2的下采样层，灰色箭头是跳跃连接，橙色箭头是卷积核为3×3、步长为2的上采样层，蓝色箭头是1×1 的常规卷积块，紫色箭头为均值池化，黄色箭头为不同空洞率的空洞卷积。

在编码阶段，每个卷积层组都由2 个3×3 的卷积层进行特征提取，卷积层后使用ReLU 激活函数，然后增加一个CA模块，通过捕获特征的空间位置关系，获得精确的位置信息和特征之间的依赖关系；接着，在编码的最后阶段，引入多尺度特征模块，分别采用空洞率为1、6、12、18 的深度可分离空洞卷积进行特征提取并将特征图进行拼接，来捕捉高级语义信息；下采样部分，本文使用卷积核为2×2、步长为2的卷积层替换U-Net 原始2×2 的最大池化层，目的是为了在特征图缩小的同时，保留更多细节信息。在解码阶段，每层包含一个步长为2 的上采样层，再紧跟2 个3×3 的卷积层组，每个卷积层后面依然接一个ReLU层。再通过跳跃连接，将编码阶段的浅层次特征与解码阶段的深层次特征相结合，最后使用1×1的卷积并采用双线性插值输出最后的预测图。

1.2 坐标注意力协同卷积

1.2.1 坐标注意力模块

由于甲状腺结节边缘信息噪声较大，随着网络层数的加深，结节边缘的特征信息，尤其是位置等信息，伴随着层数的加深而减少，而位置信息在图像分割任务中有着不可替代的作用，但直接减少主体网络层数会导致结节信息提取不足。因此，为了更好地捕获甲状腺结节的细节特征，本文引入由Hou等人［24］提出的坐标注意力（Coordinate Attention，CA）模块，通过将位置信息嵌入到通道注意力中，以实现模型对甲状腺结节区域的定位。整体的坐标注意力模块如图2所示。

图2 坐标注意力模块

整个模型对甲状腺结节区域定位的过程主要分为2步：

1）通过2 个并行的一维全局池化操作嵌入位置信息，分别沿着水平方向和垂直方向进行特征聚合，生成2个具有方向感知且独立的特征图。在位置信息嵌入过程中，将全局池化操作分解为对特征图的水平方向（H，1）和垂直方向（1，W）分别使用池化操作，对每个通道进行编码。具体的，设h、w分别为输入特征图的高度和宽度，数值会随着网络的下采样而变化，在第c个通道中高度h上输出的一维特征如式（1）所示：

在第c个通道中宽度w上输出的一维特征如式（2）所示：

2）将得到的2 个特征图按通道进行拼接，再利用1×1 卷积压缩通道数，接着依次经过批正则化和非线性激活函数来进一步编码位置信息，最后沿着通道方向分解得到2 个注意力权重，采用矩阵乘法将权重映射到特征图中，得到最终输出。

1.2.2 改进的池化层

通过坐标注意力学习到特征信息后，进入到下采样阶段，U-Net 网络在相邻的卷积层之间通常会加入一个池化层，池化是在不同通道上分开执行，且不需要参数控制。但池化操作主要是提取关键特征，并不能保证训练阶段的分类误差最小化，势必会丢失细节信息。由于甲状腺结节超声图像对比度低且灰度值不均匀，如果采用池化操作，会导致丢失结节边缘部分的细节特征，而这些细节信息，在医学图像辅助诊断中都是极其重要的。因此，本文将池化层用卷积核为2×2、步长为2的卷积替代，让网络通过训练参数来自动选择哪些是分割过程中要保留的特征，哪些是需要被抛弃的特征。

1.3 多尺度特征模块

空洞空间金字塔池化（ASPP）模块是由Chen 等人［25］提出的由不同空洞率的空洞卷积进行特征提取，且以级联拼接的方式获取多尺度特征。但级联拼接后的ASPP 模块会增加大量的通道数，导致参数量增大，因此本文将级联的空洞卷积替换为深度可分离空洞卷积，深度可分离空洞卷积是在深度可分离卷积［26］的逐通道卷积环节中引入空洞卷积，主要用来提取空间方面的特征，逐点卷积是使用1×1的卷积核在通道方向上提取特征，具体操作如图3所示。

图3 深度可分离空洞卷积

深度可分离空洞卷积的padding设置与空洞率大小相同，因此在卷积过程中，卷积前后的特征图尺寸保持不变，这也是它的关键优势。深度可分离空洞卷积取代空洞卷积，以缓解不同感受野拼接后模型参数量、计算量增加的问题。

通过与不同空洞率的深度可分离空洞卷积相融合，得到多尺度特征模块（Multiscale Spatial Features，MSF）。具体结构如图4所示。

图4 MSF模块图

MSF 模块是由1 个1×1 的卷积层、3 个空洞卷积层和1 个池化层组成。不同的空洞率能够获取不同尺度的感受野，因此本文选择使用空洞率分别为6、12、18 的深度可分离空洞卷积进行特征提取，小的空洞率可以更好地获取局部信息，例如小的甲状腺结节特征，大的空洞率可以获得更大的感受野，最后的池化层是为了获取特征图的全局特征。最后，将获取到的每个特征图进行堆叠获取多尺度的语义信息。

1.4 综合损失函数

由于甲状腺结节超声图像对比度低，分割的特征尺度所占比例差异较大，因此本文采用综合损失作为损失函数，可以在关注整体图像损失度的前提下，更注重目标损失度的变化，从而避免特征面积对分割准确度的影响。

综合损失Lall包括Dice 系数损失Ldice和二值交叉熵损失LBCE，可改善数据的不平和问题，即：

Dice系数损失的表达式为：

式中，T为甲状腺结节标签真值，C为网络最终输出的甲状腺结节标签，N为批处理大小，i为对应的索引。二值交叉熵损失的计算公式为：

式中，N为批处理大小，i为对应的索引，t是样本的真值，v为网络预测概率值。

2 实验与结果分析

2.1 实验平台及数据集

本文实验所有训练均在Windows 10系统环境的计算机上运行，计算机配置为：Intel Core i9-10920X 3.5 GHz CPU 和NVIDA GeForce RTX 3080 Ti 显卡。实验采用Python 3.8编程语言，利用深度学习计算框架PyTorch 1.7.1实现本文提出的网络，并进行实验对比。

本文采用的甲状腺超声数据集是来自专业医院的私人数据集，其为使用不同的超声设备所收集的图像，共有3200 张，其中，恶性1759 张，良性1441 张，标签图像均由经验丰富的医生标记，所有标签图像均为二值图像，每张超声图像的大小为512×512 像素，共得到6400张超声结节数据。

2.2 模型训练

在实验中，将数据集划分为训练集和测试集，训练集用以训练模型，测试集用以测试模型的性能。在6400 张图片中，随机将图片划分为训练集和测试集，划分比例为9：1，数据集的具体分布如表1 所示。网络参数的设置遵循以下规则：选择图片输入的维度为（512，512，3），输出维度为（512，512，2），其中，输出的通道数2 分别对应需要预测的2 种类别，即划分为前景的甲状腺结节区域和划分为背景的非甲状腺结节区域，优化算法采用Adam 优化器，根据显卡性能选择送入网络的图片批次量batch_size 为4，并根据训练结果保存最优模型。

表1 数据集分布情况

2.3 评价指标

为了评估本文所提模型的分割效果，从主观评价和客观评价2 个方面对实验结果进行了对比分析，用常用的混淆矩阵。主观评价主要从视觉效果上比较图像的整体分割及微弱边缘的分割情况。客观评价采用常用的F1 分数（F1-score）、交并比（IOU）、精确率（Precision，Pre）、召回率（Recall）和准确率（Accuracy，Acc）作为评价指标，其最大值为1，最小值为0。

2.4 对比实验及分析

为了观察可视化效果，本文选用5 组具有代表性的甲状腺结节超声图像，采用不同网络进行分割验证，每张图像的结节分别在形状、大小等方面具有各自的特征，用以说明在灰度不均匀、形态大小不一的区域下每种模型的优劣。不同网络的分割结果如图5所示。

图5 不同网络分割结果图

图5（a）是原始的甲状腺结节超声图像，红色圈内代表甲状腺结节的位置，图5（b）是医生手工标注的甲状腺结节区域，图5（c）是使用FusionNet 模型分割出的效果图，图5（d）是使用FCN 模型分割出的效果图，图5（e）是使用U-Net 模型分割出的效果图，图5（f）是使用U-Net++模型分割出的效果图，图5（g）是使用ResUNet 模型分割出的效果图，图5（h）是本文CMSF-UNet模型分割出的效果图。

从图5 中可以看出，使用FusionNet 模型分割时，没有完全分割出甲状腺结节边缘，且在第3 张不规则形状的小结节中，背景像素分类错误，出现过度分割的情况；从第5 张可以看出，FusionNet 模型和FCN 模型在分割时，结节与真实标签形状差异较大，出现欠分割的现象；使用U-Net 模型分割时，基本覆盖了真阳性区域，但结节分割的形状大小不够准确且边缘信息模糊；使用U-Net++模型分割时，能够更好地抑制噪声，但对小结节分割不够准确；使用ResUNet 模型分割时，相较于U-Net 模型有所提升，但从第1 张结节的分割形状来看，与真实标签还有一定差距。而使用本文CMSF-UNet 模型的分割效果无论是在小结节的分割还是边缘信息都有了一定程度的提升，使得分割结果与真实标签更加接近。

为了验证本文算法的性能，本文复现了经典的分割方法FusionNet［15］、FCN［14］、U-Net［16］、U-Net++［17］和ResUNet［18］并与其他论文中甲状腺结节超声图像分割模型的实验结果进行对比。实验结果如表2所示。

表2 不同模型的对比实验结果

从表2 可知，CMSF-UNet 网络的F1 分数达到91.6%，与U-Net相比提升了9.9个百分点，而精确率、召回率、交并比和准确率分别提升至92.8%、94.2%、85%和96.1%。其中，FusionNet 模型加入了padding和残差块，但网络层数过深，导致丢失部分细节特征。FCN模型。使用池化层降低输入数据的空间维度，但在级联特征时表达性不高，网络参数较大，对图像的细节信息不够敏感，导致整体性能较低。U-Net 模型是经典的端到端分割网络，通过跳跃连接使低维信息有效地补偿了高维特征，网络参数较小，但无法获取深层次的细节特征，导致精确率较低。文献［27］通过以不断进阶的方式进行特征融合，抑制低维特征噪声，精确率虽有所提升，但模型的参数过大导致训练速度较慢。文献［28］使用通道注意力机制和卷积操作获取不同尺度的特征，但网络无法更准确地定位甲状腺结节的位置信息。ResUNet 采用了残差结构，可以简化深层网络的训练，与前3 个网络相比效果有所提升，而本文所提模型利用MSF 模块进行不同尺度的特征提取，并结合坐标注意力模块，提高了网络对甲状腺结节模糊边缘的特征提取能力，与其他4 种模型相比表现更加优秀。

2.5 消融实验

为了验证不同模块对本文所提模型的有效性，本文在U-Net模型的基础上，通过逐个引入改进的池化层、MSF 模块和坐标注意力机制进行消融实验对比，实验结果如表3所示。

表3 CMSF-UNet模型消融实验

从表3中可以看出，U-Net+Conv表示引入卷积层作为下采样，虽然F1分数有所降低，但精确率提升了4.4 个百分点，表明改进的池化层有效地保留了一些细节特征，在此基础上加入原始的ASPP 模块，F1 分数提升至90.2%，且其他指标也有所提升。再将ASPP模块替换为MSF，F1分数达到了91%，表明该模块能够更好地获取多尺度特征。最后，添加了坐标注意力机制，F1 分数达到91.6%，且其他指标也达到了最好的效果，体现了坐标注意力能够更好地捕获甲状腺结节的细节特征。

2.5.1 多尺度特征模块

为了验证多尺度特征（MSF）模块的有效性，本文分别进行MSF 模块的消融实验和复杂度对比。表4为逐个增加空洞率为6、12、18、24 的深度可分离空洞卷积的实验对比结果。

表4 MSF模块消融实验结果

从表4 可以看出，1-MSF 表示增加了一个空洞率为6 的MSF 模块，各项指标有所提升，2-MSF 表示增加空洞率为6 和12 的MSF 模块，随着空洞率的增大，感受野也随之增加，因此可以有效提取局部特征信息。3-MSF 是加入空洞率为18 的MSF 模块，即本文所提模块，F1 分数和精确率达到了最好的效果，而在此基础上继续添加空洞率为24 的空洞卷积时，F1 分数降低至90.2%，精确率、召回率和IOU 也有所降低。因此，通过对比，MSF模块的F1分数和其他3种指标效果最好，表明MSF能够更好地捕捉不同尺度的特征。

表5 为多尺度特征模块与原始ASPP 模块的复杂度对比结果，从表中可知，与ASPP 模块相比，多尺度特征模块的参数量和计算量均有显著降低，参数量和计算量FLOPs 只有ASPP 模块的45.6%和25.7%，乘法累加运算中数量为6.69×109，表明深度可分离空洞卷积能够有效地减少参数量和计算量。因此，本文提出的多尺度特征模块具有更低的模型复杂度，可提升模型的训练速度。

表5 MSF模块与ASPP模块的复杂度对比

2.5.2 综合损失函数

为了验证综合损失函数的有效性，将U-Net模型和本文所提的CMSF-UNet模型分别使用Dice损失函数、交叉熵损失函数以及综合损失函数进行实验对比，并以F1分数为评价标准，具体实验结果如表6所示。

表6 使用不同损失函数后的分割结果

实验结果表明，综合损失函数不论是在U-Net模型还是在CMSF-UNet 模型中F1 分数都有所提高，表明在甲状腺结节数据不平衡的问题上能够更好地优化，并提高模型的鲁棒性。

3 结束语

为了减少图像局部信息丢失并提高对甲状腺结节的超声图像的分割精度，本文提出了一种将空洞空间金字塔池化和坐标注意力模块相结合的U-Net 分割算法，采用不同大小的空洞卷积捕获局部特征和全局特征，并引入坐标注意力模块提高图像分割的准确性。通过实验验证，本文的分割方法与以往算法相比有很大的提升，在小结节上分割效果更好，对边缘的分割也更加清晰。在后续的工作中，会考虑使用更轻量的网络，以此降低整体模型的复杂度、减少训练时的参数量，从而提高网络收敛速度。