基于Dilated U-Net的甲状腺结节超声图像分割

2023-09-25胡珂代玉玲宋若晨戈华锐何梦奇王家琦

电脑知识与技术 2023年22期

胡珂，代玉玲，宋若晨，戈华锐，何梦奇，王家琦

（皖南医学院医学信息学院，安徽芜湖 241012)

0 引言

甲状腺结节是生长在甲状腺内的肿块，甲状腺炎症、甲状腺推行病变、自身免疫性疾病等均可导致甲状腺结节的发生，是当前最普遍的一种内分泌失调[1]，其发病率逐年升高。依据甲状腺结节的性质可划分为良性甲状腺结节和恶性甲状腺结节[2]。大多数良性结节的功能较弱，而恶性结节则会导致甲状腺功能受损，其临床表现通常不明显，但也有一些患者会出现明显的症状，如吞咽困难、呼吸困难等。对恶性甲状腺结节而言，若能及时地确诊，采取适当的治疗措施就能有效地避免恶性甲状腺结节疾病的进一步加重或者转移，减少给患者的身体带来更严重的伤害，增强了治疗效果、改善了身体状况、促进了身体恢复、提高了生活质量，大大提高了甲状腺结节患者的生存率。在临床上对甲状腺结节进行诊断时，如何通过便捷、快速、高效的方法来对甲状腺结节进行及时高效的确诊，对患者有重要意义[3]。甲状腺结节在发病初期，一般都是在颈部有硬质的肿块，这种肿块一般不会引起疼痛，也不会有任何的不适，也有可能是因为颈部的肿瘤生长后，对气管和食管产生了轻微的压迫，从而会有呼吸短促的情况，所以，对于甲状腺结节，一般都是通过定期的体检来进行诊断。而在日常体检中，最常用的方法就是超声检查[4]。

医学超声检查，是一种基于超声的医学成像诊断技术，使肌肉和内脏器官可视化，包括其大小、结构和病理学病灶。它具备无创伤、实时检测、成本低、可重复检测特点，因此临床医生实时超声观察，根据超声声像学、图像和临床特征，对病人病情作出准确判断。然而限于数据的庞大杂乱、病灶的特殊性、技术水平等，影响了医生正确的判断。随着近年计算机飞速发展，计算机结合各行业各技术取得了不错的结果。医学与神经网络结合，能准确提取相关特征以开发计算机辅助诊断系统(CAD)[5]的基本步骤，它可以通过辅助专业临床医生诊断，从而减少临床情况下手工处理的时间、成本和误差。

本文提出一种基于Dilated U-Net 超声甲状腺结节分割的方法，实现对甲状腺结节的自动诊断。该技术让医护人员更加高效、便利地开展甲状腺结节临床诊断和治疗工作，提高甲状腺癌诊断的准确率和效率。让患者通过甲状腺结节超声影响的筛查及治疗，缩短治疗周期，减少疾病对生活的影响。

1 相关工作

医学图像分割是医学图像分析领域的一个重要课题。医学影像分割是指将一幅医疗影像的颜色、亮度、形状、面积、纹理等相似特性分成许多“连通”的不同区域。计算机辅助系统的优势在于它可以高效地进行一些重复性的工作，比如特征提取、诊断存储、统计计算、病理读取等。

1.1 传统分割方法

设计各种算法和分类器对甲状腺结节进行良恶性分类是现在国内外科研人员的研究热点。传统的医学图像分割方法引入了各种模型[6]，包括基于灰度级别、基于纹理和基于地图集的模型。早期基于灰度特征的方法主要包括直方图统计数据、边缘检测和区域生长策略。Carballido-Gamio 等人[7]应用具有局部亮度直方图的标准化切割方法，从脊柱矢状体核磁共振图像中分割椎体。Chung 等人[8]提出了一个基于偏微分方程的框架来检测皮肤镜图像中皮肤损伤的边界，其目标区域通过测地线活动轮廓或测地线边缘跟踪模型分割对象区域。Nguyen 等人[9]提出了水蛇模型，通过将轮廓长度添加到能量函数中用于医学图像分割，该模型结合了分水岭分割和基于能量的分割两者的优势。Xie 等人[10]提出了一种新颖的基于纹理和形状先验的超声(US) 图像中的肾脏分割方法。

1.2 深度学习分割方法

近几年，随着深度学习技术的快速发展，该技术在图像分割方面的应用也有了明显的进步。利用Transformer[11]结构编码的节点划分模型，利用注意力机制实现了网络中编码层功能，为医学影像的分割提供了一种新的思路。针对目前甲状腺超声影像质量较低、边缘梯度特征难以提取的问题，本文采用了一种基于局部-整体的方法来实现对图像的整体和深层局部特征的学习。该方法可以有效地提高甲状腺超声图像中的联合跨尺度分布特性，提高了模型的泛化能力。

1.2.1 全卷积网络(FCN)

全卷积网络(FCN) 是一种基于图像语义分割的结构，它是在对传统的卷积神经网络(CNN) 的基础上，将原来的网络的全连接层转化为多个卷积层[12]。FCN将传统的 CNN 后的全连接层替换成卷积，使得该网络的输出结果从一个类分变成一个热力图；为了解决卷积和池化等问题，本文提出了一种基于上采样的图像复原方法。卷积网络中，每一层的数据维度均为三维阵列，其中h、w表示空间维度，d表示特征维度。第一个层次是一个图片，它的像素尺寸是h×w，它有d个颜色信道。更上层的位置与他们的通路连接的图像的位置相对应，即所谓的接收区域。FCN的结构可划分为两类，一类是全卷积，另一类是反卷积。其中，全卷积部分是一种典型的 CNN (VGG, ResNet)，用来抽取特征量；反卷积是对原图像进行上采样，对其进行语义分割。FCN能输入任何尺寸的颜色图像，且输出的图像与输入的图像尺寸相同。信道数目n+ 1(n是目标分类数，1 是背景）。但 FNN 仍有一些缺陷，例如，其结果不够精确，对细节的敏感性也不够准确；没有考虑到像素和像素之间的联系，以及缺少空间一致性等问题。

1.2.2 U-Net

U-Net[13]的主要思想就是在常规的卷积网络后面添加连续的层，这些图层用于上采样。上采样可以增加output 的输出精度，在更精确的位置加入feature。U-Net在上采样的同时，还保留了一些下特征通道，将背景数据传递到最底层次。与FCN相比，该网络并没有采用全连接层，而是全部使用了卷积层，不过和FCN比较，还是有一些可以改进的优点，U-Net是完全对称的，并且通过加卷积的方式加深处理，而FCN 则只能实现了上采样层。U-Net由收缩路径和膨胀路径组成。收缩路径是典型的卷积网络结构。该算法包含两个3 × 3 卷积的重复应用，每个卷积跟着一个经过校正的线性单元(ReLU)以及一次2 × 2 max pooling的下采样操作。每一次下采样操作之后，特征通道的数量将增加一倍。在扩展路径中，每一步骤都要先对特征图进行一个向上采样的feature map，接着再对特征通道(feature channel) 进行反卷积(up-convolution) ，使特征通道的数量减半，数目减少一半的卷积。该卷积将feature channel 的数量减半，与收缩路径中相应裁剪的feature map 进行连接，以及两个3 × 3卷积，每个卷积之后是一个ReLU。由于每一次卷积都会损失一个边缘像素，所以需要这样的剪裁。在最后一级，利用卷积方法把64个成分的特征矢量映射成所需要的类型。

1.2.3 U-Net++

U-Net++是2018年由Zhou Z 等人[14]提出的网络模型，为了满足医学图像中更准确分割的需求，它是U-Net 的一个加强版本。U-Net 其核心思想是：先从编码网络中提取高精度的特征，然后再从译码网络中提取具有较强语义的特征，最后再由译码网络提取出具有较强语义的特征，从而更好地捕捉背景物体的精细信息。假设，在编码和解码者之间，如果有相似的特征映射，则会使训练过程变得更简单。该方法区别于传统的跳过连接方法，即在传统的跳过连接方法下，将高精度的特征图从编码器快速传输到译码器，从而实现融合具有不同语义的多个特征图。这种架构相比U-Net 和wide U-Net 有了显著的性能提升, 事实证明，跳过连接可以很好地还原出目标物的详细信息：该算法可以对复杂背景下的图像进行有效地分割，并可以对图像进行精细分割，跳过连接对Mask-RCNN实例级分割模型也有重要的影响。

2 本文方法

针对甲状腺结节的超声影像精确分割，本文使用一种新的深度学习网络模型(Dilated UNet) 。该方法以传统U-Net 为架构，U-Net 是一种编码与译码的结构，U-Net 是一种 U 型的语义分割模型。它主要包括下取样通道和对称上取样通道，下取样通道主要用于获得语义信息，而对称上取样通道则是用于准确定位想要的位置。由于U-Net采用了图像分割技术训练，训练数据量要比训练图像网络多得多，即使只有少量的样本，也能保证网络的稳定性和鲁棒性。

2.1 预处理

预处理主要分为尺度配准、人工标记去除和脱敏去噪，这一步是为了提高甲状腺结节的超声成像质量，为下一步的工作打下基础。

因其超声源的不同，纹理特征的规模尺度也不一样，必须对其成像进行比例配准，以保证训练集内的各图像都保持一致。针对包含在训练集内的超声图像，采用统一标度进行配准。在无标度的情况下，利用自相关系数和标准图进行标配。人工标记是指在超声图像中，由影像师在病变部位上进行的标记。人为的标记会使图像中的纹理部分受到干扰，从而影响被检测图像的完整性，所以要消除人为的痕迹，恢复被遮挡的部分。首先对图像进行二值化，其次在图中寻找最大的连通域，最后利用K均值聚类方法得到符合条件的区域，并对其进行去标。

2.2 Dialated-U-Net

Dialated-U-Net[15]提出在编码路径每个阶段汇中，使用除了一般卷积两个卷积之外，还有一个空洞卷积路径的双通路结构。与一般的卷积比较，空洞卷积的膨胀大小主要由卷积核的大小和扩张率参数（也称膨胀率）来表示。在普通的卷积中，它的dilated rate可以被定义为1。在不改变参数数目的前提下，增加了卷积核的感知域，使得每一卷积输出都含有大量的信息。同时，也保证了属性特征映射的尺寸没有变化。与传统 conv 操作运算比较，3 层3×3 的卷积相重叠， stride为1时，最多也就是(kernel- 1) ×layer+ 1 = 7的感知范围，它与层数呈线性关系。而膨胀卷积感知域则呈指数上升趋势（见图1) 。由于CNN出现的问题，上采样与池化层是不可学习的，其内部数据结构资料不完整，缺少空间层次的资料，小样本数据不能复原，故联想到空洞卷积，空洞卷积的优势是能够保持内部的数据结构，并且能够避免利用下采样。

图1 Dilated U-net网络模型

3 实验与分析

3.1 数据集

实验数据集采用Open-CAS 超声数据集[16]，是超声图像的甲状腺分割，数据包括从跟踪中创建的16条3D超声波记录，以DICOM 格式存储，都是直接从超声成像设备中获取。数据集中所有记录都取自完整的甲状腺，在数据集获取时，比较了甲状腺分割的四种基于深度学习网络的甲状腺分割方法，这些方法基于深度网络切割和特征分类，旨在计算确切的甲状腺结节边界。将图片存储在以.dcm命名的扩展名称中，将数据集分成了训练集合和测试集合。试验数据集中包括16个文件夹，14个为训练集、2个为测试集，并获得了测试集的准确率、召回率、特异性、精确度和Dice系数。

3.2 实验环境

硬件配置：2×Intel(R) Xeon(R) Silver 4116 GPU @2.10GHz, 128G RAM, 6×NVIDIA Ge-Force RTX 2080 Ti；

系统：Centos 64 Python；

软件及主要库的版本：Python 3.6, CUDA 10.0,CuDNN v7.4.1, Tensorflow 1.15.0,Keras 2.3.1。

3.3 评价指标

1) 准确率(Accuracy，AC)、召回率(Recall，RE)、特异性(Specificity，SP)、精确度(Precision，PR)为评价网络结构的 4个重要指标，其定义分别为：

其中，TP为真正类(True Positive) ，预测正确，预测结果是正类，真实是正类；TN为真负类 (True Negative) ，预测正确，预测结果是负类，真实是负类；FP为假正类(False Positive) ，预测错误，预测结果是正类,真实是负类；FN为假负类(False Negative) ，预测错误，预测结果是负类，真实是正类。从公式(1) 、(2) 、(3) 和(4) 中可得，准确率是正确预测与所有预测的比例，召回率是正确预测与所有实际正确样本的比例，精准率是正确预测与所有预测为正的比例。

2) Dice系数是一种集合相似度度量函数，通常用于计算两个样本的相似度。真实的目标(ground truth)出现在某片区域A，模型预测结果的目标区域为B，Dice系数公式为：

其中，分子为A与B的交集数量的两倍，分母为A与B 的长度之和，所以其范围为0～1，越接近1，说明构建的模型越好。

3.4 实验结果

本节通过甲状腺结节的分割结果来评估本文所提出分割方法的有效性。表1展示了4种目前最新的甲状腺图像分割方法（第1～3行）与本文所采用方法（第4行）在准确率、召回率、特异性、精确度和Dice系数方面的不同表现，这些方法包括FCN 和U-Net等[12-13]经典的基于编码器-解码器结构的网络，以及文献中改进的U-Net++[17]方法。所有的结果都在相同的测试集上进行评估，并且得到的所有评价指标数据是在达到验证集上的最高 Dice 系数的实验数据。

表1 4种方法的分割结果对比

如表1 所示，本文所使用的方法与其他3 种基于深度学习的方法相比，在各项评估指标中均有较大的提高，其中精确度和Dice 指数均达最高。U-Net 的分割精度优于FCN，跳跃连接可以有效地改善甲状腺结节的超声图像分割效果。然而，复杂的模型联接不仅不能提高分割的准确性，反而会使复杂的模型难以训练。与其他模型比较，UNet++的复杂联接模式在性能上有所降低。Piao 等人[15]提出的Dilated-U-Net 模型采用了空洞卷积方法改进原始U-Net模型，这给分割结果带来了一定程度上提升，说明多通道空洞卷积训练能够给模型带来正向的反馈。

从图2的不同方法可视化分割结果可以直观地看出，FCN 的分割结果边缘带有针状毛刺现象，U-Net的分割结果存在着部分“孤岛”的现象，U-Net++的分割结果边缘相比于真实的标签，结果显示出不规则的凸起现象。将表1的实验结果和图2的可视化分析结果组合分析，可以证明本文提出的方法在超声甲状腺结节分割上的效果比其他3种方法都要优秀。

图2 4种方法的分割结果对比

4 结论

近年来，超声甲状腺结节分割技术取得了长足发展，但是在诊断方面仍存在着许多挑战。目前，尚无可靠的医学影像处理技术能精确地分割出超声甲状腺结节，从而能为医生提供准确的诊断信息。在现有方法中，深度学习是最具潜力的解决方案之一，但是其复杂度和训练困难使其在临床诊断应用中受到限制。另外，由于甲状腺结节位置具有很大的差异性，这意味着医生需要依靠个人经验对图像进行分割。因此，人工智能辅助的医疗诊断将是未来发展方向之一[18]。本文采用一种新的深度学习网络模型(Dilated U-Net) 对甲状腺结节超声图像进行分割。采用四层结构的编码器-解码器网络(U-Net) 为主体，对基础网络进行改进，通过对甲状腺结节进行双通道融合，结合空洞卷积技术，可以有效地改善甲状腺结节超声图像的分割效果，提升准确性、降低误诊率。

注释：

① 论文涉及实验数据集(Open-CAS 超声数据集）是公开数据集，具体网址为：Thyroid Segmentation in Ultrasonography Dataset | OpenCAS (kit.edu)