基于超声影像的甲状腺结节智能分割算法

2022-05-12曹玉珍

天津大学学报(自然科学与工程技术版) 2022年7期

曹玉珍，郑洁，余辉, 2，王飞，张杰

基于超声影像的甲状腺结节智能分割算法

曹玉珍1，郑洁1，余辉1, 2，王飞3，张杰3

(1. 天津大学精密仪器与光电子工程学院，天津 300072；2. 天津大学医学工程与转化医学研究院，天津 300000；3. 天津医科大学总医院超声影像科，天津 300052)

基于超声影像对甲状腺结节进行精准分割，可以得到病变区域的生理参数信息，从而对甲状腺结节的早期筛查和诊断定性．为实现甲状腺结节的精准分割，提出了一种基于Transformer编码的多层次特征融合网络．针对不同患者的甲状腺结节大小和其在甲状腺超声图像中所处的位置均存在较大差异的特点，该模型以Transformer结构作为特征提取器，使各层次特征的计算都在更大、更灵活的感受野上进行；以CNN作为特征解码器，对编码器所获得的特征进行重构，并降低算法复杂度．编码器与解码器之间采用长距离跳跃连接的方式相连．利用局部-全局策略学习甲状腺超声图像中浅层的全局特征和深层的局部特征．此外，通过将模型中的多头注意力机制改进为残差轴向注意力机制，学习到了甲状腺结节中更多的方向纹理特征．实验数据来源于天津医科大学总医院超声影像科，通过对3828例样本采用旋转变换、翻转变换和随机裁剪3种数据增强方法，得到15312 例甲状腺超声图像．经过多轮迭代训练，得到测试集样本上的 Dice系数为92.2%，交并比为85.5%．相同数据集上的对比实验表明：相对于全卷积神经网络，该算法在Dice系数上提升了5%～8%，在交并比上提升了7%～13%，模型参数量平均降低了 5.67×106，精准地实现了甲状腺结节的全自动分割，降低了模型复杂度，具有一定的临床价值．

甲状腺结节；超声影像；Transformer；残差轴向注意力

甲状腺结节是甲状腺细胞局部异常生长而引起的散在病变，是目前在成人群体中最常见的内分泌疾病之一[1]，其发病率呈现逐年升高的趋势[2]．超声检查技术具有实时动态多切面观察、无辐射和无创的检查优势，在甲状腺结节的日常诊断和随访中得到了广泛的应用[3]．基于超声影像对甲状腺结节进行精准分割，可以帮助医生进一步研究病变区域的病理信息，快速制定有效的治疗方案．但在甲状腺超声图像中，各组织之间灰度值分布和空间纹理均有较大差异，并且存在散斑噪声、结节边界模糊不清和钙化点阴影等特点，使得分割任务复杂化[4]．目前，甲状腺结节的分割通常由专业医生对超声图像中的结节区域手动勾画完成，这不仅对医生的专业知识和临床经验有很高要求，而且费时费力，容易耽误患者宝贵的治疗时间．

近年来，国内外学者提出了一些算法以实现甲状腺结节的自动分割，包括传统算法和深度学习算法.传统的甲状腺结节分割方法以活动轮廓模型为主，如Li等[5]提出的距离正则化水平集演化模型，无需重新初始化．邵蒙恩等[6]提出的基于改进的CV-RSF模型，结合CV模型的全局信息和RSF模型的局部信息对结节实现最终分割．尽管这些基于活动轮廓模型的方法只需要少量样本便可以实现对模型参数的快速辨识，但其每一次分割都需要从初始边缘开始演化，无法从不同样本间积累式学习临床先验知识．

随着人工智能技术的不断发展，深度学习算法在许多图像分割任务中展现出优异的性能[7-8]．Long 等[9]提出的全卷积网络(fully convolutional networks，FCN)结构实现了图像像素级的分类，具有良好的泛化能力．Ronneberger等[10]受到FCN的编码器-解码器体系结构启发，提出U-Net网络针对医学图像做语义分割．该网络共进行4次上采样和4次下采样，提取和重构图像不同尺度的特征．编码层与解码层之间通过长距离跳跃连接，有效地弥补了因下采样操作引起的细节信息缺失，帮助恢复图像的精细边缘．Yang等[11]在U-Net基础上结合残差结构，提出一种基于多尺度输入和特征融合的甲状腺结节分割网络Res-U-Net，在边缘模糊和形态各异的结节分割上取得了良好的效果．

尽管上述的经典网络推动了医学图像分割的发展，但它们多以卷积神经网络(convolutional neural networks，CNN)模型作为骨干网络．由于CNN模型的感受野不够灵活，在像素级别的分割任务中，判别能力受到限制．因此Sinha等[12]引入自注意力机制捕捉全局信息来获得更大的感受野，在腹部器官、心血管结构和脑肿瘤分割任务中都得到了较好的分割效果．随着深度学习在医学图像分割任务的快速发展，甲状腺结节的分割也向更准确、自动的趋势发展．

为了实现甲状腺结节的精准分割，本文提出一种基于Transformer结构编码的结节分割模型，通过注意力机制来实现网络结构中编码层的功能，为医学图像分割提供一个全新的视角．针对甲状腺超声图像质量差，边界梯度特征提取困难等现状，提出一种局部-全局策略，同时学习图像浅层的全局特征和深层的局部特征．通过这种策略，高效地学习甲状腺超声图像中联合跨尺度的分布特征，有效地提升模型的泛化能力．由于甲状腺超声图像局部信息具有高度的各向异性，使用残差轴向注意力机制来提取图像中的方向纹理特征．此外，Transformer编码层和CNN解码层之间采用长距离跳跃连接，更精准高效地获取多尺度信息，进而提升算法的性能．

1 甲状腺结节分割相关技术

1.1 CNN模型特点

CNN是具有卷积结构的深度神经网络，其核心操作是权值共享、池化层和局部感受野．其中，权值共享即使用相同的卷积核进行卷积操作，一方面可以极大地降低模型参数量来避免计算的冗余，从而提高计算效率；另一方面又使得卷积网络具备一定的平移不变性和平移等变性．池化层通常在卷积层之后使用，作用是对卷积层获得的特征映射进行整合与分类，从而减少特征维数，加强模型的泛化能力．

感受野是特征图上的某一个特征点在输入空间中受到影响的区域．对于医学图像分割任务来说，不同结节大小之间具有较大差异，因此，感受野的大小对分割结果至关重要．模型特征图中像素点的感受野由其所处位置、卷积核尺寸以及前一卷积层的感受野共同决定．计算公式为

CNN很擅长提取图像的局部特征信息，再通过不断地加深卷积层来实现图像局部信息到全局信息的特征提取．根据式(1)，模型的感受野应该能覆盖整幅图像，但众多研究表明模型的实际感受野远远小于其所计算出的理论感受野．因此，为了更好地提取图像的全局特征，需要使用更大、更深的卷积核来尽可能地扩大模型的感受野．但是过深的网络层数无疑会大幅增加模型的复杂度，甚至造成训练无法收敛、模型退化等问题．

1.2 Transformer模型

为解决CNN模型感受野不够灵活、无法有效提取甲状腺超声图像中不同尺度结节特征的问题，引入Transformer来实现甲状腺结节的分割．与CNN 通过不断堆积卷积层来获得全局特征不同，Transformer很容易就可以获得图像的全局信息，并且不受甲状腺结节所处位置和其形态大小的影响．

Transformer模型由Google首次提出[13]，利用自注意力机制取代了以往自然语言处理任务中的循环神经网络结构，最初应用于自然语言处理领域．它是一个完全基于注意力机制的编码-解码结构的模型，具有很强的并行计算能力，能够捕捉到长距离特征．受自然语言处理中Transformer挖掘文本中上、下文信息强大能力的启发，计算机视觉领域的任务开始提出使用自注意力机制来捕捉图像的远距离特征，从而获得图像的全局信息．这些使用自注意力机制生成的特征图能够根据其所在的层数和具体的任务目标来有效地克服卷积计算所带来的局限性．

Transformer基本模型包括编码器和解码器，编码器由6个完全相同的编码单元首端和尾端基于堆栈式结构连接而成，解码器也是由6个完全相同的解码单元通过栈式排列的方式构成．编码单元由自注意力计算模块以及前馈神经网络层堆叠而成，解码单元与编码单元不同之处在于：自注意力计算模块和前馈神经网络层之间增加了一个自注意力层．编码单元和解码单元结构具体如图1所示．

图1 编码单元和解码单元结构

1.3 多头自注意力机制

Transformer的核心算子是多头注意力(multi-head self-attention，MHSA)，MHSA中的每一个“头”都是一个独立的注意力机制，使得模型可以学习到不同子空间中的特征信息．每次计算的操作方式如下.

虽然目前很多工作都显示Transformer网络在计算机视觉任务中取得了更好的效果，但Transformer目前还存在一定的缺陷：①巨大的参数量将成倍地增加服务器成本以及运算难度；②在小数据集上模型难以训练，极易过拟合．因此本文将Transformer作为特征提取器，再结合CNN的天然优势来实现甲状腺结节分割任务．

2 基于Transformer编码的多层次甲状腺结节特征融合网络

2.1 网络整体结构

图2 网络整体结构

2.2 模型改进

甲状腺结节的形状、大小相差较大，且结节内灰度纹理特征与相邻器官(如气管、动脉)和超声图像背景较为相似．这使得甲状腺结节分割任务复杂化．但在甲状腺结节的边界处，这一灰度纹理特征会发生较大的变化．因此，可以通过提取甲状腺结节边界纹理特征的变化，来有效地将其与其他组织和图像背景区分．为了提取甲状腺结节的边界信息，将传统的自注意力机制分解为两个模块：第1模块在特征映射的高度轴上操作；第2模块在特征映射的宽度轴上操作，这两个自注意力模块被称为轴向注意力机制．通过轴向注意力机制对甲状腺超声图像中每一行、每一列的像素点做相关性建模，可以有效地提取甲状腺结节的方向纹理特征．

图3 残差轴向注意力机制

2.3 损失函数

交叉熵主要用于度量给定随机变量或事件集的两个概率分布之间的差异，它被广泛用于分类任务.文中采用的损失函数是二进制交叉熵损失(binary cross-entropy loss，BCE loss)函数，这种损失函数逐个检查每个像素，对每个像素类别的预测结果和标签向量进行比较．二进制交叉熵计算公式为

3 实验结果与分析

3.1 数据集标注与构建

实验所使用的甲状腺超声图像数据集由天津医科大学总医院超声影像科的专业医生收集与标记，这项回顾性研究经天津大学和天津医科大学总医院伦理委员会批准．使用Esaote MyLab Class C超声诊断仪采集甲状腺超声图像并存档，探头为高频线阵探头LA523，探测频率为4～13MHz．最终收集到2018年10月至2021年2月于天津医科大学总医院行甲状腺超声检查的3644例患者的资料．所有敏感信息均已匿名化处理．

3.2 数据增强

深度学习一般对样本的数量具有较高的要求，样本数量越多，模型的训练效果就会越好．为了丰富实验数据的多样性、提升模型的泛化能力，需要对样本做数据增强，来拓展数据集．实验对输入数据采用旋转变换、翻转变换和随机裁剪3种数据增强方法来扩展数据集．将3828例甲状腺超声图像扩增到15312例，数据增强示例如图4所示．

图4 数据增强示例

3.3 实验环境及设置

硬件环境为Intel Core i7-9700 CPU @ 3.60GHz处理器，DDR4 32G内存，NVIDIA GeForce RTX 2080Ti 11G显卡．深度学习框架采用基于Python的Pytorch开源框架，Python版本为3.7.3，Pytorch版本为1.4.0．系统版本为Ubuntu 18.04.4LTS．

3.4 评价指标

采用的主要模型评价指标包括Dice系数、敏感度、精确率、交并比．

交并比为结节分割结果区域与结节区域的交集和并集的比，交并比越高，即代表图像分割的效果越好．交并比的计算公式为

3.5 实验结果与分析

表1 不同算法在分割测试集中得到的各个评价指标值

Tab.1 Evaluation index values obtained by different algorithms in the segmentation test set

从分割性能的纵向对比来看，Res-A-Transformer相比FCN、U-Net和Res-U-Net等全卷积网络，Dice系数提升5%～8%，敏感度提升2%～7%，精确率提升3%～12%，交并比提升7%～13%．此结果可能是源于卷积神经网络的感受野不够灵活，限制了特征提取能力，导致分割结果不够准确，而以Transformer为特征提取单元的网络可以在更大、更灵活的感受野上有效地学习各层特征．利用残差轴向注意力机制提取甲状腺结节中的边界信息，则使得Res-A-Transformer算法在所有评估指标中均高于其他方法．其在测试集的Dice系数为92.2%，敏感度和精确率分别为91.8%和92.7%，交并比达到85.5%．相比未进行改进的Transformer网络，在Dice系数、敏感度、精确率和交并比分别提升了3.13%、1.77%、1.53%和5.81%．

实验结果表明：通过残差轴向注意力机制，可以获得图像中更多的空间纹理信息，同时恒等映射单元可以避免浅层特征信息丢失过多的问题．相比较于其他网络，Res-A-Transformer的各指标分割结果的标准偏差也有所降低，说明本实验提出的算法在甲状腺超声数据集上具有较好的鲁棒性．不同算法在测试集上的分割效果如图5所示．

图5中，第1行展现的是一个囊实混合性结节，成分以囊性为主；第2行包含一个边缘规则的囊性结节，但其内部灰度值与图像背景和周围动脉较为相似；第3行包含一个实性结节，其灰度值与甲状腺腺体组织相近，边缘较为模糊．结果显示：Res-A-Transformer甲状腺结节分割算法在处理囊实性结节、灰度值与周围组织相近结节以及边缘模糊结节的图像时，可以获得更好的分割效果．

使用迁移学习策略进行训练，将所有权重初始化．得到以上5种网络的训练时间及模型参数量如表2所示．表2显示，Res-A-Transformer的训练时间为23415.6s，参数量为1.41×106，相对于FCN、U-Net、Res-U-Net 3种全卷积网络，训练时间平均缩短了100512.5s，模型参数量平均降低了5.67×106；相比于未进行改进的Transformer模型，训练时间缩短了5428.1s，模型参数量降低了0.37×106，说明轴向注意力机制不仅可以进行有效的计算，学习到更多的位置信息，获得更好的全局视野，而且降低了计算成本．结果表明，本文算法可以很好地降低参数量，对比全卷积网络、未进行改进的Transformer模型都具有一定的优势．

图5 不同算法在测试集上的分割效果

表2 不同模型训练时间及参数量对比

Tab.2 Training time and parameters of different models

4 结语

精准的甲状腺结节分割可以得到病变区域的大小、形状等生理参数信息，对临床诊断具有重要的意义．本文提出了一种基于Transformer编码的多层次特征融合网络．全局分支与局部分支分别在整张图像和分块图像上进行特征提取，以得到图像中多个层次的特征信息；Transformer编码层中使用了残差轴向注意力机制，这一结构不仅能够获得图像中更多的位置信息，而且可以避免浅层信息的丢失；通过长距离跳跃连接的方式，把编码过程中对应尺度上的特征信息引入到CNN解码过程中，将特征聚合后得到最终的分割结果．该算法在数据集上的实验结果表明：相对于其他方法，本文提出的算法在Dice系数、敏感度、精确率和交并比等方面都达到更佳的效果，显著提高了分割的精度，且训练时间更短．由此可见，基于Transformer结构编码的智能分割算法能够帮助医生实现对甲状腺结节的全自动分割，为进一步分析结节区域的生理参数提供辅助信息．

［1］董芬，张彪，单广良. 中国甲状腺癌的流行现状和影响因素[J]. 中国癌症杂志，2016，26(1)：47-52.

Dong Fen，Zhang Biao，Shan Guangliang. The prevalence and influencing factors of thyroid cancer in china[J]. Chinese Journal of Cancer，2016，26(1)：47-52(in Chinese).

［2］ Quadir S，Uddin M M，Salam K S，et al. Ultrasonographic evaluation of solitary thyroid nodule with histopathological comparison[J]. Bangladesh Journal of Otorhinolaryngology，2020，25(2)：76-84.

［3］ Guth S，Theune U，Aberle J，et al. Very high prevalence of thyroid nodules detected by high frequency(13MHz)ultrasound examination[J]. European Journal of Clinical Investigation，2009，39(8)：699-706.

［4］徐细洁，李泉水，熊华花，等. 超声成像结合超声造影鉴别甲状腺良恶性病变[J]. 中国超声医学杂志，2015，31(10)：887-890.

Xu Xijie，Li Quanshui，Xiong Huahua，et al. Identification of benign and malignant thyroid lesions by ultrasound imaging combined with contrast-enhanced ultrasound[J]. Chinese Journal of Ultrasound in Medicine，2015，31(10)：887-890(in Chinese).

［5］ Li C，Xu C，Gui C，et al. Distance regularized level set evolution and its application to image segmentation [J]. IEEE Transactions on Image Processing，2010，19(12)：32-43.

［6］邵蒙恩，严加勇，崔崤峣，等. 基于CV-RSF模型的甲状腺结节超声图像分割算法[J]. 生物医学工程研究，2019，38(3)：336-340.

Shao Meng’en，Yan Jiayong，Cui Xiaoyao，et al. Ultrasound image segmentation algorithm of thyroid nodules based on CV-RSF model[J]. Journal of Biomedical Engineering Research，2019，38(3)：336-340(in Chinese).

［7］ Chang C Y，Lei Y F，Tseng C H，et al. Thyroid segmentation and volume estimation in ultrasound images [J]. IEEE Transactions on Biomedical Engineering，2010，57(6)：1348-1357.

［8］张晶. 基于活动轮廓模型的甲状腺结节分割方法研究[D]. 保定：河北大学，2016.

Zhang Jing. Research on Segmentation Method of Thyroid Nodules Based on Active Contour Model[D]. Baoding：Hebei University，2016(in Chinese).

［9］ Long J，Shelhamer E，Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，39(4)：640-651.

［10］ Ronneberger O，Fischer P，Brox T. U-Net：Convolu-tional networks for biomedical image segmentation [C]//18th International Conference on Medical Image Computing and Computer-Assisted Intervention(MIC-CAI). Munich，Germany，2015，9351：234-241.

［11］ Yang B L，Yan M Y，Zhu C R，et al. Segmentation and classification of thyroid follicular neoplasm using cascaded convolutional neural network[J]. Physics in Medicine and Biology，2020，65(24)：245040.

［12］ Sinha A，Dolz J. Multi-scale self-guided attention for medical image segmentation[J]. IEEE Journal of Biomedical and Health Informatics，2020，25(1)：121-130.

［13］ Vaswani A，Shazeer N，Parmar N，et al. Attention is all your need[EB/OL]. www.arXiv:1706.03762v5.org，2017-12-06.

［14］ Jie H，Li S，Gang S，et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2020，42(8)：2011-2023.

［15］ Haugen B R，Alexander E K，Bible K C，et al. American thyroid association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer：The American thyroid association guidelines task force on thyroid nodules and differentiated thyroid cancer[J]. Thyroid，2016，26(1)：1-133.

［16］ Shin J H，Baek J H，Chung J，et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules：Revised Korean society of thyroid radiology consensus statement and recommendations[J]. Korean Journal of radiology，2016，17(3)：370-395.

Intelligent Segmentation of Thyroid Nodules Based on Ultrasound Images

Cao Yuzhen1，Zheng Jie1，Yu Hui1, 2，Wang Fei3，Zhang Jie3

(1. School of Precision Instruments and Optoelectronics Engineering，Tianjin University，Tianjin 300072，China；2. Academy of Medical Engineering and Translational Medicine，Tianjin University，Tianjin 300000，China；3. Department of Ultrasound Imaging，Tianjin Medical University General Hospital，Tianjin 300052，China)

The accurate segmentation of thyroid nodules based on ultrasound images can obtain physiological parameter information of the lesion area to screen and diagnose thyroid nodules in the early stage. To achieve an accurate segmentation of thyroid nodules，a multilevel feature fusion network based on Transformer coding was proposed. Given the large differences in the sizes of the thyroid nodules and their positions in the thyroid ultrasound images of different patients，the Transformer structure was used as the feature extractor to perform the calculation of features at each level on a larger and more flexible receptive field. The convolutional neural network was used as the feature decoder to reconstruct the features obtained by the encoder and reduce the complexity of the algorithm. The encoder and the decoder were connected by a skip connection. A local-global strategy was used to learn the local and global features in the thyroid ultrasound images. Additionally，more directional texture features in thyroid nodules were learned by improving the multi-head attention mechanism in the model to the residual axial-attention mechanism. The experimental data came from the Department of Ultrasound Imaging of the General Hospital of Tianjin Medical University. Using three data augmentation methods，including the rotation transformation，flip transformation，and random cropping，on 3828 samples，15312 thyroid ultrasound images were obtained. After multiple rounds of iterative training，the Dice coefficient on the test set was 92.2%，and the intersection ratio was 85.5%. Comparative experiments on the same data set showed that compared with the full convolution neural network，the algorithm improved the Dice coefficient by 5% to 8%，increased the intersection ratio by 7% to 13%，and reduced the average algorithm complexity by 5.67×106，realizing the automatic segmentation of the thyroid nodules accurately and reducing the model complexity. Results show that it has a certain clinical value.

thyroid nodule；ultrasound images；Transformer；residual axial-attention

10.11784/tdxbz202106048

TK448.21

0493-2137(2022)07-0674-08

2021-06-30；

2021-11-24.

曹玉珍（1963— ），女，博士，教授，yzcao@tju.edu.cn.Email：m_bigm@tju.edu.cn

余辉，yuhui@tju.edu.cn.

国家重点研发计划资助项目(2019YFC0119402)；天津科技重大专项与工程资助项目(18ZXZNSY00240).

the National Key Research and Development Program(No. 2019YFC0119402)，Tianjin Science and Technology Major Special Project (No. 18ZXZNSY00240).

(责任编辑：孙立华)