基于不同超声成像的甲状腺结节良恶性判别
2020-03-06秦品乐曾建朝
武 宽,秦品乐,柴 锐,曾建朝
(1.山西省医学影像与数据分析工程研究中心(中北大学),太原 030051; 2.中北大学 大数据学院,太原 030051)
0 引言
甲状腺结节是最常见的内分泌癌之一,根据全球的流行病学资料显示,甲状腺恶性肿瘤的发病率呈现逐年递增的趋势。超声检查已经成为检测和诊断甲状腺癌最广泛的使用方式,超声是一种安全、方便、无创伤、可重复的检查技术,它能够准确定位甲状腺肿块,辨别甲状腺结节内回声特征,发现肿块内部环状、点状的血流信号,检测出微小病灶并评价病灶血流情况。与计算机断层成像(Computed Tomography, CT)和磁共振成像(Magnetic Resonance Imaging, MRI)相比,超声检测在病理特征上区分良性和恶性结节有着更显著的能力,为临床的早期诊断和治疗方式的选择提供了极大的帮助[1]。随着医疗成像技术的快速发展,计算机辅助诊断(Computer Aided Diagnosis, CAD)有助于解决当前方法中很大程度依赖于临床医生个人经验的主观诊断问题。全自动化的计算机辅助诊断(CAD)过程包括:图像预处理,感兴趣区域(Region Of Interest, ROI)提取,分类。目前,前两个阶段的工作受到了很多的关注,而使用超声图像进行分类的工作仍然很少,特别是甲状腺结节分类。在分类问题中面临的主要挑战是如何有效地选择具有较强区分性的特征,因此大多数的研究都集中在各种类型的特征设计上,如形态特征与纹理特征。彭文献等[2]使用灰度共生矩阵和灰度梯度矩阵的统计学纹理特征在CT图像上对甲状腺结节良恶性进行了鉴别,实现了0.76的准确率。Owjimehr等[3]使用局部二值(Local Binary Patterns, LBP)纹理特征实现了对肝脏超声图像进行分割和分类;Zakeri等[4]提出了一种有效的纹理特征来区分乳腺结节;Ding等[5]结合了B-mode图像与弹性图像下的局部特征以及弹性图像的全局特征去完成甲状腺结节的分类;Raghavendra等[6]融合了空间灰度依赖与分形纹理特征来对常规超声下的甲状腺结节进行判别,实现了0.944 5的接收者操作特征曲线下面积值(Area Under the Curve of receiver operating characteristic, AUC),但是这些特征方法并不适用于实际的临床应用,主要是因为这些方法需要介入精细的手工标注信息去标注结节的轮廓,精度有限。
深度学习尤其是卷积神经网络正广泛地应用于图像分类、目标检测等[7-8]各种视觉任务中,并取得了非常好的效果。卷积神经网络可以看作一个复杂的特征提取器,它所提取到的特征可以看作图像的复杂分层表示,其局部连接与权值共享的性质也决定了它可以有效地提取到图像内部的深层隐性信息。Wu 等[9]对比了放射科医生人工判断与贝叶斯、支持向量机、神经网络等方法在甲状腺结节分类上的结果,神经网络方法可以达到0.8474的准确率和0.9103的AUC,接近于人工判断的效果。Wang等[10]提出了一种使用半监督学习的方法,设计了一种有效的期望最大化(Expectation Maximization, EM)算法来训练卷积神经网络,对弱标注的超声数据进行结节分类,准确率达到了0.882 5以及0.928 6的AUC;然而由于卷积神经网络上百万的参数需要学习,意味着只有大规模的数据集才能满足卷积神经网络的训练要求。医学领域中一直存在数据获取困难与数据标注不精确的问题,这样大规模的数据集是很难获得的。缺乏足够的图像数据将导致过拟合问题的出现,两种可能的解决方法是迁移学习[11]与数据增广。如图1所示,迁移学习采用预训练的深度学习模型,然后使用现有的特定任务的图像进行微调,调整预训练模型的参数使其适应于当前的分类任务[12]。叶晨等[13]基于卷积神经网络,利用迁移学习改善网络性能的策略,在甲状腺CT影像上进行了结节良恶性的分类,实现了0.916 0的准确率。迟剑宁等[14]融合了深度网络和浅层纹理特征对甲状腺结节癌变进行诊断。Liu等[15]提出了将方向梯度直方图(Histogram of Oriented Gradient, HOG)、LBP等低维纹理特征和迁移后的卷积神经网络高维语义特征进行混合。上述结合浅层纹理特征是一种很好的弥补数据不足带来的特征不足的方式,但低维纹理特征的提取需要数据进行精细的轮廓标注,本文的数据集并不适用。至于数据增广,通常会采用一些经典图像增强的方法,比如裁剪、旋转、翻转和缩放。同样,生成对抗网络也是一种数据增广的方法。Zhu等[16]就提出了一种基于卷积网络的图像增广的方法,来提高超声影像中甲状腺结节的分类性能,但是常规图像的数据增广方法并不适用于医学领域,因为医学图像的标注需要有经验的临床医生来完成,这一点相比常规图像的难度要大很多。上述方法都是针对常规超声影像进行特征提取或者是数据增广,并没有使用到弹性超声数据。
图1 迁移学习Fig. 1 Transfer learning
随着工艺和计算机技术的发展,弹性影像也更多地应用在临床上来辅助医生进行甲状腺结节的诊断[17]。弹性超声与常规超声有着不同的成像原理,其成像效果如图2所示,有着很大的不同。弹性影像反映的是生物力学特征,其成像原理是借助探头向病灶施加外力,通过检测外力作用下病灶的形变程度来间接反映组织硬度[18]:弹性系数较大的组织硬度较大,变形较小;而弹性系数较小的组织硬度较小,变形较大。另一方面,超声弹性成像通过计算机技术对甲状腺结节的病灶硬度进行客观量化,也大幅度降低了操作医生的主观误差,从而提高了诊断的特异度、灵敏度和可靠性,因此,弹性超声影像在临床诊断上对甲状腺结节性疾病具有重要价值,值得在临床推广应用。美国临床内分泌医师学会(American Association of Clinical Endocrinologists, AACE)、美国内分泌学院(American College of Endocrinology, ACE)以及意大利临床内分泌协会(Associazione Medici Endocrinologi, AME)共同发布的甲状腺结节的诊断和管理指南中,把弹性影像列为甲状腺超声影像学检查的一种,当常规超声和细胞学检查不能明确诊断时,可作为补充检查手段,但不能完全取代常规超声[19]。
图2 常规超声影像与弹性超声影像对比Fig. 2 Comparison of conventional ultrasound image and elastic ultrasound image
因此,弹性影像对甲状腺癌具有一定的指导意义。依据甲状腺癌的病理特点与组织特征结合常规超声影像能更有效地鉴别甲状腺病灶的良恶性。本文将在ImageNet[20]上预训练好的VGG16模型的参数迁移到超声影像数据集,并验证了选择前6层卷积作为固定的特征提取器在超声数据上进行迁移学习的效果最好。在此基础上,同时提取出常规超声和超声弹性影像两种不同图像的特征组成混合特征空间,实现了一个端到端的分类任务模型。根据现有研究分析,这也是第一次在卷积神经网络上同时使用常规超声与弹性超声进行甲状腺结节良恶性判别的工作,实验结果表明,本文提出方法的分类准确性在同等条件下较单一数据源方法有明显的提高。
1 基本理论
1.1 基于预训练的迁移学习
卷积神经网络是一类深度学习模型,它可以提取出图像数据的高层特征。卷积神经网络采用前向传递的工作模式,前一层网络生成的特征作为后一层网络的输入传递到下一层网络中[21]。在分类任务中,卷积神经网络通常作为特征提取器来使用,可以通过迁移学习的方式迁移到相关的分类任务中。虽然超声图像与自然图像有着很大的不同,但是二者对特征的认知是相同的。训练的样本越多,特征就会越普遍。正是因为ImageNet为深度学习提供了一个大规模的图像数据集,所以作为特征提取器部分的VGG16网络[22]首先在ImageNet上进行了预训练。VGG16是由牛津大学Visual Geometry Group提出来的一种卷积神经网络结构,它由13层卷积、池化层和3层全连接层组成。卷积部分进行特征提取,全连接层部分完成分类器的工作。在这个过程中,卷积网络每一层的输出在某种程度上都可以被视为某种特征,不同层的特征有着不同的含义,其可视化结果如图3所示。浅层卷积提取的是图像的局部特征,在后续层通过下采样扩大感受野,得到更为抽象的语义特征。从第3层卷积的可视化结果可以看出,浅层卷积共享类似的低级特征,例如图像的边缘、方向和亮度特征等信息,作用类似于Gabor滤波,这些特征也都是通用的。高层特征更多地表示图像的抽象语义,从第7层卷积输出的图像可以发现,各种特征复合开始出现,可视化图像变得较为抽象,这些特征才和具体的分类任务相关,因此在卷积神经网络中,前几层的特征通常可以在一个数据集上训练得到并应用到另外一个相关的数据集上。本文针对预训练的VGG16模型该选择前多少层卷积作为通用特征的特征提取器进行了对比实验。
图3 某个卷积层的特征图输出Fig. 3 Feature map output of one convolutional layer
如表1所示,从前往后依次冻结前n层卷积的权重、偏置参数,使得预训练网络在甲状腺超声数据集上进行微调时反向传播的梯度不会对其进行更新。这样前n层卷积仅相当于一个固定参数的特征提取器,反向传播的梯度只会对后续卷积、全连接层的参数进行更新,使其适应到新的分类任务中。在本文的数据集上,分别对常规超声和弹性超声两组不同的数据进行实验对比。每组实验均分为14个批次,对于每个批次,进行了5次交叉验证,每次均使用十折交叉验证作为训练集验证集的采样划分,并取准确率的最大值作为该次的结果,每批次中的5次结果取平均作为该组该批次下的最终结果。实验结果表明,在常规超声与弹性超声数据下,均是取前6层的卷积部分作为迁移学习中的通用特征提取器,并对后续的卷积层和全连接层在超声影像上进行微调的效果最好。随着冻结的前缀卷积层数越多,数据迁移的效果也会越好,直到达到某个临界点,开始逐步变差,呈现出类似二次曲线的轨迹。
表1 迁移学习微调结果Tab. 1 Transfer learning fine-tuning results
1.2 特征融合和分类方法
本文的数据集包含了常规超声图像与弹性超声图像两部分,因此需要对这两个模态的数据进行结合来获得更好的分类效果。基于不同成像原理的超声数据有着不同的特征分布,并对甲状腺结节分类的效果有不同的影响,这些特征组合会产生更全面的特征空间来表示结节的病理特征。针对这两种不同的数据,本文只使用了它们在卷积网络中提取到的高层特征,并没有使用任何低维特征。
本文使用了下面三种不同的方法。
1) 混合训练。
既然不同成像原理的图像一定有着不同的特征分布,那么网络是否可以学习到两种不同特征分布的共有特征?基于此想法,直接将常规超声图像和弹性超声图像混合成一个数据集进行训练。如图4所示,首先要对原始超声数据进行预处理,提取出常规超声图像和弹性超声图像并完成相应的数据增广以保证更好的泛化能力。数据加载中,采用高斯随机采样的方式读入每一个批次的数据作为预训练好的VGG16模型的输入,模型输出的特征为4 096维度,在输出的特征上对其进行分类。
2) 数据融合。
对于混合训练的方式,会使得网络学习到的特征表示在两种不同的分布下摇摆不定。从临床的角度来分析,对于同一幅原始超声影像,其常规图像与弹性成像必须被当作一个样本来看待,二者的特征信息是互补的关系,因此,需要对两种不同的数据进行融合使其作为一个整体输入到网络中。如图4所示,在完成数据预处理后,将三通道的常规超声图像和三通道的弹性超声图像组合成一个六通道的张量。张量的前三个通道为常规超声的数据信息,后三个通道为弹性超声图像的数据信息,这样组成一个224×224×6的张量。然后使用1×1的卷积进行通道降维,将张量转为224×224×3作为预训练好的VGG16模型的输入,输出的特征为4 096维度,最后对其进行分类。
3) 特征融合。
考虑到不同的超声图像数据有着不同的特征分布,二者信息互补的前提是彼此相互独立,因此直接将两个不同的数据混合可能会造成特征表示不明显的效果,所以如图4所示,独立地对常规超声图像和弹性超声图像进行采样,将两个不同的数据输入到两个独立的预训练好的VGG16模型中进行特征提取,在第5层池化层后将两个独立的特征提取器所提取出来的特征进行级联操作,这样卷积神经网络输出的特征维度是普通VGG16模型的两倍,同样地使用全连接层将特征降维到4 096维度,最后进行分类。这样可以保证不同的数据源中不同特征提取过程中的独立性,根据链式法则,最后特征混合的级联操作,也使得反向传播梯度传递时不同的卷积神经网络参数更新对不同的数据互相独立。
图4 本文方法主要流程Fig. 4 Main flowchart of proposed method
设Y表示二分类的结果:
(1)
其中:X1、X2分别表示两个卷积神经网络提取出来的特征向量;Ω1、Ω2分别表示两个特征向量对应的分类贡献权值。
(2)
(3)
(4)
因此:
(5)
(6)
(7)
可以看到,最后的分类结果Y对两个相互独立的特征、权值求偏导的结果也是相互独立的,证明了在反向传播中使用梯度更新卷积神经网络参数进行微调的过程也是相互独立的。
2 实验与结果分析
2.1 实验数据和评估指标
本文实验中使用的数据由慧影医疗科技(北京)有限公司提供,经过临床病理结果验证。本文实验数据来源于Aixplorer 的超声设备,探测器的频率是 10 MHz~14 MHz。在本文的实验中使用1 156 张甲状腺结节超声图像,包括578 个横切面图像和578 纵切面图像,总计含有520个良性图像和636个恶性图像,每幅超声图像包含常规超声与弹性超声两部分,并且所有结节的类型由医生标注,没有轮廓信息的标注。
在数据预处理中,先通过颜色通道转化的方式预先提取出了每幅结节影像的感兴趣区域,并根据医生的标注信息在预处理中分别提取出每幅图像中的常规超声数据部分和弹性超声数据部分,二者是同一个位置且标注相同,分别组成常规超声数据集与弹性超声数据集。
分类性能评估的定量指标如下:
1)Accuracy=(TP+TN) / (TP+TN+FP+FN);
2)Sensitivity=TP/ (TP+FN);
3)Specificity=TN/ (TN+FP);
4)接收者操作特征曲线下面积(Area Under the Curve of receiver operating characteristic, AUC)。
其中:TP(真阳性)和TN(真阴性)分别代表正确分类的正负样本数;FP(假阳性)和FN(假阴性)是假分类的阴性和阳性样本数。在甲状腺结节中,阳性表示的是恶性结节,阴性表示的是良性结节。敏感度(Sensitivity)和特异性(Specificity)分别定义了判定恶性和良性结节的可能性。
本实验训练模型的服务器运行64位的Ubuntu 系统,版本为16.04, 配置了Intel Xeon E5 2620 v4 处理器,128 GB内存,4个Tesla V100显卡,每个显卡显存32 GB。本实验的开发环境基于Python 3.6,深度学习框架为 PyTorch 1.0。
2.2 对比讨论
首先分别在常规超声、弹性超声数据下完成了对预训练模型微调的测试。对于常规超声和弹性超声数据集,均是冻结前6层卷积参数作为后续层的特征提取器效果最好。
在此基础上,完成了五组方法的对比,分别是:常规超声数据迁移(Conventional ultrasound transfer)、弹性超声数据迁移(Ultrasonic elastography transfer)、混合训练(Mixed training)、数据融合(Fusion re-extraction feature)、特征融合(Extraction feature re-fusion)。对于每组方法,均使用了十折交叉验证作为训练集验证集的划分,所有评价指标的细节对比如表2所示。
表2 不同方法详细评价指标对比Tab. 2 Comparison of detailed evaluation indicators of different methods
在单一数据源的对比上,可以发现在弹性超声数据上的准确率要优于常规超声。常规超声的敏感性指标较好,对恶性结节的判断效果更好;弹性超声的特异性指标更好,对良性结节的判别效果优于常规超声。再对比三种不同的数据融合方式,混合训练迁移和数据融合方法在准确率、AUC上均有略微的提升,但是提升效果并不显著。本质上还是不同的数据混合、融合后,对于不同的特征分布,关键特征的提取效果不好。数据混合方法中,不同成像原理的数据混合训练会影响到特征提取器对目标数据的特征分布的判断;数据融合的方法中,由于基础网络输入参数的限制,需要对数据进行通道降维,而1×1卷积进行通道的降维本质上相当于将两个不同数据源的数据进行不同权重的像素级叠加,同样对不同数据特征分布的独立性产生了影响,无法从本质上改善特征表示空间的准确性以提升模型的性能。在特征融合方法中,该方法的各项性能指标相比前面四种方法均有较大程度的提升,表明了在不影响各数据源数据分布的前提下,分别提取出其特征并进行特征级联的方法在该问题上有很好的表现。
更为直观的结果对比如图5~6所示。
图5 三种融合方法的AUC对比Fig. 5 AUC comparison of three fusion methods
由图5~6可以看出,特征融合方法的AUC指标相比其他方法有着较大的优势。在数据集不平衡的情况下,AUC可以较好地体现分类器的性能。特征融合方法上较高的 AUC 表明了该方法具有更好的分类性能。
图6 特征融合和单一数据源的AUC对比Fig. 6 AUC comparison of feature fusion and single data source
3 结语
针对甲状腺结节的良恶性判别,本文提出了一种对常规超声和弹性超声影像的特征分别提取并进行融合的方法。考虑到弹性超声在临床上的实用性,同时使用常规超声与弹性超声两种不同的数据源对甲状腺结节的良恶性进行判别,互相独立的特征提取方式也保证了不同的特征提取器对目标数据域数据分布判断的独立性,常规超声影像具有更高的敏感性,弹性超声影像则具有更高的特异性,融合其两者的优势带来了更好的性能提升。同时,仅使用了高层特征的端到端的实现方式,也在训练和推理阶段带来了更高的计算效率,不需要精细地标注信息也在实际临床上有更广泛的利用价值。本文方法的准确率为92.4%,与其他仅使用单一数据源方法的对比也体现出了较为明显的优势。在未来的工作中,计划对基础网络进行进一步的调整,尝试使用其他更为高效的网络结构,并引入低层特征,继续提高分类性能。
此外,考虑到医学影像领域多数据源的情况普遍存在,将继续尝试将该方法拓展到其他的医学任务中,以获得更为广泛的应用。