深度学习技术在PET/CT医学影像中的应用综述

2021-03-31徐巧枝

内蒙古师范大学学报(自然科学汉文版) 2021年2期

张萍, 徐巧枝

(内蒙古师范大学计算机科学技术学院,内蒙古呼和浩特 010022)

目前PET/CT是医学临床上诊断癌症的常用技术,对患者疾病的早期诊断及后续治疗具有非常重要的意义。但是在现实中,受医疗条件的局限,患者往往面临诊断时间长、诊断结果容易受主观影响等问题。深度学习技术被广泛应用于医学影像的分析,以辅助医生实现患病部位的分割、目标检测及分类,取得了良好效果。因此,将深度学习技术应用于图像,以提高诊断的效率和精确度,引起了很多研究者的关注并取得了一定成果。但是目前的研究大多是基于B超、CT等单模态数据,针对PET/CT双模态数据的研究相对较少,但已呈现出逐年上涨的趋势。因此,对现有研究进行归纳、整理和总结,可以帮助对该领域感兴趣的研究者快速了解其研究路线与现状,促进该领域的发展。

本对文PET/CT图像分析和处理中常用的深度学习模型、PET/CT图像的特点、PET/CT图像中对病灶分割、检测和分类的相关研究进行介绍,在对已有研究进行总结的基础上,展望未来的研究。

1 深度学习模型及PET/CT图像简介

1.1 深度学习模型简介

深度学习通过学习大量样本数据的内在规律和表示层次,可以获得对文字,图像和声音等数据的内在解释,从而能够识别文字、图像和声音等数据[1-2]。为了更好地理解后面提到的研究内容,首先简单介绍相关领域内常用的网络模型。

(1) 卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一,也是很多深度学习网络的基础。例如,LeNet、AlexNet、ZFNet、VGGNet、GoogLeNet和ResNet等都是基于卷积神经网络发展而来[3-8]。卷积神经网络通常包括输入层、卷积层、池化层和全连接层,如图1所示。

基于CNN,Long等[9]提出了全连接网络FCN,解决了连续卷积操作和池化层导致的输入图像质量下降及低分辨率输出的问题。受FCN启发,Ronneberger等[10]提出了U-Net架构,该架构被广泛用于医疗图像领域,后来扩展到三维版本,即3D U-Net、V-Net和W-Net,用于直接处理CT等三维图像[11-13]。

(2) 自编码器(auto-encoder,AE)于20世纪80年代后期被提出,目的是在没有监督的情况下从数据中学习紧凑的潜在表示。自编码器是一种利用反向传播算法使得输出值等于输入值的神经网络,它先将输入压缩成潜在空间表征,然后通过这种表征来重构输出。简单来讲,自编码器的典型结构包括两个网络,即重构输入的编码器网络和解码器网络,如图2所示。

图1 卷积神经网络结构图Fig.1 The structure of convolutional neural network

图2 自编码器网络结构图Fig.2 The structure of AE network

1.2 PET/CT图像

多模态正电子发射断层扫描和计算机断层扫描成像(PET/CT)技术为现代癌症诊断和治疗提供了关键的诊断信息。CT(computed tomography)是一种结构成像技术,具有高分辨率,病变和非软组织之间的强度一般不同。但是CT成像强度分布相似,区分病变组织与其周围的软组织能力比较有限,如图3(a)所示[14]。PET(positron emission tomography)是一种核成像技术,其高对比度使得区分病灶与周围正常组织的能力较强,但PET成像的空间分辨率较低,导致PET图像中的病灶边界模糊且不清楚,如图3(b)所示[15]。PET/CT将PET和CT集成到同一个设备和程序中,分别从不同方面表征病变,前者提供代谢信息,后者提供详细的解剖信息,使得PET/CT影像既具有良好的清晰度,又具备较强的病灶组织和正常组织区分能力,如图3(c)所示[16]。目前PET/CT已被广泛应用于临床医学诊断中,与单纯使用PET或CT进行病灶分割相比,准确率更高。

2 基于深度学习的PET/CT检测研究

很多癌症的前期表现是结节,结节检测是确诊癌症的一个重要步骤,相关研究的目标是对PET/CT图像中的器官、感兴趣区域或病变组织等进行定位,是后续结节分类的基础,决定了最终诊断的准确率。

Teramoto等[17]开发了一种CNN肺结节自动检测的方法,通过使用逻辑OR函数将候选区域进行组合。结果表明,CNN对假阳性的减少有一定的参考价值,但由于样本太小,该方法在部分数据上表现一般。王媛媛等[18]分别构建了三个卷积神经网络用于肺部肿瘤的识别,通过“多数投票决策”集成三个CNN完成肺部肿瘤的识别,保证网络良好训练的同时增加了泛化能力,避免了小样本数据过拟合现象的发生。Zhang等[19]提出了一种多尺度多模态Mask R-CNN的肺肿瘤检测方法,在肿瘤识别方面产生良好效果,但是需要大量的图像数据来进行实验以提高准确性。Kumar等[20]利用CNN推导出一个空间融合地图,并将其与特定模态的特征图相乘,以获得不同位置上互补的多模态信息,实验证明其组件可以对许多不同的医学图像分析任务进行利用和优化。

图3 肺部CT、PET及PET/CT图像Fig.3 CT、PET and PET/CT images of lungs

为了在3D全身数据中检测多发性骨髓瘤骨病变,Xu等[21]采用V-Net和W-Net用于病变预测和定位,V-Net并没有得到更好的灵敏度,而W-Net在多模态信息的分割和病变检测中具有很好的效果。Ackerley等[22]研究了卷积神经网络检测食道癌病变的潜力,通过训练和测试,生成的ROC曲线平均AUC为95.00%。Wallis等[23]采用双分支3D CNN与支持向量机来判断非小细胞肺癌(NSCLC),该方法检测效果与放射科医师相似。

为了治疗晚期转移性前列腺癌,需要对盆腔骨和淋巴结病变进行重点检测。Shi等[24]提出了一种基于全卷积神经网络的多任务深度学习结构Multi-Net。与W-Net相比,多任务深度学习对骨病变和淋巴结病变的检测精度均有所提高。Zhao等[25]提出一个三维深监督残余U-Net网络,该网络在上采样路径进行深度监督,以提高预测精度,避免梯度消失。但是由于病灶太小,对比度不足以识别,导致假阴性较高。之后,Zhao等[26]利用三个U-Net分别提取特征,然后使用融合组件综合所有信息,通过多数投票策略预测最终的结果,在所有标记的病灶中,证实了该方法比之前的方法效果更好。

表1从研究区域、数据集和最佳性能等方面进行了总结。首先,基于CNN的方法依然是检测的主要模型,不仅用于检测一个特定的结构,还可以检测一个系统中的多个结构,这极大增加了所研究问题的复杂性。CNN的优势在于这种架构可以捕获相邻像素之间的关系,从而获取图像特征,这是检测任务的基础。其次,对PET/CT图像的检测任务可以看作是利用二维或三维卷积神经网络进行完整训练。但是PET/CT属于三维图像,需要空间信息得到更准确的结果,未来的研究应该在3D网络的基础上设计。最后,这些文献在各类评价指标下显示较好的检测效果,但要获得足够稳定的自动检测方法,需要大量的训练数据来提高方法的鲁棒性。目前的方法主要是增加训练数据量,并在不同采集条件下获得患者图像作为训练数据,从而加入异质性。所以,如何有效利用PET和CT信息,提高检测的准确率和结果的稳定性,仍是值得未来继续研究的课题。

表1 PET/CT检测研究的主要特点Tab. 1 Main characteristics of PET/CT detection research

3 基于深度学习的PET/CT分割研究

图像分割就是对原始图像进行区域分割。医学图像分割的目的是获得特定器官、组织的解剖结构或通过识别轮廓、内部区域找到感兴趣区域(ROIs/VOIs),如肿瘤或病变区域等。最近,深度学习技术在分割任务上被证明是有效的,是深度学习应用医学影像领域中常见的研究主题之一。

Zhao等[27]提出一种利用带辅助路径的FCN实现鼻咽癌(NPC)自动分割,以减轻放射科医师的工作量。辅助路径引入使下层学习到更有代表的特征,提高模型识别能力,但当数据集有限时,会出现异常值。Gsaxner等[28]测试VGG-16和ResNet-V2来分割膀胱区域,通过比较,发现FCN体系结构在评价指标方面优于ResNet,但是小面积病灶自动分割仍然是难点。Guo等[29]设计了基于深度CNN的图像分割系统,对软组织肉瘤病变进行轮廓勾画。该研究设计了不同的CNN体系结构来测试不同的融合策略,对于不同融合策略如何影响分割性能的研究提供了宝贵经验。为了对头颈癌(HNC)的总体肿瘤体积(GTV)和病理淋巴结进行轮廓绘制,Moe等[30]提出一种基于U-Net 结构的双通道卷积神经网络分割。对比单模态U-Net,该研究的分割结果更接近肿瘤学家的手动标记。Huang等[31]提出一种自动深度卷积神经网络DCNN并基于HNC患者进行了实验验证,该方法有助于临床医师对HNC的管理,但该方法使用二维图像,忽略了体积信息。

肺部肿瘤分割是医学图像分割中常见的研究。Zhong等[32]结合3D-UNet和基于图割的共分割模型以分割肺部肿瘤。但由于两种模态成像方式不同,对PET图像的分割性能不如CT图像。之后,Zhong等[33]又提出一种新方法,利用两个3D-UNet分别对PET、CT进行肿瘤分割,然后让两个U-Net相互通信,以允许两种方式的互补特征在两个U-Net网络之间“流动”,从而产生更一致的肿瘤轮廓。结果证明,该方法能够胜过现有的基于图的细分方法,且具有较高的准确率。Zhao等[34]采用两个独立的V-Net架构分别提取CT和PET高维特征,利用几个级联卷积层对获得的特征再提取。结果表明,该网络分割效果显著,但使用逐像素相加的融合策略效果一般。Li等[35]提出了一种基于深度学习的变分方法自动融合多模态信息,使用3D FCN对CT进行学习以获得概率图,然后使用模糊变分模型将概率图和PET的图像强度信息进行集成,以细化肿瘤的分割结果。该方法对PET图像和CT图像都表现出良好的性能,但需要增加训练样本精确CT提取的肿瘤概率图,才能提高肿瘤分割的准确性。

相比于单模态分割,多模态分割首先需要将CT和PET获得的信息进行融合。其次,需要有效利用PET和CT的互补信息,为疾病的特征描述提供强有力的鉴别能力。表2对上述研究进行了总结,从中可以发现,目前研究中所使用的分割方法主要有两种: (1) PET和CT都采用深度学习网络进行分割; (2) PET和CT分别使用不同的学习方法。值得一提的是,多模态融合虽然一直都是一个难题,但已经有研究开始致力于设计不同位置融合方案来融合PET和CT的差异特征。考虑目前PET/CT分割的现状,未来有必要从以下几方面继续探索:

(1) 研究结果中大多数自动分割方法没有显示出足够可靠的结果可供临床使用。这主要是由于数据量很小、分割方案不同以及患者之间图像存在差异造成的,所以增加数据量是进一步验证所得结果的有效方法。

(2) 多模态图像的分割是一个要求很高且具有挑战性的问题,两种图像的互补信息如何融合、在什么位置融合是未来的研究重点,需要进一步研究。

(3) 目前研究都是基于特定问题设计特定的网络架构,所以开发非特定问题的网络架构也可能是未来研究的重要方向。

表2 PET/CT分割研究的主要特点Tab.2 Main characteristics of PET/CT segmentation research

4 基于深度学习的PET/CT分类研究

深度学习作为一种新的分类模型,越来越受到研究者的重视。医学影像的分类主要分为两大类,检测分类和病变分类,其目的是发现影像模式中可能存在的疾病。下面总结了一些利用深度学习技术对PET/CT 影像进行分类的研究,并分析了它们的主要特征。

为了预测软组织肉瘤(STS),Peng等[36]将3D CNN与传统的特征选择相结合以实现精确的分类。Wang等[37]将CNN与经典机器学习方法结合,对非小细胞肺癌(NSCLC) 纵隔淋巴结转移进行分类。虽然CNN比传统的方法更方便、更客观,但对于较小的肿瘤的纹理特征的鉴别能力有待提高。Sibille等[38]对肺癌和淋巴瘤患者的全身PET/CT图像,摄取增加的区域进行分类。该方法显示出对良性和恶性病变的良好区分能力,但该数据集中的CT和PET图像是单独获取的,可能存在空间错配。

Bi等[39]使用多尺度超像素编码方法(MSE)和类别驱动的特征选择与分类模式(CFSC)来自动分类和标记全身PET/CT图像中淋巴瘤。与传统方法相比,具有更准确的分类性能。Matsukura等[40]设计了基于CNN的全身PET/CT恶性淋巴瘤自动分类的计算机辅助诊断系统,实验结果验证了CNN在核医学检查中的作用。赵鑫等[41]提出一种利用深度监督AE进行肺结节诊断的方法SDAE-ELM,该方法最终灵敏度可达到91.75%,与其他深度学习诊断方法相比,有更好的鉴别效果。Kawauchi等[42]开发了一个基于残差网络(ResNet)的CNN系统,将头颈、胸部、腹部和骨盆区域进行分类,但是该模型只能处理从头部到膝盖的图像,当给出全身图像时,预测非常困难。Bradshaw等[43]训练了VGG19用于区分骨病变的良恶性,实验结果表明深度卷积神经网络可准确分类骨骼病变,并有助于发展先进的PET/CT骨骼扫描图像分析工具。

目前,各种深度学习技术被用来作为分类器、深层特征提取器。针对特征提取的研究主要分为: (1) 利用深度学习技术作为特征学习,提取特征结构,进一步输入到分类器中; (2) 利用深度网络结构对训练实例进行分类。从表3看出,对PET/CT图像进行分类的研究区域不仅仅局限于某一病灶,还包括了全身病变,这是由于PET/CT检查既有局部检查,也有全身检查,这为未来深度学习在PET/CT影像的研究提供了更多的研究方向。但是,以下问题需要在未来重点解决:

(1) 有的研究采用二维方法进行特征提取,缺乏基于立体信息的特征,但这些特征对病理分期和治疗评估有重要意义。

(2) 深度学习技术在很大程度上受训练数据的质量和数量的影响,所以缺少训练数据仍然是主要问题。

(3) PET和CT的图像被混合到网络中时,融合是在特征或决策级别完成的,还没有在分类器级别融合信息的研究。

表3 PET/CT分类研究的主要特点Tab.3 Main characteristics of PET/CT classification research

5 总结与展望

利用深度学习技术对PET/CT图像进行分析,对病变组织进行更准确的检测和分类,具有重大应用价值和意义。本文调查了应用深度学习技术对PET/CT图像进行分析的相关研究,并按照应用的主要场景,从病变检测、组织分割和疾病分类方面进行了归纳和总结。但是,将深度学习技术应用于PET/CT图像,进行疾病诊断还存在很多待解决的问题:首先,目前的研究大多使用私人数据集,可用数量较少,所以需要尝试利用或研究其他技术对数据集进行扩展; 其次,PET/CT图像属于多模态数据,当前对于多模态数据融合的研究仍然存在不足,未充分利用不同模态数据的互补信息,未来研究可以尝试各种不同的融合技术,考虑如何充分利用不同模态数据的互补信息,以提高诊断的精确度; 最后,由于PET图像的成像原理与CT图像不同,使得PET图像的特征提取性能不如CT图像。另外,两种模式的图像被混合到同一个网络中可能会限制模型的性能。所以,对PET图像的特征提取方法,并探索更好地利用PET信息的途径,对于提高疾病诊断的准确率具有积极意义。

综上所述,利用深度学习技术对PET/CT图像进行分析,对疾病进行检测和分类,还是一个新兴的领域,还有很多问题需要解决,值得研究者持续探索。