基于深度学习的多模态医学影像研究进展
2022-11-22王宗敏高云玥
王宗敏,福 林,高云玥
内蒙古医科大学附属医院超声诊断科,内蒙古 呼和浩特010000
在临床中,由于受医疗条件的限制,患者经常面临诊断时间过长、诊断结果主观性过强等问题。以深度学习为代表的新一代人工智能技术给医学领域带来了革命性的变化,被广泛应用于医学影像的分析中。有研究表明,与传统技术相比,深度学习在某些任务中表现更佳,甚至优于影像医师[1]。深度学习可以直接从数据中自动学习图像特征信息,从而在图像分析上取得了显著的突破;而在临床实践中,医生为了实现更精准的诊断,往往需要同时参考不同模态、不同类型的影像数据进行全方位、多参数的综合分析和判断。因此,为充分利用不同模态影像技术之间的互补性,需要从单模态深度学习向多模态深度学习进行转化。
1 多模态深度学习的原理
每一种信息的来源都可以称作一种模态,在人工智能辅助诊断的背景下,对于模态一词的定义为:模态是对由一种特定类型技术采集的具有相同表达形式的数据的总称[2],多模态即是由两种或两种以上不同模态的数据信息组成,医学影像领域中常常指来源于不同的成像原理或设备。单个模态数据仅能提供有限的信息用于模型决策,而不同模态的数据信息是不尽相同的,能对其他模态信息进行补充,从而做出更加综合的分析和判断。以往的人工智能医学影像辅助诊断系统通常是单模态的,只分析了疾病单一类型的影像数据,具有较大的局限性,无法评估疾病的全局状况,而运用多模态融合技术进行综合分析各种类型的医学影像信息,从全局来考虑病变的完整信息,才是目前人工智能辅助诊断病情的关键[3]。
基于深度学习的多模态融合技术具备同时接受不同模态信息输入的能力,在学习过程中,在充分提取和利用各个模态的有用信息的同时,挖掘出各个模态之间的互补性并进行多模态有效信息的相互融合,实现了较单模态网络更优异的性能。多模态融合方法是多模态深度学习技术的核心内容,分为模型无关的方法和基于模型的方法,前者不依赖于特定的深度学习方法,后者则是利用深度学习方法解决多模态融合问题,本文主要介绍后者,常用方法包括多核学习方法、图像模型方法和神经网络方法。多核学习方法是内核支持向量机方法的拓展,即允许使用不同的核对应数据的不同视图[4];图像模型方法是通过图像分割、拼接及预测对图形进行融合,从而产生模态融合结果;神经网络方法因其较强的学习能力和分类性能,是目前应用最为广泛的方法之一[5],通过大量神经元节点相互连接,构建多层结构,然后训练连接权重从而实现了从低级特征到高级特征的逐层学习,其在多模态融合中的优势是具有较好的可扩展性,分层方式有利于不同模态进行嵌入,且具有大数据的学习能力,缺点是随着模态不断增加,模型的可解释性变差。卷积神经网络(CNN)是一种包含卷积计算且具有深度结构的神经网络方法,是许多神经网络方法的基础,例如Le Net、Alex Net、VGG Net、Google Net、Res Net、Dense Net等都是基于CNN发展而来的[6-11]。此外,有研究者提出了U-Net架构,被广泛应用于医学图像领域,后来扩展到三维空间中,包括3D U-Net、VNet和W-Net,直接用于三维图像处理[12]。在实践中选择何种融合方法,要根据具体问题和研究内容选择合适的多模态融合方法。基于神经网络方法的多模态融合模型是研究者们采用的主流方案,本文主要介绍基于神经网络融合方法在医学领域的研究进展。
2 多模态深度学习在医学领域的应用
基于深度学习方法的多模态融合是运用多个深度神经网络来完成多模态学习任务,其中已经有大量将深度学习方法应用于医学领域的成功案例,如疾病检测、疾病分割、疾病分类、疾病预后预测等。
2.1 多模态深度学习在疾病检测中的应用
对病灶的前期表现进行检测是疾病确诊的一个重要步骤,也是后续分类的基础。近年来,多模态深度学习的快速发展在疾病识别与检测领域取得了不错的成果,例如针对乳腺癌的辅助诊断中,有学者利用CNN Dense Net 121多模态融合网络提取常规灰阶(B型)超声图像和超声弹性图像(RTE)特征并融合用于检测并诊断乳腺良恶性肿瘤,研究表明多模态融合模型鉴别乳腺良恶性肿瘤效能优于单模态模型,有助于辅助医生诊断乳腺结节病症,进一步提高了临床诊断的准确率[13];也有学者利用ResNet-18网络模型以4种类型的超声(即B型、多普勒、剪切波弹性成像和应变弹性成像)作为端对端分类结果的输入输出联合诊断乳腺癌,B型超声反映病灶结构信息,多普勒超声可以检测肿瘤区域增加的血流信息,弹性成像反映组织的硬度,4种类型超声图像的组合大大增加了多模态信息的权重,进一步提高了诊断性能[14]。为了充分利用不同模态影像之间的互补性,提高疾病检测和诊断的性能,需要从单模态深度学习转向更多种模态的深度学习中。
脊椎的自动识别在脊柱临床诊断中是非常需要的,有学者提出一种多模态脊椎识别的方法,使用一种称为转换深度卷积网络的新型深度学习结构,这种新结构可以无监督地融合MRI和CT的图像特征,自动对自适应、高分辨力和位姿不变图像特征进行识别,增强了特征的判别性,已成功通过多模态数据集的腰椎和全脊柱扫描测试,具有较高的准确性和稳定性[15]。这对于脊柱疾病的临床实践提供了自动识别与检测功能,显示出了多模态深度学习在脊柱疾病上的应用潜力。
目前癫痫疾病的诊断主要通过患者脑电图中的癫痫波,不仅耗时且依赖于医生的临床经验。为克服这些局限性,有研究从MRI功能像出发,采用多模态融合的深度神经网络方法用于颞叶内外侧癫痫的诊断与鉴别[16]。这也是在文献报道中首次提出利用深度学习的方法诊断癫痫,具有一定的临床意义。
多模态正电子发射断层扫描和计算机断层扫描成像(PET/CT)技术对疾病诊断提供了关键信息,分别从不同方面表征病变,前者提供病变详细的代谢和功能信息,后者则提供病变的解剖和病理信息,因此PET/CT影像既具有较强的病灶与周围正常组织区分能力,又具备较好的清晰度,为下一步的临床决策提供了更加充分的参考意见。目前PET/CT已被广泛应用于临床疾病的检测诊断中,有学者提出一种基于PET/CT双模态深度无监督自编码网络框架的肺结节诊断方法,将候选肺结节的PET/CT图像作为输入,并对高层图像信息进行学习,最后采用线性组合的方式将学习到的不同模态特征融合后作为整个框架的输出,这种方法有效提高了肺结节的诊断性能[17];有学者提出基于三维深度卷积神经网络的深度学习结合PET/CT成像,构建了一种新的潜在工具,显示了对恶性胸膜间皮瘤诊断的灵活性[18];有学者基于PET/CT可以捕捉多发性骨髓瘤病灶异常分子表达及解剖变化,提出采用V-Net和W-Net两种CNN对病变进行检测,通过自动结合了PET和CT的特征,对多发性骨髓瘤患者的全身病变进行三维检测,初步结果表明,W-Net在病灶识别和检测方面取得了最佳效果[19],这项研究对于开发一种用于多发性骨髓瘤疾病自动化管理的工具迈进了一步。可以看出,与单纯使用PET/CT进行病灶检测相比,多模态融合方法的准确率更高;但对于PET/CT图像的检测是利用二维或三维CNN进行训练任务,而PET/CT属于三维影像,需要空间信息更加准确,未来的研究方向应该在三维网络模型上设计。
从以上研究成果可以看出多模态深度学习检测和诊断病变的潜力,CNN是检测的主要模型,它可以捕获到相邻像素之间的关系,从而获得图像特征信息,这也是检测任务的基础。虽然各类深度学习方法均已显示出较好的检测效果,但如果想获取更加稳定的自动检测方法,仍需要通过大量的训练实现。如何能够有效利用多模态影像信息,提高检测的稳定性和准确率,是未来需要继续探索的课题。
2.2 多模态深度学习在疾病分割中的应用
图像分割是对图像感兴趣区域进行分割,医学图像分割可以通过识别内部或轮廓区域找到特定器官、组织的感兴趣区域,如病变或肿瘤区域等,对目标区域进行分割在图像各类任务分析中有着举足轻重的作用。随着人工智能的发展,深度学习方法在医学影像图像分割任务中产生了突破性的成果,其中CNN已经被成功应用于脑[20-21]、肝[22-24]、肺[25]、乳腺[26-27]等区域肿瘤的分割,与传统方法相比,这些基于深度学习的方法取得了卓越的性能,且对于医学图像分割中常见挑战具有良好的鲁棒性,因此将其应用于多模态影像分割领域也越来越受到研究者的关注。
MRI和CT是临床诊断中最常用的两种医学图像,二者之间的跨通道医学图像结合在医学成像领域受到越来越多的关注,深度学习已经被应用于MRI/CT多模态图像中,如将MRI 与CT技术联合使用对病灶进行分割,有学者提出利用CNN在CT扫描中检测出鼻咽癌,利用多模态MRI融合网络分割出鼻咽癌区域,再采用自适应阈值算法在CT图像上划分代谢活性不同的鼻咽癌子区域,最后生成鼻咽癌的三维曲面模型,实现了多模态技术的联合使用对鼻咽癌区域和子区域进行可靠的分割,为判断患者间的异质性提供了依据[28]。有研究提出一种新的基于深度学习的多模态U形网络图像分割模型MM-unet,充分利用了MRI图像与CT图像间信息互补的特点,提升了对前列腺癌分割的精度,且与UNet模型相比,MM-unet模型方法能够获得高出3个百分点的精确度,其分割效果具有明显优势[29]。
多模态MRI主要以组织分辨率高、多方位成像,可以清晰了解病灶特征及周边结构的解剖关系,帮助医生更好的区别特性,在疾病分割中,能够发挥出更理想的效果。有研究引入小样本分割模型,基于U-Net的原型网络模型用以对多模态MRI脑肿瘤图像进行分割[30];PEI等人首先提出了一种三维上下文编码的CNN,该方法考虑了多模态MRI图像子区域中肿瘤位置的不确定性,实现了对脑肿瘤的分割;此外,还将此网络应用于肿瘤片段中,实现了仅利用MRI结构数据对脑肿瘤的分类;最后,又使用深度学习和机器学习的混合方法,实现了对脑肿瘤总体生存进行预测。该研究不仅表现出极强的肿瘤分割能力和生存预测能力,且对于肿瘤的分类结果在“计算精准医学放射学-病理学挑战2019脑肿瘤分类”的测试阶段排名第2[31],对于多模态影像应用于深度学习产生了突破性的进展,实现了深度学习对疾病从分割、分类到预后预测的多方面涉足,对于多模态深度学习的发展具有积极意义。此外,有学者提出一种新的基于熵和形状感知的多模态心脏图像分割网络,从多序列MRI数据集及MRI到CT的跨模态数据集验证了该方法的性能[32]。
在其它医学影像领域,也有研究对多模态深度学习应用于疾病分割做出探索。既往有研究提出使用二维U-Net分割肝脏血管,并将其整合到腹腔镜超声与CT配准管道中,腹腔镜超声可显示包括血管在内的亚表面结构,而针对腹腔镜超声中不可见的等回声区域,可由CT图像进行信息补充,结合两种模态可以提供血管与病灶的空间关系,结果证明此方法是可行的[33]。有学者提出基于编码器-解码器的3D-UNet的深度全卷积网络对非小细胞肺部肿瘤的PET-CT图像进行分割,优于现有的基于图的分割方法,也优于单模态PET或CT的深度学习方法[34];而有学者设计了一个基于CNN的MRI、CT、PET的多模态图像分割系统,实现了对软组织肉瘤病变的分割任务,同时也证明了对于肿瘤分割任务,在网络内部进行图像融合通常比在网络输出处进行图像融合效果好,为多模态图像的分析和应用提供了经验性指导[35]。
综上,深度学习技术在医学影像分割任务上是有效的,但多模态图像的分割是一个高要求且极具挑战性的问题。相比于单模态分割,多模态分割需要将模态之间的信息进行融合,并有效利用模态之间的互补信息,多种模态图像的互补信息如何融合、在何处融合是未来研究的重点,需要进一步探索。目前的研究都是基于特定问题而设计特定的网络架构,因此开发针对非特定问题的网络架构可能也是未来研究的重要方向。
2.3 多模态深度学习在疾病分类中的应用
深度学习作为一种新兴起的分类模型,比传统分类方法更方便、更客观,越来越受到研究者们的重视,对医学影像的分类可以实现疾病精确分类,为临床医生的后期治疗提供有效的建议。由于仅仅依靠患者自我报告的症状,医生很难对神经精神疾病做出有信心的预测,且对这些疾病的神经和生物学机制很难有所突破。有学者开发出第一个将基因组信息与功能和结构MRI图像相结合的深度模型对精神分裂症进行分类,实现了多模态影像和基因组数据与分类器相结合,提高了预测的可靠性[36];有学者则提出了一种基于CNN分别对阿尔兹海默病患的MRI和PET图像进行3D卷积操作提取各自模态的特征信息并进行融合,最后用全连接神经网络将提取的多模态特征信息进行分类预测,实验结果表明该研究在准确率和曲线下面积的性能评价中都取得了优越的结果[37]。
超声检查是一种无创、廉价、可重复性好的医学影像技术。随着超声新技术的出现,以多种超声成像为基础的多模态超声技术联合深度学习在临床的应用越来越广泛,有研究通过基于CNN在B超和超声造影联合图像中对肝细胞癌进行识别发现,在B超图像中,肝细胞癌在更晚期阶段才表现为一个界限清楚的区域,而恶性肿瘤所特有的复杂血管结构在超声造影图像中更加突出,多模态组合分类器最终实现了97%以上的分类精度,总体上优于该领域目前报告的分类性能[38]。有学者鉴于B超和RTE在前列腺癌的临床诊断中的重要应用价值,B超检测组织的形态学改变,RTE提供生物力学信息,提出一种集成的深度网络学习和融合多模态超声图像特征的模型对前列腺疾病进行分类,实验结果表明了多模态特征模型对前列腺疾病的鉴别具有互补性和协同性,优于单模态特征模型,深度网络优于浅层网络[39]。但目前深度学习实现性能的改进在很大程度上依赖于大样本的训练数据集,然而在医学超声领域可供使用的公开数据集是有限的,这也就成为了深度学习在医学超声图像应用中的瓶颈。针对这一问题,目前最为常用的方法是迁移学习,即进行跨数据集学习。此外,模型的可靠性需要大量样本进行验证,而模型进行大量的训练是一个非常耗费时间的过程,未来需要加强对深度学习的深入研究及进行更多的实验探索,以提高该技术在临床应用的实用性。
为了更好地分析疾病的发展,研究者们将多模态深度学习应用于更多部位肿瘤或病变的分类中。有学者融入注意力机制、Res Net以及双线性融合3种算法搭建出有效且更具实用价值的细粒度多模态骨癌影像分类网络模型[40]。有学者将Image Net上预训练CNN网络模型参数迁移到PET/CT肾癌分类任务中,取得了精确的分类结果[41]。有学者使用二维CNN U-Net模型对多模态MRI腮腺肿瘤图像进行分类,可以对腮腺腺淋巴瘤和多形性腺瘤进行区分,但尚不能对恶性肿瘤进行分类[42]。有研究围绕多模态医学影像进行了两组疾病分类实验,其一是在脑肿瘤MRI影像分类中,利用4种同源多模态MRI影像进行融合,并使用直方图均衡化技术优化了肿瘤增强环节,有着更高的分类指标,其二是对于心血管疾病的早筛研究中,将同源多模态超声影像数据和异源模态的电子病例数据进行了5个模态的特征提取与融合,提高了分类的准确度,同时验证了多模态影像结合的有效性[43]。有学者基于CNN对淋巴瘤的全身恶性病灶PET/CT图像进行分类,结果表明该方法对良恶性病变具有良好的区分能力[44],因此利用深度网络对疾病进行分类不应局限于病灶本身,还要考虑全身病变,这也为未来深度学习在多模态影像的研究中提供了方向。
近年来,各种深度学习技术广泛用于作为分类器,而与医学影像的结合也正成为重要的交叉学科研究方向,但在多模态图像融合到网络中时,现有的研究的融合是在决策或者特征级别实现的,还没有在分类器级别完成融合信息的研究。有些研究是利用二维方法进行特征结构的提取,缺乏基于三维立体特征信息,然而这些信息对于病灶的分类分期具有重要意义;深度学习方法在一定程度上受训练数据数量和质量的影响,所以缺乏大规模的训练数据仍然是主要问题,因此多模态深度学习在疾病分类任务上具有巨大的提升空间。
2.4 多模态深度学习在疾病预后预测中的应用
在疾病诊疗过程中离不开预测疾病的发展情况和结局的探讨,肿瘤生长预测是一个生物物理过程,长期以来一直是通过数学建模解决的[45]。随着深度学习方法的不断发展,研究发现多模态深度学习对预后的评估相比于传统方法的局限性更具参考价值。有学者提出利用3D CNN的多通道架构对包括对比增强T1 MRI、弥散张量成像、静息态功能MRI自动提取隐含和高级特征,以此来预测高级别胶质瘤患者的总生存时间,其准确率优于所有竞争方法[46]。有研究提取患有骨原性肉瘤儿童的多模态MRI特异性特征,利用多模态MRI来预测患儿对新辅助化疗的肿瘤反应,最终该模型预测肿瘤坏死的准确率高达95%以上[47]。
有研究将各种超声图像模式和临床背景记录整合到多模态深度学习网络中,用于预测原发性甲状腺癌患者的淋巴结转移状态,实验结果表明多模态深度学习网络在进行预测时更多依赖于超声图像模式,而不是临床记录的数据模式。该研究有助于医生对原发性甲状腺癌淋巴结转移的诊断做出前瞻性预测,对减少原发性甲状腺癌过度诊断和过度治疗具有重要意义[48]。
有学者提出了一种具有深度预处理器的伪体积CNN,用于预测局部区域复发、远处转移的头颈部鳞癌患者在十年的随访时间内的总生存率,该模型在PETCT数据集上进行训练,为多部位、多模式的肿瘤预后预测提供了一种有效的方法[49]。有学者提出一种通过在比例风险模型中使用深度CNN优化成像特征来建立晚期直肠癌患者生存回归模型的方法,该方法已经在模拟成像数据集和FDG-PET/CT数据集的基础上进行了验证,表现出了具有竞争力的预测性能[50]。因此,在多模态图像上应用先进的深度学习算法,与单一模态建模相比,在疾病预后方面显示出更好的结果,这也为患者的个性化治疗提供了巨大的潜力。
上述研究可以看出已有大量将深度学习应用于疾病预后预测的成功案例,对于肿瘤或某些慢性病的进展检测和管理起着重要的提示作用。由此可见,深度学习方法具有巨大的潜能,结合多模态影像的优势,可以系统地对影像医师的报告结果进行优化,大大提高了影像报告结果的临床实用性,为临床研究的下一步进展提供了新的思路。多模态深度学习技术的发展对判断疾病预后具有广阔的应用前景。
在临床工作中,深度学习作为影像医师的“第二双眼睛”,极大的提高了影像医师的工作效率,但同时,目前还没有充足的证据证明深度学习能够取代影像医师,且这项技术在实际临床应用中存在风险,因此想要提高该技术在临床实践中的实用性,需要加强对深度学习的实验探索和深入研究。
3 局限与展望
利用深度学习方法对医学影像图像进行分析,对病变部位进行更加准确的检测和分析,具有重大价值和意义。本文总结了对应用深度学习技术的多模态影像进行分析的相关研究,并从疾病检测、疾病分割、疾病分类、疾病预后预测四个方面进行了归纳。本文进一步证实了多模态医学影像数据的潜在价值,考虑到医学影像数据多模态的特点,这对于辅助影像医生提高决策诊断有着重大而深远的意义。
但是,将深度学习方法应用于多模态影像,进行疾病诊断还存在许多尚未解决的问题:(1)多模态研究的最大挑战就是缺失数据,由于医学数据存在共享不畅的特点,在实际应用中很难拥有所需的全部种类的多模态数据信息。因此,本文期待未来可以出现更多大量的、公开的、不同研究任务的数据集,以及需要开发出其他技术手段对数据集进行扩展或在数据集规模受限的条件下进行技术创新实现有效的多模态学习;同时,医院信息平台的建设需要越来越标准化、规范化,这对于数据的规范化处理与存储也有着重要的意义;(2)对于多模态数据融合的研究仍然存在不足,在现有架构的高性能设备上训练的多模态数据融合模型可能不能很好地学习增大体积的多模态数据的特征结构。因此,需要尝试融合各种不同的影像技术,挖掘出不同模态影像数据之间的相关性和独立性,并充分发挥多模态影像数据的互补作用,从而提高疾病诊断的准确度和精确度。未来,深度学习在多模态数据融合方面可能需要设计出具有更强大计算体系的学习框架;(3)目前关于多模态深度学习的研究所针对的疾病并不全面,对于某些复杂、罕见疾病的研究尚浅,未来需要探索更多疾病对于基于深度学习的多模态融合技术的应用价值;(4)要有敬畏之心。虽然人工智能在医学很多任务中已经达到、甚至超越了人类的水平,多模态医学影像数据对于疾病的自动化诊断有着无限的潜能,但是我们仍然需要提高警惕,人工智能辅助诊断仍然存在着诸多问题,尤其是在可解释性方面。在医学领域,它始终只能是辅助医务人员并提供参考性意见的工具。