医学影像人工智能:进展和未来
2023-04-06刘再毅石镇维
刘再毅,石镇维
1 医学影像人工智能应用现状
近年来,人工智能(artificial intelligence,AI)技术在医学影像领域的发展与应用备受关注。在众多医疗健康领域中,医学影像的图像数据量大且采用全球标准统一的DICOM存储格式,有望成为AI最先实现突破的领域之一[1]。
目前,AI在医学影像领域的临床应用主要在影像诊断环节,多集中于病变检出、识别,以及良恶性判断等。一方面,利用AI的感知与认知性能对医学影像进行识别,挖掘其重要信息,为经验不足的影像科医生提供帮助,从而提高阅片效率;另一方面,通过机器学习对大量影像数据和临床信息进行整合并训练AI系统,使其具备诊断疾病的能力,有利于降低影像科医生漏诊率[2]。相比现有的影像科工作模式,AI系统不受外界因素的干扰并时刻保持高效连续的工作状态,有助于提升影像科医生阅片的效率和质量。
此外,近年来医学影像AI相关研究也备受关注,尤其在肿瘤领域的应用,包括肿瘤的定性、临床分级分期、基因分析、疗效评估和预后预测等。作为医学影像AI研究的重要内容,影像组学通过深度挖掘医学影像中的高通量特征来描述病变的生物学特点,进而实现无创、全面、动态量化病变的时间和空间异质性,对于疾病的精准诊疗、预后预测具有重要的临床价值[3-5]。
2 医学影像AI临床应用面临的挑战
尽管医学影像AI研究在国内外蓬勃发展,但基于AI模型的预测结果与疾病的发生、进展以及影像表征之间的关系尚不清晰,仅依靠机器学习方法对数据进行分析和挖掘,不足以解释医学影像与临床终点之间的关系[4]。此外,医学影像AI研究需要医学数据驱动,因此数据标注、数据标准化、样本的数据和多样性、模型泛化性以及生物学可解释性等都是研究成败的关键因素,同时也是目前该领域研究的重要方向[4,6-7]。另外,在全球范围内对数据隐私保护的重视使数据隐私安全问题愈发突出,加剧了数据孤岛现象的产生[5]。如何合法合规地联合国内外多中心开展医学影像AI研究成为当下的研究热点。
2.1 医学影像数据标准化 医学影像数据标准化问题来自于行业本身以及AI技术的需求。目前普遍缺乏高质量的训练数据,现有的数据集标准多样、系统偏差较大,缺乏对疾病的统一认识。其次,缺乏对数据和标注数据统一且清晰的标准化描述,导致机器学习与数据之间产生交互障碍、机器错误理解数据的真实含义,因此亟待从技术上解决医学数据标准化的问题。
在2016年,国际组织FORCE11正式提出了FAIR科学数据管理准则[8],强调了数据的科学管理、使用以及数据标准化的重要性,提出数据应可查询(Findable)、可访问(Accessible)、可交互(Interoperable)、可再用(Reusable)。FAIR数据准则通过对医学影像数据的采集、处理、使用,以及管理等方面进行标准化描述及溯源,为医学影像AI研究提供了标准化数据保障。其重要核心目标之一是实现机器对数据的可操作性,即在无人为干预的情况下,机器(计算机)可对相应数据进行自动化操作。因此,FAIR科学数据管理准则有望实现医学数据的标准化,辅助构建AI模型,应用于疾病临床诊疗领域[9]。
2.2 模型泛化性AI模型的泛化性对其临床应用至关重要[10]。简单来说,模型的泛化性体现在两方面:①可复现性,反映预测模型在相似分布数据上的表现;②可迁移性,反映预测模型在不同分布数据上的表现[11],这里所谓的不同主要指时间、治疗方案、地理等信息。然而,实际情况是多数AI模型在训练数据上性能表现优异,但在内部和外部独立验证时无法呈现稳定的表现,即模型的泛化性差。可能的原因有很多,如数据的样本量、样本的多样性不足;数据标注一致性差;特征筛选方法欠佳,未能找到反映肿瘤异质性的稳定且通用的特征等。因此,如何提升模型泛化性是目前医学影像AI领域亟需解决的问题。
首先,通过增加数据样本量和数据多样性可提升模型的泛化性,因此多中心研究是未来的发展方向;通过联合多中心数据可以解决样本量和多样性的问题。其次,由于病灶与医学图像相比尺寸较小,属于大视野、小目标问题;常规的方法是先对病灶区域(即感兴趣区域)进行标注,然后对标注区域中定量影像特征进行量化分析。以往研究[6]表明人工标注的方式不可避免地存在人为误差,导致AI模型泛化性差。因此,采用全自动或半自动标注方式,可提高标注的一致性,提升影像特征的可复现性,进而提升模型的泛化能力。
2.3 生物学可解释性 医学影像生物标志物的挖掘几乎完全依靠数据驱动,通过深度挖掘影像特征与临床终点事件之间的关系,探索反映疾病发生和进展的生物标志物。然而,当缺乏生物学可解释性时,医学影像AI系统则难以应用于临床[12]。因此,探究医学影像AI模型的生物学意义将是其独立辅助临床诊疗的关键一步。
由于传统影像组学手工特征具有完整的公式与定义,与医学影像诊断学中对病灶描述的语义特征关系紧密,因此可用于近似解释影像组学特征的潜在生物学意义。然而,基于深度学习的特征具有“黑盒子”的特点[12],无准确、完整的公式与定义,因此缺乏生物学可解释性。常用的方法是通过建立特征热力图对深度学习模型的决策进行反向推理,探索模型的注意力区域是否具有临床诊断决策意义。然而,热力图方法无法真正地满足生物学可解释性的要求,误差较大。此外,医学影像AI研究中可能会发现一些生物学潜在的关系,例如某些具有高预测能力的影像特征可能与某些特定基因或蛋白的高度表达相关,那么通过探究该基因或蛋白与临床终点事件之间关系,可进一步提升AI模型的生物学可解释性[13]。
2.4 医学“数据孤岛”与隐私保护 在过去的十余年中,数据量、算法和高性能计算设备都有了明显的发展,AI展现出了高效化和规模化的社会化应用潜力。其中,基于医学影像(如放射影像[10,12]和数字病理[14-15])的AI系统在辅助疾病诊疗方面的潜在应用价值巨大,已经成为学术界与工业界共同关注的焦点。然而,医学影像数据具有长尾效应,除了有限的高发病种外,更多的疾病属于小数据;并且分散在不同中心、不同科室的图像储存系统内,因此形成了一个个缺乏有效沟通的“数据孤岛”[7]。其次,随着相关法律、法规的逐步完善以及公众对数据隐私保护意识的不断增强,更难于将散落在各个“孤岛”的数据汇聚成中心化的大数据[16]。
随着全球范围内对数据隐私保护的日益重视,数据安全问题愈发突出,进而加剧了“数据孤岛”现象。例如欧洲的《通用数据保护条例》(general data protection regulation,GDPR)对个人医疗健康相关数据的存储和交换做出了严格规定,即在使用前需要认证、授权、清晰责任与义务,起到对数据所有权和AI产品监管的作用[17-18]。尽管有上述明确的法律法规,但在实际操作中,滥用医学影像数据的现象屡见不鲜,数据隐私安全问题仍然是医学影像人工智能AI技术在疾病诊疗方面落地的难题,也因此难以开展多中心数据构建AI模型的研究,从而严重阻碍了医学影像AI赋能疾病诊疗。如何从技术上解决医学影像领域“数据孤岛”、数据隐私安全及数据行业标准不统一的问题,进而开发出更加高效、准确的AI疾病诊疗系统是当下亟需突破的难关。
2.5 联邦学习与群体学习2017年,谷歌提出了新一代联邦学习的概念[19],随后联邦学习被应用到众多领域,其目标就是解决“数据孤岛”和数据隐私保护之间的矛盾。通过建立数据联邦,在保证数据隐私安全、合法合规的前提下,在多中心或多计算节点之间开展高效的机器学习。简单来说,联邦学习可实现基于多中心数据共同建模,且有利于保护数据隐私安全,推动AI技术的持续发展。因数据与特征维度不同,联邦学习可分为横向学习、纵向学习和迁移学习[20]。在医学领域,联邦学习已被用于肺癌生存分析[21-22]、新型冠状病毒肺炎(COVID-19)[23-24]等方面的研究且应用范围渐趋广泛。
202 1 年,Warnat-Herresthal等[25]提出群体学习的概念。群体学习是将联邦和区块链结合于一体的去中心化的分布式学习方法。与联邦学习不同的是,群体学习不需要设置专门负责模型分发与聚合的全局统筹中心服务器,而是在区块链对等网络机制运行下,在每次模型聚合时,随机指定一个客户端充当中心服务器的职能进行模型聚合,真正地实现了去中心化。除此之外,群体学习还将有关模型训练、聚合和参与者之间的协议打包载入区块链,以保证训练信息的安全性、透明性和公平性。
总体来说,医学影像AI的临床落地面临着诸多挑战,如医学数据标准化,模型泛化性,模型生物学可解释性,“数据孤岛”和隐私安全。但随着科学技术的发展,针对上述挑战不断有新方法涌现。对于这些新方法的开发与探索,是学术界的主要研究方向,也是工业界的关注热点。
3 医学影像AI未来展望
我国的医学影像AI(包括影像组学)发展至今已经取得了阶段性的成功。医学数据作为医学影像AI的主要原料,在AI系统构建中起到关键作用。然而,与国外先进团队相比,我们依然有很大差距。下面我们将从医学影像AI标准化数据库的构建展望未来。
近年来,随着医疗条件的不断改善以及医院信息化程度的不断提高,医学影像数据呈现暴发式增长。据《2018年医疗人工智能技术与应用白皮书》统计,目前我国医疗数据的年增长率约为30%。互联网数据中心(internet data center,IDC)的统计数据显示,2020年全球医疗数据量已达到2010年的40倍,其中医学影像数据(包括X线、超声、CT、MRI、PET、病理图像等)约占80%[12,26]。目前,医疗影像数据具有大规模(volume)、高增速(velocity)、多种类(variety)、高价值(value)和真实准确(veracity)等五大特点,符合当代大数据5V特征,因此促进了医学影像AI的发展。医学影像大数据为医学影像AI带来了良好的发展前景和机遇,但却同样面临着巨大挑战。
尽管我国临床医学影像数据积累迅速,但真正规范且可被用于临床科学研究的医学影像数据却极度匮乏,导致很大一部分科学研究仍然依赖于国际医学影像数据,尤其是一些公开数据库。因此,构建符合我国法律、法规、国情以及科研人员使用习惯的标准化医学影像数据库势在必行。通过建立标准化医学影像数据库,可提升医学影像数据质量,实现科学数据价值的最大化,促进医学影像AI的发展。FAIR准则所倡导的科学使用和管理原则恰好符合上述目标。若基于该准则构建医学影像AI标准化数据库,首先需要建立完备的医学影像数据行业标准,并为科研人员提供便捷的标准医学影像数据信息平台和服务;其次需要清晰描述医学影像数据的产生、处理、使用、管理以及发布等各个环节,明确各方的权利、责任及义务;另外还需要科研人员包括医务人员在数据采集、数据库构建以及医学影像数据描述术语等方面达成共识(可参照国际标准构建符合中国国情的医学本体语义库);最后,计算、存储等硬件设备与软件对构建医学影像AI数据库同样重要,亟需开发相应的计算机软件以实现医学影像数据的实时转化及存储,并最终实现医学影像AI标准化数据库建设,促进医疗AI的发展。
4 总结
基于医学影像构建的AI系统已在疾病诊疗方面展现出了巨大的应用潜能。然而,由于医学影像数据标准化程度不足、模型泛化能力不足、生物学可解释性差、医学“数据孤岛”与隐私保护等诸多难题,导致医学影像数据无法建立广泛连接、形成合力,难以发挥数据最大价值,从而严重阻碍了AI赋能医疗健康。因此,我们有必要引入新技术如(联邦或群体学习),使得在多中心之间无隐私数据交换的前提下共同构建AI模型成为可能,进而打破“数据孤岛”。同时,引入新理论,如FAIR数据管理准则,构建标准化医学影像数据库;对医学影像数据的采集、处理、使用以及管理等方面进行标准化描述,为医学影像AI技术落地提供标准化数据保障,可辅助AI技术落地疾病诊疗领域。我们确信通过整合新技术、新理论,构建高效的、泛化性强的疾病诊疗AI系统,有望实现疾病精准诊疗评估,可减轻医生临床负担,为病人提供更优质且低价的治疗服务并能增加医院的经济效益。在国内外学者的共同努力下,医学影像AI的发展前景依旧充满曙光。