人工智能在肿瘤研究和临床中的应用
2022-11-07陈明扬蔡紫庭乔友林
陈明扬,蔡紫庭,薛 鹏,江 宇,乔友林
(北京协和医学院 群医学及公共卫生学院,北京 100005)
1 AI的起源与基本要素
人工智能(artificial intelligence, AI)是计算机科学领域的一个分支,包括任何利用机器模拟人类智能解决问题或进行决策的技术。AI的历史可追溯到20世纪50年代, 计算机科学家Alan Turing于1950年发表了一篇划时代的论文,预言了计算机模拟人脑执行任务的可能性[1]。在1956年美国达特茅斯学院的一次研讨会上,John McCarthy首次提出“人工智能”这一概念,标志着AI学科的诞生[2]。1956年之后的十几年是AI发展的黄金年代,直至70年代初,AI缺乏有效研究进展,使其遭遇了第一次低谷。此后几十年,随着数据的爆发性增长、算法的不断创新以及计算机性能的稳步提升,AI已在许多领域取得突破性进展,包括肿瘤领域。
AI有3大基本要素: 数据、 算法和算力。数据是AI的基础、AI的“粮食”,基于大数据进行大量训练,总结规律,再应用于新的样本,是AI的基本思路。肿瘤防控中,AI的数据类型包括影像学、病理学、电子健康数据和组学数据,从结构化的一维数据到非结构化的高维数据均有所覆盖[3]。算法是AI的“大脑”,爆发增长的数据对算法提出了更高要求。主流的AI算法主要分为传统机器学习(machine learning,ML)算法和神经网络算法,目前神经网络算法因深度学习(deep learning,DL)的快速发展逐渐成为研究热点。DL是包含大量隐层的神经网络,当传统ML学习能力有限时,DL可通过增加数据量提升学习性能。主要的DL算法有卷积神经网络(convolutional neural network,CNN)、全卷积网络(fully convolutional network,FCN)、循环神经网络(recurrent neural network,RNN)和生成对抗网络(generative adversarial network,GAN)[4]。算力即计算能力,是AI的“身体”,支撑着算法和数据。算力依附于设备之上,常见的算力设备有CPU、GPU、TPU、NPU等。在肿瘤领域,一位患者就可以产生上百张医学影像图片,需要处理的数据集庞大,对AI系统算力的需求加速膨胀。主流CPU在计算能力上距支撑快速迭代要求的算力水准还有较大差距,而GPU的灵活性、效率性、与人工智能算法的适应性更高,成为AI计算需求量最大的芯片。
2 AI在肿瘤领域的应用现状概述
从国家药品监督管理局(NMPA)公布的人工智能医疗器械获批情况可以看出,自2020年以来,已有超过20款产品获得NMPA认证,10余款基于深度学习技术并可应用于肿瘤领域,主要集中在颅内肿瘤、肺结节等领域。表1列出了较有代表性的获批产品,其应用场景多集中于病灶分割,辅助诊断的产品较少。其中,肺结节CT影像辅助检测软件居多,主要用于胸部CT影像处理、肺结节自动识别与测量、自动生成报告,以作为肺癌早期筛查和诊断的参考。与之相比,美国FDA认证的基于深度学习的人工智能医疗产品(表2)覆盖的癌症种类更多,以肺癌和乳腺癌为主,还包括前列腺癌、脑癌、肝癌等。
表1 经中国NMPA认证的基于深度学习的肿瘤相关人工智能医疗产品
续表1
表2 经美国FDA认证的基于深度学习的肿瘤相关人工智能医疗产品
2016至2022年期间认证的23款产品中,各有7项与乳腺癌、 肺癌有关, 其应用场景包括风险预测、辅助筛查、辅助诊断和治疗等多个方面。
Kann等人回顾了AI在肿瘤风险预测、筛查、诊断、风险分层和预后、初始治疗策略、反应评估、后续治疗和随访中的重要研究[5];Bi等人结合肺癌、脑癌、乳腺癌和膀胱癌的应用实例,梳理基于影像学的AI在肿瘤的检测、表征和监测方面的研究进展[6]。但目前AI最成熟的应用仍是利用图像资料进行肿瘤的筛查和诊断[7]。肿瘤的预后很大程度上取决于肿瘤的类型和诊断时的分期,若其在发展早期被检测出来,则预后相对良好。AI可以检测出人眼容易忽视的微小病变,降低漏诊率, 使医生从重复阅片工作中解脱, 投入更多精力到与患者的互动中,从而提升医疗质量。然而,AI也可能会产生相反的效果,这取决于AI系统的准确性以及医生与AI的互动机制。
2021年的一篇系统综述评估了AI在乳房X线筛查实践中检测乳腺癌的准确性[8]。在被评估的36个AI系统中,有34个(94%)的准确度低于单个放射科医师的诊断准确度。虽有5项研究报告AI系统比单个放射科医师的诊断结果更准确,但存在样本量小、偏倚风险高和外推性差等缺陷。此外,该综述发现目前缺乏在真实筛查情景下评估AI诊断准确性的前瞻性研究。英国国家筛查委员会审查AI在乳腺癌筛查中的证据的方法中总结了多阅片者多病例(multiple-reader, multiple-case, MRMC)试验、回顾性比较研究、前瞻性比较研究、随机对照试验4类研究设计的价值和局限,强调未来需要更多前瞻性研究来评估将AI系统纳入常规乳腺癌筛查的效果[9]。Ardila等人利用CT图像构建深度学习算法来预测肺癌发生风险,该算法在内部和外部验证集中都达到良好的预测性能,且优于6名放射科医生,使肺癌假阳性和假阴性结果分别减少了11%和5%[10]。Hassan等人在一篇有关AI辅助肠镜用于腺瘤和息肉检测性能的系统综述中纳入了5篇随机对照试验,发现AI显著提升了结直肠腺瘤检出率[11]。Jones等人开展了一项关于AI早期检测皮肤癌的系统综述,综合了272篇相关研究的数据,得到AI对黑色素瘤、鳞状细胞癌和基底细胞癌的平均诊断准确性分别为89.5%、85.3%和87.6%[12],但只有两项研究使用的数据来自社区或初级医疗机构的低皮肤癌患病率人群,故作者不建议在初级医疗机构广泛采用皮肤癌AI诊断系统。Xue等人通过系统综述发现,基于阴道镜图像和基于细胞学图像的深度学习算法均在宫颈癌诊断中表现出良好性能[13],但作者强调这一发现基于的原始研究质量普遍较差,可能高估了深度学习算法的诊断表现。
阴道镜诊断和定向活检是宫颈癌筛查程序的关键组成部分,但高年资阴道镜医生的短缺、对主观经验的依赖、操作者之间的差异,都限制了阴道镜在宫颈癌筛查中的表现,尤其对于中低收入国家。而AI具有一致性好、效率高等优势,为解决这一问题带来机遇。中国的一项多中心回顾性研究用6家医院的19 435例患者的阴道镜图像开发并验证了人工智能阴道镜辅助诊断系统,该系统诊断结果与病理金标准之间的一致率为82.3%,显著高于阴道镜医生与金标准之间的一致率(65.9%),且在预测活检位点中展现出良好性能[14]。未来建立基于人工智能阴道镜的自动化筛查流程,有望提高中低收入国家的宫颈癌筛查能力,缓解医疗资源短缺,助力加速全球消除宫颈癌。
3 AI在肿瘤应用中的问题与展望
AI是数据驱动的研究方法,大量高质量的数据是建立可靠AI算法的基础。肿瘤辅助诊断AI的训练往往需要大量图像,而Wen等人通过系统梳理现有的21个皮肤图像公开数据库[15],发现数据库中报告的关键特征和元数据有限且多变、地理分布受限、对深色皮肤类型的代表性明显不足,限制了其在真实临床场景中的应用。而此类问题不仅限于皮肤图像,在放射科、眼科、病理学、胃肠病学中也有报道[16-17]。健康数据贫乏,即由于缺乏具有充分代表性的数据使部分个人或群体无法从中受益,是导致数字健康鸿沟不断扩大的一个根本原因[18]。而造成健康数据贫乏的原因包括对传输患者健康信息的担忧、机构间数据共享基础设施的缺乏、数据收集的异质性和不完整性。目前学界越来越重视简化数据采集,强调建立各类图像数据库的最低特征和元数据报告的质量标准,提高数据透明度,并使用已定义的标准进行前瞻性图像收集,以确保良好的人群代表性。此外,多机构数据共享协议也被提出以支持可发现、可访问、可互操作、可重用的数据使用[19]。
算法可解释性较差是AI发展的一大瓶颈,然而良好的算法性能和较高的可解释性在现阶段往往无法兼具。因此,如何将黑盒决策转化为透明过程并建立医生对机器的信任是近年的研究热点。有学者将黑盒决策的解释方式分为视觉解释方法、基于扰动的解释方法、基于知识的解释方法和因果解释方法,并提出针对AI可解释方法的主观和客观评价指标[20]。在肿瘤的诊疗过程中,错误预测可能会造成漏诊、误诊,甚至危及患者生命安全,这使医生在使用AI进行决策时更为谨慎,医生需要如AI系统训练所用数据、模型构建过程和参数等更详细的信息,以帮助其判断AI的结果是否可靠。然而,目前许多临床研究存在方法学报告模糊、标准化命名缺乏和结局指标的异质性等问题,限制了AI技术的下游评估和其在真实世界中发挥作用[21]。因此,许多知名的研究报告指南已颁布或正在开发AI版本[22]。2020年9月发布了涉及AI干预措施的临床试验报告指南SPIRIT-AI[23]和CONSORT-AI[24]。目前正在开发的还有诊断准确性研究报告标准STARD-AI[21]和个人预后或诊断的多变量预测模型的透明报告TRIPOD-AI等[25]。日后的AI研究应严格遵循上述标准,使研究透明化和标准化,为肿瘤防治策略的优化提供高质量证据。
从应用层面来看,许多在研发阶段表现良好的AI系统在真实世界中却表现不佳,这是由于AI系统在开发阶段所使用的人群、对照、终点结局均与真实世界相差甚远,且鲜有前瞻性的、利用外部验证集的研究设计,与人类专家进行比较的研究则更少。Walter等人于2019年开发了CanTest框架,形成了新诊断试验从开发到实施和评估的清晰转化路径[26]。该框架包括5个迭代研究阶段,研究场景从高度选择性的人群到真实世界人群,干预设计从单一的诊断试验到临床上多种诊断方式相结合的策略,对照从金标准到医生常规诊疗,结果评估从诊断试验的准确性到人群整体收益和成本。Kleppe等人也提出深度学习系统在医学应用中的4个开发等级和2个临床试验评估阶段[27],他强调要通过前瞻性的随机对照试验来对比常规医疗表现和整合AI后的医疗表现,从而评估AI系统在特定临床情景中的效用。同时也需监测获批后的AI系统应用于医疗实践中的长期利益、危害和成本,并根据真实世界中获得的数据及时调整更新AI系统。
AI的飞速发展同样凸显出该领域的法规和监管机制不够完善及许多伦理问题。对此,世界卫生组织于2021年发布的《医疗卫生中人工智能的伦理治理》指南中提出保护人类自主权、促进人类福祉和安全以及公共利益,确保透明性和可解释性、发展责任和问责制、确保包容性和公平性、促进响应性和可持续性的6大原则,旨在对医疗实践中部署AI提供理论指导框架[28]。医生是医学AI的直接使用者,其对AI的接受度影响着AI能否顺利整合至临床实践。但目前大部分医生几乎没有接受过数据科学和机器学习方面的培训,这限制了他们理解深度学习机制、适当采用算法和进行研究的能力。同样,大多数数据科学家在肿瘤的筛查和管理方面几乎没有经验,这限制了其识别重要且适宜的临床用例的能力。因此,肿瘤科与生物信息学和数据科学部门之间应进一步合作,建立战略伙伴关系,共同开发切合临床需求的AI产品。
由于电子数据的爆炸式增长、深度学习算法的开创性研究和基础设施的进步,AI为肿瘤防控带来新的希望。目前,AI在肿瘤的风险预测、筛查、诊断、治疗反应评估等关键环节均有重要进展,其中利用图像实现肿瘤的早期检测和诊断是研究最多、发展最快的领域。然而AI从研发到临床应用的路上还存在诸多挑战,如健康数据贫乏、算法可解释性差、研究报告不规范、真实世界研究欠缺、监管机制不够完善、长效评估体系缺失等。未来应建立多学科合作网络、搭建数据共享平台、完善法律法规和监管机制,AI相关研究要从临床需求出发、严格遵循已建立的研究报告规范、开展前瞻性真实世界研究、重视对AI在人群整体层面应用的长期效益和成本评估,为肿瘤防控策略的建立和优化提供高质量证据。