APP下载

欢迎人工智能临床研究的新指南

2020-11-28译者熊云云李子孝丁玲玲谷鸿秋王春娟王春雪王拥军

中国卒中杂志 2020年11期
关键词:回顾性临床试验指南

译者:熊云云,李子孝,3,丁玲玲,谷鸿秋,王春娟,3,王春雪,王拥军,3

目前,人工智能在医学领域的临床试验数量十分有限,因此相关研究方案和报告的首份指南的出现恰逢其时。更好的研究方案设计,以及一致、完整的数据展示将极大地促进对这些试验的理解和验证,并促进该领域向前发展。

过去十年中,深度学习算法在医疗保健领域的应用前景令人兴奋。作为人工智能(artificial intelligence,AI)的亚类型,它能够提高解释大型数据集(如图像、语音和文本)的准确性和速度。然而,若要在患者医疗管理中接受和应用深度学习,尚需要随机临床试验的证据支持。

随机临床试验在19世纪80年代初期开始广泛应用,旨在为医学实践提供证据基础,但是直到近二十年后的1996年,才制定出《试验报告统一标准》(Consolidated Standards of Reporting Trials,CONSORT)[1]。相比之下,AI,特别是深度神经网络,在医学中的应用仍处于初级阶段,使用AI的临床试验直到过去两年才开始。Nature Medicine杂志新发表两篇姊妹篇文章,分别针对AI干预试验方案报告标准(Standard Protocol Items:Recommendations for Interventional Trials-Artificial Intelligence extension,SPIRIT-AI extension)和出版(CONSORT-AI extension)的指南进行了介绍[2-3]。

1 回顾性分析仅为第一步

虽然目前有数百篇AI“临床试验”范畴的回顾性报告,但这些并不是真正的试验。尽管这是奠定基础的必要步骤,但这些研究是通过对数据集进行计算机评估来研究深层神经网络执行临床任务的能力,并将其与少数医师的工作进行比较。此类AI研究没有模拟临床实践,而是处理清洁的、相对原始的、带注释的数据集。相比之下,真实的医学世界是混乱的,广泛存在缺失数据和非结构化数据,其重点是管理患者而不是为研究分析提供“原料”。决不能忽视临床环境与计算机模拟环境的鲜明差别,因此需要进行AI的临床试验。

目前共有2篇关于AI临床研究的系统综述和Meta分析,这也说明了这方面的研究严重不足[4-5]。一项对82项研究的综述发现,这些试验的报告缺乏某些关键方面的信息,从而导致数据、某些关键术语及这些关键术语定义的缺失。作者还发现,模型性能和效度指标变化很大,缺乏外部验证(在测试和内部验证之外的样本外验证)。尚没有一项研究进行样本量计算以保证研究的功效。最大的问题是深度学习模型很少将算法和医疗专业人员对相同数据集进行评估的综合方法进行比较。另一项对81项研究的综述肯定了之前综述的观点,并进一步指出了其他不足[5]。其作者发现:研究透明度存在重大问题;用于可重复性评估的可用数据集和代码有限;可以与算法性能进行比较的临床医师数量非常少;结论夸张。这种临床医师与机器的较量是临床实践的对立面——临床实践总需要人的参与,至少在任何重要的、严肃的诊断中应该如此。我们不能仅仅依靠神经网络来决定患者的生死。

2 人工智能临床试验案例

患者管理相关的前瞻性试验至关重要。例如,AI在医学领域的首批重要研究之一:将深度神经网络与21名经认证的皮肤科医师通过分析病变照片进行皮肤癌诊断比较[6]。当皮肤科医师评估皮肤病变时,他们不是单独地分析一张照片,而是结合患者的病史和体格检查,这与深度神经网络的使用非常不同。此外,曾有多项回顾性研究发现,视网膜成像算法诊断糖尿病性视网膜病变的准确性是显著的、近乎完美的。但是,首次使用这些算法的前瞻性试验发现,其诊断准确性虽然是可接受的,甚至可视为自动化诊断的进步,但并不是很高[7]。因此,医疗领域中AI的回顾性研究仅可提供一些假设,通常为理想状态,并不能作为确定的支持证据。然而不幸的是,目前美国食品和药物管理局(Food and Drug Administration,FDA)对算法的审批大多依赖于这样的初步证据[8]。此外,私营公司用于开发算法的回顾性数据很少被公开,因此对于计划将基于它们所研发的算法用于患者诊疗的临床社区来说,这是不透明的,可能无意中伤害真实诊疗的患者。

虽然这并不是AI算法的意图,但临床算法可能无意中造成伤害。当一种算法内部存在偏差,或者该算法开发时所基于的群体不能很好地代表它将被应用的群体时,可能会出现严重的诊断误差或预测误差。一旦应用于临床实践,鉴于这类软件的可扩展性非常强,可能很快就会对患者产生潜在的无意的伤害,并呈指数样增加。为了识别和理解算法导致这种危害的可能,来自临床试验的可靠证据就必不可少。

3 新时代需要新的指南

AI临床应用的最终证据将来自于随机试验,理想情况是这些随机试验通过临床医师与算法相结合,来比较深度学习算法与临床医师的诊断准确性。目前,仅有约12项前瞻性试验(表1)和7项随机试验(表2)的公开信息。7项随机试验中有6项与内镜息肉诊断相关,到目前为止,除1项以外,其他研究均在中国进行(表2)。有限的前瞻性和随机试验,表明AI在医学领域的应用尚处于萌芽阶段。

表1 在临床环境中评估人工智能深度神经网络性能的前瞻性试验

表2 医疗领域人工智能深度神经网络的随机试验

这个潜在的AI临床实践转折点并没有被浪费,医学AI临床试验必须以透明和无伤害的方式进行,这也是出台新指南的关键所在。值得一提的是,这些指南的产生是由一个庞大的国际跨学科团队经过多个阶段的艰苦工作完成的。起草之初,先是由在临床试验开展和方法学方面有丰富经验的学术工作者组成的指导小组对300多项注册试验(仅7项已发表,62项已完成)进行审查,之后进行了为期两个阶段的专家调查(德尔菲研究审查),并由169名跨学科专家就候选内容(“项目”)进行投票,最终于2020年1月在伯明翰大学举行了为期两天的共识会议。会议产出了15个必要项目,以用于临床试验研究方案和报告两种独立清单形式呈现。这些项目旨在弥补目前AI医学研究存在的关键不足,增加临床试验的可重复性和独立评估的简易性。

简单来看,深度学习模型由输入(数据,如图像)和输出(解释或预测,如胸部X光片是否表明存在肺炎)组成。在AI的临床试验中,对于输入环节,我们必须知道患者的纳入和排除数据,它们对于相关的临床问题的代表性如何,以及数据的质量和来源。对于输出环节,也有许多重要特征,比如它们是如何被具体化的,对临床决策的贡献等。指南规定研究需要提供大量关于算法本身的信息,比如是哪个版本,在测试和内部验证期间发生的更改,以及模型的拟合度等。需要避免医疗数据的过度拟合,即将狭隘的分析结果推广到更广泛、无限制的临床环境中。该指南要求详细说明如何检测、预测和解释任何已经产生的错误,这将有助于说明AI应用的相对安全性。此外,试验中人类-AI的交互必须被阅读临床试验的读者完全理解,为此,作者以一个结肠镜临床试验为例,说明了为什么读者需要了解供胃肠病专家审查使用的视频片段是如何准备的细节[2-3]。同时,机器学习依赖于正确标注数据,标注数据代表着绝对正确的标准,但建立算法时所基于的标注数据可能不是实际的真实数据,推荐建议中要求详细说明这些细节。这些只是两个指南组确定的对于构建研究方案和出版很重要的一些项目。

毫无疑问,建立这些标准和保持透明度将有助于推动这一领域的发展。但必须承认,关于临床试验的最佳实践,还有更多方面需要注意,未来几年中可能会修订新的标准。目前指南主要是以影像数据为中心,对语音和文本数据尚无有意义的详细说明。目前,几乎所有的临床应用都使用了监督学习,如何处理无监督、自我监督形式尚存在疑问。此外,几乎所有的临床试验都仅包含与医疗专业人员相关的AI,AI中患者自我诊断的功效并没有被证实。目前已经有深度学习算法被消费者大规模使用,如智能手表上根据静息心率诊断心房纤颤的应用程序[9]。目前还没有任何在真实世界进行的前瞻性、使用后试验来进行另一种形式的验证。除了实用性评估外,此类研究还将面临其他挑战,包括软件故障和恶意的敌对攻击。

深度神经网络的一个特殊优势是其自动学习能力,学习的数据越多,性能越好。然而目前的指南还没有解决这个问题,就像监管机构一直在努力解决这个问题一样。显然我们希望利用这种能力为医疗服务,但不确定的是,一旦算法进一步“学习”,其性能是否会与已公布的临床试验证据之间产生偏差。相反,目前当一个算法发布后,它会被冻结,这就抑制了AI潜在的最强大的一部分能力。

我们将期待未来CONSORT-AI 和SPIRIT-AI团队进行更新,以解决医疗AI应用于现实世界时所面临的问题。现在,我们需要对他们为提升AI医学研究的标准所做的努力表示深深的感谢。

文章来源:TOPOL E J. Welcoming new guidelines for AI clinical research[J]. Nat Med,2020,26:1318-1320.

本翻译获得Nature Medicine出版社同意,参见知识共享许可http://creativecommons.org/licenses/by/4.0/。译文对原文未做删减。

猜你喜欢

回顾性临床试验指南
手外伤住院患者临床特征回顾性研究
重症监护室中合并肥胖脓毒症患者的预后——基于MIMIC-Ⅲ的回顾性队列研究
美国特战司令部参与抗衰药临床试验 合成一百余种新型NAD+增强剂
品管圈在持续改进医疗器械临床试验全周期质量控制中的应用
索拉非尼治疗肝移植后肝细胞癌复发的单中心回顾性分析
回顾性评估钆塞酸二钠增强MRI和磁共振弥散加权成像检测小肝细胞癌的准确性
参加临床试验,也要“顺道”
做事如做药
指南数读
论碰撞的混搭指南