人工智能目前存在的问题及临床试验设计思路
2019-03-09孙嘉伟卢坤明广州奥咨达医疗器械技术股份有限公司广东广州510006
孙嘉伟 卢坤明 广州奥咨达医疗器械技术股份有限公司 (广东 广州 510006)
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
目前人工智能在医学领域的应用场景多种多样,主要的应用场景为:“需要重复学习才能掌握的技术,且诊疗技术已经固定的医疗情景”。其目的主要是减少医生的重复劳动。但总体上可以分为以下几大类:①疾病诊断;②健康管理;③图像分析;④手术引导;⑤诊疗规划。
虽然目前人工智能可以大体上分为以上几大类,但它们有时是相互联合,共同发挥临床用途。比如一些健康管理系统不仅可以用患者的健康数据进行管理,同时还会提出诊疗意见。
1.人工智能目前存在的问题
虽然人工智能在医学领域的应用越来越多,但这些产品还存在一些不成熟的地方,正是这些不成熟可能会影响人工智能未来在医学领域的应用。技术开发人员应对这些问题有一个合理的认识,才能避免存在夸大和误判产品技术水平的情况。人工智能目前存在的问题主要是以下几大类。
1.1 数据质量
人工智能的研发是基于大量的诊疗数据,数据质量直接决定了产品开发以及它的结果运算。如果医生对患者是否存在眼底病变都不能做出正确的判断,很难期待基于此类数据所研发的产品也能做出正确的判断。如果产品研发阶段没有对数据质量进行识别,一味的追求大数据,可能会导致数据库的数据质量不高,甚至出现错误的地方,进而最终影响产品的结果输出。
1.2 数据标准化
有些诊疗数据为文字性描述,其描述过程具有较大的自由度,不同的医生对同一情况可能会存在不同种说法。目前的人工智能对于识别自然语言还是不及人脑,有时定性数据的标准化还需要人脑的协助。因此未来如果人工智能要有长足的发展,医疗数据的标准化是一个极其重要的基础工程,需要花费大量的人力物力进行建设。
1.3 数据采集硬件存在差别
诊疗数据有时需要基于一定的硬件设备才能采集,比如血压计、心电图等等。由于每家硬件设备生产商的技术路线、原材料、质量控制、器械原理等各不相同。所以同一类数据由于采样设备的不同,可能存在系统误差。真实的医疗环境中,每个医疗机构的医疗设备都不可能是一样的,这就为人工智能产品的硬件适配性带来了很大的挑战。
1.4 患者隐私信息的保护
目前的人工智能产品都逐渐采用云平台和云计算的数据管理方式。此时患者数据的储存和分析都在医院的监控范围之外,如何保证这些数据的安全以及不被非法利用是人工智能产品在未来需要首要解决的合法性问题。
1.5 法规监管不完善
目前中国还没有专门针对人工智能产品的法规,特别是针对机器学习、神经网络模型等这种新技术、新方法,以及应用在自动诊断的产品。类似的法规只有《医疗器械软件注册技术审查指导原则》和《医学图像存储传输软件(PACS)注册技术审查指导原则》,但这两份指导原则无法应对目前人工智能产品申报注册所面临的一系列挑战。而FDA相关的法规也只有《Clinical Performance Assessment: Considerations for Computer-Assisted Detection Devices Applied to RadiologyImages and Radiology Device Data -Premarket Approval(PMA) and Premarket Notification [510(k)]Submissions》和《Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Notification[510(k)]Submissions》这两份指导原则也仅仅只能作为类似产品的参考。配套监管法规的缺失,给这类产品的注册检测和临床试验都带来了不小的挑战,使得这类产品在申报注册时存在一定的不确定性。
1.6 软件的更新迭代
对于IT类产品,其软件的更新迭代是非常快而且频繁的。诊疗产品的首要关键问题不是算法创新、算法优化、界面美观、使用体验,而是其结果的准确性。它准确性可能会影响医生后面的诊疗措施,一旦出现错误可能是难以挽回的。可以预见,审评机构对产品的迭代更新是非常重视的,每一次软件迭代更新,特别是核心算法的迭代更新都将是产品的许可变更事项,都有可能导致需要重新评估产品的风险受益比。
此外,有些人工智能产品在使用过程中,随着数据量的提升,其算法的准确性可能会不断改变,这种改变是正向的还是负向的可能不得而知。对此,审评机构可能会要求企业定期提交产品相关数据,以评估这种变化对产品的风险受益比的影响。
1.7 医学伦理问题
人工智能是否可以真的替代医生,谁将对其诊疗结果承担法规责任,如果是算法出现问题人工智能研发公司是否要承担全部责任;如果医生依靠人工智能出现诊疗错误,医生应该承担什么的责任;这将是需要讨论的问题。目前的人工智能只是辅助医生进行诊疗,最终的诊疗结果还是应由医生做出。但人工智能的“误导”可能成为医院与企业未来的纠纷点。
2.人工智能产品的临床验证
目前图像分析类人工智能产品逐渐火热,鉴于目前图像分析类人工智能产品开始越来越多的进行临床试验,本文就对这类人工智能产品进行分析论述,希望可以引发大家对这类产品临床试验设计的思考。
2.1 图像分析类人工智能产品的本质
图像分析主要目的是为医生提供辅助诊断结果。虽然目前人工智能图像分析类产品各种各样,但如果将其各种预期用途简化,其本质就是“诊断产品”。那么临床试验设计思路就需要按诊断试验的方法进行,而诊断试验的主要目的是验证待评价方法与“金标准”或参考方法对某种测量参数判断结果的一致性以及其程度。
2.2 定量还是定性诊断
在进行诊断试验设计前,企业首先要明确的问题是:产品属于定量诊断还是定性诊断,或者说侧重于定量诊断还是定性诊断。需要说明的是:在某些条件下,定量指标是可以转换为定性指标。如,以1cm为分界点(Cutoff值),当CT图像中发现大于1cm的结节时可认为存在“阳性”结节,当CT图像中发现小于1cm的结节时可认为存在“阴性”结节。此时根据分界点就可以将定量指标转换为定性指标。
2.3 适应证或适用范围
企业在撰写适应证或适用范围应仔细斟酌用词,应结合产品的特点,客观的描述产品的适应证或适用范围,切忌不要为了突出产品特点而有意夸大适应证或适用范围。
根据目前图像分析类产品的研发规律、所存在的问题以及医学伦理等,建议企业在撰写适应证或适用范围时应选择“辅助诊断”的描述,而谨慎使用“诊断”的描述。
在撰写产品所涉及的疾病或症状时,要区分针对的是某种特定的疾病还是某种特定的症状。如“用于视网膜眼底病变的筛查”还是“用于糖尿病视网膜眼底病变的筛查”。
因此,企业在描述产品的适应证或适用范围时,应结合产品的研发数据,判断产品的研发数据是针对于“疾病”还是“症状或体征”,如果研发数据是针对“症状或体征”的判断,那么在适应证或适用范围就不要夸大为针对某种“疾病”。
2.4 金标准的选择
诊断试验的主要目的是验证待评价方法与“金标准”或参考方法对某种测量参数判断结果的一致性以及其程度。因此,“金标准”或参考方法选择就至关重要。但由于目前图像分析类人工智能产品的算法各不相同,且已上市的同类产品很少,所以目前图像分析类人工智能产品还是选择“金标准”作对照。
图像分析类人工智能产品主要是对医学图像进行分析,因此这类产品的“金标准”一般都是医生判读结果。但在选择医生判读结果作为“金标准”应注意以下问题:①最好是采用公认的“金标准”。如果是采用量表作为“金标准”,需要保证量表的信度和效度是经过检验的;②为保证读片数据的客观性,图像数据可以采用中心化阅片的方式进行;③可采用设置图像结果讨论小组的方法对读片不一致的情况以予解决。
2.5 目标人群的考虑
图像分析类人工智能产品除了要有发现目标疾病的能力,还要有排除非目标疾病的能力。因此,在受试者选择时既要包括“阳性”患者,也要包括“阴性”患者;既要包括有病情较轻的患者,也要包括病情较重的患者;既要包括有典型的患者,也要包括非典型的患者或易混疾病患者。如果受试者选择,特别是对照组患者选择不当,其临床结果将是不可靠的,结果也难以在一般人群中进行推断。
2.6 评价指标选择
根据图像分析类人工智能产品的最终分析结果,其评价指标主要为定性指标和定量指标。定性指标主要有:灵敏度、特异度、符合率和Kappa值。定量指标主要有:离群点检查、回归拟合方程、Pearson相关系数、Bland-Altman图、医学决定水平处偏倚。
2.7 样本量的计算
由于定量诊断可在一定条件下转换为定性诊断,定性诊断为较为固定的样本量估算公式。因此,人工智能样本量一般采用定性诊断样本量计算公式。下文以定性诊断样本量计算公式为例,来讲解样本量计算过程。
根据《医疗器械临床试验方案设计指导原则》后的诊断试验样本量公式,定性的样本量估算需要分阳性受试者和阴性受试者两部分,分别按照诊断试验样本量估算公式(1)进行计算。
Z1-α/2正态分布分位数,)为方差函数,通常V()=θ(1-θ),θ为灵敏度或特异度,L为估计误差,可以取参考文献报道的置信区间宽度的1/2以下。
以灵敏度为例,某诊断眼底病变的人工智能软件预期灵敏度为89%,规定双侧α=0.05(Z1-α/2=1.96),灵敏度估计误差为±0.05计算得阳性受试者为151例。考虑合适的脱落率(通常不超过20%)来使样本量达到189例,以保证纳入分析的阳性受试者至少为151例。
然而,根据《医疗器械临床试验方案设计指导原则》后的诊断试验样本量公式算出的阳性病例数和阴性病例数是理论数值,但是实际的诊断试验过程中,由于无法提前预知目标人群的阴阳性比例,所以在分组前必须先用“金标准”或其他方法先将患者的阴阳性区分出来,然后再从这些患者中选择阴阳性受试者。由于实际目标人群中的阴阳性比例与理论值的比例不一样,这就导致实际参与筛选的患者要多于理论值,且这个筛选的患者数量与目标人群中的阳性率相关,阳性率越高,需筛患者就越少。
为了有更高的概率获得阳性受试者,可以考虑在眼科专科医院进行试验,假设来该专科医院就诊的患者有50%机会患有眼底病变,则可以通过公式(2)计算阳性受试者和阴性受试者总数Ntotal。
假设Prev=50%,n=189,Z1-β取正态分布曲线下95%对应的界值1.645,计算得至少纳入412例患者。因此,有95%的把握认为412例患者中至少有189例受试者患眼底病变。
因此,样本量估算时会看到两组数据,一组是阴阳性患者理论值,一组是受试者筛选数量。
2.8 其他注意事项
图像分析类人工智能产品进行临床试验时除了考虑上述问题外,还有一些问题是需要注意的。
①重复使用受试者数据。由于这类产品只是对患者的图像数据进行分析,有时可能存在重复使用同一名患者不同时期的图像数据。当然如果是有意对测量结果的可重复性进行分析时除外;②这类产品的注册试验不建议采用历史数据进行分析;③“金标准”与人工智能算法天生的存在不一致的情况,特别是产品研发时采用了没有经“金标准”标注的数据,其算法结果与临床试验结果的差异需要企业认真考虑;④如何获取高质量的图像可能是临床试验前需要企业关注的一个重点,在必要的时候可能需要对图像拍摄者进行培训;⑤在进行临床试验前企业前考虑参研单位硬件条件,特别是图像采集软件是否可以满足试验要求;⑥为客观评价产品的性能,建议企业对分析结果的测量精密度进行分析。即,对同一个人同一个时期内的多幅照片进行分析时,结果的一致性;⑦建议参研单位对其进行统一的培训,必要时可以选择一些高年资的医生参与“金标准”判断。
3.总结
目前人工智能产品火热,但火热的背后还是有许多问题值得思考,希望以此篇文章抛砖引玉,引发大家的思考。