人工智能医疗器械标准体系设计探索
2021-12-31王浩唐桥虹郝烨孟祥峰李佳戈李静莉
王浩,唐桥虹,郝烨,孟祥峰,李佳戈,李静莉
中国食品药品检定研究院 医疗器械检定所,北京 102629
引言
人工智能(Artificial Intelligence,AI)医疗器械在我国发展较快,目前已有十多个产品获得第三类医疗器械注册证,技术转化和临床应用步伐加快。为支持产业发展,我国药品监管部门开展了卓有成效的监管研究,在AI医用软件产品的分类界定[1]、AI医疗器械产品的审评审批[2-5]、软件产品生产质量管理[6]等环节发布了多个重要的指导原则和技术文件,对产业提供指导。2019年,国家药品监督管理局正式成立了AI医疗器械标准化技术归口单位,组织我国AI医疗器械标准的制修订,为监管和产业提供技术支持,目前已有两个行业标准完成报批[7-8]。
标准体系的设计是开展标准化工作的基础。由于AI医疗器械是医疗器械领域新的分支,目前相关的国际标准化组织尚未建立专门的技委会。欧美国家近年来相继发布了各自的AI标准规划,我国的国家标准化管理委员会在2020年也发布了《国家新一代人工智能标准体系建设指南,我国的AI医疗器械标准体系建设需要结合行业实际进行探索。
由于我国的AI医疗器械产业刚刚起步,来自教育、科研、监管、临床等领域的利益相关方参与标准化工作的热情高涨,思路较为多元化。本文对于AI医疗器械标准化的趋势进行了梳理,对AI医疗器械标准体系的发展方向提出了建议,旨在促进AI医疗器械标准化进程,完善质量评价体系。
1 标准化发展趋势
1.1 行业前沿动态
从监管历史来看,对AI产品的监管思想建立在传统计算机辅助诊断软件基础上,不断发展变化,趋于严格。美国食品药品监督管理局(Food and Drug Administration,FDA)在2019年提出了良好机器学习规范(Good Machine Learning Practice,GMLP)的概念[9],探讨产品的变更和再评价问题,旨在缩短算法更新后的评价周期。在征求社会意见的基础上,FDA提出了AI/机器学习医疗器械软件行动计划[10],在调整监管框架、发展GMLP的同时,提出了以患者为中心、对用户的透明度、算法偏倚与鲁棒性评价、真实世界证据。欧盟 在“可信赖的AI”伦理思想[11]基础上,把AI的风险控制纳入立法环节,其中医学AI属于高风险应用。
从国际标准化活动来看,信息技术领域(通用AI、软件测试等)、医用电气设备等诸多领域的标准化成果,对AI医疗器械的标准化有借鉴意义。表1列举了近3年来国外已发布的相关标准化文件,来自国际标准化组织(International Organization for Standardization,ISO)、国际电工委员会(International Electrotechnical Commission,IEC)和美国国家标准化组织(American National Organization for Standardization,ANSI)等。
表1 国外相关标准化文件汇总
从信息技术领域的角度看,ISO、IEC在大数据参考架构、AI术语、AI可信赖性、AI软件测试方法等方向开展大量工作,形成了较多的技术报告(Technical Report,TR)。从医疗器械角度看,IEC在医疗器械自治能力方面形成了TR,与AI医疗器械存在密切联系。从美国ANSI/CTA的情况看,医学AI的术语定义、可信赖性形成了标准,以阐述概念为主,内容较为简短,不涉及具体产品的验证、确认、测试。
从国外产品公布的上市申请资料来看,这些产品在性能指标、测试方法、测试集等方面存在较多的差异,尚未建立统一的范式[24]。从国外算法模型评价与比对的情况看,AI的临床应用还受到不少问题的制约,例如预期用途描述不清晰、算法偏倚、过拟合、测试结果难以重复、数据管理混乱等[25]。在临床研究领域,AI产品专用的临床试验报告要求也成为了研究热点[12,26]。
1.2 质量评价实践的演化
在产品质量评价的实践环节中,对AI医疗器械产品算法性能的评价也在演化发展,对标准体系的建设同样提供了重要的启示。本节以糖尿病视网膜病变辅助诊断软件为案例,介绍质量评价思路的变迁。
在起步阶段,此类产品的质量评价工作立足于测试集的整体结果,反映统计学意义下的总体表现。一般来说,测试人员需要收集来自不同地区、不同机构、不同临床分期的患者眼底图像构建测试集,比较AI给出的分期与参考标准的分期,从而计算准确率等主要指标。
为扩展对产品鲁棒性的认识,测试人员可对眼底图像进行裁剪、插值、滤波等处理,模拟临床环境下的数据变化和硬件变化,把处理后的图像输入AI产品,观察其输出的变化。此类测试也称为对抗测试[2],侧重产品性能变化的趋势,有助于制造商更好地限定产品的部署使用环境及数据质量要求。
在AI伦理思想的推动下,AI的可解释性、可预测性等要求正在影响产品的质量评价思路。AI产品性能的“拐点”成为质量评价关注的新问题,即了解AI的性能在何种条件下出现显著的偏离。本文设计了算法测试用例,对于糖尿病视网膜病变辅助诊断算法的“拐点”进行观测和举例。
由于眼底图像上的出血斑是临床医生、AI产品进行图像分期的重要依据,而出血斑的尺寸因患者而异,具有临床多样性。为了直观地研究出血斑尺寸对AI算法的影响,从增殖性糖网病变的眼底图像上提取出血斑的图像,按照不同比例线性改变其尺寸,使用泊松融合算法[27]植入另一幅健康的眼底图像,从而合成试验样本。根据医学定义,合成的图像属于糖网二期,属于需要临床转诊的分期。
将合成的系列图像输入开源的糖网AI算法模型,可得到AI分期结果随出血斑尺寸变化的曲线和“拐点”(图1)。随着出血斑尺寸的增大,AI的分期出现了阶梯式的上升;当出血斑的尺寸低于20像素时,算法给出的是假阴性结果;当直径大于等于20像素时,算法的分期结论保持正确。这意味着出血斑的尺寸对AI的准确性有直接的影响,制造商在临床部署时需更加细化明确产品的适用范围,开展针对性的验证和确认。该案例所体现的AI算法性能变化,也反映了AI与人类医生认知模式的区别,有助于用户了解AI本身性能的限制。
图1 糖网AI算法分期结果与出血斑直径的关系曲线
通过上述案例可以发现,AI产品的质量评价宜下沉到算法的工作过程中,关注AI在患者个体、病灶个体上的表现,了解算法的偏倚与能力限制。这种测试思路有助于完善AI医疗器械的方法标准、产品标准。
2 标准体系设计建议
根据上述情况,AI医疗器械的标准化,需要以问题为导向,在应用中落地。本节对AI医疗器械的标准体系设计提出建议。图2所示为AI医疗器械标准体系框架图,分为基础标准、管理标准、方法标准和产品标准四大板块,各板块又可展开成不同的角度。
图2 AI医疗器械标准体系框架图
2.1 基础标准
以深度学习为代表的新一代AI算法的工作方式具有黑盒特性,难以直观地理解,因此利益相关方对产品质量缺乏充分的了解和信任,在人机互动方面存在一定的疑惑,制约着AI的应用落地。因此,AI医疗器械产品的安全有效应包含可信赖性、透明度、可解释性、可溯源性等一系列内在要求。这是建立健全基础标准的一大出发点,需要在产品的安全可信、编码溯源、隐私保护、人机交互、可用性等方面开展工作,对上述质量特性加强控制,增强利益相关方的信心。
根据研发现状,AI产品设计受到数据、算法双重驱动,高质量的数据集是研发活动的物质基础;产品形态以独立软件、软件组件为主,算法的质量与软件的特性密不可分;产品运行环境日趋灵活,与互联网技术高度融合。上述因素对产品质量有直接的影响。因此,基础标准还需要在数据集、数据标注、算法框架与模型、软件特性、网络安全等角度开展工作,加强产品的质量保证。
2.2 方法标准
由于AI算法具有黑盒特性,产品的质量评价目前主要关注输入-输出之间的关系,性能指标测试结果与输入的测试集有一定的关联,产品在真实世界中的表现也可能随数据发生变化。因此,AI医疗器械的质量评价方法与传统医用电气设备、医疗器械软件存在较大差别。
从需求来看,AI医疗器械的方法标准需要解决算法模型、成品的质量评价需求,包含上市前验证与确认、临床验收与质控、真实世界监测等各个环节。不仅考虑常见的性能指标(如灵敏度、特异性等),而且对AI特殊的质量特性进行评价,如鲁棒性等。质量评价的维度需要从患者整体向个体进行扩展,关注算法的细节表现。此外,根据惯例,质量评价过程需要调用的方法、工具、平台,也应作为方法标准的一部分进行考量,例如用于扩增测试数据的方法等。
2.3 管理标准
AI医疗器械的发展依托于数据、算法、算力,验证和确认的方式比较特殊,产品的更新迭代频繁。其生产质量管理一方面执行现有法规[6]和质量管理标准(ISO 13485、YY/T 0287等)的通用要求,另一方面需要规范AI算法、数据集[28]本身的设计开发流程、生命周期管理,对算法更新与再评价的框架进行创新,对云平台、计算平台等特殊的生产设施加强管理,对标注人员[29-30]、数据采集人员的选拔、培训、质控进行统筹。AI医疗器械管理标准的研究,还应借鉴医疗器械软件监管与标准化的思想[31-32],强调预防不良事件、加强产品版本控制与追溯。此外,管理标准的落地,需要具体领域技术规范的支持,例如在数据集标注与建设方面编写配套的专家共识[33]。
2.4 产品标准
目前,我国已上市的AI医疗器械产品预期用途包括辅助诊断、辅助检测、辅助分诊等,数据模态包括了CT、MRI、眼底彩照、心电、X线等。由于在每个细分方向的产品数量还不够丰富,产品标准的制订条件尚不成熟,目前暂时处于预研状态,将根据产业发展规模和监管需求提上日程。AI医疗器械的产品标准将明确具体产品的功能、性能指标、试验方法、检验规则等内容,对基础标准、方法标准进行呼应。产品标准也包括AI医疗器械附件、原材料(包括数据集)的专用要求、指标、验证方法。
3 讨论
我国的AI医疗器械标准体系建设,在学习借鉴国际经验的同时还需要兼顾国情,与国外存在一定的差异:一方面,国外的标准研究来源于软件测试[20]、通用AI[19]、大数据[12]等已有的标准化领域和组织,与医疗器械行业的结合比较薄弱,缺乏集中的顶层规划。国内的AI医疗器械标准化工作在药品监管部门领导下,立足于监管需求,标准化的对象更加丰富,考虑了产品的通用质量特性、性能与安全指标、评价方法、原材料(数据集)等各个方面,以及生产质量管理的各种要素(如数据标注),覆盖产品的全生命周期;另一方面,由于AI技术本身处于快速发展中,国内的标准化工作一般立足于行业的普适性、阶段性成果,对于具体产品的设计工艺、核心部件、技术细节和最新进展的关注程度还不够充分,在细粒度和时效性方面可能存在不足,标准的前瞻性有待提高。
本文在国内外文献调研和产品测试实践基础上,对我国AI医疗器械标准体系的设计策略进行了研究,分析了基础标准、方法标准、管理标准、产品标准各自的发展需求,并对产品质量评价的发展方向进行了展望。AI医疗器械标准的发展,一方面应与我国的监管法规做好衔接,发挥技术支持作用,另一方面应及时吸收国际前沿思想,更好地管控AI医疗器械的特殊风险,提高对产品质量的认识和评价能力。