数据集在人工智能医疗器械质控中的角色与要求

2019-02-13孟祥峰任海萍

中国医疗器械杂志 2019年1期

【作者】王浩，孟祥峰，李澍，任海萍

中国食品药品检定研究院光机电室，北京市，100050

0 引言

随着深度学习[1]、GPU[2]等软硬件技术的突破，国外人工智能（artificial intelligence, AI）医疗器械产业的发展进入井喷状态，预期用途丰富多样[3-12]。我国也有大量产品进入注册申报阶段。目前人工智能产品大多采用监督学习的技术路径，产品研发、训练、优化都需要训练集，而产品的验证/确认需要测试集，二者都需要优质数据。

人工智能医疗器械监管还处于探索阶段。其中一个重要问题是如何理解和明确数据集在产品质控中的作用，如何对数据集进行评价和规范。企业一般需要准备自身的数据资源，或借助于公开训练集开展研发，与临床试验之间存在广泛的联系和相似性。从数据集的角度打通两个环节之间的壁垒，有助于人工智能医疗器械的科学监管，有助于企业研发与上市的提速降费，对于行业发展意义深远。

基于以上考虑，本文对数据集在国内外的发展概况、国外上市审批过程中的角色、数据集质量要求等关键内容进行研究和探讨，旨在分析人工智能医疗器械专用测试集的定位、准入条件、评价标准，为鼓励全社会开发公用数据集和支撑药监部门上市前审批、上市后监管等管理活动提供有用的信息。

1 国内外医学数据集发展现状

国外建立了很多著名的医学数据集，对医学影像AI的发展尤其是算法训练做出突出贡献，代表包括LIDC（Lung Image Database Consortium）[13]、NLST(National Lung Screening Trial)[14]、Messidor[15]、EyePACS[16]、MIT-BIH心率失常数据库[17]、ChestX-ray8[8]等。表1对它们进行了比对，说明国外数据集的建设思路和特点是多种多样的，尚未形成统一的模式。

表1 国外著名医学数据集的比对Tab.1 Comparison between datasets abroad

国内起步较晚，数据集种类和数量相对有限，代表有阿里天池竞赛使用的肺结节公开数据集等。我国医学数据基数大，门诊量多，后发优势和发展潜力巨大，有必要进行引导和规范，促进优质数据集的发展壮大。

2 FDA各指导原则有关数据集和测试集的内容

美国FDA发布过几部相关指导原则，对于启发人工智能医疗器械监管思路、明晰测试集在医疗器械评价中的作用和要求具有借鉴意义，因此分别介绍如下：

（1）计算机辅助探测（Computer-assisted Detection Devices）提交上市前通知（510(k)）指导原则

该原则发布于2012年7月，对应预期用于处理放射影像图像和设备数据的II类产品，比如生理异常的特征的识别、标记、高亮显示等，与部分AI医疗器械较为相似。该原则要求企业提交510(k)资料时应描述使用的数据库信息，包括训练和测试用的放射影像、设备数据。数据的形式由具体评价方式决定，可以包括计算机仿真数据、体模数据和实际患者数据，其意义在于第一次提出将数据集的描述纳入计算机辅助探测产品申报材料。

（2）计算机辅助探测（Computer-assisted Detection Devices）临床性能评价指导原则

该原则也发布于2012年7月，用于规范计算机辅助探测类医疗器械的临床试验设计，适用于II类产品的510(k)和III类产品的上市前许可（PMA），要求进一步描述临床试验中的数据细节，其意义在于明确要求临床试验数据独立于研发数据，允许使用回顾式和前瞻式两种方式开展临床试验，并强调在回顾式临床试验中重视偏倚控制。

（3）真实世界证据指导原则（Use of Real-World Evidence to Support Regulatory Decision-Making for Medical Devices）

该文件发布于2017年8月，提出在满足质量要求的前提下，真实世界数据可以用于监管活动，包括上市前批准、上市后监管、临床试验、产品分类、公共健康监控等等。该指南明确对数据质量的要求取决于用途。根据这一文件，AI的测试集理论上也可以用于监管活动。

教以生为本，学以悟为根。在语文教材中，很多篇章，或真实生动地展现我们民族的优良传统，或热情讴歌我们民族的精神，或精彩地描绘美丽多娇的祖国山河，或深刻阐述生命的意义等。我们教师要用中华优秀文化的精髓来启发自己的学生，使他们懂得生命的意义和价值，将古诗文的优秀文化内涵在不知不觉中潜移默化地渗透到高中语文课堂教学中来。

（4）医疗器械软件临床试验指导原则

该文件发布于2017年12月，明确软件的临床试验被看做是软件算法验证和确认的结果与预期临床条件之间的关系，可以使用现有临床数据（针对本预期用途采集，或针对其他预期用途采集但经解释可用于本预期用途）。在此意义下推断，以回顾方式采集临床数据建立的测试集理论上可用于临床试验。

以上指导原则，从理论依据的角度说明测试集，特别是回顾式测试集，在满足条件的情况下既可能成为产品验证与确认的依据，又可能充当临床试验，意味着建设优质的测试集，可能起到一箭双雕的作用，加速AI产品上市。

3 FDA已批准的人工智能医疗器械资料中对测试集的描述

目前，从FDA官网提供的资料中，可以发现不少有关测试集的描述，表2中列举了10个与人工智能或计算机辅助探测有关的已上市产品和FDA公开资料中涉及测试集的描述，类别包括5个510(k)、3个de novo和2个PMA。

表2所示的5个510(k)产品都进行了非临床的测试，其中的4个产品没有进行临床试验。3个de novo产品全部开展临床试验（2个为回顾式），除IDx-DR外都进行了非临床的测试；IDx-DR做了前瞻式临床试验，也发表过回顾式临床试验结果[10]。2个PMA产品全部进行了非临床性能测试和回顾式临床测试。表2的内容基本符合前面FDA各指导原则的思想，说明非临床阶段一般需要进行性能测试，使用的数据来源包括临床数据、仿真数据和标准数据集（心电专标）；临床试验广泛使用了回顾式临床。

人工智能医疗器械目前尚未进入我国医疗器械分类目录，根据业内对于其风险的认识，一般分为III类（最高风险），类似于iCAD PowerLook Tomo和QVCAD的监管级别。参考FDA的工作思路，由临床数据构成的测试集对于产品的验证和确认可以发挥重要作用，有潜力用于临床试验本身。

4 对测试集的要求

测试集的监管价值由其自身质量和风险水平决定。考虑成本限制，无论是前瞻式还是回顾式建库，其本质都是对现实数据的抽样，抽样误差和统计偏倚是数据集面临的主要质量风险。

抽样误差主要由预期考察的数据类型的数量决定，数量越高，抽样误差越小。抽样误差可以采用基于二项分布用公式定量描述[7]。数据集设计时如果能明确总容量和要考察的特定病种的患病率，可以估计抽样误差和置信区间，反过来对数据集的规模和患病率设置进行调整。

表2 FDA公开资料中对测试集的描述Tab.2 Description of test datasets from FDA website

统计偏倚的控制是建设数据集的难点，共包括六类主要问题：

（1）选择偏倚：进入测试集的样本不能代表目标人群，包括患者人群和使用者（医生）。患者人群选择偏倚主要以患者准入条件和信息进行控制。使用者的选择偏倚相对容易控制，因为AI的运行环境容易统一，医生对于同一软件产品的操作可以通过培训来提升一致性，消除人员差异。

（2）覆盖偏倚：样本不能覆盖目标人群的全部情形。与（1）不同，覆盖偏倚问题要求的是病种齐全、比例合理，并且考虑同一病种的不同情况，例如并发症等。然而，有些AI产品的预期用途往往把并发症和复杂病理排除在外（例如IDx-DR排除了青光眼），因此覆盖偏倚的风险取决于产品预期用途本身。

（3）参考标准偏倚：样本的金标准不是100%准确。金标准的采集受制于情景、成本和患者意愿，不一定全覆盖。以肺结节为例，只有医生要求做穿刺活检的高风险结节能得到病理信息，而一般的小结节不会获取病理，此时以医生的标注作为参考标准。医生的参考标准可以由专家共识、培训、流程优化等方式控制偏倚，等同于金标准。例如，医学影像专业阅片中心被认为具有较高的可信度，我国的临床评价指导原则也接受中心阅片室作为第三方盲评的一种。

（4）验证偏倚：对诊断价值的验证只使用了参考标准（非金标准）。该问题主要取决于参考标准偏倚的控制。如果医学影像AI产品测试的目的是比较AI结果与医学真相，那么应当加入辅助信息来纠正验证偏倚，例如患者病史、化验结果、遗传等等；如果测试的目的是单纯地比较AI和标注者对单张或单个序列图像的识别，那么验证偏倚的风险会相对可控。

（5）阅读顺序偏倚：多个测试之间比较时，打分者的判断会受到对某组测试记忆的影响。由于人工智能医疗器械的数据集建设和标注大多采用随机双盲的方式，标注者的判断独立于工作进度，不涉及多个测试的比较，该风险影响较小。

（6）情景偏倚：样本的患病率不同于目标人群，从而影响测试结果。情景偏倚与测试集的患病率设计有关，可以通过优化抽样方式或样本入选条件进行改善。情景偏倚主要影响阳性预测值PPV、阴性预测值NPV等统计指标，在测试时应当引起重视。

除此之外，测试集的常规要求还包括隐私保护与数据清洗。首先应根据《中华人民共和国网络安全法》、《医疗器械网络安全注册技术指导原则》等法规的要求，参照美国健康保险携带和责任法案（Health Insurance Portability and Accountability Act，HIPAA）的具体要求，对于原始数据进行脱敏，防止患者隐私泄露。其次，为保证训练与测试效果，应当对原始数据进行清洗，去除重复数据、不完整数据、不可读取的数据和错误数据。

简而言之，一个有能力服务监管的测试集，应当在容量方面满足抽样误差的要求，在数据多样性方面、标注的权威性方面、数据构成等方面满足偏倚控制的要求，同时做到注重患者隐私保护和数据安全。

5 讨论与总结

本文对于人工智能医疗器械发展所必需的数据集的发展概况进行了介绍，结合国外情况和相关文献讨论了测试集在监管中的定位与作用，从理论和实例两个方面证明了回顾式数据集可以用于人工智能医疗器械的非临床评价和发挥临床试验的作用。同时，本文对于测试集的要求和评价角度进行了深入研究，对于回顾式数据集的偏倚问题及解决方案、数据质量控制、标注质量控制等影响数据集质量和风险水平的要素进行了分析，初步确定了如何对测试集进行约束与规范。

从实现的角度考虑，回顾式建库的效率优于前瞻式建库，周期相对较短，数据多样性相对容易满足；从随机性和偏倚控制的角度考虑，前瞻式建库优于回顾式建库，在直观意义上更接近临床试验，患者信息更完整，验证手段更丰富。二者的选取主要由产品预期用途和成本控制决定，评价方式和要求基本一致，都应当满足产品测试要求，避免偏倚。对于训练集，建议按照测试集的要求和实际条件对数据质量、多样性、统计偏倚等内容进行控制。

综上所述，本文论证了数据集在人工智能医疗器械的监管中能够发挥积极作用。有序开发能够替代临床试验的高质量测试集，对于企业、监管机构、医学机构是互利共赢的重要举措，应当鼓励；同时，本文对测试集的质量评价建立了理论依据，为下一步形成测试集评价规范与认证机制打下了良好的基础。