论医疗人工智能“黑箱”难题的应对策略和规制进路
2021-12-15李润生
李润生
(北京中医药大学 法律系,北京 100029)
一、背景介绍及问题的提出
人工智能(Artificial Intelligence,简称AI)在医疗领域有广阔的应用前景(1)另一领域为交通领域。参见普华永道《全球人工智能报告:探索人工智能革命》,(2017-05-01)[2020-11-10],http://www.199it.com/archives/641779.html.。AI在辅助诊断、辅助治疗等方面已被证明具有重大价值和显著优势,例如,谷歌公司开发和训练了一种医疗AI,它比病理学家更擅长发现难以检测的转移性乳腺癌。据统计,人类病理学家对这种癌症的诊断准确率只有38%,而AI的准确率则高达99%(2)Martin Stumpe, Applying Deep Learning to Metastatic Breast Cancer Detection, (2018-10-12)[2020-11-10],https://ai.googleblog.com/2018/10/applying-deep-learning-to-metastatic.html.。再如,IBM公司开发的沃森(Watson)系统给出的诊断建议与医院肿瘤委员会的诊断建议在96%的受试者中保持一致,而筛查时间则缩短了78%,而且,Watson系统还可通过深入分析患者个人数据、药物临床试验数据等,辅助医生制定个性化的治疗方案(3)Alice G. Gosfield, “Artificial Intelligence and the Practice of Medicine”,Health Law Handbook, 2019, 7, pp.1-15.。医疗AI还有很多其他的应用实例,并仍在快速拓展。我国也在医疗AI领域积极探索,并已逐步从产品验证阶段过渡至市场验证阶段(4)陈鹏:《中国医疗人工智能现状分析:从产品验证进入市场验证》,《互联网经济》2020年第1期。。应当说,医疗AI对于缓解我国医疗资源总体供给不足、分配失衡等顽疾具有重要意义。国家高度重视医疗AI的发展,国务院发布的《新一代人工智能发展规划》明确将“智能医疗”作为重点发展领域,《关于促进“互联网+医疗健康”发展的意见》也将推进AI技术在医疗领域的应用作为重点任务。
不过,目前医疗AI走向广泛应用的最大阻碍和担忧在于其“黑箱”(Black-box)属性。所谓“黑箱”属性,是指其输入和输出均是可见和可理解的,但从输入到输出的过程则缺乏透明度,亦即,AI的计算过程是无法解释和理解的(5)W. Nicholson Price II, “Regulating Black-box Medicine”,Michigan Law Review, 2017, Vol.116, pp.421-474.。这并非设计师的故意刁难,而是AI的固有属性,很多时候,AI的设计者也无法解释AI的决策。缘何如此?AI是一种高算力和高数据量的计算方式,计算过程极其复杂,计算量极其庞大,加之实践中的大型算法通常是多种算法的叠加组合,这已超出人类智力可理解的范围(6)苏宇:《算法规制的谱系》,《中国法学》2020年第3期。。更重要的是,目前医疗AI领域的主要算法类型为新兴的机器学习(Machine Learning,ML),即根据给定的数据自动改进、不断优化的演算法(7)Alice G. Gosfield, “Artificial Intelligence and the Practice of Medicine”, Health Law Handbook, 2019, 7, pp.1-15.。和传统算法相比,机器学习基于数据而非规则,它并非按照预先设定的规则重复演算,而是根据既往的运算经验不断调整规则,也就是说,算法本身是在不断学习和调整的。“此一时,彼一时”。这让人类理解变得更加困难。即使最初的算法(即源代码)是透明和可知的,随着数据的累积和训练的增加,人类亦无从知晓后续的计算逻辑。例如,AlphaGo是一种典型的机器学习算法,但它的开发者也无法解释其与人类围棋冠军对弈时的落子和布局。此外,作为机器学习的特殊形态,深度学习(Deep Learning,DL)代表着AI的发展方向,也是医疗AI领域最重要的应用形式,我国药品监督管理局就专门发布了《深度学习辅助决策医疗器械软件审批要点》(以下简称《审批要点》)。深度学习是一种类脑的计算方式,它模仿人脑神经网络的多层计算结构,在编程中设计了多个隐藏层(layer),以多层自编码的形式进行演算和训练。与一般机器学习相比,深度学习可以实现自我学习、自动提取特征而无须人类的辅助。例如,DeepMind公司后续开发的AlphaGo Zero就是一种深度学习算法,它无须像AlphaGo一样由人类输入大量的棋谱数据而进行训练,它由一块空白棋盘和游戏规则开始,通过和自己对弈数百万局,便可达到远高于AlphaGo的围棋水平(8)David Silver, Julian Schrittwieser, Karen Simonyan, et al, “Mastering the Game of Go Without Human Knowledge”,Nature, 2017, Vol.550, pp.354-359.。解释深度学习型医疗AI几乎是不可能完成的任务。人工智能、机器学习和深度学习的关系参见图1。退一步说,即使医疗AI可以进行计算机和数学层面的解释,它也很难转换成有意义的医学层面的解释,因为医疗AI始终是一种统计学上的相关性分析而非医学上的因果性分析(9)Sarah Kamensky, “Artificial Intelligence and Technology in Health Care: Overview and Possible Legal Implications”,DePaul Journal of Health Care Law, 2020, 21, pp.1-13.。
图1 AI、ML和DL关系图
无论对于患者还是医生,“黑箱”属性都构成了现实的阻碍。据调研,国内患者对于无法解释的AI介入诊断和治疗环节普遍持排斥心理,他们通常只能接受AI处理挂号、缴费、导诊等院内管理性事务(10)刘伶俐、贺一墨、刘祥德:《患者对人工智能医疗的认知及信任度调查》,《中国医学伦理学》2019年第8期。。国外也是类似的情形。而且,医生似乎比患者更加排斥医疗AI,基于固有的强调科学和逻辑的思维方式,医生不太愿意相信和依赖他们无法解释的事物(11)Robin C. Feldman, Ehrik Aldana, Kara Stein, “Artificial Intelligence in the Health Care Space: How We Can Trust What We Cannot Know”,Stanford Law and Policy Review, 2019, 30, pp.399-419.。当然,科学家们正在努力尝试破解“黑箱”难题,并已取得一定成果,例如,谷歌公司最近就宣称他们初步破解了一款诊断眼科疾病的医疗AI的运作机理(12)Jeffrey De Fauw, “Clinically Applicable Deep Learning for Diagnosis and Referral in Retinal Disease”,Nature Medicine, 2018,24, pp.1342-1350.。不过,这将是一项长期而艰巨的任务,不应在短期内抱有过多幻想。计算机科学家们普遍认为,机器学习的性能和可解释性之间存在固有的张力,性能最好的算法透明度最低,而可提供清晰解释方法的算法则往往不太准确(13)Andreas Holzinger, Chris Biemann, Constantinos S. Pattichis,et al, “What Do We Need to Build Explainable AI Systems for the Medical Domain?”, arXiv, submitted on 28 Dec 2017, pp.1-28.。这似乎成为一个逻辑悖论。可以预见,随着人类对AI技术性能的执着追求,未来的解释工作将更加困难。那么,在从技术上彻底攻克“黑箱”难题之前,我们是否就应止步不前呢?答案是否定的。医疗新技术的应用是人类面临的永恒话题,我们需要在安全和创新之间寻求平衡,我们可以且应当通过法律制度的革新积极应对。那么,具体如何应对呢?如何协调安全和创新之间的关系呢?笔者将给出自己的回答。
二、科学理解是否为实现医疗AI监管目标不可替代之方法
首先,我们需要明确医疗AI的监管目标。为避免歧义,本文所称监管目标是指药品和医疗器械(药品和医疗器械的监管体制较为相似,为叙述方便,本文在合用时简称“药械”)获得上市许可、投入临床应用所应满足的条件和标准。
(一)医疗AI之监管目标
应当说,医疗AI在相当长的时期内都将属于医疗器械的范畴,主要功能定位是辅助诊断和辅助治疗,国家卫生和计划生育委员会2017年发布的《人工智能辅助诊断技术管理规范》和《人工智能辅助治疗技术管理规范》即确认了上述定位。因此,医疗AI应置于医疗器械的框架进行监管,具体职责由药械监管部门承担,如我国的药品监督管理局(以下简称药监局)、美国的食品和药品监督管理局(Food and Drug Administration,以下简称FDA)。
一般认为,各国关于药械监管的目标基本一致,都是要保证药械的“安全和有效”(14)[美]弗雷德里克·M.阿尔伯特、[挪威]格雷厄姆·杜克斯:《全球医药政策:药品的可持续发展》,翟宏丽、张立新译,北京:中国政法大学出版社,2016年,第6-9页。。例如,我国《药品管理法》第24条明确将证明药品的安全性和有效性作为药品注册的条件(15)《药品管理法》第24条:“申请药品注册,应当提供真实、充分、可靠的数据、资料和样品,证明药品的安全性、有效性和质量可控性。”;《医疗器械监督管理条例》第13条也规定,医疗器械的注册条件为“安全、有效”(16)《医疗器械监督管理条例》第13条:“受理注册申请的食品药品监督管理部门应当自收到审评意见之日起20个工作日内作出决定。对符合安全、有效要求的,准予注册并发给医疗器械注册证;对不符合要求的,不予注册并书面说明理由。”。美国《联邦食品、药品和化妆品法案》第505节也将“安全(Safety)、有效(Efficacy)”作为药械监管的基本目标(17)参见《联邦食品、药品和化妆品法案》第505节。。“安全”是对药械最基本的要求,虽然药械的使用不可避免地会带来副作用,但至少应确保这些副作用是在患者可获得的治疗益处可容忍的范围内,我们不应该为治疗普通头痛而将患者置于危险的境地(18)[美]弗雷德里克·M.阿尔伯特、[挪威]格雷厄姆·杜克斯:《全球医药政策:药品的可持续发展》,翟宏丽、张立新 译,北京:中国政法大学出版社,2016年,第6页。。“有效”,从某种意义上说,是“安全”目标的自然延展,药械是用于诊疗疾病的,无效药械不但无法达到预期效果,还将诱发误诊或贻误治疗时机,终将危害患者。总之,医疗AI的监管目标就是要确保其安全、有效,确保有益于患者的生命健康。
(二)实现医疗AI监管目标之多种方法
如何确保医疗AI的安全和有效?根据学者的总结,科学理解和临床试验是两种主要的方法(19)W. Nicholson Price II, “Artificial Intelligence in Health Care: Applications and Legal Implications”, SciTech Lawyer, 2017, Vol.14, pp.10-17.。
所谓科学理解(Scientific Understanding),是指通过揭示科学原理、解释科学过程从而保证药械的安全和有效。就医疗AI而言,科学理解就是要破解技术“黑箱”,确保AI的决策过程可被有效理解。各国一般都要求或鼓励药械申请人在注册的各个环节提交相应的科学研究证据,解释科学过程。我国《医疗器械监督管理条例》第9条(20)《医疗器械监督管理条例》第9条:“第一类医疗器械产品备案和申请第二类、第三类医疗器械产品注册,应当提交下列资料: (一)产品风险分析资料; (二)产品技术要求; (三)产品检验报告; (四)临床评价资料; (五)产品说明书及标签样稿; (六)与产品研制、生产有关的质量管理体系文件; (七)证明产品安全、有效所需的其他资料。”、《医疗器械注册管理办法》第17条(21)《医疗器械注册管理办法》第17条:“申请注册检验,申请人应当向检验机构提供注册检验所需要的有关技术资料、注册检验用样品及产品技术要求。”就明确要求申请人提交各类用于科学理解的研究资料。其他国家也都有类似的规定。应当说,科学理解已融入药械监管的各个环节,包括上市前审批和上市后研究,通过科学原理的揭示,可以更加可靠的验证药械的安全性和有效性。
临床试验(Clinical Trials)是另一种重要的方法。事实上,临床试验就是围绕安全性和有效性这一验证目标来设计的。各国一般将临床试验划分为三个阶段:第一阶段为验证药械安全性的基本试验,第二阶段为验证药械有效性的有限试验,第三阶段则是在扩大受试人群后的验证药械安全性和有效性的延展试验(22)[美]弗雷德里克·M.阿尔伯特、[挪威]格雷厄姆·杜克斯:《全球医药政策:药品的可持续发展》,翟宏丽、张立新译,北京:中国政法大学出版社,2016年,第6页。。临床试验的目标不在于解释药械的运行机理,而是更加纯粹地验证产品的安全性和有效性,这体现了药械审评中的实用主义理念。尽管存在各种各样的局限,临床试验目前仍然是各国最为倚重的监管方法。基于此,各国一般都制定了专门的规范性文件,如我国的《医疗器械临床试验质量管理规范》、美国的《药物临床试验管理规范》(Good Clinical Practice,GCP)等等。
除上述两种方法外,还有不少其他方法有助于实现药械监管目标,例如,真实世界证据(Real World Evidence,以下简称RWE)就是近年来愈发受到重视的方法。关于RWE,目前还没有公认的定义,美国国会2016年通过的《21世纪治疗法案》(the 21st Century Cures Act)首次将RWE纳入法定监管框架,并将其界定为“从随机临床试验以外的其他途径获得的药物使用或其潜在风险效益的数据”(23)参见《21世纪治疗法案》第3022条(b)款。。我国药监局2020年11月发布的《真实世界数据用于医疗器械临床评价技术指导原则(试行)》(以下简称《真实世界指导原则》)将RWE界定为“传统临床试验以外的,从多种来源收集的各种与患者健康状况和/或常规诊疗及保健有关的数据”。RWE强调通过临床试验以外的方式、从真实而非受控的世界获取药械安全性和有效性的证据,亦即通过搜集和分析多种来源的数据(包括医院病历数据、区域健康医疗数据、医疗保险数据、健康档案、公共监测数据、患者自报数据、社交媒体数据等)来进行风险评估。可见,与临床试验相比,RWE并非在人为设定的实验状态下获取证据,而是以一种更加自然、真实的方式进行验证。目前,《21世纪治疗法案》主要将RWE定位为药械评审的补充性方式,“用于支持已批准药品的新适应症的审批,以及支持或满足上市后研究的要求”(24)参见《21世纪治疗法案》第3022条(a)款。。不过,在大数据和人工智能时代,RWE将愈发重要,《21世纪治疗法案》第3022条(f)款也意识到了这点,“授权部门长官在其他目的下使用真实世界证据,只要能充分说明这些未述及用途的依据”。我国《真实世界指导原则》第5条也主要将RWE定位为补充性的评价方式,典型应用场景包括“用于支持产品注册,作为已有证据的补充;支持适用范围、适应症、禁忌症的修改;支持附带条件批准产品的上市后研究;上市后监测”等。
(三)科学理解并非实现医疗AI监管目标不可替代之方法
在实现药械监管目标的多种方法中,科学理解是否是不可替代的呢?应当说,监管目标的达成是多种手段综合运用的结果,没有哪种方法是完全不可替代的,这业已被实践所证明。例如,临床试验方法在部分医疗器械的审评中就已被替代。我国《医疗器械监督管理条例》依据风险等级将医疗器械分成三类,其中,第一类医疗器械实行备案管理,无需进行临床试验,“第一类医疗器械产品备案,不需要进行临床试验。申请第二类、第三类医疗器械产品注册,应当进行临床试验”(25)参见《医疗器械监督管理条例》第17条第1款。。美国《联邦食品、药品和化妆品法案》也将医疗器械分成三类,其中,第一类和第二类医疗器械的上市均无需进行临床试验。而且,即使是第二类或第三类医疗器械,根据《医疗器械监督管理条例》第17条第2款之规定,当其“工作机理明确、设计定型,生产工艺成熟,已上市的同品种医疗器械临床应用多年且无严重不良事件记录,不改变常规用途,或者通过非临床评价能够证明该医疗器械安全、有效”时,亦可免于临床试验。显然,此时主要是通过科学原理阐释、RWE等其他方法来验证医疗器械的安全性和有效性。同样,实践中也存在不少虽无法科学解释但准予投入临床应用的药械实例。例如,我们所熟知的消炎镇痛药阿司匹林,它的作用机理至今仍无法解释,但它的安全性和有效性已通过临床试验和长期实践得到充分验证(26)Glenn Cohen, “Informed Consent and Medical Artificial Intelligence: What to Tell the Patient?”, Georgetown Law Journal, 2020, Vol.108, pp.1425-1467.。其他如小儿退烧药泰诺(乙酰氨基酚)、肌肉松弛剂美沙隆、糖尿病药物二甲双胍、止咳药桂芬内斯等也都是类似的情形(27)Robin C. Feldman, Ehrik Aldana, Kara Stein, “Artificial Intelligence in the Health Care Space: How We Can Trust What We Cannot Know”, Stanford Law and Policy Review, 2019, Vol.30, pp.399-419.。再如,作为中华民族瑰宝的中医药为维护国人健康做出了重要贡献,在新冠肺炎疫情防控中也发挥了重大作用,但它的解释论基础是阴阳五行等传统哲学理论(28)郑洪新主编:《中医基础理论》,北京:中国中医药出版社,2016年,第21-38页。,平心而论,这并非现代科学意义上的解释。
总之,科学理解并非药械监管之目标,而只是达成目标的方法之一,科学理解也并非达成药械监管目标不可替代之方法。我们完全有可能在无法科学理解、无法攻克“黑箱”难题的情况下,通过法律制度的合理设计,实现医疗AI的监管目标。当然,这并不意味着科学理解不重要。必须承认,从技术上破解“黑箱”难题仍有重要意义,这将有助于更加可靠地验证AI的安全性和有效性、有助于确保人类对AI的监督和控制、有助于为算法完善提供科学依据等等。不过,这是一项长期的任务,在实现突破之前,我们应当迂回前行。
三、实现医疗AI监管目标的规制思路和措施探析
在科学理解缺位的情况下,我们应如何实现医疗AI的监管目标呢?笔者认为,我们应转变规制思路,并在此基础上探索适当的监管措施。
(一)规制思路的转变
首先,在科学理解尚难实现的情况下,我们应重点运用临床试验、RWE等方法来管控医疗AI的风险。这可进一步细化为以下两个层面:第一,从对算法解释的规制转向对算法透明和可追溯的规制;第二,从对算法本身的规制转向对算法之外的环节和要素的规制。关于第一点,虽然算法透明不等于算法可知,算法可追溯不代表算法可解释,但算法透明和可追溯从另外的面向抑制着医疗AI的风险,而且,它更容易实现。后文将予详述。关于第二点,影响医疗AI安全性和有效性的因素有很多,除算法本身外,还包括训练数据、训练人员、开发企业和临床使用等环节和要素,也就是说,除对算法本身的规制外,我们还可通过对训练数据、训练人员、开发企业等的规制来管控风险。据笔者查阅,大量文献将研究重点置于算法规制(29)解正山:《算法决策规制——以算法“解释权”为中心》,《现代法学》2020年第1期;苏宇:《算法规制的谱系》,《中国法学》2020年3期;江溯:《自动化决策、刑事司法与算法规制——由卢米斯案引发的思考》,《东方法学》2020年第3期;张凌寒:《算法规制的迭代与革新》,《法学论坛》2019年第2期;王聪:《“共同善”维度下的算法规制》,《法学》2019年第12期等。,这当然是有益的探索,但当前条件下过度强调算法规制,一则执行层面面临困难,二则可能诱发过度规制而抑制创新。例如,欧盟《一般数据保护条例》(General Data Protection Regulation,以下简称GDPR)第13、22条赋予数据主体以算法解释权,即当自动化决策“对数据主体产生法律影响或对其造成类似重大影响”(30)See GDPR Article 22.时,数据主体有权请求获得该自动化决策的“逻辑程序和有意义的信息,以及此类处理对数据主体的意义和预期影响”(31)See GDPR Article 13.,然而,这导致大部分医疗AI无法在欧盟范围内应用(32)Andreas Holzinger, Chris Biemann, Constantinos S. Pattichis et al, “What Do We Need to Build Explainable AI Systems for the Medical Domain?”, arXiv, submitted on 28 Dec 2017, pp.1-28.,这显然不利于技术创新。
其次,我们应契合医疗AI“非锁定”之特性,树立全生命周期的监管理念,尤其应重视医疗AI的上市后监管。如前所述,医疗AI目前主要运用的是机器学习技术,它最大的特征在于“自适应”和“非锁定”,即始终处于演化变动之中,这和传统“锁定性”的医疗器械有很大不同。由此,除上市前审评外,上市后监管的重要性凸显。应当说,传统药械监管框架主要是针对“锁定性”药械的,监管的重点也集中于药械上市前。虽然各国也都规定有不良反应监测和报告、药械变更、上市许可持有人(Marketing Authorization Holder,以下简称MAH)(33)上市许可持有人制度,是指拥有药品或医疗器械技术的研发机构、研发人员、生产企业等主体,通过提出上市许可申请进而获得上市许可批件,并对药品或医疗器械质量在其整个生命周期内承担主要责任的制度。上市许可持有人既可自行生产药械,也可委托其他有资质的企业代工生产药械,由此,上市许可和生产许可实现“解绑”。我国的药械管理也已经引入上市许可持有人制度。参见王晨光:《药品上市许可持有人制度——我国药品注册制度改革的突破口》,《中国食品药品监管》2016年第7期。等上市后监管制度,但是,监管的重点仍在上市前阶段,无法完全适应AI的风险特性。例如,不良反应监测和报告制度主要针对的是上市前已存在但尚未发现的问题或风险;MAH制度所规定的上市后定期报告的频次明显过低(年度报告),难以适应医疗AI的更新频率,等等。总之,我们应转变思路,逐步建立真正意义上的全生命周期的监管体系。不少国家已意识到这一点,美国FDA已正式提出面向AI的全生命周期(Total Product Life Cycle,TPLC)的监管理念,我国《审批要点》也已将“基于风险的全生命周期管理”作为重要的设计理念。
(二)规制措施的建构
那么,具体哪些措施有助于落实上述理念呢?应当说,这是一个不断发展的体系。本文无意也无力罗列所有的措施,仅探讨部分典型措施以勾勒医疗AI的规制图景。
1.训练数据和训练人员的品质管理
关于训练数据,其之于医疗AI的重要性不言而喻。医疗AI主要为数据所驱动,数据的品质直接决定医疗AI的品质。“AI系统只与人类提供给它们的数据一样好”(34)Sandra L. J. Johnson, “AI, Machine Learning, and Ethics in Health Care”, Journal of Legal Medicine, 2020, Vol.39, pp.427-441.。我们首先应当确保数据的真实性,失真的数据必然无法训练出性能优异的AI,由此,数据采集时必须确保数据的真实、准确。其次,容易被忽略的是,数据的代表性和多元性也非常重要,因为医疗AI必须具有泛化能力和迁移能力,应当对于不同种族、不同地域、不同性别、不同级别医疗机构中的患者具有同等适用性,缺乏代表性的数据将削弱这种能力。数据畸偏所引发的医疗AI缺陷在美国已多次发生。例如,一种用于基因突变检测的软件,更容易将黑人患者标定为高风险群体,因为最初的训练数据中黑人群体的代表性不足;再如,一款用于黑色素瘤诊断的AI,难以适用于深色人种,因为皮肤病变数据库中鲜有深色人种的医学图像。而且,美国医疗AI的训练数据多来源于高级别的医疗机构如区域医学中心,这导致其在低级别医疗机构如社区诊所中使用时经常出现偏差(35)W. Nicholson Price II, “Medical AI and Contextual Bias”, Harvard Journal of Law & Technology, 2019, Vol.33, pp.65-116.。可见,医疗AI的歧视和偏差往往并非算法本身所致,而是源于训练数据的瑕疵。
此外,训练数据的采集、存储、清洗和预处理等工作都是由人类完成的,操作人员的品质将直接影响训练数据的品质。目前来看,大量的医疗AI仍然需要人类对训练数据进行标注,数据标注由此成为一项重要的工作。即使数据本身真实且有代表性,但若数据标注环节出现问题,一切都将变得没有意义。可见,人类仍广泛参与到医疗AI设计开发的诸多环节,应当对其专业技能、合规意识、道德品质等进行必要审查,管控风险。
应当说,对训练数据和训练人员进行品质管理是一项卓有成效的监管措施,而且也相对简便易行。不少国家已将其纳入监管框架。例如,我国《审批要点》就明确要求对训练数据进行质量控制,应保证数据来源的多样性,尽可能从不同地域、不同层级的多个医疗机构中采集数据。《审批要点》还进一步将数据集细分为训练集(用于算法训练)、调优集(用于算法超参数调优)和测试集(用于算法性能评估)等,并规定了不同的采集要求(36)例如,《审批要点》规定:“训练集应当保证样本分布具有均衡性,测试集、调优集应当保证样本分布符合临床实际情况,训练集、调优集、测试集的样本应当两两无交集。”。《审批要点》也对训练人员的准入资质、选拔、培训、考核等提出了要求。美国也有类似的规定(37)参见《21世纪治疗法案》第3060条。。
2.开发企业的认证管理
对开发企业进行认证管理是另一项有代表性的措施。它将监管重心由产品转向企业,通过对开发企业综合能力的认证管理,间接防控医疗AI之风险。开发企业最了解也最有能力管控医疗AI的风险,这类措施也因此更加实用。美国已进行了卓有成效的探索。FDA专门发布了AI开发企业的预认证项目(Pre-Cert for Software Pilot Program,以下简称Pre-Cert项目),从软件设计、开发验证流程、内部组织架构、前瞻性文化等方面对企业进行综合认证。申请企业具体需从组织领导力、设计开发能力、风险管理等12个领域、49个细分元素展开详述并提供证明材料(38)蔡小舒、吕晖、于广军:《美国FDA医疗人工智能软件审核指南研究》,《中国数字医学》2019年第11期。。正如学者所言,其核心理念在于将原先以器材产品为中心的监管模式转向以产品制造商为中心的监管模式(39)洪长春:《人工智慧医疗器材监管措施之初探》,《科技政策观点》2019年第6期。。根据Pre-Cert项目的规定,被认证企业将在后续审评中获得各种便利,后文将予详述。当然,其他国家也可根据需要将企业认证设定为准入性措施,即企业未经认证不得开发医疗AI产品。总之,对开发企业进行认证管理是巧妙且有效的制度设计,遗憾的是,我国尚未见有类似措施。
3.临床试验和RWE的综合运用
在科学理解尚难实现的情况下,我们可综合运用临床试验和RWE来管控医疗AI之风险。临床试验仍然是药械监管最为倚重的方法,这对于医疗AI尤其是高风险AI仍然适用。三阶段的制度设计已被证明可以在相当程度上验证药械的安全性和有效性。实践中,仍有不少医疗AI在上市前被要求进行严格的临床试验。此外,RWE在医疗AI监管中的重要性愈发凸显。RWE取材于丰富多样的现实生活,没有刻意挑选受试者和进行人为干预,因而更能反映具有广泛异质性的患者群体的真实情况(40)吴家睿:《迈向精确医疗的重要举措:真实世界证据》,《医学与哲学》2017年第5期。。相比于传统临床试验,RWE对纳入患者的限定更少,样本量更大,更可能获得长期的临床结局,研究结果的外推性也可能更好。医疗AI本身是数据驱动的,“从数据中来”,医疗AI的验证也必须回归数据,“到数据中去”,而RWE恰如其分的拓宽了验证数据的来源。当然,RWE也有其局限性,数据来源众多本身即意味着数据质量管控的难度增大,RWE通常存在较多的偏倚和混杂,研究结论也可能存在挑战。因此,临床试验和RWE的综合运用将实现更好的监管效果,前者为受控状态下的研究,后者为自然状态下的研究,前者聚焦于上市前审查,后者则偏重于上市后研究,二者结合充分体现了“全生命周期”的监管理念。当然,我们也必须适当调整临床试验和RWE之间的关系,实现监管安全和技术创新之平衡。美国在《21世纪治疗法案》中已正式确认和引入了RWE机制(41)D. Kyle Sampson, Lisa M. Dwyer, Elaine H. Tseng et al, “FDA Proposes Regulatory Framework For Artificial Intelligence/Machine Learning Software as a Medical Device”, Intellectual Property & Technology Law Journal, 2019, Vol.31, pp.12-16.,我国《审批要点》也已提及RWE,规定了AI评审中回顾性研究方法的运用(42)参见《审批要点》第四条第(二)项。。另外,我国《真实世界指导原则》也对RWE在医疗器械评审中的应用进行了初步规范,不过,它仅为“技术指导文件,不作为法规强制执行,应在遵循相关法规的前提下使用”(43)参见《真实世界指导原则》序言。。
4.软件更新的分类审查及报告频次的适当调整
如前所述,医疗AI具有“非锁定”的特征。那么,应如何界定和评估AI的更新呢?应如何对更新进行分类以有效管控风险呢?笔者认为,我们应厘清AI更新量变和质变的界限,将更新区分为一般更新和重大更新,并对重大更新进行重点审查。关于重大更新,基本判断依据在于更新本身是否对医疗AI的安全性或有效性产生显著影响,我们应不断总结实践经验,逐步实现重大更新的类型化。与之相应,MAH定期报告的内容和频率也应作适当调整。根据我国《药品管理法》等的规定,MAH对药械的安全性和有效性负有全流程责任,应每年向监管机关进行汇报,汇报内容包括药械生产、销售、上市后研究、风险管理等情况。就医疗AI而言,我们应将更新作为重要事项纳入汇报内容,并增加汇报频率,以契合AI频繁更新的特性,可考虑将年度报告调整为月度报告。我国《审批要点》对AI的更新有较为细致的分类,这是有益的探索,但对定期报告制度尚未进行相应调整。
5.算法的透明和可追溯
当算法解释愈发困难时,我们应适当转向算法的透明和可追溯。一般认为,算法透明是指算法开发者应披露包括源代码、输入数据和输出结果等在内的算法要素(44)沈伟伟:《算法透明原则的迷思——算法规制理论的批判》,《环球法律评论》2019年第6期。。国内大部分学者都认为应当以法律形式保证某种程度的算法透明(45)江溯:《自动化决策、刑事司法与算法规制——由卢米斯案引发的思考》,《东方法学》2020年第3期。,各类国际文件也都规定了算法透明原则(46)张麗卿:《AI伦理准则及其对台湾法制的影响》,《月旦法学杂志》2020年第6期。,如欧盟发布的《可信赖人工智能道德准则》(Ethics Guidelines for Trustworthy AI)、二十国集团(G20)提出的《G20AI原则》(Principles for Responsible Stewardship of Trustworthy AI)等。虽然算法透明不等于算法可知,但它将形成强大的威慑力,并鼓励更多元的主体(如医疗机构、保险公司、社保机构等)参与监督,这将大大弥补监管机关监管力量的不足。有学者甚至明确建议,将向相关主体披露算法源代码设定为开发企业的法定义务,以改进医疗AI的上市后监管体系(47)W. Nicholson Price II, “Regulating Black-box Medicine”, Michigan Law Review, 2017, Vol.116, pp.421-474.。更重要的是,算法透明将为逐步攻克“黑箱”难题创造条件。当然,算法透明也应当与国家安全、社会安全、商业秘密等利益进行有序协调,限制披露的对象和内容,构建“场景化的算法透明”(48)江溯:《自动化决策、刑事司法与算法规制——由卢米斯案引发的思考》,《东方法学》2020年第3期。。关于算法可追溯,一般认为是指医疗AI的决策过程应当被完整记录,以留待未来核查(49)张麗卿:《AI伦理准则及其对台湾法制的影响》,《月旦法学杂志》2020年第6期。。从某种意义上说,“算法可追溯”是“算法透明”的延展,后者强调静态的编码透明,前者强调的则是动态的算法运行透明。二者所带来的影响基本相仿,实践中通常并用。总之,算法透明和可追溯并非要求算法可解释,但它为算法解释提供了可能、指明了道路,并形成有效威慑。人类暂时可以不必解释AI,但我们应创造条件、保证人类在未来可以解释AI。当然,算法透明和可追溯的实践还面临较大争议,尤其涉及与商业秘密、公平竞争等利益的协调,尚存疑虑,我国《审批要点》也暂未对此进行规定。
四、医疗AI监管中安全和创新之平衡
在探讨了医疗AI风险管控的思路和措施后,我们应注意监管中安全和创新之平衡,既要防止监管不足,危害公众健康,也要避免监管过度,抑制技术创新。
(一)平衡之必要性及基本思路
医疗AI具有持续进化、快速迭代之特性。医疗AI在应用中积累数据、调整算法,也只有在临床应用中才能快速完善和成熟。应当说,传统监管框架很难适应医疗AI的此种特性,尤其临床试验,动辄几年甚至十几年的试验周期,已非迅速演进之医疗AI所能承受。正如学者所言,医疗AI因软件技术发展迅速,生命周期相对短暂,不像生命周期较长的普通药械可以忍受漫长的临床试验和查验登记时间,因此,上市前的许可程序是否迅速有效之于产品创新至关重要(50)陈志雄:《人工智慧医疗决策系统之法理议题》,《月旦医事法汇编》2019年。。而且,如前所述,作为上市前监管措施的临床试验对管控医疗AI风险存有明显的局限,冗长的试验程序无法换来长期的安全。由此,我们必须在监管中平衡好安全和创新之关系。
那么,如何平衡呢?笔者认为,根据医疗AI之特性,合理的思路应当是适度“温和”上市前的监管措施,在风险评估、管控之基础上,豁免或加速审批和临床试验程序,并将监管资源适度向上市后阶段倾斜,更加重视RWE等方法的运用。由此,我们应对规制措施进行更加灵活的设计,为医疗AI的发展创造必要空间。
(二)平衡之具体措施
部分国家如美国已对平衡机制进行了有益探索,并取得了一定经验,值得我们研究借鉴。这种探索仍在继续,有待观察。下面仅介绍和分析美国所采取的几种典型措施。
1.Pre-cert项目下的豁免审批或精简审批
如前所述,获得Pre-cert项目认证的企业将在医疗AI评审中获得某种便利,这种便利主要包括豁免审批和精简审批。豁免审批,是指医疗AI备案后即可上市,无需批准,无需进行临床试验。精简审批,是指以精简和快速的方式进行审批,具体表现为申请材料大为简化,申请周期大为缩减,其核心模块为迭代式审查,强调交互式的早期参与,即在审核期间,企业可随时递交新的补充材料和数据,及时修改审核文件(51)蔡小舒、吕晖、于广军:《美国FDA医疗人工智能软件审核指南研究》,《中国数字医学》2019年第11期。。豁免和精简审批大大降低了企业负担,加速了医疗AI的上市进程。当然,豁免和精简审批必须与企业认证等级、产品风险等级相适应。具体来说,FDA将认证企业分为两个等级,即等级一和等级二,将产品分为三种风险类型,即低风险、中风险和高风险。其中,等级一企业在申请低风险产品上市时可豁免审批,而在申请中、高风险产品上市时则应进行精简审批;等级二企业在申请中、低风险产品上市时均可豁免审批,但在申请高风险产品上市时则应进行精简审批。详见表1。值得注意的是,为有效防控随之而来的风险,Pre-cert项目专门设计了一个考察模块,考察企业的真实世界研究能力,企业应举证证明其具备持续的上市后RWE监控能力,这精准降低了医疗AI快速上市后的应用风险。可见,安全和创新之平衡贯穿于Pre-cert项目之始终,较好兼顾了技术创新和监管安全。
表1 Pre-cert项目下的豁免或精简审批
2.重新分类机制下的豁免审批
我们首先需要简单梳理一下美国的医疗器械分类制度。FDA将医疗器械分为三类,第一、二类医疗器械备案后即可上市,无需审批和临床试验,而第三类医疗器械则必须进行严格的上市前审批程序(Premarket Approval,PMA),包括临床试验。对于创新型、尚未归类的医疗器械,FDA将其默认为第三类医疗器械。为豁免审批,开发企业可申请重新分类,但应举证证明申请产品与已获批产品具有实质等同性(Substantial Equivalence,SE)。这是一项重要的平衡措施,但是,医疗AI的发展时间尚短且彼此差异巨大,这就意味着,医疗AI通常很难找到可比医疗器械,无法进行实质等同性证明。为此,《21世纪治疗法案》对重新分类制度进行了专门修改,规定开发企业即使无法证明医疗AI与已上市医疗器械具有实质等同性,但若能证明通过一般控制(General Control,GC)或特殊控制(Special Control,SC)足以保证AI的安全性和有效性,仍可豁免审批(52)陈志雄:《人工智慧医疗决策系统之法理议题》,《月旦医事法汇编》2019年。。这为医疗AI申请重新分类打开了方便之门。事实上,相当一部分医疗AI是通过重新分类、豁免审批和临床试验而快速上市的。例如,IDx-DR就是通过重新分类而上市的,它是美国第一款上市应用的医疗AI产品,通过扫描视网膜图像进行糖尿病的辅助诊断,医学影像智能分析软件Quantitative Insights也是类似的情形,它主要用于结节和癌症的辅助诊断,等等(53)陈志雄:《人工智慧医疗决策系统之法理议题》,《月旦医事法汇编》2019年。。当然,如果开发企业既无法进行实质等同性证明,也无法进行一般控制或特殊控制的充分性证明,则仍然需要经历冗长的PMA程序。重新分类机制流程图如图2所示。总之,重新分类机制精准的为美国医疗AI产品的上市提供了便捷通道,大大加速了医疗AI在美国的技术创新和临床应用,同时也在一定程度上兼顾了产品安全。
图2 重新分类机制流程图
3.“突破性医疗器械计划”下的审评便利化机制
根据《21世纪治疗法案》第3051条的授权,FDA于2017年10月发布了“突破性医疗器械计划”(Breakthrough Devices Program)。根据该计划,某医疗器械若被认定为“突破性医疗器械”,则可获得某种审评便利化安排,包括豁免审批、加速审批、提供审查协助或指导等。那么,如何认定突破性医疗器械呢?根据FDA的官方解释,突破性医疗器械的认定条件主要包括:(1)能够诊断或治疗危及生命或不可逆转的使人衰弱的疾病;(2)具有突破性技术;(3)尚无已核准的替代品,或虽有已核准的替代品但较之有明显优势,或批准使用符合病人的最佳利益(54)FDA, “Breakthrough Devices Program”,(2021-05-01)[2021-10-13],https://www.fda.gov/medical-devices/how-study-and-market-your-device/breakthrough-devices-program.。应当说,这个标准本身具有一定的模糊性,需要FDA在审评实践中具体把握。事实上,FDA的裁量权不止于此,对于已被认定为突破性医疗器械的产品,FDA有权决定给予何种甚至是否给予审评便利。例如,若FDA认为某突破性医疗器械风险较小且可控,可径自豁免审批,或加速审批;若FDA认为某突破性医疗器械风险较大,不宜给予豁免审批或加速审批,也可仅给予某种审评上的指导或协助。一言以蔽之,“突破性医疗器械计划”的基本理念就在于赋予FDA更大的裁量权、更灵活的应对措施,由其在个案中平衡安全和创新、个人利益和公共利益之间的关系。这显然为医疗AI的便捷上市提供了又一重要渠道,因为医疗AI所经常面临的问题就在于无可比医疗器械,或虽有可比医疗器械却难以证明具备显著优势,可以说,“突破性医疗器械计划”主要就是针对医疗AI这类创新型的数字医疗产品而设计的,它的实施也确实为医疗AI的发展和创新预留了必要空间。
五、结语
医疗AI仍在快速发展并已渗透到医疗的各个环节,深刻改变着医疗的图景。人们对医疗AI最大的担忧在于“黑箱”难题。平心而论,我们短期内尚难以从技术上彻底破解“黑箱”难题,但我们不应止步不前,而应通过法律制度的合理设计管控风险、推进应用。须知,科学理解只是确保医疗AI安全性和有效性的方法之一,并非不可替代。我们应转变规制思路,尽量通过科学理解之外的方法评估医疗AI的风险,应从对算法解释的要求转向对算法透明和可追溯的要求,应从对算法本身的规制转向对影响医疗AI风险的其他环节和要素的规制。此外,我们应契合医疗AI“非锁定”之特性,树立“全生命周期”的监管理念,以有效管控AI的临床应用风险。很多措施有助于落实前述规制理念,如对训练数据和操作人员进行品质管理、对开发企业进行认证管理等等。在风险防控的基础上,我们必须平衡好安全和创新之间的关系,既防规制不足,导致危害患者,亦防规制过度,导致抑制创新。我们应适度“温和”上市前的监管措施,在特定情形下豁免或加速审批程序,并将监管重心适度后移,灵活运用RWE等监管方法。美国为此所进行的各种探索如Pre-cert项目等值得我们参鉴。
我国也正在积极探索适合医疗AI的监管框架,并已发布专门的法律文件《审批要点》。《审批要点》展现了很多积极的进展,明确提出了“全生命周期”的监管理念,并根据医疗AI的风险特性引入了不少针对性的监管措施,如对训练数据和人员进行品质管理、分类界定和审查AI之更新等等。不过,我们也应看到,《审批要点》仍有很多不足,主要体现为:首先,规制理念的转变并不彻底,仍然过多纠结于算法解释问题,多次强调“算法可解释”的重要性,对算法本身(如“算法设计”)的规制倾注了过多精力,这不但成本高昂,而且很可能缺乏实效。其次,在风险管控方面,仍有不少重要措施缺位,影响监管效果,例如,未对开发企业进行必要的管理和认证、未对算法透明和可追溯提出明确的要求等。最后,也是最重要的问题在于规制过度,抑制创新。我国几乎没有类似于美国的针对医疗AI的审评便利化安排,按照我国现行法之规定,医疗AI都应经过严格冗长的审批和临床试验程序,这将抑制医疗AI的发展。根据2018版《医疗器械分类目录》的规定,医疗AI或者被归类为第二类医疗器械,或者被归类为第三类医疗器械(55)我国2018版的《医疗器械分类目录》根据风险程度对医疗AI进行了区分:“仅具有辅助诊断功能,不直接给出诊断结论”的医疗AI,按第二类医疗器械管理;“对病变部位进行自动识别并提供明确的诊断提示”的医疗AI,按第三类医疗器械管理。,但无论是划归第二类还是第三类,根据《医疗器械监督管理条例》之规定,均应进行上市前审批和临床试验程序。虽然《医疗器械监督管理条例》第17条第2款也规定了免于临床试验的特定情形,但应当说,该条款主要是针对具有成熟稳定的可比产品的仿制型医疗器械的,在面对医疗AI这类创新型医疗器械时,几无援引的可能。另外,《审批要点》中虽已提及“回顾性研究可用作临床预实验或替代临床试验”,但在其他更高位阶之法律文件(56)《医疗器械监督管理条例》由国务院制定,属于行政法规,其效力位阶高于国家卫生健康委员会制定的《审批要点》。未作修改之背景下,这根本无法执行。就此而言,我国未来应进一步转变监管理念,适度淡化对算法解释的要求,将监管重点转向其他相关环节和领域,进一步探索其他有效的监管措施,更重要的是,我国应平衡好安全和创新之关系,扭转过度监管之倾向,引入更多的豁免审批、加速审批等审评便利化机制。