辅助诊疗类医学人工智能应用评估体系架构研究*

2020-11-25田雪晴汤昊宬

医学信息学杂志 2020年10期

关键词：辅助医学人工智能

田雪晴汤昊宬程龙

(国家卫生健康委卫生发展研究中心北京100044) (中国科学院自动化研究所北京 100190) (中国卫生信息与健康医疗大数据学会应用评估和保障专业委员会北京 100037)

廖子锐游茂

(中国医学科学院/北京协和医学院北京 100730) (国家卫生健康委卫生发展研究中心北京100044)

1 引言

1.1 研究背景

在发展人工智能已上升到国家战略的今天，医疗健康领域从信息化走向智能化成为必然趋势。医学人工智能应用具有数据驱动、快速迭代等特点，传统方法难以实现有效监管，其安全有效性评价问题已成为全球监管难点，评估方法亟需建立，从而进行全生命周期监管。医学人工智能全生命周期监管分为临床准入和应用评估两个阶段。临床准入是对产品安全和有效性进行评估，应用评估是对产品临床应用效果进行评估，两者紧密衔接，共同为相关政策制定提供依据。当前大批医学人工智能产品已进入临床准入环节，一方面通过临床准入的医学人工智能产品进入市场需要应用评估，另一方面某些未纳入医疗器械监管范围的医学人工智能产品进入市场同样需要应用评估。医学人工智能产品应用评估在国内外都属于空白领域，亟待体系化的研究，建立有效的应用评估，与临床准入衔接，形成全生命周期的动态监管体系。

1.2 相关研究

1.2.1 国外美国食品药品监督管理局重视人工智能医学软件监管研究，公布临床决策支持软件、移动医疗应用程序等领域指南，以鼓励数字医疗工具的创新开发；欧盟监管机构在软件生存周期过程、软件确认、网络与数据安全等方面做了大量工作，更加偏重于数据安全和患者隐私保护，实施通用数据保护条例，发布《在医疗器械的监管框架内用于医疗健康的独立软件的资格和分类指南》，旨在帮助制造商确定其产品是否是医疗器械或体外诊断医疗器械软件并接受监管。英国设立健康数据研究中心和加速信息化进程合作署，负责监管和规范人工智能在医疗领域的应用。日本药品与医疗器械管理局长期按硬件模式监管软件，近年来发布人工智能医疗器械研究报告。国际医疗器械监管机构论坛致力于协调全球医疗器械监管框架，先后成立独立软件工作组、网络安全工作组，发布4份技术文件，目前正准备成立人工智能医疗器械工作组。电气和电子工程师协会成立人工智能医疗器械工作组，推动人工智能医疗器械性能与安全评价术语、数据集质量管理与评价两个方面国际标准的制订。

1.2.2 国内国家卫生健康委持续关注人工智能技术在医疗领域的应用，尤其是在医疗机构中的应用。原国家卫生计生委发布4份与人工智能辅助诊疗有关文件，规范医疗机构及医务人员开展风险高、操作难度高的人工智能辅助诊断和治疗(手术机器人)技术的最低要求。国家药品监督管理局医疗器械技术审评中心是国家级医疗器械技术审评机构，在数字医疗器械领域先后发布软件、网络安全、移动器械等审评指导原则，在全球率先发布《深度学习辅助决策软件审评要点》，同时主持完成医疗器械生产质量管理规范独立软件附录。

2 研究必要性

2.1 建立辅助诊疗类医学人工智能应用评估体系十分必要

当前人工智能技术临床准入评价体系和应用评估体系均在初步构建中，两个体系建设主体、基本构架、决策目的、技术要素及方法工具不尽相同。我国器械审评部门已初步建立医学人工智能技术临床准入评审规范和标准，一些创新技术陆续经过评审进入临床，需要持续了解上市后在临床应用中的安全性、效果及经济社会伦理等影响。相比之下，我国医学人工智能应用评估和质量控制体系发展滞后于上市审评体系，亟待结合医疗服务和技术管理要求，建立辅助诊疗类医学人工智能应用评估体系。辅助诊疗类医学人工智能是指运用新一代人工智能技术提供诊断治疗活动建议，辅助医务人员进行决策，包括但不仅限于诊疗决策、诊疗执行、疗效评价、动态优化和流程管理，其中新一代人工智能技术指以深度学习、神经网络为代表的采用数据驱动方式训练算法的技术。

2.2 有关案例

达·芬奇手术机器人应用评估案例，依托权威数据与文献回顾，只能形成对医学人工智能安全性与使用效果的弱理论支撑，且无法作用于创新应用。通过回顾达·芬奇手术机器人评估案例[1]可以发现早期国内评估方式仍采用文献综述法、专家咨询法以及预算影响分析法，沿用美国循证医学研究所的例证以期证明达·芬奇手术机器人临床使用效果。报告中通过检索国内外文献库PUBMED、EMBASE、The Cochrane Library以及中国生物医学文献库(CBM)、中国期刊全文数据库(CNKI)、中文科技期刊数据库(VIP)等权威数据库的文献，对达·芬奇手术机器人安全性与有效性进行佐证并得出以下结果：初检获文献272篇，依据纳入和排除标准排除文献222篇，纳入文献50篇，其中卫生技术评估(Health Technology Assessment，HTA)报告27篇，SR/Meta分析23篇，阅读全文后最终纳入HTA7篇，SR/Meta分析14篇。通过上述不同国家众多临床机构研究数据与结论，只能低限度地支撑达·芬奇手术机器人在技术安全与临床实际效果方面的作用，难以明确找出并规避设备自身可能存在的风险。2015年2月英国首例采用达·芬奇手术机器人进行心脏瓣膜修复手术以失败告终[2]。美国食品药品监管局2015年发布的数据显示[3]2000-2013年间，在达·芬奇手术机器人手术中致死的患者已达144人，其中包括机器人短路走火、机器人操作零件掉入人体体内等原因。由此可见，针对创新型医学人工智能设备的技术评估，仅依托其他先行先试国家的数据回顾与例证法为支撑是远远不够的。因此建立一套符合我国人群基本特征且具有可操作性的辅助诊疗类医学人工智能应用评估体系已成为迫在眉睫的关键需求。

3 理论基础和基本框架

3.1 理论基础

3.1.1 问题分析目前全球范围内缺乏针对辅助诊疗类医学人工智能的有效评估方法，主要原因在于两个方面：一是辅助诊疗类医学人工智能技术具有复杂性，对真实临床场景与医疗基础数据存在强依赖，造成输出结果的不确定性，无法沿用传统医疗器械进行评估。二是辅助诊疗类医学人工智能存在操作逻辑连续性与数据贯通性，无法仅通过时间截面数据佐证其安全有效，需要完整性、体系化的质量管控，持续跟进、连续观测其潜在的技术风险。医学人工智能应用不同于传统医疗器械，其功能实现不仅依靠既有的软件代码，更需要真实世界数据以及针对实际临床场景设计的算法来实现，因此针对医学人工智能应用的评估是连贯的、围绕整体功能实现的立体场景评估。从评估角度来看将技术风险评估(包括医疗基础数据研究、算法与软件功能测试等)与真实世界研究(临床环境、真实临床医疗数据等)相结合，验证真实环境下辅助诊疗类医学人工智能应用效果与社会效益，才能将完整的医学与公共卫生学逻辑贯穿体现在应用评估体系之中。

3.1.2 评估模型本评估框架的理论基础是Donabedian[4]提出的医疗质量管理经典模型——“结构-过程-结果”模型，以及DeLone&Mclean(D&M)提出的效益评估框架。(1)“结构-过程-结果”模型(图1)。美国医疗质量管理之父多那比第安(Avedis Donabedian)于1966年提出，用于评价医疗质量。结构指医疗机构中各类资源配置和投入，反映提供医疗服务的基础、规模和潜在能力，静态评价医疗服务质量。结构质量影响医疗实践类型和实施，对环节质量有影响。过程质量评价医疗服务部门开展的工作，反映医疗服务具体活动，过程是将结构这一输入转化为输出的相互关联或相互作用的活动，动态评价医疗服务质量，过程质量优劣直接关系到结果质量的高低。结果质量是指医疗人员为服务对象提供各种医疗服务后，服务对象呈现的反映与结果，反映医疗服务后对服务对象所产生的影响、对公众健康的影响。(2)效益评估框架(图2)。主要包括系统质量、信息质量、服务质量、使用情况、满意度以及净收益6个维度，在该框架下共有20个类别以及60个子类别评价指标。图2中展示的并不是全部的效益评估框架内容，需要结合实际情况、可操作性等因素进行调整。上述两大模型在医疗质量管理以及医疗信息技术评价领域发挥巨大作用，且世界范围内针对医疗信息技术评估多采用此模型[5-6]进行研究。参考网站数据统计测算，1993年1月-2015年4月针对Ovid-Medline、Embase、PubMed等医疗数据库中关于D&M模型[7]在医疗信息技术方面应用的研究文献，欧美国家在评价研究数量方面以64.29%位居第1，亚洲评估研究仅占6.67%，离先进水平尚有差距，因此借鉴国外经验对构建适用我国的评估模型具有一定指导意义。

图1 “结构-过程-结果”模型

图2 效益评估框架

3.2 基本框架

3.2.1 适用范围包括为已经通过医疗器械监管部门审评审批的技术进入医疗机构应用和(或)医保报销目录提供系统评价依据，对已经进入临床应用的新技术进行上市后效果跟踪评价，对未来技术进行前瞻性评价。评估目标可以基于多个目的，可用于应用过程持续性评估，指导医学人工智能产品应用研发，评估具体应用对卫生系统带来的影响。评估结果可以指导产品研发到使用全过程，从而提高产品质量，增加获得预期积极成果的可能性；也可以指出应用辅助诊疗类医学人工智能存在的风险，指导解决这些问题。

3.2.2 架构辅助诊疗类医学人工智能应用评估架构，见图3。主要包含4个层面9个维度，在实施评估的过程中，将根据评估对象的不同采用相对应的具体指标。与传统医疗器械应用评估体系不同，针对辅助诊疗类医学人工智能的应用评估首先保障技术安全有效，后侧重全流程追踪与持续观测，以真实世界数据为依托，对设备进行持续测评，避免以历史检测数据或标准数据集测试导致验证结果以偏概全。

图3 辅助诊疗类医学人工智能应用评估框架

3.2.3 具体层级从应用评估架构设计逻辑而言，旨在通过4层面评估相结合，形成针对辅助诊疗类医学人工智能的评估闭环，创新、创造全流程追踪、全方位管控的评估体系。(1)机构/设施/设备的技术安全有效。医学人工智能核心是医学，技术结合医疗的底线是安全保障与风险可控，没有技术的安全就没有患者生命安全保障，因此开展医学人工智能应用的先决条件是通过技术安全有效评估。评估重点从医疗数据安全(数据集精准、患者隐私风险等)出发，结合算法安全评估(功能性实现测试、意外风险评估等)与软硬件设计安全评估(软件功能检测、硬件设计评估等)，三位一体构建起支撑医学人工智能技术安全的屏障。(2)过程实施有效。主要是对医疗小环境即医院层面的应用价值评估，回答对医院内部医疗服务是否有改善、对医疗降本提效是否有帮助等有效性问题，结合医生、患者实际接受医学人工智能应用的满意度，对医学人工智能在临床应用场景中的表现进行全方位评价。(3)结果功能有效。对医疗大环境即整体医疗服务生态的应用价值进行评估，对治愈部分病种的实际效果、对整体医疗资源利用效率、对医保合理控费的促进性等问题进行评估，将价值评估放大到社会整体效益的层面进行评价。(4)应用规划评估。分析政策影响层面，主要是分析前面3层在过程和结果两个方面的影响，包括辅助类医学人工智能对我国监管体系、医保支付体系、卫生预算体系等的影响。此外基于该层级的规划评估结果，及时将评估结果反馈给上述层级，实时动态调整相应需求，最终实现4个层级的闭环管理。

3.3 应用评估体系取用维度

3.3.1 机构/设施/设备层 (1)技术有效性。主要关注辅助诊疗类医学人工智能应用在真实世界的使用效果，辅助诊疗类医学人工智能的技术有效性主要体现在训练数据集基础、算法功能实现与软硬件设计3个主要方面。(2)技术可及性。主要关注患者、医护人员、医疗机构可及性。患者/医护人员可及性，充分考虑患者获得/医护人员提供辅助诊疗类医学人工智能服务的时间、距离和费用等资源成本，对额外设备、系统的需求，便携度以及使用难易度。医疗机构可及性，主要考虑医疗机构提供服务对额外场地、设备、系统的需求和花费，预约排期，安装/放置地点要求。(3) 技术可负担性。主要关注个人和群体/机构负担。个人负担，主要考虑对患者以及医护人员额外经济负担，医患是否能够以及愿意接受潜在成本。群体/机构负担，主要考虑对社区、医疗机构、支付体系的负担，是否能够及愿意接受潜在成本。

3.3.2 过程层 (1)操作有效性。主要关注场景契合度、易用程度和操作管理。场景契合度与应用场景的过程是否紧密结合，是否便于使用者适应。易用程度充分考虑简便易用，需要使用者接受何种培训或获得何种资质。操作管理是对正确安全使用的管理和应急保障监督管理的要求，以及协同协调的难易度。(2)使用者满意度。主要关注使用者接受度、医患体验、使用习惯和医患角色。反映患者、医护人员对新概念、产业以及技术的接受或排斥程度。医患体验关注的是在评估使用者体验的基础上(如有用性等范畴)，与传统医疗服务提供方式相比医患的感受。使用习惯反映对服务质量和效率的提升与用户掌握使用操作需付出努力两者间的平衡，以及培养使用习惯的机制。医患角色关注医护人员和患者权责，特别关注患者参与性。

3.3.3 结果层 (1)个体效果。主要关注患者/临床有效性和医护人员/服务有效性。患者/临床有效性反映患者情况的改变，包括现在和可能对未来带来的改变。医护人员/服务有效性反映医护人员提供服务的质量和效率，不良事件发生频率。(2)群体效果。主要关注服务体系有效性、经济效益和社会效益。服务体系有效性是指医疗卫生服务体系质量和效率。经济效益是指资源占用、成本支出与有用服务效果之间的比较。社会效益是指利用有限资源满足群众日益增长的医疗健康需求的程度。

3.3.4 应用规划评估(政策评估) 主要分析政策影响，包括对我国监管体系、医保支付体系、卫生预算体系等的影响，主要关注过程和结果。(1)过程评估。主要关注投入、活动和产出。投入即资源，包括经费、人员和实物等。活动是为实现预期结果而开展的工作。产出是活动产生的直接、具体结果。(2)结果评估。主要考虑短期结果、中期结果和长远影响。短期结果为直接影响，侧重于目标受众的知识和态度。中期结果是指行为、规范、政策变化。长远影响包括该规划的预期结果，可能需要数年或更久才能达到效果。

3.4 应用评估体系评估流程[8](图4)

图4 辅助诊疗类医学人工智能应用评估流程

3.4.1 组建评估小组由多个领域的专业人士构成，包括人工智能技术专家、数据科学家、医院管理专家、临床专家、卫生公共政策研究专家、医疗健康消费者(患者)等。

3.4.2 描述评估对象该环节决定评估内容和范围，尽可能全面地收集描述性文件，形成一份描述报告，包括辅助诊疗类医学人工智能产品研发背景、需求、预期效果、所需要的资源(如时间、人才、资金、设备、数据等)、逻辑模型、技术使用细则、各发展阶段(规划、执行和效果)情况、适用环境、适用人群、对照技术描述、临床结果测量、成本测量以及其他一些信息，包括相关政策法规、指南、标准规范等。报告初稿由各利益相关者评审后，最终生成正式描述报告。

3.4.3 设计评估方案 (1)明确评估目的。评估目的根据辅助诊疗类医学人工智能产品发展阶段(需求、设计、运行、维护等)和应用场景来确定。例如分析辅助诊疗类医学人工智能产品主要技术特点和临床推广应用特性等，为决策者在定价、医保支付方式和服务组织模式方面提供决策证据。(2)细化评估指标。确定评估维度和边界。通过查阅文献和头脑风暴法，编写评估指标集。再通过专家咨询法，了解利益相关者认为本次评估需要回答哪些问题，以及这些问题的优先级，从而围绕评估框架，选择可用评估指标。(3)明确评估结果使用者。评估结果的使用者直接影响评估重点，其参与使评估人员更加明晰地认识评估预期用途，确定目标和方法优先级，以及防止评估结果与用途不符。(4)用途。指如何应用评估信息，与评估结果使用者息息相关。(5)评估方法。基于评估指标来选择，决定证据类型、来源、收集工具，数据管理、分析、表达方法等。例如对于辅助诊疗类医学人工智能的准确度再验证可以采用考试评价法，临床效果分析可以通过系统综述方法，患者满意度可以通过专家打分法等。(6) 协议内容。包括分配人员职责，如何充分利用有限的人力、物力、财力等资源来执行评估方案。

3.4.4 收集评估证据针对待评估产品，制作证据收集量表，从评估指标、来源、质量、数量以及获取方式等角度考虑证据可信度，从而提高评估质量。证据包括产品说明书、认证报告、文献(来自PUBMED、EMBASE、The Cochrane Library、中国生物医学文献库、中国期刊全文数据库、中国科技期刊数据库、万方数字化期刊全文数据库以及国内外卫生技术评估单位网站)、真实世界证据(电子病历、电子健康档案)、算法模型相关信息(运行条件与环境约束、功能说明、设计说明、源代码等)、训练集相关信息(来源、规模、标注来源等)，以及技术可接受程度、适宜性、患者倾向性、可行性和公平性等方面的证据。这些证据通过文献综述、调查问卷、专家咨询等途径获取。

3.4.5 实施评估方案采用考试评价法、专家打分法、系统综述等方式系统评估辅助诊疗类医学人工智能应用临床效果、成本效果、公平性，以及对卫生系统的影响等，形成评估报告初稿。(1) 专家打分法。基于辅助诊疗类医学人工智能特征，对评估指标进行赋值研究，以形成基于价值的评分标准。聘请若干代表性专家凭借个人经验按此评价标准给出各项目的评价分值，然后对其进行结集。(2)考试评价法。测算辅助诊疗类医学人工智能应用的准确度。拟由国家医学考试中心编制考试题库，抽取考试题目，由3或5名高级职称临床医生审核试题，对可能出现的答案进行打分，由此对辅助诊疗类医学人工智能应用的成绩进行测算。(3)系统综述法。利用关键词搜集检索国内外相关文献，分析国内外辅助诊疗类医学人工智能应用情况、费用信息、配置情况、支付情况、临床安全性和有效性、卫生经济学评价情况等。

3.4.6 总结评估结果评估工作小组组织多方参加会议，解释说明评估结果并进行讨论，形成最终建议，生成最终正式评估报告，确保评估结果的分享和使用。

4 结论与建议

4.1 促进与完善医学人工智能应用法律法规建设

虽然我国在人工智能应用探索方面已走在世界前列，但针对人工智能，尤其是医学人工智能领域的法律、法规尚处于空白。辅助诊疗类医学人工智能应用评估体系贯通人工智能数据采集、算法设计、产品开发以及产品应用全流程，在可能引发人工智能不可预知性与风险的领域为技术应用提供指导与规范，防控人工智能技术带来的潜在风险，同时为相关政策决策的制定提供借鉴与依据。一方面，应用评估体系为辅助诊疗类医学人工智能技术全生命周期监管提供抓手，关注患者信息与隐私保护、个人数据合法使用以及人工智能算法失效监控等，以真实世界评估研究结果来奠定立法依据；另一方面，应用评估体系的建立将加速相关部门整理前沿技术负面清单，从技术底层上杜绝新技术滥用与技术灾害的发生，促进医学人工智能产业健康发展与合理运用。

4.2 打通从技术研发向应用转化的商业闭环

目前我国人工智能领域尚无成熟的应用评估机制来考核人工智能产品应用，因此尚未有任何公司的医学人工智能产品真正意义上进入临床应用环节，从“技术-产品-应用-商业”的技术流通转化通道缺失重要一环，致使医学人工智能产业发展受到巨大限制。虽然国家高度重视并鼓励人工智能在医疗卫生领域的发展，探索辅助诊断和治疗的新模式、新手段，但正常商业变现模式的缺乏使众多高科技企业望而却步。辅助诊疗类医学人工智能应用评估体系的建立有望成为弥补产业缺陷的重要版图，彻底打通从技术研发向应用转化的商业闭环，颠覆纯靠投资补贴研发的畸形业态，吸引更多良性高科技企业进入医学人工智能生态，催生更多医学人工智能产品应用，促进医学人工智能产业健康有序发展。

4.3 助推产、学、研、用相结合模式的产生

人工智能发展存在不确定性，如果放任发展将扩大技术潜在风险发生的可能，因此需要以谨慎的态度，以积极引导为主，以预防监管为辅，确保人工智能技术应用的安全性、有序性。辅助诊疗类医学人工智能应用评估体系的建立将有效推进医学人工智能全生命周期监管体系搭建，逐步完善以政府为主导、以健康需求为导向的产学研用相结合的模式，引领和指导相关人工智能技术研发，避开存在严重技术风险的红区；强化对抗性学习算法研究，减少人工智能发展隐患，进一步推进医学人工智能技术的合理、有效、安全应用。