医学大数据与人工智能标准体系：现状、机遇与挑战

2021-10-12张知非杨郑鑫黄运有詹剑锋

协和医学杂志 2021年5期

张知非，杨郑鑫，黄运有，詹剑锋

1首都医科大学生理学与病理生理学系，北京 1000692中国科学院计算技术研究所，北京 1000863广西师范大学计算机科学与工程学院，广西桂林 541001

医学造福于人类的发展历史，在某种意义上就是一部“医学标准化”的历史。近年来，随着医学大数据和人工智能(artificial intelligence，AI) 在医学领域的广泛应用，迫切需要制定以下3类标准：(1)访问、存储和共享医学大数据的数据标准；(2)设计医学任务和数据集用于测试医学AI能力的测试基准(benchmarks)；(3)使用和评价医学大数据和AI的行为规范(codes of practice)。这在扩展医学标准内涵的同时，在理论基础、伦理道德和技术风险方面均带来一系列挑战，要求我们必须结合医学、计算机科学和计量学重新审视和完善当前的医学标准体系。

1 医学大数据与AI标准的内涵

医学大数据和AI领域相关的医学标准大致分为两类，第一类是计量标准，包括标准方法、参考物或参考标准[1- 2]。标准方法是用于实验室和临床检测以及医学服务质量评价的标准程序和方法。参考物或参考标准用于定义试剂和药物的属性、校准测试设备或验证方法是否正确执行。第二类是规范性文件，包括标准规范、协议以及法规等[2- 3]。标准规范包括数据标准、术语标准和医学信息系统标准，数据标准定义了数据及其存储和传输的格式标准[4]；术语标准包括结构化词汇、术语、代码集和分类系统；医学信息系统标准用于定义医学从业者，如医生、护士、技师、研发人员，使用信息系统相互协作的工作方式与接口。协议在医学和生物学领域大量使用，用来描述为了正确完成测量和程序必须严格遵守的详细方法。法规是实施法律的规则，具有更强的约束力。

在医学科学研究及医学临床实践中引入大数据与AI相关科学技术后，包括数据、算法、系统及医学从业人员在内的新的智慧医学科学体系，极大丰富了医学科学体系的内涵。其中算法是精确定义的一系列操作，通常包含输入、输出、有限性、确定性和可行性5种特性，是计算机处理信息的本质[5]。为推动医学大数据与AI领域的发展，相应的标准体系亟待制订。医学大数据与AI标准体系应涵盖医学大数据相关标准、公共数据集、测试基准和行为规范4部分(图1)，各组成部分密切相关。

医学大数据相关标准是采集、处理和使用医学数据的标准，其推动了公共数据集的构建，而公共数据集又是制订医学标准的基础。测试基准是用于评估医学AI算法或系统有效性和安全性的标准及其工具实现，本质上是一种计量标准。测试基准通常包括评价指标、基准数据集、算法以及工具实现，基于统计学理论，公共数据集标准化后，可得到用于评价特定医学任务的基准数据集。行为规范用于指导应用和评价医学大数据和AI，明确伦理和责任边界。

关于医学数据的准入、质量控制和审核等相关标准，涵盖在医学大数据相关标准的定义和内涵中，筛除低质量甚至错误的原始数据过程在构建公共数据集这一医学数据标准化流程中得以体现，即图1中的第一个标准化步骤。此外，公共数据集在医学相关标准的指导下，基于统计学理论，可得到基准数据集，这一过程体现为图1中的第二个标准化步骤。

2 医学大数据与AI标准的现状

2.1 医学大数据标准

医学健康领域已积累了大量数据，然而受制于大数据管理与分析、隐私保护以及系统交互操作技术瓶颈等，医学大数据在提升医学服务质量、效率、创新潜能方面仍有待提升[6]。当前医学数据标准化工作主要聚焦于医学术语、数据格式与交换标准等方面。

国际上，医学领域的数据标准和术语标准已相对成熟，这些标准为不同机构交流及医学数据共享奠定了基础。例如，ICD- 10是成熟的疾病分类标准[7]；LOINC是标识检验医学及临床观测指标的标准[8]；SNOMED CT包含了一整套便于计算机处理的医学术语[9]；DICOM是医疗影像存储和交换协议的标准[4]；HL7是软件应用之间传输和管理卫生健康数据的标准[10]。

我国医学大数据标准化工作起步相对较晚，近年来相关机构和组织出台了多项政策和标准以推动卫生健康信息的标准化建设。2016年国家出台了《电子病历共享文档规范》[11]，该文件包含57项与电子病历相关的卫生行业标准。中国医师协会于2020年底发布了《肝胆疾病标准数据规范：肝癌 CT/MRI 影像采集和处理标准》[12]，是我国第一个肝胆疾病影像数据标准。

2.2 医学AI标准

AI目前已应用于临床医学的各个阶段，包括疾病的筛查/分诊、诊断、预后、决策支持以及治疗方案推荐等(图2)[13]。2019年，我国国家药品监督管理局制定了《深度学习辅助决策医疗器械软件审评要点》，加强了AI医疗器械注册申报工作指导[21]。2021年初，美国FDA发布了基于AI与机器学习软件的医疗设备行动计划，该行动计划讨论了基于AI技术的医疗设备审查与监管[22]。

2.3 公共数据集

ADNI(Alzheimer’s Disease Neuroimaging Initiative)公共数据库包含阿尔茨海默病相关的临床、影像、遗传和生物标志物等数据[23]，旨在针对阿尔茨海默病进行早期检测和跟踪。MIMIC(Medical Information Mart for Intensive Care)数据库是重症监护医疗信息相关数据集[24]，包含生命体征、影像、人口统计学特征信息和诊断信息等，该数据库便于科研人员开展智能重症医护技术的研究。TCGA(The Cancer Genome Atlas)数据库存储和管理关于癌症基因组数据的各类信息，以构建癌症基因组图谱[25]，该数据库旨在提高诊断、治疗和预防癌症的能力。

然而，大部分公共数据集存在如下问题：(1) 数据存在患者群体偏向特征，目前公开数据集多无中国人群数据；(2) 数据整理繁杂，需要大量医学领域背景知识；(3) 数据总量较少，难以满足医疗和研究使用。

2.4 测试基准

AD DREAM Challenge是一套评价和预测阿尔茨海默病的测试基准，包含ADNI公共数据集以及相应的最新算法[26]。Christov等[27]提出了一套基于输血过程的测试基准，该基准包含输血过程定义、属性或需求等内容。IICBU 2008是一套生物图像分析的测试基准，提供了生物图像数据集和一组生物成像问题实例，该测试基准可用于评价不同的生物图像分析方法[28]。

已有的测试基准存在数据集单一、无法模拟真实临床场景等局限性。目前仍缺乏一套受到广泛认可且持续更新维护的测试基准，用于客观评估和量化AI技术在医学领域的应用能力。许多医学 AI 技术在人工构造或选择的单一医学任务中达到了较高准确率，然而在真实场景中，医学从业人员是在开放式的环境中处理开放式的问题，因而在特定和单一任务的测试基准上达到较高的准确率缺少实际意义[29]。

2.5 行为规范

AI技术的复杂、不确定和难以解释等特性给医学体系带来了巨大风险。目前应用和评价医学AI系统行为规范的研究仍然较少。当前的医学指南大部分只关注规范和指导医生本身行为，缺少对业界评价和使用AI技术的伦理、责任的行为规范。

SPIRIT-AI是一份评估AI干预的临床试验方案的规范指南，该指南的发表旨在提高AI干预临床试验方案的透明度和完整性[13]。此外，与SPIRIT-AI同步的还有CONSORT-AI，该指南针对临床试验报告制定了统一的标准规范，从而提高临床随机对照试验(randomized controlled trial, RCT)的报告质量，减少RCT报告中重要信息缺失的情况[30]。

2.6 标准化

目前，针对相同的标准化主体(subject of standardiza-tion)存在多种不同的规范指南，不同组织和研究机构之间难以做到统一标准。另外，由于医学从业人员的标准化培训水平参差不齐，导致大量医学数据的处理并不规范。这些问题使得现有的标准化成果难以充分发挥作用。

3 医学大数据与AI标准的机遇与挑战

医学大数据与AI从不同方面增强了医学从业人员、患者、医学单位以及医学界的能力，除需制订医学大数据与AI信息系统互联互通标准外，医学大数据与AI标准还存在如下机遇与挑战。

3.1 机遇：在保护隐私的前提下促进创新

临床医学数据涉及隐私保护、数据所有权等问题。国内外对健康数据的安全和隐私有着严格的规定，代表性的规定有美国的《健康保险便携性和责任法案》[31]和我国的《国家健康医疗大数据标准、安全和服务管理办法》[32]《中华人民共和国数据安全法》[33]《中华人民共和国人类遗传资源管理条例》[34]。然而具体实践中，通常即使使用者完全按照相关标准和规范对临床数据进行访问和处理，医学机构也不愿失去对数据资产的控制权，比如要求数据不出机构。

考虑到临床医学数据的价值以及涉及到的隐私保护问题，如何在保证数据安全和机构数据资产所有权的前提下访问数据并促进创新是重要的课题。国际测试委员会(BenchCouncil)发布的联邦学习测试床FLBench是解决这一重大挑战的起点。FLBench可用于帮助研发人员研发、校验以及评价算法和系统[35]。目前该测试床已包含超过2600名受试者的数据，包括医学问卷数据、临床量表数据、临床试验数据、生理数据、血液检测数据、脑脊液检测数据、尿液检测数据、医学影像数据以及基因数据。同时可公开访问的系统提供了场景配置功能，可根据系统提供的配置文件组合以上数据，构建多种阿尔茨海默病相关的筛查及诊断场景，并作为AI算法或模型信息输入使用。目前系统已经预设了6个配置文件：3个单机临床医学场景和3个联邦学习临床医学场景。另外，研究人员可通过调整配置文件定义临床场景，用于开发及验证临床AI算法及产品。

3.2 挑战

3.2.1 医学大数据标准的挑战

在医学大数据标准方面，国内外科研人员相继发布了多项规范性文件，使海量医学大数据的管理和获取变得更加便捷。然而，医学大数据的来源和类型通常是多样和异质的。例如，电子健康记录数据集具有数千个特征维度，包含患者人口学特征、诊断过程、治疗过程、随访等内容[36]，涵盖包括图像、文本、结构化或非结构化的数据类型。以阿尔茨海默病为例，临床医生和研究人员需收集临床、遗传、影像和生化生物标志物等多种不同类型的数据[23]。

海量的多源异质性数据增加了从业人员的认知难度。此种情境下，数据存储和处理系统需要集成不同的数据源和数据类型，而目前已有的数据标准和相应的数据处理系统主要针对相对单一的任务数据源进行设计和开发。考虑疾病分类和医学数据的多样性，针对特定领域和特定疾病的多源异质数据，制订综合的医学大数据采集、处理和使用标准，基于此类标准开发新的综合系统，是目前医学大数据和AI领域亟待解决的问题[29]。

3.2.2 测试基准的挑战

与传统计量标准相比，测试基准相对抽象。目前测试基准在测量条件构造、随机度估计和校准方面还缺少坚实的理论基础。例如，我们无法从理论上计算测试基准评价特定医学AI任务的精度和随机度，更难以开展计量溯源(metrological traceability)的分析。只能通过实际测试获得精度和随机度的估算，其结果依赖于特定的基准数据集。我们必须从计算机科学和计量学的角度重新审视当前的测试基准基础理论，发展科学和公允的测试标准。

临床问题通常具有不确定性和开放性，目前的测试基准往往针对特定单一任务，与实际的临床应用存在巨大鸿沟。在临床诊断领域，大多数AI技术仅针对单一疾病进行诊断，而在真实的临床诊疗场景中，常见的共病现象使得大量AI技术瞬间丧失诊断能力[37]。在智能医学领域，由于疾病分类的多样性、临床医生研究任务的复杂性以及医学大数据的多源异质性，构建全面且公平的测试基准十分具有挑战性[29]。一个理想的测试基准必须保证数据的多样性以及算法评价体系的完备性。

3.2.3 行为规范的挑战

目前，对AI模型的机理仍缺少足够的认识，其结果缺少可解释性，难以明确责任边界。目前应用和评价医学AI系统行为规范的研究亦缺失严重。未来需制定相应标准乃至相关法规，明确医生、管理者和新技术之间的职责，明确应用这些新技术伦理准则、边界条件以及产生负面行为的责任边界。

在传统医学领域，RCT研究是衡量医疗技术的金标准。RCT广泛用于医学领域某种技术或药物有效性的评估和检测。随着AI技术在医学领域的应用，传统RCT标准需要加以改进和完善。目前只有2项已发表的研究针对医学影像诊断任务将深度学习算法与临床医生进行了比对，几乎所有的AI系统应用均未在临床RCT中进行广泛的测试[38]。AI技术在医学领域的主要问题是泛化能力，即便是RCT也无法很好地评估这一点[39]。随着应用范围的扩大、应用场景的变化，AI技术在RCT中的测试效果可能会越来越与真实结果相背离。因此，当AI技术应用于医学领域后，传统的RCT研究不再适用于评估新兴的智能医学技术，如何制订新的评价标准与规范是目前面临的一项挑战。

尽管当前的医学AI技术研究已经到了白热化阶段，但关于医学AI评价指标及算法设计标准的研究仍较少。Huang等[37]和Parikh等[40]探索性地以临床结局以及患者收益作为评价医学AI系统的指标，Rivera等[13]和Liu等[30]同时发布了医学AI算法的临床实践指南，规范了医学AI算法开发及验证中的各个步骤。上述研究呼吁研究人员从临床角度出发，以临床研究中已有的生物统计方法学标准为参考，扩展医学AI算法的设计标准及评价指标。

3.2.4 标准维护的挑战

标准化是一项耗费人力和时间的工作。随着智能医学领域的快速发展，标准和测试基准需要被妥善更新和维护。在保证维护效率的前提下，降低维护成本是一项重要课题。

针对新兴的智能医学技术制定相应的数据标准和评价标准极具挑战性。随着医学领域的不断发展和进步，新兴的医学数据类型可能应运而生，传统的医学数据类型也可能被舍弃。因此，医学数据标准需要随时应对新的变化。

测试基准的快速更新迭代也是一项重大挑战。智能医学领域具有数据驱动和快速迭代的特点，测试基准必须及时更新基准数据集，增加最新的算法。目前大多数AI临床应用都使用监督学习的方法，随着无监督学习方法和自监督学习方法不断引入智能医学领域，需要不断更新和升级算法。

4 医学大数据与AI信息系统未来架构

未来，随着信息技术的进一步发展，结合大数据与AI增强的医学信息系统将进一步落地，因此笔者大胆提出了以医学科学大装置、大数据和AI赋能的医学信息系统为核心的标准架构(图3)。医学科学大装置作为公共医学基础设施，是推动医学大数据与AI发展的重要工具，其独立于各个医学机构，主要向外提供五大功能：(1)医学AI模型训练和融合服务；(2)计算资源服务；(3)关键数据存储服务；(4)测试基准自动维护服务；(5)AI医疗器械注册审查服务。医学科学大装置将在隐私保护和AI资源共享、关键数据长期安全存档、测试基准和AI医疗器械注册审查、私有信息系统互连互通等方面发挥积极作用。