真实世界数据和证据在我国临床决策中的应用现状
2023-06-05廖茜雯
廖茜雯
北京大学第一医院
北京大学临床研究所
姚晨*
北京大学第一医院
北京大学临床研究所
海南省真实世界数据研究院
张军
默沙东研发(中国)有限公司
Larry Z Liu
默沙东有限公司
威尔康奈尔医学院
随着医疗数据数量的迅速增长和医疗信息技术的快速发展,真实世界数据(real world data,RWD)和真实世界证据(real world evidence,RWE)已成为推动医疗健康发展和创新不可或缺的组成部分。
1 背景
临床决策(clinical decision-making,CDM)是指形成诊断或治疗方案的过程,一般基于患者的最佳临床检查数据,并考虑患者自身的选择偏好[1]。CDM 通常由3 个方面组成:疾病诊断、风险预测、疾病管理。传统上,CDM 在很大程度上是由知识和经验驱动的,包括患者的主观和客观临床数据、医生的经验、地理位置、医院的资质等,导致决策具有主观性、不确定性和变异性[2]。近年来,循证医学(evidence-based medicine,EBM)理念下的CDM 逐渐被临床医生所采纳。其主要建立在3个关键维度上,包括以随机对照试 验(randomized controlled trial,RCT)为金标准的现有最佳临床证据、医生的临床经验,以及患者的偏好。EBM 理念下的CDM 将科学严谨的客观临床证据与主观的医生经验和患者价值结合,以期做出最佳的CDM[3]。
随着医疗数据数量的迅速增长和医疗信息技术的快速发展,真实世界数据(real world data,RWD)和真实世界证据(real world evidence,RWE)已 成为推动医疗健康发展和创新不可或缺的组成部分。RWD 是指来源于日常所收集的各种与患者健康状况或诊疗及保健有关的数据,包括电子病历(electronic medical record,EMR)、医 疗索赔数据、疾病登记数据和患者生成的数据等[4-5]。通过分析RWD 所产生的证据即为RWE[4-5]。与传统RCT 所产生的证据相比,RWD/RWE 具有独特的优势。由于RCT 的受试者通常受限制于严格的纳入与排除标准,可能会导致较低的外部有效性。而RWD/RWE 的发展使临床医生和研究者能够利用非传统研究环境中的大量数据,也就是从常规医疗实践中收集的临床数据,从而辅助EBM 理念下的CDM,并为其提供新的临床假设和证据。设计良好的RWD/RWE 能够为临床医生在真实医疗环境下更广泛多样的人群中,就治疗的安全性和有效性提供补充信息[6]。使用RWD 产生的RWE 的研究通常纳入排除标准更宽泛,研究结果受患者在真实世界中合并用药、地理位置以及患者意愿的影响更大,更具有EBM 方面的临床价值[7-8]。此外,RWD/RWE 可用于填补 RCT 未能解决的临床问题中的几个空白,如通过药品上市后更长的随访期发现额外的治疗效果或风险,调查疾病高风险患者的人口学特征和患者的依从模式,并揭示传统RCT 中未能满足的医疗需求等[7,9,10]。
随着人们对RWD/RWE 在支持CDM 中价值的认识程度不断加深,近年来我国通过多维度的医疗改革创新,致力于完善RWD/RWE 并推动其广泛应用。2020 年,国家药监局发布《真实世界证据支持药物研发与审评的指导原则(试行)》,2021 年,国家药监局药品审评中心发布《用于产生真实世界证据的真实世界数据指导原则(试行)》,明确了相关定义,阐明了RWD/RWE用于评估监管决策的基本原则,并概述了用于产生RWD/RWE的高质量RWD 的使用原则和范围[4,11]。此外,在当前医疗大数据的背景下,人工智能技术的迅速发展也为RWD/RWE 支持CDM带来了新的发展方向。2019 年7 月,国家药监局医疗器械技术审评中心发布《深度学习辅助决策医疗器械软件审评要点》,首次明确了使用深度学习技术辅助CDM 软件注册申报的审评关注重点,包含需求分析、数据收集、算法设计、验证与确认等阶段[12]。2022 年3 月,《人工智能医疗器械注册审查指导原则》正式发布,进一步明确了RWD 采集、整理、标注、数据集构建的要求[13]。
随着我国对RWD/RWE 的需求及其产量的不断增加,有必要全面总结并批判性评估所有现有证据,同时进一步探索用于支持CDM 的RWD/RWE 的特点。截至目前,尚不清楚RWD/RWE在我国支持CDM 的应用范围和适用性。为了弥补这一空白,本研究旨在通过文献综述,回顾性地总结 RWD/RWE 在我国支持CDM 的应用现状与特征,探索阻 碍RWD/RWE 在CDM 中 广泛应用的潜在因素,并提出可行性建议。
2 方法
本研究在PubMed、MEDLINE、Embase、万方数据知识服务平台、中国知网数据库中对使用RWD/RWE 支持我国CDM 的现有文献进行了检索。根据研究目标,将CDM 分类为疾病诊断、严重程度评估/风险预测、疾病管理。使用中文或英文关键词在相应的电子数据库进行检索。检索关键词包括“真实世界数据”或“real world data”、“真实世界证据”或“real world evidence”、“观察性研究”或“observational studies”、“ 登记研究”或“registry study”、“ 电子病历” 或“electronic medical records”、“医院信息系统”或“hospital information system”、“临床决策”或“clinical decision-making”、“ 疾病诊断” 或“disease diagnosis”、“疾病评估”或“severity assessment”、“风险预测”或“risk prediction”、“疾病管理”或“disease management”。纳入的研究仅限于使用RWD/RWE 在我国支持CDM 的 中文或英文文献,且发表年份为2010 年及以后。排除与以上3 类CDM 无关的研究,如成本效益研究、医院管理研究、支持监管决策的相关研究。通过文献的标题和摘要进行初步筛选,并对符合研究纳入和排除标准的文献进一步详细评估。
3 真实世界数据和证据在临床决策中的应用现状
3.1 疾病诊断
为了支持疾病诊断,目前RWD/RWE 主要用于描述罕见病和新发传染性疾病(如新型冠状病毒感染)的临床特征。对于常见疾病,由于诊断标准已经相对成熟,RWD/RWE 通常被用于探索新诊断方法或生物标记物对改善诊断效果的影响。例如,有研究者利用单中心EMR 进行了倾向性评分匹配的病例对照研究,以评价Mac-2 结合蛋白聚糖异构体联合指标与血清甲胎蛋白单项指标相比,对肝癌的诊断效果和价值[14]。
对于罕见病来说,由于病情的复杂性和患者的稀缺性,临床诊断通常面临较大挑战,导致疾病发病和临床诊断之间存在严重延 迟。利用RWD/RWE 可 以辅助临床医生了解罕见病患者的人口统计学特征和罕见病的临床表征,从而支持快速准确的临床诊断。罕见病注册系统是常见的RWD 数据源。疾病领域涵盖血友病[15-16]、普拉德-威利(Prader-Willi)综合征[17]、Takayasu 动脉炎相关肺高血压[18]、庞贝氏症[19]、奥尔波特(Alport)综合征[20]等。中国血友病治疗中心协作网和中国获得性血友病登记系统是两个常用的血友病注册系统。基于这两个系统的RWD 所展开的单臂、回顾性、观察性研究,描述性统计分析总结了我国白血病患者的人口统计学特征,并且发现了我国白血病患者从首次发病到临床诊断的严重延迟[15-16]。
除罕见病外,新发传染性疾病,如新型冠状病毒感染的暴发进一步推动了RWD/RWE 在支持疾病诊断方面的重要应用。针对无既往诊断经验和相关指南的未知传染病,在疾病传播的早期阶段,通过对患者EMR 的回顾性分析所获得的临床和流行病学特征,能够帮助临床医生迅速准确地诊断此类传染病,防止其传播并降低死亡率[21-22]。需要强调的是,基于伦理和法律方面的考虑,被视为弱势群体的儿童和青少年人群一般难以被纳入传统临床研究中。相比之下,RWD/RWE 能够就新型冠状病毒在真实临床实践中儿童和青少年人群中独特的传播途径、潜伏期、临床表征和并发症,提供更实用且有价值的证据,以辅助临床医生做出有针对性的临床诊断[23-24]。
综上,目前在我国使用RWD/RWE 支持疾病诊断方面,以罕见病(包括白血病、罕见分子亚型癌症、罕见遗传性疾病等)和新发传染性疾病为主。RWE研究设计通常为单臂、回顾性、观察性研究。RWD 数据源主要为罕见病注册系统和患者临床EMR。统计分析方法主要采用描述性分析,旨在进一步了解罕见病和新发传染性疾病的临床表现和患者特征,缩短疾病发病到临床诊断的时间,并促进疾病及时诊疗。
3.2 风险预测
目前,RWD/RWE 在疾病风险预测中的主要应用包括发现新的疾病预后因素和开发可操作性风险预测工具。通过分析患者在真实临床实践中潜在暴露因素或生物标志物的数据,可以产生新的临床RWE 并生成新的临床假设,通过RCT 检验假设,以辅助相关指南制修订并支持CDM。慢性病是研究潜在预后因素的主要疾病领域,尤其是以脑卒中和急性冠状动脉综合征为主的心脑血管疾病。RWD 数据源主要采用单中心临床EMR 和心脑血管疾病注册系统。其中,较为常用的心脑血管疾病注册系统包括第三次中国国家脑卒中登记(The Third China National Stroke Registry,CNSR-Ⅲ)、中国心血管疾病医疗质量改善项目——急性冠脉综合征项目、中国卒中中心联盟这三个高质量国家级注册系统。例如,一项回顾性真实世界研究使用CNSR-Ⅲ研究数据评估了患者血清钙水平预测脑卒中患者一年后临床结局的能力[25]。该研究结果表明,基线血清钙水平可能作为缺血性卒中的潜在预后生物标志物和治疗靶点。此外,对于缺血性卒中患者,预先使用抗血小板药物被认为是一种保护性的预后因素,可以降低住院期间不良结局的风险[26]。
除了发现新的预后因素形成临床RWD/RWE 以间接支持CDM 外,RWD 还被用于建立风险预测模型等可操作性工具,直接支持CDM。由于预测能力有限,大多数模型旨在实现短期疾病预后的个体化预测。缺血性心脑血管疾病仍是此类预测模型的研发重点领域,相关疾病包括心肌梗死、冠状动脉疾病和脑卒中。
国家心脑血管疾病注册系统为主要RWD 数据源,包括冠心病抗血小板治疗的优选方案注册库[27]、中国急性心肌梗死(CAMI)注册库[28]、CNSR-Ⅲ[29]。这三个数据库均采取国家级、多中心、前瞻性、观察性设计,分别被用于预测我国心肌梗死患者医疗机构内死亡的风险、冠心病患者出院后1 年内缺血性心脑血管疾病的风险,以及短暂性脑缺血发作患者1 年内发生脑卒中的风险。使用传统的Logistic 回归模型结合内部验证是常用的建模技术,并且采用ROC 曲线下面积(AUC)作为主要指标,以评估模型的辨识效果和预测能力。这些模型所报告的C 统计量或AUC 值都在0.72~0.82之间,表明模型在实际临床应用中具有较好的短期辨别能力。
3.3 疾病管理
为了支持疾病管理,RWD/RWE 的主要用途包括比较不同疾病治疗模式在真实世界中的效果、探索新治疗方法在真实世界中的安全性和有效性、为指导疾病管理和治疗提供新的临床假设和证据。研究的疾病领域以慢性病为主,其中癌症是较为常见的治疗领域,其他疾病包括糖尿病以及心脑血管疾病等。
在比较不同疾病治疗模式的临床效果以辅助治疗选择时,临床EMR 被广泛使用。对于单中心研究,标准治疗方法(如针对癌症的传统化疗)通常被视为对照组。有研究者评估了在真实临床实践中晚期非小细胞肺癌(NSCLC)的不同治疗模式的效果[30]。研究结果显示,与标准化疗方案相比,使用克唑替尼作为一线治疗药物的患者无进展生存期(PFS)显著更长,但总体生存期(OS)无明显差异。对于多中心研究,为保证内部有效性,倾向性评分匹配常被用于平衡治疗组与对照组之间潜在的混杂因素。在评估胰蛋白酶抑制剂治疗急性胰腺炎的临床效果时,一项多中心回顾性研究表明,生长抑素可能是急性胰腺炎最有效的治疗方法,具有较短的血清淀粉酶/脂肪酶恢复时间以及较低的并发症发病率和器官衰竭发生率,为辅助临床医生进行治疗选择提供了有价值的临床RWE[31]。
传统上,免疫检查点抑制剂(ICI)等创新疗法的临床安全性和有效性一般通过具有严格入组标准和有限随访期的RCT 来证明。因此,在随访期较长的异质性人群中进行RWE 研究成为评估创新疗法在真实世界中的有效性以及发现更多不良事件的关键。基于临床EMR 的单中心、单臂、观察性研究为这类RWE 研究的主要特点。其中,有两项研究初步探索了ICI 治疗晚期NSCLC的真实世界有效性和安全性,并报告了ICI 作为晚期NSCLC 患者一线治疗的PFS 获益[32-33]。然而,这两项研究对ICI 安全性的报告存在较大差异。其中一项研究发现了较高的总体免疫相关不良事件(irAE)发生率(达61.71%),4 级irAE 发生率为8.82%[32],而另一项报告的irAE总体发生率为29.6%,且无4 级及以上irAE 发生[33]。此外,有研究者评估了奥拉帕尼在晚期卵巢癌患者中的短期治疗效果和不良反应[34]。通过较长的随访期,该研究提出了在既往RCT 中没有发现的新的临床不良反应,包括腹胀、血压下降、体毛增加、口渴等。
利用不同的RWD 数据源所产生的RWE 还能为指导治疗给药和疾病管理提供新的临床假设和证据。基于CAMI 数据库的一项研究报告了糖尿病患者急性心肌梗死的非典型症状。与没有糖尿病的患者相比,糖尿病患者出现典型胸痛症状的可能性较低,可能导致疾病管理的延迟[35]。有研究者使用单中心EMR 探索了瑞格非尼治疗晚期结直肠癌时平衡安全性和治疗效果的合理给药剂量[36]。在临床常用的3 种剂 量(包 括80mg、120mg 和160mg)中,接受120mg 最终剂量的患者具有更好的风险-效益比以及最长的中位OS,该研究可为疾病管理提供参考。
4 真实世界数据和证据支持临床决策的障碍与建议
由于不同的RWD 数据源所包含的研究特定数据元素可能差异很大,采用适用的RWD 数据源是使用高质量RWD/RWE 支持CDM 的基础。基于不同数据源的特点,现阶段在我国使用RWD/RWE 支持CDM 的主要RWD 数据源为结构化EMR 和疾病登记库。主要疾病领域包括罕见病、新发传染性疾病、以心脑血管疾病和癌症为主的慢性病。我国EMR 数据中门诊随访数据的可用性通常受到极大限制,而人口统计学信息、诊断结果、药物治疗信息等结构化数据元素稳定可用。影像和病理学结果等非结构化数据元素则推动了人工智能(AI)等新技术的发展以进一步支持CDM,推动个体化诊疗。此外,根据研究目的和设计,尽管疾病登记库中的可用数据元素不同,但由于其具有前瞻性的设计,通常能够不同程度地获得纵向随访数据。为了支持罕见病和新发传染性疾病的诊断,基于罕见病登记库和EMR 的描述性分析能够帮助临床医生提高对相关疾病的认知水平。虽然国家级或区域性疾病登记库是预测长期疾病预后的最佳RWD 数据源,但由于传统模型具有较差的长期预测能力,疾病登记库成为建立短期预后模型和选择预后因素的主要数据源。为了解决随访数据缺失问题,研究者通常需要使用电话或电子邮件等方式采集研究特定的数据。此外,多中心EMR通常被用于进行比较性有效性分析,结合包括倾向性评分匹配和多元回归在内的统计方法,调整混杂因素的潜在影响,以支持并指导疾病管理。
近年来,随着RWD/RWE受到越来越多的关注,在我国使用RWD/RWE 支持监管决策的重要性已得到充分认可。目前,已有多个相关行业指导原则发布,旨在积极推动RWD/RWE 在各类医疗产品全生命周期中的使用[4,37]。相比之下,目前RWD 对CDM的影响力仍较为有限,研究投入和临床应用之间存在较大差距。笔者根据现有文献确定了以下潜在障碍,并相应提出可行性建议。
4.1 真实世界数据可及性低
高质量的疾病登记数据和多中心EMR 的缺乏导致大多数现有可操作性决策辅助工具使用了单中心内部验证,大大限制了所产生的临床工具的外推性。在我国,EMR 的实施主要是由政府推动的。据相关研究统计,2018 年我国一级、二级、三级医院EMR的总体采用率为85.3%[38]。总体来说,目前EMR 系统功能的评价指标可大致分为3 种:低级阶段(0~2 级,强调源数据采集)、中级阶段(3~4 级,强调同一医院内各科室的数据共享和基本CDM 支持)、高级阶段(5~8级,强调不同医院间的信息共享和智慧型CDM 支持)[38-39]。根据2022 年国家卫生健康委办公厅发布的《2020 年度全国三级公立医院绩效考核国家监测分析情况的通报》,截至2020 年,参评的三级公立医院的EMR 系统功能应用水平平均级别为3.65级[40],表明我国整体EMR 发展正处于中级阶段,能够实现院内不同部门之间的数据交换。此外,有91.26%的参评三级公立医院达到3 级及以上水平,65.26%达到4 级及以上水平,基本实现院内信息共享并初步支持CDM。基于上述背景,单中心EMR 的广泛应用可能源于目前我国EMR系统的整体建设水平。
如上所述,大多数RWD 数据源并非为研究目的而设计,通常需要额外采集研究特定数据。即使在相同类型的RWD 数据源中,可用的数据元素也会存在差异[41]。由于医疗机构可自行决定与研究人员共享的数据类别及范围,数据元素的可及性因提供数据的医疗机构而异[41-42]。特别是,我国独特的就医模式导致EMR 系统中通常缺乏纵向数据,这在一定程度上限制了临床RWD 支持长期决策的能力[41,43]。如果不使用自然语言处理等AI 技术,而是从EMR 系统向研究数据库手工转录非结构化的EMR 数据(如影像和病理结果以及临床医生笔记),则会进一步阻碍支持CDM的RWD 的普遍使用[44]。同时,我国使用RWD 的相关伦理审批制度还有待完善,并且缺乏中心伦理委员会。尽管目前对于使用二级数据库进行研究尚未有明确的伦理规定,但大多数研究人员选择申请伦理审查[41,43]。尤其对于多中心研究来说,研究人员通常需要向各个RWD 数据源所在机构的伦理委员会提交申请批准,以使用去标识化的数据,这为RWD 的广泛使用增添了不确定性和挑战性。
为了解决上述问题,有必要建立一个独立的临床研究平台,使用自然语言处理等AI 技术将EMR 数据直接转录到该平台上[44]。患者报告的纵向数据可以结合特定研究和常规收集的数据集成到该平台中[43-44]。需要注意的是,相关多方开展合作是成功建立此类研究平台的先决条件,包括医院、大数据公司、学术界和监管机构等[41,43,45]。这些相关方的共同努力有助于确保并促进数据共享,为产生高质量RWD 奠定坚实的基础,从而产生高质量的RWE 以支持CDM。
4.2 真实世界数据和证据质量有待提高
由于RWD 存在收集目的多样、数据结构复杂、数据标准不统一、数据缺失等问题,目前我国RWD 质量参差不齐[41-44],由此产生的RWE 质量强度也存在差异,在一定程度上阻碍了RWD/RWE 在支持CDM 方面的广泛应用。无论是否使用AI 技术,采用低质量的RWD 所构建的CDM模型或工具的临床可用性都会大大降低[46-47]。造成RWD 质量不足的主要因素包括数据缺失[45]、缺乏源数据验证过程[42-43]、数据标准不一致[42]、缺乏数据通用模型等[43]。为进一步推动RWD的应用,近年来国家药监局药品审评中心等监管部门制定了一系列RWD 相关指导原则,旨在规范并提高RWD 的整体质量以支持监管决策。根据相关文件,数据的相关性和可靠性是评价RWD 质量的关键因素[4,11]。其中,相关性是指RWD 数据源是否与所关注的临床问题密切相关,可靠性主要从数据的完整性、准确性、透明性、质量控制和质量保证方面进行评价。然而,目前监管部门对于研究所用RWD 质量的评估未有强制性要求,而是建议并提倡提前进行充分沟通。
同时需要注意的是,系统性的RWE 质量评估工具尚未形成。与传统RCT 相比,RWE 在研究设计上存在固有的局限性[47]。目前广泛应用的RWE 研究类型主要包括横断面研究、回顾性队列研究、疾病登记研究等观察性研究。观察性研究的主要局限性源于潜在的偏倚,包括选择偏倚、信息偏倚以及各种混杂因素。在使用EMR 预测疾病长期预后时,排除缺少随访数据的患者数据可能会引入选择偏倚。缺乏标准化的临床术语可能会在多中心研究产生信息偏倚。为了最大程度减少选择偏倚和信息偏倚,应从研究设计阶段进行控制,采用科学、严谨的研究设计和评价工具。然而,现有针对观察性研究的评估工具,如纽卡斯尔-渥太华量表(the Newcastle-Ottawa Scale,NOS)[48]和比较效果研究的GRACE 准则[49]并不能与RWE 完全兼容。在不考虑RWD数据源的相关性和可靠性的情况下,这些工具倾向于强调组间可比性,忽略了源数据质量以及单臂研究的重要性。同时,由于缺乏随机分组,对混杂因素的调整变得至关重要。常用的控制混杂因素的统计方法包括基于协变量多因素回归模型、倾向性评分分析、工具变量、孟德尔随机化等。在RWD/RWE支持CDM的实际应用中,前两种分析方法更为常见。然而,多因素回归模型调整协变量和倾向性评分分析都只能控制已知的混杂因素,而不能校正未知或无法测量的因素。也就是说,依然可能存在残留的混杂因素[50]。因此需要强调的是,RWD/RWE 无法取代RCT,而是对传统RCT 的补充[47,51]。由RWD 产生的RWE 可以用于验证或拓展RCT 的结果,但RCT仍然是确定临床疗效的金标准。另外,RWD/RWE 可通过发现新的疾病诊断生物标志物和治疗效果等方式产生假设,并通过RCT检验假设,以辅助相关指南制修订从而支持CDM[51-52]。
通过多学科合作提高RWD质量是进一步促进RWD/RWE 支 持CDM 的首要任务[41,43,45,47]。为此,有研究者提出了一种适用于我国的解决方案,旨在通过建立临床研究源数据平台,并与医院合作采用源数据管理流程来加强源数据管理[53]。研究者将这一概念转化为实践,开创性地开发了电子源数据记录(eSource record,ESR)工具,形成了一个集临床源数据采集、治理和管理的一体化解决方案[54]。ESR 使用药物临床试验质量管理规范(GCP)中数据质量控制和可追溯性为指导原则,以保证源数据质量。初步评估显示,该工具可以提高数据采集效率,并减少从EMR 手动转录至研究数据集的工作量[55]。此外,还应加强对RWD/RWE 的管理,不仅要从监管的角度推进数据标准化并强制实施质量要求,还要从学术研究的角度构建系统化的RWD/RWE 质量评估框架,以提高用于支持CDM 的RWD/RWE 的质量[41,43,45]。
5 结论
快速发展的RWD/RWE 领域为医疗行业以数据为驱动的创新带来巨大的希望。在传统RCT的基础上,RWD/RWE 进一步丰富了支持CDM 的临床证据的维度,验证药物治疗在临床实践中的真实效果,提供在真实临床实践中与RCT 互补的额外证据,并形成新的临床研究假设。然而,现有的RWD/RWE 在CDM 中的应用性和可接受程度仍有待提高。为此,需要多学科交叉融合以及相关多方间密切合作,从而有效促进RWD/RWE 的系统性使用及持续发展,进一步推动实现我国CDM 中的循证和高质量目标。