临床智能研究平台建设及相关问题探讨
2021-12-16席韩旭XIHanxu孙邦凯SUNBangkai张晨ZHANGChen李维LIWei计虹JIHong
□ 席韩旭 XI Han-xu 孙邦凯 SUN Bang-kai 张晨 ZHANG Chen 李维 LI Wei 计虹 JI Hong
随着信息技术和数据科学的快速发展,基于多样化的真实世界数据(real-world data,RWD)形成的真实世界证据(real-world evidence,RWE),已成为医疗卫生决策的重要来源(如药械监管、目录制定、指南制定、疾病管理等)[1]。2021 年4 月15 日,国家药品监督管理局药品审评中心发布了《用于产生真实世界证据的真实世界数据指导原则(试行)》[2],该指导原则指出,真实世界数据是指来源于日常所收集的各种与患者健康状况和/或诊疗及保健有关的数据。根据源数据的产生是否基于预先设定的研究目的,真实世界数据主要分为常规收集的健康医疗数据(routinely collected health data,RCD)和主动收集的健康医疗数据[3]。随着真实世界研究的广泛开展和不断深入,如何利用信息技术提高真实世界数据获取效率是目前面临的重要挑战。本文从RWD到构建研究型数据库的需求进行分析并提出解决方案,为从信息技术角度支持真实世界研究提供借鉴与参考。
从RWD 到构建研究型数据库的需求分析
1.从RCD 到构建研究型数据库。RCD 从本质上讲,更多是用于医疗卫生管理目的,存在数据片段化、未标化、未链接、大量非结构化数据难以利用等问题[1,4],因此建立研究型数据库的需求主要包括:(1)基于患者主索引,将患者历次就诊的门急诊和住院信息进行整合;(2)利用自然语言处理技术对自由文本病历、检查报告等数据进行后结构化处理;(3)搭建平台实现海量数据的高效检索和应用。
2.构建包含主动收集数据的研究型数据库。主动收集的医疗数据是指基于预先设定的研究目的,额外主动收集研究者或决策者所需的关键信息(如肿瘤患者生活质量)和其他无法通过既有健康医疗数据获取的信息[1]。构建包含这类数据的研究型数据库的需求主要包括:(1)实现院内电子病历、医嘱、检查、检验等数据智能回填到病例报告表(Case Report Form,CRF)中;(2)对主动收集的患者数据实现高效获取。
临床智能研究平台整体架构
针对以上问题并结合《真实世界数据与研究技术规范》[1,5-6]要求,我院在实时全量数据中心(Hospital Data Repository,HDR)基础上[7],打造了临床智能研究平台以全面支持真实世界研究。
整个临床智能研究平台利用人工智能及大数据相关技术,从医院数据中心、外部公开数据库采集相关数据,以应用场景为驱动建立数据深度治理体系,搭建数据应用模型。在数据模型和数据应用层面之间通过敏感数据脱敏、资源监控管理、多层级账号权限和安全体系保障数据安全,以支持科研、临床、管理方面的应用,整体架构见图1。
图1 临床智能研究技术架构图
面向科研应用的平台功能特点
根据原始数据是否基于特定研究目的收集,我院打造了临床数据分析平台和专病队列管理平台以支持真实世界研究,下文将详细介绍每种平台功能并对两者特点进行对比分析。
1.临床数据分析平台。临床数据分析平台是一种面向全院、通用的科研工具,是一种回顾性数据库,是在研究开始前已经存在的,并非针对特定研究问题收集数据而形成,因此如何从海量医疗数据中高效地提取出研究所需要的人群和变量则是临床数据分析平台建设的核心内容,主要包括:
(1)人群检索。运用多层级语义分析模型,通过大数据、机器学习、自然语言处理技术将病历文书中大段的文本后结构化成可以直接利用的变量,并支持对处理后的变量进行多重语义筛选以高效建立研究人群。
(2)特征分析。对建立的研究人群特征利用数据可视化引擎进行多维度分析,包含人群特征、疾病特征以及症状表现等,为研究人员的探索性研究提供思路。
(3)实时数据质控和溯源。对研究人群全部变量的完整度、异常值等情况进行分析,并实时溯源到原始数据,以帮助研究人员从整体上快速了解数据质量。
(4)数据沙箱辅助进一步数据清洗。通过数据沙箱实现对数据极端值、异常值、缺失值的处理,以帮助研究人员根据具体的研究问题进一步进行数据清理,最终建立一个能够直接进行统计分析的数据集。
通过搭建临床数据分析平台,改变了传统的数据获取模式,基于分布式计算、搜索引擎、语音分析等技术,实现研究者自助式地进行数据检索、清洗和分析,从而提高数据获取效率。目前临床数据分析平台已支持18 个科室105 名医生使用,基于平台已开展16 项科研课题研究(其中国家自然科学基金2 项,院临床重点项目1 项[8])。
2.专病队列管理平台。专病队列管理平台是一种面向院内大型研究团队,针对专科疾病的队列管理平台。是一种根据明确的研究目的和计划,至少部分数据需要前瞻性主动收集而形成的数据库。专病队列管理平台的建设主要包括两方面内容:
(1)数据的收集与管理。专病队列管理平台中的数据既包括RCD,也包括前瞻性主动收集的数据。对于RCD,专病队列管理平台通过直接映射、自然语言处理及归一、逻辑判断等数据加工策略,实现对既有数据的智能化提取;对于需要主动收集的数据(如患者生活质量等数据),专病队列管理平台支持多种数据录入方式,包括手动录入、移动端(如微信、APP)录入、智能语音录入、物联网设备数据对接等,以提高CRF 回填率,减少手工录入工作量。
以胃癌专病队列建设为例,方法学团队、临床医生与信息团队共同确定了10 大类(基本信息、病史特点、术前检验检查等)168 个数据项,通过对每个数据项来源及提取规则的分析验证,最终确定可以直接映射的变量31 个,需要自然语言处理后再进行归一处理的变量48 个,需要进行逻辑加工的变量47 个,手工录入的变量42 个,数据回填率达75%。
(2)研究对象的随访与维持。专病队列管理平台支持对专病队列中的全部或部分研究对象进行随访。可以根据访视计划自动展示每天应随访的研究对象,形成随访日历,并通过移动端(如微信、APP)的用药提醒、用药指导、留言咨询、宣教推送等方式,辅助提高患者依从性。
临床数据分析平台与专病队列管理平台的对比分析
临床数据分析平台与专病队列管理平台作为支持真实世界研究的两个重要工具,两者在数据类型、采集方式、治理程度等方面均不同(见表1),在实际工作中研究者应根据基于研究目的,选择在现有资源条件下最适合的工具。
表1 临床数据分析平台与专病队列管理平台的对比分析
结语
信息技术的快速发展,为开展真实世界研究提供了更高质量的数据基础和更高效的数据获取效率。利用不同科研平台构建的数据库并不代表数据质量的绝对高低,科学的设计、严格的实施和分析才是高质量研究数据的关键[5]。随着信息技术和人工智能的快速发展,真实世界证据生产涉及的多个专业领域(包括临床医学、流行病学、统计学、信息学等)之间的交叉融合将更为明显,对医院信息技术专业人员也提出了更高的要求,一方面应该掌握和应用前沿信息技术,如Hadoopd 大型集群技术、Hbase 非关系型数据库技术、Map-Reduce、Spark Streaming 高效并行计算框架等技术[9];另一方面应熟悉临床业务流程,熟知数据来源,数据之间交互情况;除此以外还应对流行病学、统计学以及人工智能等方面深入了解,这样才能更好地支持医院科研发展。