APP下载

面向临床研究的医院真实世界数据治理与建议

2021-02-18吴燕秋WUYanqiu梁公文LIANGGongwen王天兵WANGTianbing

医院管理论坛 2021年11期
关键词:专病真实世界结构化

□ 吴燕秋 WU Yan-qiu 梁公文 LIANG Gong-wen 王天兵 WANG Tian-bing

我院信息化系统起步于1995 年,在随后的20 多年中,逐步完成了电子病历系统、移动护理系统、病理系统、手术麻醉系统、检验检查系统、超声系统、心电图系统、输血系统、重症监护系统等各类临床业务信息系统建设,也积累了大量的医疗诊疗、临床检验检查结果、临床用药等全流程、患者全生命周期的数据,具有非常高的临床研究价值[1]。

然而,由于历史原因,医院数据存在着诸多问题:临床诊疗数据存储不集中,分散在医院各个信息系统;各信息系统的数据结构不一致,格式繁杂,包括结构化、半结构化、文本数据、影像数据等不同格式,甚至医生手写的书面数据等;数据非结构化、非标准化,难以形成临床研究所需的变量;数据质量参差不齐、完整性差;数据未脱敏,患者隐私、数据安全无法保障;数据确权问题尚未明晰等。

本文以临床研究为导向和需求,从尽可能使医院数据应用于高水平研究的角度,阐述了我院面向临床研究的真实世界数据治理实践过程和经验,提出相关思考和建议。

我院面向临床研究的真实世界数据治理实践

我院自2019 年起开始面向临床研究的医院真实世界数据治理实践,见图1。主要过程如下:(1)面向分析与查询的临床研究通用数据模型(Common Data Model,CDM)的设计。基于医疗行业和真实诊疗数据的特点,遵循医院数据治理的通用规律和思路,我院建立了符合我院业务实际的CDM。CDM 中包含300 余项结构化字段(性别、年龄、身高、体重、诊断名称、诊断日期、检验项目名称、药品名称、药品规格等)和80 余项非结构化文本字段(入院记录、病程记录、各类检查报告、出院记录、死亡记录、术前小结等各类文书内容)。(2)多源异构数据的采集。为避免数据采集过程影响医院临床业务信息系统日常运行,我院建立了各个业务信息系统的T+1 备份库,实现数据以1 天为间隔时间备份、更新、全量采集;采用开源ETL 工具Kettle,通过配置不同数据库连接,从T+1 备份库中进行数据抽取任务的创建、运行、运维[2]。(3)数据处理与加工。将原始数据映射到CDM 中,并通过定义的数据类型、完整性约束和清洗函数规则等对数据进行清洗;按准确性、完整性、一致性、唯一性、有效性等原则和标准处理数据的缺失、逻辑错误和不一致数据、重复数据等,并合理地进行修补、增减或删除,满足后续大数据分析和精准医疗应用的要求,提高数据分析的准确性;使用自然语言处理技术(Natural Language Processing,NLP)对文本病历数据等大量非结构化数据进行结构化处理,提高数据的可利用性;(4)数据全生命周期质控。在数据采集、存储和处理的全过程中,对数据进行自动化、智能化质控。通过制定数据质控规则,使用程序把质控规则转换成数据库能识别的语句,对数据库中的数据“空值”“重复值”“异常值”“矛盾值”和数据的“连续性”进行检测,实现对数据质量问题的源头发现、分析、检测和修正。

图1 面向临床研究的真实世界数据治理实践与应用

真实世界数据治理成果应用

基于我院上述真实世界数据的治理实践过程,我院建设了如下3 项临床研究应用系统,见图1。

1.建立全院级临床研究大数据平台。我院设计并建设了医院临床研究大数据平台,平台以我院患者为中心,完整覆盖患者来我院就诊的全部诊疗项目。截止目前,平台共计累积了我院自2004 年以来的1342 万余名患者的5000 万余次就诊数据;包含40 万余条诊断名称、3000 余条药物名称、27 万余条非药物医嘱名称、4000 余条检验项目及其子项、2 万多条影像学、超声、心电图记录。主要功能包括:(1)研究人群精确筛选。可从病历、诊断、药物医嘱、非药物医嘱、检验、检查、手术、麻醉、转归等结构化及非结构化文本中个性化定制检索方案,并可在5 秒内完成所有全量数据的检索结果反馈;(2)实现全院视角下的患者数据可视化管理。可浏览患者历次在我院的诊断、用药、手术、检验、检查、麻醉等数据;(3)数据统计与分析。可将数据脱敏后导出成excel 格式,用于深度、精准分析。

2.建立专病/专科科研数据库。为促进我院各学科发展,充分挖掘数据价值,我院基于全院级临床研究大数据平台,进一步进行了多种疾病数据的深度、个性化治理。通过制定各个专病/专科数据集标准模型,筛选符合疾病条件的患者人群,并使用NLP 技术对大量非结构化文本病例进行深度结构化处理,建立了多个真实世界专病/专科科研数据库,包括创伤疾病、血液相关疾病、重症医学、麻醉科、胃肠外科、胸外科等,构建了多种疾病及其诊断、症状、用药、手术等关键要素的关联关系。专病/专科库能实时、自动、持续性地生成高质量、标准化、结构化的院内患者诊疗数据,助力医生高效分析和利用数据,支撑学科发展。

3.建立基于真实世界数据的智能临床试验创新系统。围绕药物临床试验和研究的关键环节和过程,基于全院级临床研究大数据平台,我院建立了基于真实世界数据的临床智能临床试验创新系统,针对我院不同临床试验项目开展数据集成、分析、存储、处理和脱敏,提升临床试验效率和质量,保障受试者安全,降低研究成本。主要功能包括:(1)临床试验项目管理。基于真实世界数据预测临床试验结果和风险,并模拟试验中的对照臂,缩小试验规模,缩短时间;判断药物临床试验设计的合理性、受试者招募的难度和进度,并预测试验进展;(2)受试者管理。智能筛选符合纳排条件的患者,推荐给研究者进行招募;(3)数据管理。根据临床试验项目方案的病例报告表(Case Report Form,CRF),系统会对临床试验项目库中的患者历史诊疗数据进一步完成字段映射、深度结构化和相关逻辑计算,完成数据智能生成,实现CRF 表自动填充及智能质控。

思考与建议

本文以当前医院普遍存在的数据问题为视角,以医院临床研究需求为导向,结合我院面向临床研究的真实世界数据治理实践过程,本文对医院临床研究数据治理提出以下几点思考和建议:

1.制定符合医院实际的通用数据集模型及专病标准数据集模型框架。建立数据标准是数据治理的基础,也是数据治理的关键和重点。引入数据标准是解决临床研究数据库数据整合、交换和共享从而挖掘数据潜在价值的根本方法[3]。医院应制定符合自身实际情况的通用数据集标准模型,模型应覆盖医院真实诊疗应用场景,避免冗余;应有完整的字段定义,并对每个字段定义数据格式、字段长度、值域、内容约束等,制定统一的规则处理标准;应规范模型中数据源的对应关系及不同数据来源元数据间的映射关系[4]。此外,考虑到医院各学科建立专病数据库的个性化需求,医院可通过构建通用版专病标准数据集模型框架,建立“通用数据集-医疗业务活动-数据来源”对应关系[5],从而形成科学性、规范性的专病数据库的数据采集、存储和深度治理模式,促进医院临床研究数据治理可持续发展[6]。

2.规范医院数据采集模式。从总体上看,医院信息系统的计算资源和存储资源相比于业务发展仍是紧张的,数据采集的过程很大程度上会对医院现有的业务运行和业务系统运转造成影响[1]。有条件的医院应建立临床业务生产系统的T+N备份库(N 代表数据以“天”级别自动更新),一方面,根据数据采集与临床研究应用的实时性要求,合理设定备份库与生产库数据同步的时间差,形成实时、动态、连续、完整、有序的临床研究数据采集。另一方面,在数据采集阶段不影响医院临床业务信息系统的日常运行,且数据质量不限于医院原有的临床数据中心(Clinical Data Reserve,CDR)。

3.建立数据全生命周期质控体系。在医院真实世界数据治理全过程中,应建立数据质控体系,对数据采集、标准数据集模型制定、多源异构数据整合、模型映射、数据清洗、存储等过程进行全方位管控,确保数据质控覆盖全程,如在数据采集中不漏采、不重复采,在数据处理中确保不同来源数据的模型映射关系正确等。在数据治理的每一个阶段,若发现数据质量存在任何问题,都应可追溯数据源头,及时对问题数据进行处理[7],避免从源头开始一错再错。

4.制定数据的分级分类标准及授权管理机制。2021 年6月10 日,《中华人民共和国数据安全法》由中华人民共和国第十三届全国人民代表大会常务委员会第二十九次会议审议通过,自2021 年9 月1 日起施行。其中明确指出,规定国家建立数据分类分级保护制度,对数据实行分类分级保护。数据分类分级工作是数据分类分级保护制度的基础和核心,其不仅是数据安全治理的第一步,也是当前数据安全治理的痛点和难点。医院应探索制定临床研究数据的分级分类标准及授权管理机制,对患者个人隐私数据进行清晰的定义,定义可对外开放、不能开放、可使用、不可使用等数据在不同研究场景下所使用的安全策略。

5.建立数据应用管理制度,完善和丰富多样化、精准化的数据服务。在数据分级分类标准与授权机制建立的基础上,医院应建立临床研究数据应用安全管理制度,规定各种审批流程,如数据申请、使用、监管等,并落实隐私泄露等责任问题。在确保数据安全的前提下,可借鉴国外数据库的管理服务理念,根据不同数据库的建设特点,探索多样化的数据管理、服务模式,为研究人员提供数据便利[8],提高服务效率。

6.培养医疗大数据复合型人才。医院真实世界数据治理不是一蹴而就的,而是一个常态化的工作体系。医院应打造既懂生物医学又懂大数据技术的高素质复合型人才队伍,做好健康医疗大数据人才储备。医院大数据治理工作者应掌握数据采集、存储、模型映射等各方面的知识,包括常见的数据库技术、医院各个临床业务系统的数据库表结构等;同时,应熟知医院临床诊疗业务和详细过程;还应深入了解临床研究人员的实际研究需求。

小结

数据治理不仅是完成一项工作的方法或手段,而应是一套井然有序的体系。医院应结合自身特点和实际需求,因地制宜地盘点数据资产,提升数据质量,提高医院数据获取效率,保障数据安全、合规、可靠,健全数据治理体系建设[9],在不断的探索与实践中,逐步丰富完善数据治理策略,形成常态化且可持续性发展的医院数据治理体系,从而最大化发挥医院数据资源的价值,促进医院高水平临床研究,提升各学科建设能力。

猜你喜欢

专病真实世界结构化
多替拉韦联合拉米夫定简化方案治疗初治HIV感染者真实世界研究
参麦宁肺方治疗223例新冠病毒感染者的真实世界研究
“互联网+医疗”背景下中医专病人工智能诊疗系统的现状及探讨
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
虚拟世界和真实世界的纽带
虚拟现实:另一个真实世界
专病一体化护理对心衰患者营养管理的影响
基于图模型的通用半结构化数据检索
基于软信息的结构化转换