基于既有医疗数据构建研究型数据库的方法学探讨及实例解读（一）：变量清单和数据库架构的确定

2023-08-23赵国桢闫世艳郭玉红宋爽胡雅慧郭诗琪徐霄龙叶浩然朱泠霏杜元任志颖卢海天胡晶李博刘清泉

中国中医药信息杂志 2023年8期

赵国桢，闫世艳，郭玉红宋爽，胡雅慧，郭诗琪，徐霄龙叶浩然朱泠霏杜元任志颖，卢海天胡晶李博刘清泉

1.首都医科大学附属北京中医医院，北京市中医药研究所，北京 100010；2.北京中医药循证医学中心，北京 100010；3.北京中医药大学，北京 100029；4.天津中医药大学，天津 301617

既有医疗数据是真实世界数据（real-world data，RWD）的重要组成部分，而基于RWD开展的真实世界研究（real-world study，RWS）所产生的真实世界证据（real-world evidence，RWE），对医疗卫生决策产生重要影响[1]。与西药新药开发模式不同，中药新药在开发前往往已经具有大量临床人用经验，积累了较丰富的医疗数据，为RWE的产生提供了有力保障[2]。国家药品监督管理局发布的《真实世界证据支持药物研发与审评的指导原则（试行）》指出，RWE可以支持药物监管决策，包括为新药注册上市提供有效性和安全性证据、为已上市药物的说明书变更提供证据、为人用经验总结和临床研发提供证据支持等[3]。此外，国务院办公厅发布的《关于加快中医药特色发展的若干政策措施》，要求充分利用数据科学等现代技术手段，建立中医药理论、人用经验、临床试验“三结合”的中药注册审评证据体系，积极探索建立中药真实世界研究证据体系[4]。目前，国内已发表多篇相关技术规范，指导从既有医疗数据到RWE，其关键点之一在于研究型数据库的建设[5-6]。然而，因RWD来源广、容量大、中医药数据复杂等特点，数据库建设的具体实施过程仍面临挑战。

本文以“中西医结合治疗新型冠状病毒感染研究型数据库”为例，对基于既有医疗数据构建研究型数据库中变量清单及数据库架构的确定方法进行介绍。本研究已获得首都医科大学附属北京中医医院医学伦理委员会批准（2022-BL02-033-01），并且在中国临床研究注册中心注册（ChiCTR2200062917）[7]。

1 相关概念和总体设计

既有医疗数据属于回顾性资料，其特点是未针对特定的研究目的而收集[8]。因此，从既有医疗数据，到可直接用于统计分析的分析数据库，仍需要一定的数据处理过程。不同的RWS对数据的处理方法存在一定差异，但其中共有的且必要的一步是建立研究型数据库。研究型数据库可基于既有医疗数据形成，但又不同于既有医疗数据，两者的主要区别见表1。本课题中研究型数据库的构建可分为2个阶段：①确定变量清单及数据库架构；②数据治理。本文重点对变量清单及数据库架构的确定方法进行论述及实例解读。

表1 研究型数据库与既有医疗数据的主要区别

2 确定变量清单

2.1 明确临床问题及研究目的

研究目的来源于临床问题。明确研究目的，是开展各类型研究的首要步骤。本研究主要待解决的临床问题有2 个：①中医药治疗新型冠状病毒感染（Coronavirus Disease 2019，COVID-19）的有效性和安全性如何？②哪些具体的中医治疗措施可以有效且安全地用于COVID-19的治疗？

基于以上2 个临床问题，确定研究目的如下：①对中医药治疗COVID-19的总体疗效及安全性进行评价；②对清肺排毒汤、化湿败毒方、连花清瘟胶囊等中医治疗COVID-19 具体措施的疗效及安全性进行评价。

2.2 临床问题解构

为更好地确定研究所需变量，需基于研究目的，按照循证医学的“PICO原则”对临床问题进行解构。临床问题解构是确定变量清单的核心步骤。本研究以对中医药总体的疗效评价为例，对临床问题解构示例见表2。

表2 对中医药总体疗效评价的临床问题及解构示例

2.3 变量分类及确定

完成研究所需要的变量，称为关键变量[5]。根据临床问题解构结果，可确定本研究的关键变量。关键变量主要分为四类：①与研究对象（纳排标准）相关的变量；②与研究治疗措施/暴露因素相关的变量；③与结局指标相关的变量；④与混杂因素[9]相关的变量。不同类别的变量需存储在不同的数据集或数据模块中，各数据集或数据模块需通过链接变量[6]相连。关键变量需要根据循证医学证据、专家临床经验和既有数据情况共同确定。

以上述临床问题解构中的“西医常规治疗”为例。为存储患者住院期间接受西医治疗情况的相关数据，设立西医治疗数据集，该数据集中的变量在本研究中属于与混杂因素相关的变量。根据COVID-19指南及诊疗方案推荐[10]，西医治疗包括：阿比多尔、α-干扰素、利巴韦林等抗病毒治疗；人免疫球蛋白、康复者恢复期血浆等免疫治疗；糖皮质激素治疗；呼吸支持及其他治疗。根据专家讨论，补充奥司他韦、洛匹那韦利托那韦2种抗病毒药物；根据既有数据情况，去除恢复期血浆治疗。确定本研究所需的西医治疗措施后，将各项措施的天数及有无作为变量，列入西医治疗变量集的变量清单。同时，该变量集还包含链接变量及其他相关变量。

2.4 衍生变量计算

研究所需要的部分变量，不能从既有数据中直接提取，而是需要通过数据转换计算而得，这类变量称为衍生变量[11]。衍生变量的计算需要基于一定规则。例如在上述西医治疗数据集中，课题组仅可从既有数据中提取各患者各药物的使用天数，但是否可以认为该患者使用了该药物，则需要基于天数来计算。若阿比多尔使用天数≥3 d，可认为患者使用了该药物，以“1”表示，否则以“0”表示。其中，“阿比多尔使用天数”就是原变量，而“是否使用阿比多尔”则是衍生变量。

3 评估既有数据

在使用既有医疗数据前，需先评估既有数据能否为待建数据库提供可靠的数据，包括数据的准确性、完整性、数据覆盖日期跨度、研究人群代表性、样本量等。若存在数据质量问题，最好是对数据进行溯源。在评估期间，还需了解既有数据的数据库结构及变量清单，并与待建数据库所需的变量清单比对，重点关注以下问题：①既有数据能否为待建数据库各变量提供可靠数据支持；②待建数据库的变量在既有数据中的来源是否单一；③若数据多源，还需对比不同来源数据的质量，建立重复/矛盾数据优先级。

以本研究中基本信息数据集的“入院日期”变量为例。在评估既有数据中与入院日期有关的变量时，发现共有4个数据来源：入院记录、出院记录、死亡记录、病案首页中的入院日期变量。此外，还有2个衍生变量可为入院日期的确定提供参考：首次病程记录日期、首次医嘱日期。经数据质量评价，以上6个变量均有较好的可靠性。因此，“入院日期”会根据4个不同来源的变量进行数据提取，并根据2个衍生变量进行数据核查。

4 明确数据集结构

4.1 数据库及数据集的概念

数据集是各数据的集合，通常以表格形式出现，每列代表一个特定变量，每行对应某一患者的具体数据内容[12]。由于一个研究型数据库涉及的变量数极多，通常会根据数据结构及数据内容将其拆分成不同的数据模块，存储进不同的数据集中。根据数据结构类型，数据集可分为横断面数据、时间序列数据和纵向数据3种结构。各数据集间通过链接变量相互连接。在研究型数据库建立完成后，若需要进行统计分析，则可从各数据集中提取相关的变量数据，建立分析数据库，开展统计分析工作。

本研究根据数据结构及数据内容，将变量清单中的变量分别存储于15个数据集。各数据集名称、数据结构类型及介绍见表3。

表3 中西医结合治疗COVID-19研究型数据库数据集

4.2 横断面数据结构

横断面数据（cross-sectional data）是指在同一时间收集的不同对象的数据[13]。虽然在定义上要求同一时间，但实际上不同的数据采集时间会存在一定的时间差异，但这种差异可以忽略，具体判断标准是时间上的差异不足以改变所获取变量的性质。横断面数据结构是研究型数据库的常见结构之一。

本研究中，基本信息数据集就是横断面数据结构。其每行代表1名患者，不同行代表不同患者，且患者间无重复；其每列代表1个变量，如性别、年龄、民族、身高、体质量等。横断面数据结构示例见表4。

表4 横断面数据结构示例

4.3 时间序列数据结构

时间序列数据（time-series data）是指对同一对象在不同时间连续观察所取得的数据，重点反映该对象在时间顺序上的不同变化[13]。但研究型数据库通常涉及多个研究对象，很少会使用时间序列数据结构。

4.4 纵向数据结构

纵向数据（longitudinal data）也称作面板数据（panel data）或合并数据（pooled data），指不同对象在不同时间连续观察所得到的数据[14]。纵向数据既可以体现不同研究对象间的差异情况，又可描述同一研究对象的动态变化特征。纵向数据结构是横断面数据和时间序列数据相结合的一种数据结构，是研究型数据库的另一种常见结构，其与横断面数据结构相比，特点在于引入时间维度。本研究中，生命体征数据集是纵向数据结构。患者的生命体征始终处于动态变化中，因此需动态记录每名患者每日的生命体征数据。该数据集中，每名患者每日的数据占一行，不同行代表的患者存在重复；每列仍代表对应的变量，如体温、呼吸频率、心率、收缩压、舒张压、血氧饱和度等。纵向数据结构示例见表5。

表5 纵向数据结构示例

5 制定变量字典

研究型数据库通常包含众多变量，不同变量有不同的名称和含义，以及不同的变量类型、变量来源等，因此需要一种数据模型以实现对众多变量的管理。变量字典即是满足这一需求的数据模型[6]。数据库中每个变量的信息都须记录在变量字典中。一个制定良好的变量字典，不仅可供数据库建立者回顾，更可为其他研究者快速熟悉数据库提供帮助。变量字典应包含但不限于：变量名称、变量含义、变量类型、变量编码、数据来源、衍生规则和数据采集方式。变量字典的制定将伴随数据库建库的整个阶段，期间对数据库格式结构、变量的任何调整，均应及时更新在变量字典中。中医治疗数据集的变量字典部分示例见表6，其中方名分类方法[15]、各衍生变量的衍生规则，需根据循证医学证据、专家临床经验和既有数据情况综合确定。

表6 中医治疗数据集变量字典示例

6 讨论

根据临床问题及研究目的确定变量清单及数据库架构，是建立研究型数据库和开展数据治理的前提基础[16]。其关键点可概括如下：①准确提出并解构临床问题，根据解构结果确定关键变量；②对既有数据的可靠性及关键变量的数据来源进行评估；③根据各数据集特点，选择恰当的数据结构；④制定变量字典，实现对各变量的良好管理。

RWS为中医药疗效及安全性、预后、卫生经济学、病因、诊断和临床预测等临床问题的研究提供了思路和方法[17]。中医药整体观念、辨证论治的特点，使中医药RWS面临挑战。例如，在中医药疗效评价研究中，混杂因素的选择和测量更为复杂。除西医RWS中通常考虑的混杂因素外，患者的中医体质、舌脉都可能是影响治疗和结局的混杂因素。但这些混杂因素数据存在稀疏性，即全部患者可能出现的中医表型种类极多[18]，而单个患者出现的表型种类较少；并且这些混杂因素通常缺少公认的、客观的测量方法。尽管已有数据挖掘技术及统计分析技术可对数据进行降维处理，或使用舌诊仪、脉诊仪等智能设备对患者舌脉进行客观化测量，但相关处理方法和测量方法仍存在局限性，且未得到公认。这些问题需要研究人员在今后的RWS及方法学研究中进一步探索。

本文以“中西医结合治疗新型冠状病毒感染研究型数据库”为例，对基于既有医疗数据建立研究型数据库中变量清单及数据库架构的确定方法及关键点进行介绍，可供基于既有数据建立研究型数据库的研究人员参考。其中数据库及数据集的基本结构、变量字典的制定方法，也可供开展前瞻性RWS的研究人员借鉴。