应用Opal和Mica构建数据统一与交流平台及探索信息共享模式

2019-06-18周光迪杜亚涛吴宇航王伟业

中国医药生物技术 2019年3期

周光迪，杜亚涛，吴宇航，王伟业

近年来，流行病学和转化医学研究中不同项目之间的资源整合越来越广泛。资源的整合可运用于流行病学队列项目，也可运用于医院的临床信息[1-2]。这样的资源整合不用大规模地增加投入，就能满足统计分析所需的大样本量，极大地节约了研究经费和精力的投入[3]。

尽管数据资源整合的意义重大，但是不同医院/研究组所收集的同病种临床数据，存在多方面的数据异质性，信息不统一导致数据不能直接整合[4-5]。异质性主要存在于三个方面：

第一，变量种类的不同。对相同的病种，不同医院/研究组对同病种所收集变量的种类不完全相同。无论是从病史询问还是检验项目，每家医院、每位医生、每个研究组都有自己的看法和习惯，同一医生对不同病人所问诊/检查的变量也不完全一致[6]。第二，变量定义的不同。不同医院/研究组对同变量的定义不完全相同。在目前的研究情况下，普遍存在着变量定义的不明确[7]。因此明确变量的定义是数据整合的必要前提之一。第三，变量的采集/检测/表达方式等的不同。包括变量的提问方式不同、变量的检验方式不同[8]等方面。例如询问“你是否有被动吸烟”和“你的家人和同事是否抽烟”，所针对的变量是相同的，但所得到的答案存在异质性。而检验方法、数据单位、取样方式等很多因素都会影响检验的结果，以血糖值为例，病人是否禁食、指尖取血还是静脉取血、数据单位是 mg/dl 还是 mmol/L，都会对结果产生影响。

为了实现数据共享，我们首先要采取合适的模式方法来交流和统一数据。不同项目的数据信息整合有三种方式：数据池、最小数据集、联盟式[9-10]。数据池指将不同来源的同变量数据直接合并在一起，共同统计分析、整合共享的方式。最小数据集是为特定目的收集的、最少的、被用户和相关人认可的一组选择性的核心数据[11]。联盟式指原始数据不离开本地，在经过物理上分布式的运算中心统计分析后，再将统计结果进行共享[12-13]。我们根据本项目先收集数据、再进行数据整合的回溯性基本特征，再加上法律法规的限制，选择了联盟式的数据整合方式，这也是绝大部分回溯性数据整合项目适用的数据整合方式。

2014 - 2017年，我们团队与加拿大 Maelstrom 团队合作，成功执行了国家科技部立项的“多中心临床信息共享的中加合作研发”项目及上海市国际科技合作基金项目“建设队列研究数据信息共享机制促进国内国际合作”。我们以联盟式的方式实现了中方的上海儿童优生队列（Shanghai Birth Cohort，SBC），加方的 3D 出生队列（Design,Develop,Discover，3D）和 MIREC 出生队列（Maternal-Infant Research on Environmental Chemicals，MIREC）的数据共享。2017年项目顺利结题并获得评审专家组的一致好评，为跨国的回顾性数据统一（指数据在采集后才开始进行数据统一和整合）和数据整合共享建立了成功的模式和方法[14]。在项目执行过程中，我们利用加拿大 Maelstrom 团队的资源和经验优势，引进了他们所开发的 OBiBa 软件套组来搭建多中心信息共享平台的基础设施的架构。

目前国内对不同项目之间资源整合的工作还处在起步阶段，经验不多、研究资料也较为匮乏，成功实现不同项目之间数据共享的模式和方法并不多，因此我们将应用 Opal 和 Mica 构建数据统一与交流平台、探索信息共享模式的工作流程和经验阐述如下，希望能对以后的跨国多中心信息整合项目提供参考。

在统一数据之前，我们需要规范化地编写数据词典，选择合适的平台供多方交流沟通数据元素的信息，便于相互了解各参与方数据元素的差异性，再统一数据元素。

1 数据词典的编写

由于不同的研究有不同的数据变量，且不同来源的数据变量在各方面都可能存在异质性，所以应将不同来源的变量按统一的形式表达展示，才能进行协调。因此在进行多项目数据整合之前，先要为每个研究编写数据词典[6,15]。编写数据词典指研究者规范地抓取和列举变量的元数据信息和具体的描述信息，将个体的信息来源（例如某个数据库）用通用规则映射到数据模式上，数据词典中应包含来源、单位、数据类型等元数据信息，也包含标签和描述等特征性信息，能够简练而精确地定义变量。采用数据词典这种规范化的模式，研究者就能够描述和对比来自于不同项目、在描述方式等各方面存在异质性的变量，为后期工作打下基础。

2 基础信息存储、展示和交流

数据词典编写完成后，需要利用平台展示各研究的变量，以便于不同研究之间的相互了解和交流、促进信息的统一和整合。

目前国际上已有一些软件帮助生物信息的收集和管理，例如 REDCap、OpenClinical[16]等，但专门帮助研究者统一数据、整合资源的工具性平台和软件还十分匮乏。为此，Maelstrom 团队策划并开发了 OBiBa 软件组合[9]，其中包含 Opal、Mica 等工具软件，能有效地帮助研究者们整合共享不同研究的数据资源信息。

Opal 相当于信息共享的核心数据仓库，并能提供导入、转化和描述数据的所有必须工具。在数据导入和导出的时候，项目验证者也可以管理。Opal 能够定义各研究项目待统一的目标变量，开发和执行用于派生通用格式数据的算法，并记录数据统一的决定。Opal 还包含了 JavaScript 函数库，以促进算法的开发和创建协调变量。本项目主要使用 Opal 来展示变量，以便于不同项目之间相互交流，了解共同的研究方向和能够统一共享的变量。

参与数据共享的研究课题不仅需要相互了解对方的变量，也要相互了解对方的研究结构，这就需要运用到 Mica。Mica 是一个强大的软件应用程序，用于大型流行病学研究或多研究联盟创建数据 Web 门户。Mica 是基于由 RESTful 应用程序服务器和客户端组成的多层体系结构，研究者可以在 Mica 上编辑和展示个体研究和数据集的附属信息，并管理与 OBiBa 软件系统的其他应用程序的安全连接。Mica 帮助研究提供数据可见性和网络展示，以及对联盟、研究、带注释和可搜索的数据字典以及数据访问请求管理的结构化描述。在 Mica 上用户可以快速识别研究的概要文件列表。

3 变量统一与分布式统计分析

不同项目的同一变量往往存在异质性，不能直接共享。对于不同来源的同一变量，我们对其进行同质化水平划分，分为“完全相容”、“部分相容”、“完全不相容”三个级别[14]。完全相容的变量可以直接共享；部分相容的变量需要进行统一转化后才能共享；完全不相容的变量不能共享。我们会根据每个变量的具体情况为其撰写脚本，以统一变量。

变量统一后，由于法规的限制，MIREC 的原始数据不能直接与中方共享，因此我们只能对数据结果进行分布式统计分析，然后共享分布式统计分析的结果。我们将 Mica 连接到参与项目的各个研究组的 Opal 数据库，就能通过 Mica 安全地查询远程 Opal 所在的服务器上的研究数据，得到统计学结果，从而实现分布式的统计分析和联盟式的数据共享[9]。

图1 Opal、Mica 为基础设施的联盟式数据库架构

在这样的框架下（图1），个人级别的数据可以安全地存储在个体研究的 Opal 中，但能被 Mica 驱动的 Web 门户远程查询。描述性统计结果在多个地理分散的研究数据库中实时生成，研究者能够通过检索获得。同时，由于所有的原始数据都隐藏在原始机构的防火墙后面，只向外发送描述性统计结果，这就确保了研究参与者的隐私和机密性。在更复杂或更易暴露患者隐私的情况下，Opal 与 DataShield 结合，更好地保护捐献者的数据与隐私[17]。在 DataShield 的架构下，分析的申请从中心电脑发送至分布式 Opal 服务器，在分布式 Opal 服务器上完成计算过程后，非暴露性的统计结果反馈到 DataShield，再由 DataShield 发送至申请者的电脑。

4 讨论

近年来，随着国内多中心信息整合与共享项目的陆续开展，研究者们越来越需要整合数据资源的帮助。但相比国外，国内在这方面的研究投入和工作经验都存在不足，数据资源整合的基础架构设施运用资料更是少有。在“中加项目”中，我们利用项目合作方加拿大 Maelstrom 团队的技术优势，引进他们开发的 OBiBa 软件套组中的 Opal/Mica 软件搭建了基础设施架构，实现了跨国的多中心分布式数据资源整合和共享。希望我们的工作经验能为其他研究者提供有价值的参考。

在国际上，数据资源的整合运用比较多见，往往在队列项目开始之前就先考虑到数据的整合，会据此去设计收集数据，所以能够采用数据池、最小数据集或联盟式的方法来共享数据；但大部分国内的队列研究在开始时没有考虑到之后会和其他项目进行数据资源的整合，或是因为种种原因在数据采集后才开始多中心数据资源的整合，这种回溯性的数据共享情况下，数据的异质性往往非常严重。各个项目采集的数据元素种类、数据元素的定义、采集测定方式、数据单位等多个方面都存在异质性。我们的“中加项目”也是这样的情况，因此我们在本项目中建立的“联盟式”的共享模式适用性广泛。数据池方式共享数据的优点很明显，数据直接合并，统计结果更加准确；缺点也很明显，很多时候数据池方法并不可行，尤其是在回顾性的数据统一工作中[18]。首先因为回顾性的数据统一中，数据的异质性非常强，很可能导致数据无法直接合并；其次法律法规可能会限制参与方不能直接将原始数据交出去共享。而最小数据集的方法仅适合于前瞻性的数据统一（指数据在开始收集之前就做好了数据统一的项目计划和准备工作）。在数据开始收集之前就要先明确变量的种类、各变量的定义及采集表达方式。所以如果信息已经收集、异质性已经存在，再开始考虑数据统一，就无法照搬最小数据集的方法来实现数据的统一和整合了。另外，由于最小数据集限制在最少、最核心的数据变量的范围内，一些重要的变量也可能被遗漏，人们也希望在最小数据集的变量集合的基础上，能有一些增补的变量。而我们所采用的联盟式既能规避法律法规的影响，也能解决数据异质性强的矛盾，非常适合于国内的现状。

资源的整合共享不仅可以运用在队列上，也可以运用在临床上。近年来基于 XML 技术的结构化电子病历的发展迅猛，大量的临床观察性数据记录在医院信息系统中，不仅在医疗诊治中发挥巨大的作用，也是高价值的临床研究资源[19-20]。但是医生和研究者在研究疾病时，往往由单独的课题组去收集疾病的样本和信息，时常会有同医院同科室的不同课题组分离地收集同种疾病的信息，相互之间少有交流共享[21-22]。因此，整合不同来源的同病种临床信息也非常急迫和重要，这能有力地推动转化医学的发展，对新医疗手段的开发有着极大帮助[15]。

在后续工作中，我们将把本项目中积累的经验推广到临床病种的多中心信息整合项目中去，为多来源的同种疾病信息整合建立模式和方法，运用 Opal/Mica 等工具性软件，提升搭建多中心数据共享平台的效率及其运用范围。