ALL of Us数据库架构及数据获取方法与流程
2019-12-06李豹王雪李瑞华闫小妮吕敏吕军2
李豹,王雪,李瑞华,闫小妮,吕敏,吕军2,
随着现代医学的不断发展,越来越多的疾病有了更好的治疗方法,人类整体寿命得到了延长,但仍有许多疾病无法治愈和预防。2015年1月20日,奥巴马在国情咨文演讲中提出了“精准医学”计划,呼吁美国要增加医学研究经费,推动个体化基因组学研究,依据个人基因信息为癌症及其他疾病患者制定个体医疗方案,1月30日正式推出“精确医学计划”。提议在2016财年向该计划投入2.15亿美元,以推动个性化医疗的发展[1]。精准医学计划(Precision Medicine Initiative,PMI)在2016财年向美国国立卫生研究院(National Institutes of Health,NIH)分配了13 000万美元建立一个国家级别的大型研究群组。All of Us研究项目应运而生。该项目通过招募100万或者更多美国民众为参与者,使其可以有足够的范围和规模研究各种常见或罕见疾病,并帮助人们了解自己的健康状况。目前,该项目已招募了234 000余名参与者,获得了80 000多份电子健康记录和181 000余例生物样本[2]。All of Us项目数据目前仅可以查看数据快照、调查问卷等,更多的临床数据预计在2019年的冬季可通过注册获得,这将是全球临床数据研究者期望的。All of Us项目官方网站为:http//:allofus.nih.org,网站主页见图1。
图1 All of Us网站主页
1 All of Us项目主页
进入主页后可以看到网站主要分为三大版块,分别是“About”,“Funding”,“News,Events,&Media”。下拉菜单后我们可看到三个版块的主要内容,也可将鼠标移动到标题部分看到相同的内容(图2)。在“About”版块中,我们可看到“Program Overview”、“Scientific Opportunities”、“Participation”、“Tribal Engagement”、“Program Partners”、“Protocol”、“Who We Are”、“Program FAQ”、“Contact Us”9个子项目,帮助我们更清楚地了解该项目。如在“Program Overview”中,可以了解到该项目的发展和现况,以及项目遵循的核心价值观(图3)。在“Funding”版块中,能了解到目前已经授权的合作伙伴,曾经的招募机会和现在的招募机会。“News,Events,&Media”版块中,可看到该项目进行中的重要事件和新闻。所有上述内容都能为我们很好的了解该项目提供所需的资料。
图2 三大板块主要内容
图3 核心价值观
2 All of Us研究中心
通过“About”版块中的“Scientific Opportunities”菜单,我们进入到该项目的研究中心(图4)。通过研究中心,每个人都可以更多地了解参与者提供的数据类型,以及获得批准的研究人员如何使用数据和工具进行可加速医学突破的研究。点击数据浏览后,进入数据页面(图5),随后可对数据版块的具体内容逐一了解。也可将鼠标移动至“DATA”菜单处,可以看到数据版块的具体内容(图5)。其中“Data Snapshots”版块可了解到目前参与者的数量、地理分布、年龄分布、种族和性别分布等(图6)。“Data Sources”版块,可得到调查问卷、电子健康记录、体侧数据、生物样本、移动健康数据的相关内容(图7)。
图4 研究中心页面
图5 点击数据浏览,进入数据页面
图6 数据快照
3 数据工作平台
2019年冬,该项目将通过“Workbench”提供注册数据。要访问此数据,研究人员必须完成全面的数据访问应用程序流程。一旦获得批准,研究人员将可以访问研究者数据工作平台和工具。数据工作平台可用后,应用程序进程将打开。其数据分类分为公共数据和注册后获得部分,如图8所示。数据获得申请流程包括三步(图9),研究者注册账号后,完成相应培训,签署数据使用知情同意后即可获。
图7 数据资源类别
图8 数据分类窗口
图9 数据获得步骤
4 All of Us数据库数据类型及架构总结
All of Us数据库目前还在不断完善中,其数据分为公开数据和注册后使用数据,前者仅为综合数据,为我们了解数据类型提供方便。但其中的调查问卷可为我们做相应的调查提供参考。后者还未开放,预计将在2019年冬开放,其数据库数据架构如图10所示。
图10 All of Us数据库数据架构
5 讨论
现代医学已经发展到基于生物信息大数据的精准医学阶段,为恶性肿瘤、心脑血管疾病和常见病的预防和治疗提供了革命性的历史机遇[3]。在这样的历史背景下,许多企业、行业开始利用计算机信息技术构建数据库,加强各类数据的存储和处理[4]。如吕军等[5,6]介绍了GEPIA公共数据库,TARGET数据库等。众所周知,美国是全世界大数据和数据库研究的引领者,也是医疗技术的领先者。在奥巴马提出PMI后,许多研究项目得到了政府支持并予以实施,All of Us研究计划就是其中的一个,并为大数据和精准医疗计划结合实施提供了一个范例[7]。该项目旨在建立一个超过100万的大型队列研究,来反映美国人口的多样性,将收集广泛的数据来描述每个参与者,包括调查问卷、电子病历、生物样本、体检、可穿戴技术、地理空间和环境资源。这些数据将有助于创建一个强大的数据库,促进对健康和疾病再生物、临床、社会、环境和行为决定因素方面的深入研究[8]。从其开展以来收集了大量数据供研究者探索,预计2019年冬,该项目的数据将向社会开放,我们将拭目以待。本文旨在介绍该数据库官网的具体架构及数据情况,以便广大科研工作者能在该数据库全面开放后,更方便的进行数据挖掘。