APP下载

基于50 万人群的大型生物医学队列研究数据库:英国生物银行(UK Biobank)的发展历程及展望

2023-01-03郭翔唐春香张龙江

国际医学放射学杂志 2022年3期
关键词:基线参与者数据库

郭翔 唐春香 张龙江*

英国生物银行(UK Biobank)又称英国生物样本库,是一个大型前瞻性队列研究及生物医学数据库,该数据库由英国政府发起,由英国医学研究委员会、英国卫生部、苏格兰政府、英国西北地区发展局以及维康信托基金等多个机构赞助建立而成[1]。UK Biobank 的宗旨是通过构建大规模的人类信息资源库来探求基因、生活方式和健康之间的关系,提高对一系列严重和威胁生命疾病(如癌症、心脏病、卒中、糖尿病、抑郁症和痴呆等)的预防、诊断和治疗;同时为统计学家、伦理学家、遗传学家和人工智能(artificial intelligence,AI)领域的研究者提供平台,以促进研究方法的改进,最终达到改善公共健康的目的。UK Biobank 中包括50 万参与者的遗传、生活环境和健康数据,并跟踪记录参与者数十年的健康医疗档案信息,可供全球获得授权的研究人员和科学家访问。截至目前,UK Biobank 已收到国际上超过90 个国家和地区的申请访问且访问量仍在继续增长,累计发表研究论文超过2 300 篇,对于人们了解健康与疾病的关系以及改善公共卫生现状具有重要贡献。本文主要介绍UK Biobank 的发展历程、项目设计、数据库相关的研究进展以及数据库的更新与未来发展计划。

1 UK Biobank 的发展历程

UK Biobank 的概念于1998—1999 年期间提出,其研究框架历经多次讨论和修改,于2003 年宣布正式确立。在2003—2006 年期间,该项目逐步完成了实验设计、伦理审批以及管理架构等一系列准备。于2005 年2—3 月期间进行了UK Biobank 的预实验。正式的主体研究于2006 年2 月启动,至2010年6 月顺利完成了50 万基线参与者的招募与评估[2]。UK Biobank 自2012 年1 月起开始向全球研究者发布已完成的数据资源,之后一直定期增加数据,目前已增至2021 年的。

2 UK Biobank 项目设计

2.1 UK Biobank 的建立 在UK Biobank 数据库设计阶段,研究者们主要完成了以下7 个方面的理论调研,即数据库的宏观目的、样本量的估计、调查问卷的种类、体格检查的类别、生物样本的采集、项目实施的规划及参与单位的管理职责。在数据库发展阶段,研究者们进一步解决了以下9 个方面的具体问题,即UK Biobank 的宏观战略、参与者招募原则、基线评估规范、样本处理细则、数据库增强计划、长期随访方案、数据管理、访问策略以及组织架构。最终,UK Biobank 发展成为一个由董事会指导的、接受一系列委员会和专家咨询小组支持的制度完善的生物样本数据库。

2.2 UK Biobank 的数据概况 UK Biobank 目前共招募了全英国40~69 岁间50 万名参与者,采集的数据量庞大且种类丰富,按照数据采集时间的先后顺序和功能的不同大致可分为基线数据、增强数据和随访数据三大类。

2.2.1 基线数据 基线数据是指初次接触参与者时所采集的数据,包括知情同意书、调查问卷、认知功能测试、面试者问卷、血压、身体测量数据(身高、臀围、腰围、生物电阻抗测量、握力、左侧足骨超声、肺活量)以及生物样本(血样、尿样)采集等。随后入组的20 万参与者的基线数据除了以上指标之外,还增加了心理评估、部分专家建议的问题(例如家庭供暖情况、私人医疗等)、听力测试、脉搏、双侧足骨超声以及饮食问卷。最后入组的10~15 万参与者的基线数据进一步增加了视觉相关数据、体力测试、新增的生物样本(2~3 mL 血液、2~4 mL 唾液)采集以及7 d 内的活动量记录。

2.2.2 增强数据 增强数据是为了增强基线数据的可用性而采集的数据,其主要作用除了校正基线数据的准确性之外,也增加了可供分析数据的丰富性,以减少研究偏倚。增强数据的采集并非针对全部参与者,而是选择部分有代表性的亚组进行评估,随着研究亚组的增多,增强数据可持续增加。目前,除了复查基线时所采集的信息之外,增强数据还包括对部分参与者基线信息的随访、24 h 回忆饮食问卷、职业健康问卷、家庭位置调查、视网膜眼底照片,以及最重要的20 万参与者的外显子组数据、10 万人的全身影像数据(包括颅脑、心脏及腹部MR 检查、全身双能X 线检查及颈动脉超声)等。

2.2.3 随访数据 随访数据至关重要,因所有的基线和增强数据都是为分析病人的健康变化而服务的。因此,详尽的随访数据是分析一切临床问题的前提。在获得参与者的知情同意后,UK Biobank 可以调阅参与者在英国医保系统中所有详尽的健康医疗记录,包括家族史、各种检查报告(例如影像报告、血液检查等)、各种暴露因素(例如服药史、职业健康等)以及各种健康相关事件,例如入院、出院、癌症或死亡等。在随访中,英国国家健康服务系统为UK Biobank 随访工作提供了强大的支持和保障。

3 UK Biobank 相关研究进展

UK Biobank 一些重要的研究成果预计在未来5~10 年里陆续产出。截至目前,研究者们在UK Biobank 平台上海量数据的支持下,发表的文章超过2 300 篇,涵盖众多的研究领域。本文根据该数据库发展过程中每个阶段的主要产出将研究分为5个领域,包括基因与疾病的关系、基因与环境的交互作用对疾病的影响、影像学研究、AI 分析以及新型冠状病毒肺炎(COVID-19)相关研究。下面就各个领域的代表性研究成果予以介绍。

3.1 基因与疾病的关系 了解遗传学在表型和疾病变异中的作用对加深人类生物学的理解至关重要[3]。全基因组关联分析(genome-wide association studies,GWAS)是鉴定常见疾病或性状相关基因位点的一种成熟有效的方法。研究者们利用GWAS 已经发现了数千种与人类疾病相关的变异,其中有些基因位点与确定的疾病明确相关,例如在ATG16L1(rs2241880)[4]和IRGM(rs1000113)[5]基因中发现了与克罗恩病发生风险相关的单核苷酸多态性(single nucleotide polymorphism,SNP),从而解释了自噬现象在克罗恩病发生中的作用, 即rs2241880 的SNP错义突变(p.Thr300Ala) 导致caspase-3 介导的ATG16L1 切割作用增强,在细胞发生应激反应时减少自噬现象,使细胞内细菌清除功能受损以及炎症细胞因子的产生增加,从而引发慢性炎症状态。同样,在IRGM 位点上存在类似的作用,影响该位点的SNP 与rs1000113 基因有着密切的因果关联。然而,尽管GWAS 已经确定了大量与常见疾病和性状相关的基因变异,但多数情况下这些基因变异对疾病的影响程度较低。例如,Elliott 等[6]从UK Biobank中纳入15 947 例心血管病病人以及匹配的对照组,尝试建立基于多基因风险评分(polygenic risk score,PRS)预测发生心血管病事件的模型,并在352 660名UK Biobank 参与者组成的验证组中进行验证。随访结果表明,与传统预测模型相比,基于PRS 的模型在预测心血管疾病事件发生率的准确性方面仅有轻度的提高,而且仅对一小部分个体显示出改善风险分层的效果。此外,由于该PRS 研究样本基本来源于欧洲人群的DNA 序列,故不能对非欧洲人群基因风险预测的准确性做出判断。由此可见,将GWAS 应用到临床实践中还需要很长的路要走。UK Biobank 作为目前最大样本的前瞻性队列数据库,在未来的5~10 年中将会继续纳入更多的慢性病病人,对于此类研究具有十分重要的价值。

3.2 基因与环境的交互作用对疾病的影响 人类大多数常见疾病的病因是复杂的,受到遗传和环境因素的综合影响[7]。因此,了解遗传风险与环境风险交互作用的方式对了解慢性复杂性疾病的发病机制至关重要。在此方面,UK Biobank 记录了大样本人群的基因、环境和生活习惯等数据,是研究基因与环境之间交互作用的理想平台。以肥胖病为例,既往有小样本量的研究尝试分析基因与环境对肥胖的影响,但研究结果往往不一致,尤其是在比较不同文化或种族的研究中。这一差异可能是因为不同研究之间测量环境变量的标准不同,以及检测交互作用的能力较低所致。虽然荟萃分析能够在一定程度上提取多个研究的数据并提高证据等级,但与同样规模的单队列研究相比,不同研究队列之间的异质性都会降低统计学效力。为了解决上述问题,Young 等[8]利用UK Biobank 这一大型的单队列数据库优势,研究了FTO 基因(脂肪质量和肥胖关联基因)与各种生活方式和环境因素之间相互作用的证据。经过人群分组和筛选,该研究共纳入了351 038名研究对象,均有生活习惯的记录和人体测量值的完整信息,包括饮食方式(例如是否有油性鱼类、家禽类、牛肉、加工肉类等摄入以及食盐摄入量等)、饮酒量、体育锻炼量、睡眠时间、是否吸烟以及观看电视时间等。通过多种环境因素与体质量指数(body mass index,BMI)的相关性分析发现,较多的体育活动与较低的BMI 呈正相关;每周饮酒的天数和饮酒总量与BMI 分别呈负和正相关;在饮食方面,蛋白质、食物质量和饱和脂肪的摄入量与BMI呈明显的正相关;在睡眠方面,当睡眠时长比较稳定时,睡眠时间越长,BMI 越低;但对于睡眠时长波动较大的人群,则可能会导致BMI 的增加。通过基因与环境的交互作用分析,结果发现FTO 与体育活动、饮酒频率、饮食变化和平均睡眠时间的方差之间存在着交互作用;而与当前吸烟状况、汤森剥夺指数、年龄和观看电视之间未发现有统计学意义的证据。该研究证明基因与环境的交互作用对于疾病的发生和发展起着复杂的作用。此外,有研究表明在某些情况下,环境比基因更能决定疾病的发生与发展,例如Rutten-Jacobs 等[9]评估了PRS 及健康生活方式(当前不吸烟、健康饮食、BMI <30 kg/m2以及每周2 次或更多次的适度身体活动)与脑卒中事件的相关性,结果发现无论有无遗传风险,不利的生活方式都会增加脑卒中风险。这也从侧面说明,即使人体中存在某些慢性病的易感基因,人们也可能通过控制生活习惯和周围环境来达到预防疾病的目的。

3.3 影像学研究 随着医学影像技术的进步,影像医学在疾病诊疗的各个环节(如诊断、治疗决策的选择以及预后评价)中发挥着越来越重要的作用。通过对大脑、心脏、周围组织和骨骼等体内器官的影像检查,可以帮助医生了解人体器官的结构和功能与疾病发生的关系,甚至揭开某些疾病的发病机制,为预防此类疾病的发生提供参考。基于此方面的考虑,UK Biobank 建立了基于人群的大规模影像学数据库,使得大样本的影像学研究变得更加可及。例如,Cox 等[10]从UK Biobank 中纳入了9 722 名研究对象,研究了多心血管危险因素(吸烟、高血压、脉搏压力、糖尿病、高胆固醇血症、BMI、腰臀比例)与大脑结构之间的关联性,结果发现从灰质和白质的大体和微观结构来看,心血管危险因素水平越高,大脑健康水平越差。研究还发现心血管危险因素的效应是可叠加的,主要集中于额叶和颞叶皮质、皮质下结构和特定种类的白质纤维,因此认为即使在相对健康的中老年人群中,大脑健康也容易受到心血管因素的影响;而通过积极控制心血管危险因素,可能具有改善认知能力下降的潜力。Pirruccello 等[11]以心脏磁共振(cardiac MR,CMR)为判断标准,利用GWAS 研究了心肌病的常见基因位点。该研究采集了UK Biobank 中36 041 名参与者的CMR 数据,纳入的心脏测量指标包括左室舒张末期容积、左室收缩末期容积、每搏输出量以及左室射血分数,所有指标都已进行了体表面积标准化。研究结果确定了45 个未曾被报道的基因位点与心脏结构和功能相关。该研究结果进一步推动了心肌病的发病机制研究,为今后研究正常人群发生心肌病的基因多态性奠定了基础。

3.4 AI 分析 AI 与影像数据的结合是近年来医学发展的一大领域。深度学习算法凭借庞大的运算能力以及复杂的神经网络构建,通过对图像的处理,在疾病的检测、分类及预后评估等方面展现出巨大潜力。UK Biobank 数据库收集并储存了大量参与者的影像信息,例如眼底照片和影像检查结果(超声、X 线或MRI 影像等)极大地满足了AI 算法的应用。但如何降低CMR 影像中搏动伪影的干扰是改善CMR 影像的关键和难点。对此Oksuz 等[12]提出了一种基于深度学习的方法来实现CMR 短轴影像运动伪影检测、校正和分割的全自动框架,然后通过从UK Biobank 中纳入的4 000 例参与者的CMR 影像进行验证,结果发现该方法能明显提高影像的重建和分割质量,具有非常实际的临床价值。

基于UK Biobank 数据视网膜眼底照片开发的深度学习算法拓展了在心血管危险因素预测的应用。既往研究发现眼底检查时可以观察到某些心血管病的标志物,如高血压性视网膜病变和胆固醇栓子。基于这种现象,Poplin 等[13]通过收集UK Biobank中的48 101 名研究对象和EyePACS 数据库中的23 6234 名研究对象的眼底图像,采用深度学习方法建立了基于眼底图像判断心血管病危险因素的预测模型。然后,运用该模型在13 025 名研究对象(UK Biobank 中12 026 名,EyePACS 中999 名)中进行了验证,结果显示该模型在预测研究对象的年龄(平均绝对误差为3.26 岁)、性别(预测模型的AUC=0.97)、是否吸烟(AUC=0.71)、收缩压(平均绝对误差为11.23 mmHg)和主要心脏不良事件(AUC=0.70)等心血管病危险因素方面均具有较高的预测效能。该研究结果证明AI 不仅可识别存在于视网膜上的心血管病危险因素的信息,而且还能在一定程度上进行精确量化,为心血管病危险因素的筛查以及心血管病的预防提供了新思路。

3.5 COVID-19 相关研究 2019 年COVID-19 疫情在全球爆发,为了挽救病人的生命和防止疫情的传播,大量的临床及科研工作者投入到了COVID-19 的研究中。UK Biobank 向研究人员提供了大量感染者和未感染者的电子健康记录数据,有助于他们更好地研究遗传、健康状态和生活方式等与COVID-19 病情严重程度的关系。例如,有多项研究发现精神性疾病、认知能力降低、吸烟等都会导致COVID-19 病毒感染率增加[14-16],提示临床医生应重视基础疾病的治疗,病人需要尽早戒烟。此外,其他某些疾病的常规治疗决策也会受疫情的干扰,例如有研究认为酸抑制剂的使用可增加COVID-19 的感染风险,但多项研究结果并不一致[17-20]。在此背景下,Fan 等[21]收集了UK Biobank 数据库中9 469 名研究对象的酸抑制剂的使用记录及药品类型、COVID-19 的感染率、死亡率以及一些其他相关健康记录;通过分析各种因素与COVID-19 的感染率、死亡率的关系,发现质子泵抑制剂以及组胺-2受体抑制剂均不会增加COVID-19 的感染率和已感染病人的死亡率;但亚组分析显示,患有上胃肠道疾病并长期规律服用奥美拉唑的研究对象感染COVID-19 的概率可能会增加。该研究结果为疫情期间消化系统疾病的常规治疗提供了新的证据。

4 UK Biobank 的数据更新与未来发展计划

UK Biobank 的数据由英格兰、苏格兰和威尔士共3 个地区的不同数据机构提供,从2012 年开始公布50 万人的基线信息,至今一直在定期更新数据。目前死亡数据、住院病人数据以及COVID-19测试结果数据通常每月更新1 次,可供申请者使用;全科医生记录(初级保健数据)通常每季度更新1 次,但此数据仅可用于COVID-19 的相关研究。UK Biobank 的未来计划包括发布更多的遗传信息数据、COVID-19 相关数据以及癌症数据等。根据UK Biobank 的计划及随访工作的进展,越来越多的基因、环境、生活习惯以及人体影像学数据将被采集并发布。此外,随着全球科技的发展和医疗卫生事业的进步,更多的有利于探索健康与疾病关系的新项目也会出现在UK Biobank 的未来计划之中。

总之,UK Biobank 数据库的运行模式证实,将遗传学、广泛而深入的生物学特征与健康记录联系起来并将数据共享,再结合大规模的人群研究可以实现巨大的科研和社会价值,为今后开展基于人群的研究提供了非常宝贵的经验。相信随着这类数据库的增多和发展,其相关资源将极大地推动并增进人们对人类生物学和疾病的理解,最终达到改善公共健康的目的。

猜你喜欢

基线参与者数据库
休闲跑步参与者心理和行为相关性的研究进展
门限秘密分享中高效添加新参与者方案
GNSS 静态相对定位精度分析与比较
基于虚拟基线的相位干涉仪阵列优化设计
数据库
基于代理的多方公平交换签名方案
一种改进的干涉仪测向基线设计方法
数据库
海外侨领愿做“金丝带”“参与者”和“连心桥”
数据库