人类基因组计划的遗产

2021-12-23编译凌寒

世界科学 2021年12期

编译凌寒

20年前，人类基因组计划（HGP）绘制了它的第一份测序草图，对生物医学研究——无论是在实验室、在计算机上还是在整个科学界——均产生了深远的影响。大数据集和遗传图谱现在已成为指导科学和临床研究、药物开发和医疗实践的宝贵资源。人类基因组计划还给我们留下了一项重大任务，即了解基因组信息是如何引发细胞和有机体的发育、功能和机能障碍的，并充分利用这一知识促进人类健康和疾病治疗，而这项任务在20年后仍未完成。

20世纪80年代，科学家使用越来越精细的基因绘图工具，精确定位了孟德尔病（如囊胞性纤维症和亨廷顿舞蹈病）背后的基因。但是，要充分了解人类常见疾病（其中有多个基因在起作用）的遗传基础，这些基于基因组标记的绘图技术是不够的。相反，理论分析表明，我们需要一张无限密集的物理图谱，也就是人类基因组的完整序列。这种意识与测序技术的新进展及其他动机（例如识别致癌突变）相结合，推动了1990年发起的全基因组测序协同行动——人类基因组计划——在2000年提交了第一份草稿，并在2003年提交了“成品”参考序列。

起初，许多人对进行这种代价高昂的努力所能达到的效用表示怀疑，声称它可能会对理解单个基因功能做出的尝试造成破坏，而不是直接揭示疾病生物学。然而，参考基因组的首批直接成果之一，就是能够对人类遗传变异（包括疾病中发生的变异）进行研究，最初通过全基因组关联研究（GWAS）发现了成千上万个特定性状和疾病的基因位点。正如现代遗传学所预测的那样，GWAS主要发现的是效应值较小的基因，但这些基因仍然是研究致病机制的重要线索，否则这些致病机制可能仍然难以破解。

人类参考基因组也使破译疾病生物学的其他重要努力得以实现，如通过癌症基因组分析绘制肿瘤的体细胞遗传驱动因子图谱，绘制罕见疾病基因图谱，以及利用大规模生物库进行的全表现型关联研究，以检查与非选定人群的多种性状和疾病相关的变异。该参考基因组进一步使比较基因组学得以对功能元件进行注释，并使得古老的DNA技术得以追踪人类迁徙和性状发展，包括疾病易感性。

人类参考基因组序列本身已被证明是一个关键性研究工具。从分子克隆引物的设计到利用小干扰RNA （siRNA）或基于CRISPR-Cas9的向导RNA进行基因操作，如果没有它，如今的基础性实验简直不可想象。人类基因组计划本身和参考基因组序列的可用性都推动了快速和廉价的强大测序新技术的发展。新一代测序技术堪称是21世纪的显微镜，它使得一系列强大的基于测序的功能基因组学方法成为可能，例如单个细胞中的基因表达分析，以及细胞和组织的空间背景描绘。这些依赖于参考基因组的方法，在实现人类基因组计划的阐明基因功能这一承诺方面发挥着越来越重要的作用，也使得单个实验室就能够独立做出曾经需要多方努力合作才能做出的关键性贡献。

建立参考基因组也引领了现代计算生物学的发展，并提升了通过利用以前不存在的大型数据集来解决生物学难题的计算思维能力的价值。人类基因组计划中生成的数据的规模使得新的数据处理和分析方法成为了必需品，吸引着新一代的计算机科学家关注生物学问题，也促进了拼接算法的发展。随着接下来的几十年中基因组数据量的迅速增长，生物学利用数学、统计学、计算机和最近的深度学习模型的发展拓展了对这些数据以及其他数据的分析。

人类基因组计划在计算机方面面临的更进一步挑战是使研究人员能够获取数据——既能获取保持了个人基因组信息的安全性和保密性的原始数据，又能对数据进行有效查询和可视化。对数据门户的需求是人类基因组计划中相对较晚才被意识到的需求。这一需求推动了第一批大规模生物数据库和创新平台的创建，以对数据进行访问、分析、搜索和可视化处理。加州大学圣克鲁兹分校创建的“基因组浏览器”即为其中翘楚。基因组浏览器的“追踪”概念和持续的软件工程为未来的努力设立了标杆，这是其持久的遗产之一——既是重要的研究资源，也是其他基因组数据平台的灵感来源。

人类基因组计划通过展示大数据和参考图谱的价值，并通过开创创建和运营大型国际联盟所必需的原则，迅速改变了以小规模合作和有限的出版前数据共享为主的局势。1996年的《百慕大原则》，以及其在2003年形成的扩展文件《劳德代尔堡协议》一直是关于生物数据共享和信用归属的重要指导方针。人类基因组计划成为许多联盟的行动方案，这些联盟公开分享数据，以加速科学的发展。例如，国际千人基因组计划、癌症基因组图谱（TCGA）、国际癌症基因组联盟（ICGC）、DNA元件百科全书计划（ENCODE）、基因组聚合数据库（gnomAD）、美国脑计划和人类细胞图谱作为公共产品，每个项目均为不同的挑战集合了不同的参考图谱。

人类基因组计划的终极承诺就是改善人类生活，从对疾病的生物学理解转向诊断、治疗甚至预防。参考基因组已经开始产生这种影响，在罕见的新生儿疾病和癌症中这种影响尤其显著。例如，研究人员现在可以更加容易地识别支持罕见遗传疾病的特定突变，并开始研究其致病机制和治疗方案，同时使家庭能够有计划地进行未来的妊娠，并通过共享的数据资源，将他们与其他类似的患者联系起来。在癌症中，基因标记和基因图谱正在通过常规的标准检测、精确的治疗和微创性液体活检监测疾病进展和治疗反应的新方法来改进诊断，而单细胞图谱则有助于以前所未有的细节来揭示肿瘤异质性。

此外，对大量人群进行的人类遗传学研究正日益影响疾病的治疗——基于人类遗传学选择的基因靶点产生成功药物的可能性可提高两倍。现在，还可以利用来自大群体的数据，通过制定和实施包括常见复杂性疾病在内的几种疾病的多基因风险评分，来评估个体水平的风险。

尽管人类基因组计划给生物学研究和最近的临床实践带来了无可争议的彻底变化，但它是否能完成自己的使命并履行自己的承诺呢？人类基因组计划的两个核心问题仍然悬而未决：在生物学中，什么才算是完整的参考基因组，它的价值又是什么？以及参考基因组如何能完成有益于人类健康的转化？这两个问题的答案呼之欲出，它们延伸和重塑了人类基因组计划的遗产。

绘制参考基因组图谱只是揭示其影响健康的秘密的漫长道路的第一步。尽管早期的人类基因组计划批评者极其错误地估计了其巨大的科学价值——尤其是对单个基因功能的研究——但他们正确地认识到了，想要破译基因在人体中的功能（无论是单个基因还是多个基因协同作用），仅仅通过人类基因组序列是无法解决的。相反，这需要更新的方法，如功能基因组学，它通过生成和梳理大型数据集的方式，整理出编码和非编码序列的功能，描述分子表型，并助力功能筛选；又如单细胞生物学，可以了解基因变异对人类生物学基本单位的功能性影响；以及计算的进步，尤其是在机器学习方面。

此外，参考基因组的概念在生物学中是具有挑战性的——因为进化和生理学总会引发保守（或不变）特征与分歧（或动态）特征之间的紧张局面。人类基因组计划最初关注的是差异最小的特征，同时也着手在共享参考基因组的背景下绘制常见（然后越来越罕见）的变异图谱。（在保守特征中，最后8%的重复异染色质序列在2021年才发布。）要想捕捉人类不断增长的遗传多样性，就需要对一组更多样化的基因组进行分析，同时将静态的数据转换为统计学数据，利用算法来预测未观测到的等位基因的组合的影响。目前绘制健康和疾病细胞图谱的工作也面临着类似的挑战。

这种持续的紧张局势给社会带来了挑战。人类基因组计划及其遗产必须服务于全人类，而不是忽视那些目前在生物学研究中代表性不足的人群，既要服务于研究对象，也要服务于科学家。最终，尽管非常有用，但是单个参考基因组本身就有偏差，可能会破坏这一目标。这种偏差和多样性的缺乏目前也更广泛地反映在人类遗传学研究中：现有的基因组数据集中，非欧洲血统人群的大量代表性不足限制了我们对人类遗传变异、健康和疾病的理解。它还破坏了健康公平，因为它可能会开发出针对世界大多数地区并不存在的疾病变体的诊断模型或治疗方法。人类针对这种情况正在做出显著努力，例如非洲人类遗传和健康（H3Africa）倡议。但是，人类基因组计划要实现其为人类健康服务的最终目标，就需要更加有意识地努力，让历史上代表性不足的群体的研究人员和参与者能够成为研究中的平等伙伴，并对自己的数据和直接受益于这些数据的机会有所控制。

考虑到这些问题，并随着基因组测序的广泛应用，单一的参考基因组可能不再有意义，但将每个人的个人序列作为自身的参考又引入了新的隐私问题，特别是围绕开放数据共享这一问题，这可能需要新的隐私保护算法。测序技术已经渗透到日常生活的许多方面，从临床诊断（包括无创产前诊断）到用于评估潜在疾病风险的流行个人基因组学，再到通过商业试剂盒实现家谱追踪，以及法医学。这些用途给个人和社会都带来了其自身的伦理问题。例如，基因组图谱可以揭示意想不到的家族关系或晚发型疾病风险；执法机关可能在不知情或未经同意的情况下访问这些数据，或将其滥用于跟踪和欺压。在人类基因组计划实施期间，对基因或基因组序列的可专利性进行过激烈的辩论，目前的倡议（如全球基因组和健康联盟）还在继续评估其伦理障碍。国家和国际法律及道德框架应当应对这些挑战。随着基因组数据及其用途的不断激增，遏制对其潜在的滥用行为，确保人类基因组计划的遗产，有助于改善全人类的生活，将变得至关重要。

资料来源 Science