基因突变,到底是好还是坏
2024-03-13袁越
袁越
人类基因组计划完成于2003年4月14日。当时除了人类,科学家们只测出了小鼠、大鼠和黑猩猩这3种哺乳动物的全基因组序列,很难作出全面的横向对比。科学家们发现,如果没有横向对比,单从人类基因组序列出发,很难得出太多有意义的结论。于是,在此后的20年时间里,科学家们又陆续测出了几百种哺乳动物的全基因组序列,终于可以得出一些具有统计意义的结论了。
为了整合各国的研究资源,提高工作效率,来自全球30家科研机构的150多名科学家组成了一个跨国联盟,共同开启了一项名为Zoonomia的研究项目。该项目把包括人类在内的241个哺乳动物的基因组汇总到一起,建立了一个统一的数据库。这个数据库涵盖了现存的80%哺乳动物种类,基本上反映了哺乳动物纲的全貌。
2023年4月27日出版的《科学》杂志,刊登了11篇来自Zoonomia项目的科学家撰写的论文,介绍了这个项目的进展情况。其中一篇论文证明,胎盘类哺乳动物早在恐龙时代就已经进化出来并开始分化了。另一篇论文详细对比了上述241个基因组的基因序列,发现有10.2%的基因序列是完全一致的,说明这部分DNA的功能极为重要,任何改变都会致死。进一步的研究显示,这部分DNA序列大都位于蛋白质编码区之外,属于调控基因的范畴,其中约有一半的调控基因的具体功能未知。这将是未来基因研究的一个“金矿”。
不过,大家最感兴趣的肯定是人类的基因组,尤其是人类疾病和基因之间的关系。此前这个问题大都是通过全基因组关联分析(GWAS)来研究的,这个方法只聚焦人类基因组本身,通过对比健康人和患者的基因组序列,找出两者的差异。问题在于,这个研究方法只能发现基因和疾病之间的相关性,无法证明两者之间的因果关系。因为很多疾病会涉及成百上千个基因位点的差异,很难判断究竟哪个差异才是决定性的。
Zoonomia项目另辟蹊径,试图通过研究哺乳动物的基因进化史来判断究竟哪个基因才最有可能是致病元凶。研究人员通过计算后发现,这个研究思路要比GWAS方法更容易获得成功,其研究难度至少降低了一个数量级。
GWAS方法显得太过粗糙,很难确切地知道某个基因突变到底会产生怎样的后果。事实上,随着DNA测序的成本越来越低,全世界恐怕已有数百万人测过自己的基因组序列了。但是,即便测试结果显示你有若干个基因位点和标准版不一样,导致你体内的某个蛋白质与标准版有细微差异,你也不清楚这到底意味着什么。因为科学家们对于蛋白质的氨基酸序列与该蛋白的生理功能之间的关系缺乏了解,不太可能仅凭某个基因突变就预判出你的健康状况将会受到怎样的影响。
为了解决这个问题,著名的DNA测序仪制造商因美纳公司的一位名叫凯尔·法赫的人工智能专家想出了一个绝妙的方案。他认为,人类和灵长类动物在进化树上的位置最为接近,所以人体里的蛋白质应该和灵长类动物体内的蛋白质几近同源。因此,如果发生在人类身上的某个氨基酸变异能够在其他灵长类动物的身体里被找到,就说明这个变异经受住了进化的考验,极有可能是良性的。按照这个逻辑,如果我们能够把世界上现存的灵长类动物的基因组全都测出来,再和人类基因组作对比,就能构建出一个庞大的数据库,包含了所有和人类相同或者不同的基因突变位点。只要把这个数据库输入人工智能神经网络,再结合相应的蛋白质三维结构数据,就能借助神经网络强大的学习能力,推算出某个新发现的基因突变到底是良性的还是恶性的。
法赫是在2018年提出这一设想的,当时仅有不到10%的灵长类基因组序列被测出来,数据量达不到人工智能的要求。但法赫仍然决定试试这个思路的可行性,便联系了西班牙庞佩乌·法布拉大学的遗传学家托马斯·马奎斯·波奈特。后者是比较基因组学研究领域的先驱者,手里积攒了不少灵长类基因组序列。波奈特为法赫提供了6个这样的基因组序列,他利用这些数据对自己的设想进行了初步研究,并将研究结果写成论文,发表在2018年7月23日出版的《自然·遗传学》杂志上。
这篇论文证明上述思路是可行的,唯一的缺点就是灵长类基因组序列的数据库还不够大。于是,波奈特向全世界的同行发出号召,很快就从来自24个国家的数十位遗传学家那里征集到了233种不同灵长类动物的基因组序列。这个数量虽然仅占全球已知灵长类动物总数的一半左右,但却涵盖了灵长目的所有16个科,基本上反映了灵长类动物的全貌。
有了这样一个全面的人类近亲的基因组序列数据库,科学家们就可以拿它来做很多此前做不了的事情。2023年6月2日出版的《科学》杂志刊登了来自世界各国的遗传学家撰写的8篇论文,借助这个灵长类基因组数据库探讨了与人类有关的8个不同的问题。其中的一篇核心论文就是由波奈特和法赫的团队合作完成的,科学家们找出了人类和灵长类共有的430万个常见的错义突变(即改变了氨基酸序列的基因突变),再和现有的基因病理学数据库作对比,发现其中有98.7%都是良性的,重合度非常之高。
如果仅用前文提到的哺乳动物基因组序列数据库作为参照,那么基因突变的良性率仅有87%,數据质量大打折扣。这个差异不难理解,毕竟相较于灵长类动物,哺乳动物在进化树上的位置距离人类更远。
总之,这项研究为人工智能系统提供了一套高质量的基因标注数据库,其数据量比原有的数据库增加了50多倍。科学家们相信,未来的遗传学家们只要把这个改进过的数据库和相应的蛋白质三维结构数据结合起来,输入人工智能神经网络,就可以相当准确地判断出任何一个新的基因突变究竟是良性的还是恶性的。到那时,基因组序列就能透露关于健康的小秘密。