奠基者基因的进化年龄及其意义
2011-01-24吕宝忠
吕宝忠
研究员,上海交通大学肿瘤研究所,上海 200032
宏演化的趋势之一是生物由简单到复杂。传统上,这是古生物学、比较形态学和进化-发育探讨的主题。随着基因组数据的不断积累,当今一支以基因组进化年龄层分析为主要研究方法的新军加入了进来。基因组进化年龄层就是在系统发育层面上新出现一组共同起源的奠基者基因。本文将介绍这支新军及其在个体发育和肿瘤研究上发挥的作用。
生物进化的趋势之一是由简单到复杂,这是由基因数目的增加也就是新基因的产生(显然要减去一些老基因的灭绝或丢失)所引起的。奠基者基因(founder gene)是一类重要的新基因,它在生物进化重大事件中扮演适应性进化角色,也就是这类事件的分子基础。当然,新基因并不都是奠基者基因,如在珠蛋白家族中分化的肌红蛋白、神经珠蛋白(neuroglobin)和细胞珠蛋白(cytoglobin)超家族中就只有一种是奠基者基因[1]。本文以下部分介绍的新基因仅限于奠基者基因。
基因数目是如何增加的呢?李文雄[2]提出了4条途径:①基因倍增(gene duplication),这是最重要的一种;②域或外显子的混排(shuffling);③基因共享(gene sharing)和④基因的水平转移。笔者[3]曾提出第5条途径:同工替代(analogus replacement)。晚近有人提出第6条途径,认为新基因可能从自身基因组中的非编码DNA构成,称为孤独基因(orphan gene),如在果蝇中就突现位于X染色体并在雄性表达的这种新基因[4];在灵长类中突现的而在非灵长类中缺失的270个新基因有部分也是这种基因[5]。
本文将对奠基者基因的出生即其进化年龄以及它对进化、发育和癌症研究作一介绍。
1 探讨宏演化趋势(macroevolutionary trends)的传统手段——古生物学、比较形态学和进化-发育方法
地球存在至今已有45~46亿年,目前将其分为前寒武(Precambrian)和显生宙(Phanerozoic)两大层次。生物的发生和进化由表1所示。必须指出的是,不同生物发生和演化的进化年龄都是近似的,而且往往是低估的,因为发现的化石殊难说是该物种的第一块。从表1可见,最原始的原核类的发生可定为细胞起源之时,约在39亿年前;最早的真核类细胞发生在16亿年前;多细胞有机体约发生在9亿年前;而多细胞动物如存在至今的海绵标定在6.35亿年前;其他各大分类单元的发生和演化见表1。
古生物学研究必须依据化石,但不是所有生物都能形成化石(事实上即使能形成化石的生物也需要在特定条件下才能存留下来,但即使如此也不一定能挖掘到),因此比较形态学和进化-发育方法能补其缺失环节。如在种类繁多的单细胞真核生物中,某些倾向于进化成植物,某些倾向于进化成真菌,另一些则倾向于动物。根据 Cavalier-Smith等学者的研究[6-7],后两者的亲缘关系更近,并定名为Opisthokonda,而原生生物中较高级的襟鞭毛虫(choanoflagellate,Monosiga)与多细胞动物中原始类型海绵亲缘关系密切,一般将其标定为全动物(Holozoa)这一大分类阶元[8]。
由于传统的研究宏演化手段有其局限性,如古生物学必须依据化石,虽经好几代古生物学家的艰辛工作,获得了如表1所示的重大成果,但不能形成化石的生物,一旦灭绝的话,可以说是“死无对证”,因而某些缺失环节也许永远难以获取;对比较形态学等方法而言,尽管可以推测不同物种的最近共同祖先(last common ancestor,LCA),但不仅不同学者之间争议激烈,而且难以确定其分化的进化年代。本世纪蓬勃发展的基因组学应该说是研究宏演化的一支新军,以下将予以介绍。
2 宏演化研究的新手段——基因组进化年龄层学
基因是遗传信息的载体,也是进化信息的保持者,通过比较基因组学和计算分子进化学[9]可以确定直源基因(orthologous gene,指有同源关系的不同物种含有的核心功能相同的基因如细胞色素c等等)和并源基因(paralogous gene,指在同一物种中由基因倍增及其后分化形成的基因,如在人体中存在的血红蛋白α和ζ链)这两大类同源基因。
以直源关系为基础,Koonin研究组[13]把当时已测序的7个基因组全序列分成革兰氏阳性、革兰氏阴性、蓝细菌、古细菌和真核类5个分支,并认为只要在3个支上均具有的保守基因即可确定它有直源关系,构成一个有规定编号的COG(cluster of orthologous group)。迄今NCBI(National Center of Biotechnology Information,美国国家生物技术信息中心)网站上又公布了有更多真核类基因组的更新版COG[14]。新版含有比1997年版多得多的COG数目(4873个,1997年版仅为720个);由真核类中1种线虫、1种果蝇、1种人类、1种植物(即拟南芥)和2种酵母(酿酒酵母,即Saccharomyces cerevisiae,和裂殖酵母,即S.pombe)和1种胞内微孢子虫(Encephalitozoon cuniculi)则组成了 KOG,含有4852个KOG。
表1 基于化石记录的生物进化[10-12]
随着人类基因组的问世以及比较基因组学和计算分子进化学等的兴起和快速发展,Domazet-Lošo等指出[15],目前已具备了从基因组水平充实对宏演化中适应性进化重大事件的一条新途径,这就是以基因组进化年龄层学(genomic phylostratigraphy)作为新的研究手段探索宏演化中诸多问题。在Domazet-Lošo的文章中,插入了他们使用的新术语的词义解释,主要包括:
(1)奠基者基因:形成新基因谱系(gene lineage)或新基因家族中的第一个出现的基因;奠基者的起源标志着新功能,即创新功能的突现,如在真后生动物(不包括海绵)中p21和p27的突现。
(2)基因组进化年龄层学:类似于用地层学(stratigraphy)及其包括的古生物划分岩石各自生成年代,基因组进化年龄层学依据奠基者基因发生和蛋白质间断突现原理建立了不同层次的重建宏演化趋势的一种新统计学途径。
(3)系统发育年龄层(phylostratum):在系统发育上属于共同起源的一组奠基者基因,如在海绵基因组中突现的一组后生动物特有而在Monosiga中缺乏的诸多基因。
他们以果蝇为材料,将13382个果蝇基因(与Lewin在Genes IX一书中所述的约13600个略有不同)通过BLAST相似性搜索确定的奠基者基因突现的进化年代分配在12个系统发育年龄层即这些基因的出生年龄层内(见表2)。对果蝇胚胎发育的标本用原位杂交方法处理,发现上述各基因的出生年龄层均有奠基者基因表达,总数已达4141个基因。表2后两列的对比可以看出相应层次出现的基因百分比极相似,表明表达谱是有意义的。此外,表2中的1~5个层次,分别相当于表1的太古代、元古代中期、元古代上期、元古代上期约距今6.35亿年前和寒武纪。表2中的后7个层次,较难找到表1中的不同层次。其间先后突现顺次应该说是正确无误的。看来只能应用计算分子进化学中的分子进化钟来确定它们的进化年龄层。然而目前确定的分子进化钟表述的年龄层常比古生物学方法标定的距今更远,有时候要远得多,因此这是一个亟待解决的棘手难题。
表2 果蝇基因组进化年龄层及各层表达的基因数据[15]
上述的基因组进化年龄层应该说是一个有待不断完善的框架,至今尚不如地层学那么完善,尽管地层学中的不少地层还正在不断细化中,但Domazet-Lošo等的基因进化年龄层更需进行细分。在本文的以下部分将会涉及他们的一些更新版本。然而必须指出,正如Nei所陈述的,分子进化已将群体遗传学中对种内进化或短程进化(short-term evolution)延伸至种间进化或长程进化(long-term evolution)[16],而基因组进化年龄层学则将对进化的研究包括了基因水平和分子水平的宏演化分析,这从最根本的本质对达尔文的物种共同起源、适应等重大问题给出了最有力的诠释和最有说服力的支持。此外,基因组进化年龄层学途径还可用于对发育遗传学和癌症研究上。
3 为个体发育中的系统发育保守期提供基因年龄数据
达尔文讲过德国胚胎学家von Baer被脊椎动物胚胎的相似性搞糊涂的故事。von Baer在给达尔文的信中写道:
“我手里现有两个泡在酒精中的小胚胎。之前由于疏忽,没有给它们贴上标签。现在实在没办法分辨它们属于哪一类动物。他们可能是蜥蜴,也可能是小鸟,还有可能是很小的哺乳动物。这些动物胚胎中头和躯干的形成方式几乎完全一样[17]。”
其后的学者将上述形态上难以区别的胚胎时期称为系统发育保守期(phylotypic stage)[12],并认为可将同一门的动物之间在形态发育上的差异比拟为古代计时用的沙漏(hourglass)即呈现两头大中间小的形态差异(中间小的阶段即为系统发育保守期)。持反对意见的学者认为沙漏模式仅凭主观判断的动物形状相似性,可信度差。
Domazet-Lošo等[18]以斑马鱼和果蝇分别作为脊椎动物和无脊椎动物模式生物,并分别将两者的个体发育分期。
对前者而言为:合子→卵裂→囊胚→原肠胚→体节分化期→咽鳃期(pharyngula)→孵化期→幼年期→成年期;后者则为:卵裂→囊胚→原肠胚→胚带延伸(germ elongation)→胚带收缩(gene retraction)→头部卷曲(head involution)→分化期→幼虫期→蛹期→成虫期。
接着他们分别把两者的系统发育年龄层分成14个层次(从第1层至第14层)。
前者为:细胞(所有生物的共同祖先)→真核类→Opisthokonda→全动物→后生动物→真后生动物→两侧动物→后口动物→脊索动物→Olfactores(有头类和尾索动物)→脊椎动物(有头类)→硬骨鱼(Osteichthyes或Euteleostomi)→辐鳍鱼类→斑马鱼属;后者为:细胞→真核类→Opisthokonda→全动物→后生动物→真后生动物→两侧动物→原口动物→节肢动物→泛甲壳类→昆虫→有翅类(Endopterygota)→双翅目→果蝇属。
他们以基因表达微阵列方法检测了上述不同个体发育阶段中相应的系统发育年龄层的分布,结果表明:前者的咽鳃期和后者的胚带延伸期均处于系统发育保守期,其显著共同特点为古老基因高表达和年轻基因低表达,而在上述时期外的各期古老基因表达下降和年轻基因表达上升,表明系统发育保守期果真是发育调节和发育制约(development constraint)的关键点,从而保证动物体制(body plan)的稳定并准备了为其后分化作好充分保障,以分子标记(molecular signature)方式证实了系统发育保守期的客观存在。
无独有偶的是,Kalinka等[19]以相似方法在不同果蝇属间(分化时间达4000万年)的比较分析也证实了系统发育保守期的客观性。两个团队的研究[20]为进一步从基因调控网络和系统发育保守期的发育事件探索该特定胚胎时期开辟了一条新途径,看来还可对动物整个发育过程的分子水平分析产生重要作用。
4 为癌症起源与发展提供癌基因年龄数据
在1997年,有人把癌基因分为两大类[21]:管护基因(caretaker)和门卫基因(gatekeeper)。前者支持了基因组的遗传稳定性,而后者则涉及细胞信号并与个体成长有关。如果突变发生在前者,导致遗传不稳定性的产生;后者的突变则与肿瘤发生发展关系密切,故更合适的可将后者译为把关基因。癌症的发生发展是多步骤的,因此前者积累的突变是癌变的必要条件,而后者的突变可以说是充要条件。
最近,Domazet-Lošo等[22]应 用基 因组进 化年龄 层等方法,把从细胞起源至灵长类进化过程中不断出现的新基因或奠基者基因分成19个层(phylostratum,ps)。
细胞起源(ps 1)→真核类(ps 2)→Opisthokonda(ps 3)→全动物(ps 4)→后生动物(ps 5)→真后生动物(ps 6)→两侧动物(ps 7)→后口动物(ps 8)→脊索动物(ps 9)→Olfactores(脊椎动物+尾索动物,ps 10)→脊椎动物(ps 11)→硬骨鱼类(ps 12)→四足动物(ps 13)→羊膜动物(ps 14)→哺乳类(ps 15)→真兽类(ps 16)→胎盘动物(Boreoeutheria,ps17)→Euarchontoglirea(兔形目、啮齿目和灵长类的LCA,ps 18)→灵长类(ps 19)
他们将总数为20259个基因中包含的3022个癌基因,通过BLASTN等方法将它们定位在上述19个ps中。结果发现,ps 1和ps 5中新基因或奠基者基因都是高分布的,ps 2的分布较ps 1略低,表明细胞起源、真核类发生时管护基因已经出现,而与癌症密切相关的癌基因几乎与多细胞动物同时起源于ps 5。其后的分布是下降的,新的癌基因或奠基者基因的发生可能是机体与癌症进化的军备竞赛(arms race)产物。
上述对癌基因发生高峰的预测,不久即获得了Srivastava等[23]对海绵基因组草图完成和分析后意外发现的癌症竟起源于迄今尚生存的这种最古老后生动物并随着动物的进化癌基因继续出生的工作所证实。无怪乎Mann[24]在新闻栏评价Srivastava等的发现时引证了Domazet-Lošo的上述论文。
5 展望
由Domazet-Lošo等开创的基因组进化年龄层学问世至今仅仅不到4年,在宏演化的研究上充实了传统上以古生物学、比较形态学和进化-发育等法难以获得的成果,尤其是该方法以新的癌基因或奠基者基因出生年龄为标志,刻划动物适应进化重大事件的最根本即基因本质。她对个体发育中存在的系统发育保守期也提供了分子内容,而且由他人的实验所印证。在癌症研究上提供了重要的进化线索,并为其后的海绵基因组草图的完成和分析所证实。能提供预测并为其他学者随后工作所证实的理论或假说,不愧值得引起关注。诚然,她还很年轻,相信必将开出艳丽的花朵并硕果累累!
(2011年5月12日收到)
[1]LU B,YANG Q,PAN I-H.Evolutionary inference for globin superfamily[J].J Genet Mol Biol,2002,13:258-263.
[2]LI W H.Molecular evolution[M].Massachusetts:Sinauer Associates,1997.
[3]吕宝忠.基因组学与非线性分子进化 [J].自然杂志,2001,23:131-134.
[4]LEVINE M T,JONES C D,KERN A D,et al.Novel genes derives from noncoding DNA in Drosophila melanogaster are frequently X-linked and show testis-biased expression [J].Proc Natl Acad Sci USA,2006,103:9935-9939.
[5]TOLL-RIERA M,BOSCH N,BELLORA N,et al.Origin of primate orphan genes:a comparative approach[J].Mol Biol Evol,2009,26:603-612.
[6]CAVALIER-SMITH T.The origin of fungi and pseudofungi[M]//In RAYNER,ALAN D M(ed).Evolutionary Biology of Fungi.Cambridge:Cambridge University Press,1987:339-353.
[7]WAINRIGHT P O,HINKLE G,SOGIN M L,et al.Monophyletic origin of the metazoan:an evolutionary link with fungi[J].Science,1993,260:340-342.
[8]KING N,JODY WESTBROOK M,YOUNG S L,et al.The genome of the choanoflagellate Monosiga brevicollis and the origin of metazoans[J].Nature,2008,451:783-788.
[9]YANG Z.Computational molecular evolution[M].Oxford:Oxford Uni Press,2007.
[10]BENTON M J.The fossil record 2[M].New York:Chapman &Hall,1993.
[11]GRAHAM L E,Origin of land plants[M].New York:John Wiley,1993.
[12]STRICKBERGER M W.Evolution[M].Boston:Johns and Barlett Publishers Inc,2000.
[13]TATUSOV R L,KOONIN E V,LIPMAN D J.A genomic perspective on protein families[J].Science,1997,278:631-637.
[14]TATUSOV R L,FEDOROVA N D,JACKSON J D,et al.The COG database:an updated version includes eukaryotes[J].BMC Bioinformatics,2003,4:41.
[15]DOMAZET-LOŠO T,BRAJKOVI C′J,TAUTZ D.A phylostratigraphic approach to uncover the genomic history of major adaptations in metazoan lineages[J].Trends Genet,2007,23:533-539.
[16]NEI M.Molecular population genetics and evolution[M].Amsterdam:North-Holland Publishing Company,1975.
[17]COYNA J A.为什么要相信达尔文 [M].叶盛,译.北京:科学出版社,2009.
[18]DOMAZET-LOŠOT,TAUTZ D.A phylogenetically based transcriptome age index mirrors ontogenetic divergence patterns[J].Nature,2010,468:815-818.
[19]KALINKA A T,VARGA K M,GERRARD D T,et al.Gene expression divergence recapitulates the developmental hourglass model[J].Nature,2010,468:811-814.
[20]PRUD′HOMME B,GOMPEL N.Evolutionary biology:Genomic hourglass[J].Nature,2010,468:768-769.
[21]KINZLER K W,VOGELSTEIN B.Gatekeepers and caretakers[J].Nature,1997,386:761-763.
[22]DOMAZET-LOŠO T,TAUTZ D.Phylostratigraphic tracking of cancer genes suggests a link to the emergence of multicellularity in metazoa[J].BMC Biol,2010,8:66.
[23]SRIVATAVA M,SIMAKOV O,CHAPMAN J,et al.The Amphimedon queenslandica genome and the evolution of animal complexity[J].Nature,2010,466:720-726.
[24]MANN A.Sponge genome goes deep [J].Nature,2010,466:673.