我们身上的绝大部分DNA都是垃圾吗?
2017-06-30
来到安大略省圭尔夫大学(University of Guelph),走进进化生物学家T·瑞安·格雷戈里(T. Ryan Gregory)的实验室,你会感觉好像走进了一个基因组学的大观园,各种各样活着或者已经死去的生物正等待着自身的DNA被解读:蝎子潜伏在饲养箱里;狼蛛在小盆下面打瞌睡;格雷戈里和他的学生在北极探险时采集的蜘蛛和甲壳类动物的速冻标本存放在米色金屬液氮罐里;软体动物、飞蛾和甲虫标本保存在一排立式冷冻柜中;而橱柜里则塞满了果蝠、暹罗斗鱼和鸵鸟基因组的品红染色涂片标本。
在对所有这些基因组进行研究的过程中,格雷戈里学到了重要的一课:从最根本的层面上来说,生命真是一团乱麻。他很喜欢用“洋葱测试”来对此加以证明。这个测试的目的是比较洋葱与人类的基因组孰大孰小。为此,格雷戈里的研究生尼克·杰弗里(Nick Jeffery)从大学的温室里采了一棵小洋葱拿到实验室,然后递给我一把单刃安全剃须刀,和我一起在培养皿中把洋葱茎切碎。不一会儿,我的培养皿里就堆起了一坨带着古怪光泽的翡翠色软泥。这奇异的颜色让我走了神,一不小心切到了自己的无名指,不过这样也好,省得我用注射器再戳自个儿一次了——这次测试中,我是提供人类基因组的志愿者。杰弗里拿出了一个小瓶,让我把手指上的血抹在瓶沿上,随后我们把洋葱汁也倒入瓶中,看着绿色和红色的液体混合起来,产生一种从色调和粘度上都跟枫糖浆十分相似的东西。
杰弗里向瓶中加入了能与DNA相结合的荧光染料,然后将小瓶放进一种叫做流式细胞仪的四四方方的装置中。这种仪器可以将洋葱汁和血液喷洒在激光束的光路上,每当一个细胞被击中,其DNA就会发出蓝色辉光,细胞的基因组越大,发出的光也就越亮。在我们的注视下,显示器上图表的数据逐渐积累,它表明两种细胞产生了两种截然不同的光,一种暗淡,一种明亮,相应地在图表上显示为两个峰。
其中一个峰代表我的基因组,也就是我的全套DNA。基因组就好比一本用名为碱基的遗传学字母写成的生物学大书。人类的基因组约包含32亿个碱基,如果把这些字母打印在纸上,足够组成一本比《战争与和平》(War and Peace)还长一千倍的巨作。格雷戈里朝着屏幕俯下身来,今年39岁的他留着栗色的山羊胡子,目光热切,有点像剧集《绝命毒师》中成为“海森堡(Heisenberg)”之前的主角瓦特·怀特(Walter White)。他用手指着代表洋葱的峰。它表明,洋葱的基因组是我的五倍大。
格雷戈里宣布:“洋葱胜出。”一如既往。
只是,为什么会这样呢?为什么洋葱会携带比人还多那么多的遗传物质?同样的问题也适用于宽足蝾螈(655亿对碱基),非洲肺鱼(1320亿)和衣笠草(又名重楼百合,1490亿)。这些生物并不比我们人类复杂,所以格雷戈里不认为这些多出来的DNA的作用是完善它们的机能。相反,他更赞同一个在20世纪70年代首次提出,但至今听来仍然有些惊世骇俗的学说:动植物基因组的大小与其复杂程度基本无关,因为——说穿了——绝大部分的DNA都是“垃圾”。
人类基因组约含2万个基因,或者说,编码蛋白质的DNA片段。但这些基因仅占整个基因组的1.2%左右。其余的98.8%称为非编码DNA。格雷戈里认为,虽然某些非编码DNA是必不可少的,但大部分很可能没有任何用处。直到最近,大多数生物学家都同意他的意见。他们利用手头最好的工具对基因组进行了调查,发现现有证据表明,只有一小部分非编码DNA具有生物学功能。
然而,在过去的几年中,该领域的风向开始变化。近期的研究揭示,新发现的众多非编码DNA对我们生存的重要程度不亚于我们较为熟悉的那些基因。例如,其中有许多DNA可编码引导我们从受精卵发育为健康成年人的特殊分子。如果这些非编码DNA片段受损,因其具体功能的不同,我们将可能遭受脑损伤或癌症之类的灾难性后果。大规模的基因组研究给大批研究人员带来了这样的期望:或许,人类基因组比以前认为的更加活跃。
今年1月,美国国立卫生研究院(National Institutes of Health, N.I.H)主任弗朗西斯·柯林斯(Francis Collins)就目前共识意见的转变发表了评论。在旧金山举行的一次卫生会议上,一位听众就“垃圾DNA”向他提问。“我们已经不再使用这个术语了,”柯林斯回答道。“以为我们可以摈弃基因组的某些部分,这实在是一种非常狂妄自大的想法——就仿佛我们敢打包票它们没有任何功能似的。”科林斯指出,在曾经被科学家们认为只是白占地方的基因组DNA中,大部分“其实都各有用途”。
这种想法在格雷戈里和一群与他志同道合的生物学家看来不仅荒谬而且危险,很可能会带来“伪科学”。他们认为,反对“垃圾DNA”的概念,不过是基于对少数证据的过度解读,以及对多年来扎实的基因组研究的刻意忽视。于是,他们在学术会议上面对面地向对手发起了挑战,还在生物学期刊上撰写了详细的评论文章,并在社交媒体上发声。当N.I.H.的官方Twitter帐号转发柯林斯有关不再使用“垃圾DNA”这一术语的声明时,加州大学伯克利分校(University of California, Berkeley)的教授迈克尔·艾森(Michael Eisen)在Twitter上骂了回去。
如今,“垃圾DNA”之战正在生物学的前沿上打响,但它们事实上不过是近200年来知识界纷争中最近的几场小战役罢了。在查尔斯·达尔文(Charles Darwin)发表著名的进化论之前,大多数博物学家都认为自然界中的现象——从兰花的花瓣到秃鹫喙上的钩——都是上帝设计出来的杰作。在达尔文的理论得到广泛接受之后,他们又开始将其视为自然选择的产物,认为生物的方方面面都是精确适应的结果。然而,一些最伟大的生物学家却提出了反对意见。在这些生物学家看来,充分高效的基因组与我们起源的随意性不符,事实上,每一个物种都是在无数次错误的尝试中偶然诞生的。有些人从这数十亿碱基里看到一架调控精妙的机器,而在格雷戈里等其他人眼里,那只是一片狼藉。
1953年,弗朗西斯·克里克(Francis Crick)和詹姆斯·沃森(James Watson)在《自然》杂志(Nature)上发表了一篇短文,展示了DNA的双螺旋结构。这篇短文让生物学家们投入了探索的狂潮之中,最后还产生了多个诺贝尔奖,人们对生物的生长和繁殖的了解达到了前所未有的深度。他们发现,要根据DNA来生产蛋白质,细胞要使用一种叫做RNA的分子来制作相關基因的单链拷贝,然后再利用该RNA来指导相应蛋白质的合成。
这项研究促使科学家们猜想基因组的绝大部分应该是编码蛋白质的DNA,但后来他们发现,这种假设与现实相去甚远。科学家们通过对细胞中的DNA进行染色,并以显微镜观察和测量,估算出了人类基因组的大小。1964年,德国生物学家弗里德里希·福格尔(Friedrich Vogel)在《自然》杂志上发表了一篇文章,粗略计算了如果人类基因组完全由基因组成,一般来说,一个人应该携带的基因数目是670万个基因。这个数字简直惊人地大,福格尔自己也承认它“高得令人不安”。没有任何证据表明,我们的细胞可以产生670万种或接近这一数字的蛋白质。
于是福格尔推测基因组大部分是由必需的非编码DNA组成——举例来说,它们可能是发挥了类似于开关的作用,管理着基因的活跃与关闭。但其他的科学家们意识到,即使按照这个想法,在数学角度上还是不合理。平均而言,每个婴儿出生时约带有100个新的基因突变。如果基因组中的所有片段都是必不可少的,那么这些突变中有很多都会导致重大的天生缺陷,即使这些缺陷只有在传代过程中才会成倍增加,该物种也会在一个世纪内灭绝。
面对这一悖论,克里克和其他科学家在20世纪70年代提出了关于基因组的新观点:基因组并没有塞满编码DNA,事实上,基因组绝大部分是非编码DNA。更重要的是,大多数非编码DNA都是“垃圾”——也就是说,这些DNA片段对我们来说一无所用。这些生物学家认为,某些“垃圾DNA”片段最初也是基因,只是后来因为突变的缘故失活了。其他的DNA片段称为转座因子,它们就好像寄生虫一样,单纯地复制自己并插入到基因组的新位置上去(这种插入通常是无害的)。
当时,识别“垃圾DNA”是生物学研究的大趋势之一。许多科学家都开始质疑所有生物体系都是进化“精心设计而来”的这一假设。1979年,哈佛大学(Harvard)的史蒂芬·杰伊·古尔德(Stephen Jay Gould)和理查德·列万廷(Richard Lewontin)在《伦敦皇家学会会刊》(The Proceedings of the Royal Society of London)上发表了一篇文章,抱怨有太多的科学家纵容自己讲故事般轻松自信地将每一个性状——从鹿角到嫉妒心——都解释成为了实现什么必不可少的功能而自然选择出来的适应性。古尔德和列万廷称这种习惯是“盲目乐观”(Panglossian)的典范——这个字眼来自伏尔泰(Voltaire)的小说《憨第德》(Candide)中那位一再坚持,即使面对死亡和灾难,人们的处境仍然是“在所有可能的情况中最理想”的愚蠢教授潘格罗士(Professor Pangloss)。古尔德和列万廷并不否认自然选择是一种强大的力量,但他们强调,它并不是解释物种为何会演化成现在这个模样的唯一答案。例如,雄性的乳头就不是一种适应性,它们不过是在进化中凑凑热闹罢了。
古尔德和列万廷呼吁人们以更开阔的眼光来看待进化,为其他的进化力量,如意外和历史突发事件,以及在生命的不同层面上展开的过程留下空间——也就是古尔德常说的“多元主义”。当时正值遗传学家们第一次触及人类基因组的分子秘密之时,古尔德和列万廷发现了更多支持多元主义,反对盲目乐观的证据。任何两个人的基因组之间都可能存在数百万个差异,其中大多数都不是自然选择引导下的结果,它们只是些随机突变,无所谓好坏。
当克里克等人开始为“垃圾DNA”而辩时,他们也抱持着类似的观点:大自然是个漫不经心的家伙。他们认为,雄性的乳头只是进化中的一个无用的痕迹,我们的绝大部分基因组也是如此。基因组远未达到机械般的精确和完美,在很大程度上,它更像是一本被反复擦去又重写的抄本,又像是无害的寄生虫们的巢穴。克里克和他的同事们指出,转座因子之所以在我们的基因组中十分常见,不是因为它们有什么必不可少的功能,而是因为它们可以利用我们来完成它们自身的复制。这种学术上的志同道合令古尔德十分欣喜,他也主张转座因子的行为与微生物相似,在进化过程中,它们越来越擅长在宿主基因组中增加新的自身DNA拷贝。我们的基因组就好比它们生存的海洋和草原。古尔德在1981年写道:“它们不过是在‘错误的层面上玩达尔文的游戏罢了。”
就在古尔德写下上面那番话后不久,科学家们开始着手破译整个人类基因组的精确序列。但直到2001年,古尔德去世前不久,他们才发表了第一稿研究结果。他们识别出了带有“死基因”标志的数千个DNA片段,还发现了数以百万计的转座因子。“人类基因组计划(Human Genome Project)”团队宣称,我们的DNA就像“一大片由‘垃圾DNA组成的荒漠”,其中星星点点散布着编码蛋白质的基因“绿洲”。“垃圾DNA”最初只是一个理论上的争论,但现在我们在进化上的杂乱无章已经是有目共睹。
如果你想要用一种迥然不同的方式去考察基因组,哈佛大学干细胞与再生生物学系(Department of Stem Cell and Regenerative Biology)乱糟糟地放满了试验台、测序仪和显微镜的迷宫般的三楼是一个绝佳场所。这里是约翰·里恩(John Rinn)的实验室,他今年38岁,曾是一名竞技雪板滑雪运动员,现在依然喜欢驾驭着雪板从办公室的一面墙滑到另一面墙,同时思考生物学问题。里恩负责着十几个项目,目的是研究一些曾经被视为“垃圾”,其实却为生命所必需的非编码DNA片段。
里恩的研究对象是RNA,但不是我们的细胞用以作为制造蛋白质的模板的那种RNA。科学家们早已知道,人类基因组中包含着一些其他类型的RNA的基因:这些碱基组成的长链在细胞内执行着其他任务,比如协助蛋白质组装等。21世纪初,里恩和其他科学家发现,人类细胞可以阅读数千个自身DNA片段(不仅包含编码区),并在此过程中制造RNA分子。他们想知道这些RNA分子是否具有什么生死攸关的功能。
里恩在斯坦福大学(Stanford University)做博士后时就决定要尝试证明这些新的RNA分子具有重要的作用。经过几年的检索,他与该大学的教授张元豪(Howard Chang)选定了一种特殊的RNA分子,这种分子非常奇怪,它在腰部以下的皮肤细胞中广泛存在,但在腰部以上却完全不见踪迹。里恩和张都清楚地知道,这种模式可能毫无意义,但他们仍然开始了研究。他们给自己的神秘分子取了个颇具自嘲意味的名字:“hotair”。“如果最终证明它什么也不是(hot air有“吹牛”、“空话”之意——译注),起码我们曾经努力过,”里恩说。
里恩对皮肤细胞进行了一系列的实验,想看看hotair有什么功能(就是说,如果有的话)。他小心翼翼地将hotair分子从细胞中提取出来,并检查它们是否曾与任何其他分子相连接。事实上,是的:它们可与一种名为Polycomb的蛋白质紧密结合。
Polycomb隶属于一组对于从受精卵到动物成体的发育过程必不可少的蛋白质。它们可在不同的模式下激活或关闭基因,从而使一群细胞统一地发育成骨骼、肌肉或脑。Polycomb蛋白可以与多种基因相结合并使其失活,无法再生产蛋白质。里恩的研究显示,hotair的作用就像是Polycomb蛋白的向导,当它结合在Polycomb上后,就可以护送该蛋白穿过乱七八糟的细胞内环境,准确地结合到需要被沉默的基因位点上。
2007年,里恩在《细胞》(Cell)杂志上发表了自己的研究结果,震惊了遗传学界。《细胞》杂志称其为巨大的突破,并表示里恩的这项研究是他们曾经发表过的最重要的论文之一。在随后的几年中,张和其他研究人员使用更复杂的工具继续对hotair深入研究。例如,他们利用基因工程,培育出了缺乏hotair基因的小鼠,并发现这些小鼠出现了一系列畸形,如腕部发育迟缓、椎骨混杂等。显然hotair很可能在皮肤、骨骼以及全身的其他组织中也发挥着重要的作用。
2008年,里恩应邀来到哈佛大学,并在此建立了自己的新实验室,一心一意希望能找到更多类似hotair的分子。我去参观的第一天,正赶上他的研究助理戴安娜·桑切斯(Diana Sanchez)在解剖只有斑豆大小的小鼠胚胎。她旁边的冰浴槽中插着好些个试管,里面盛放着她精心剥离的各种器官和身体部件——肝脏、腿、肾脏、肺等,用于从其中搜寻制造RNA分子的细胞。为了不打扰桑切斯的解剖工作,里恩和我离开了,然后我们碰到了马丁·索瓦若(Martin Sauvageau),这个蓝眼睛的魁北克人拿着一盒玻片,每片玻片上都固定着一片小鼠大脑切片,并以染色显示了制造不同RNA分子的細胞。我随同索瓦若前往黑暗的显微镜室,和一个有着粉红色头发的研究生阿比·格罗夫(Abbie Groff)一起查看了这些切片。有一张切片上的小鼠脑部就像留了一簇天蓝色的小胡子。在格罗夫看来,每种模式都是一个惊喜。她曾经发现了一种RNA分子可以在小鼠体内产生数千个微小的环状物,每个环都包绕着一个毛囊。“每天早上进来的时候,感觉都像在过圣诞节,”她这样形容道。
2013年12月,里恩和同事们发表了第一批搜索结果:有三个新的潜在的RNA基因可能对小鼠的生存至关重要。为了调查每个潜在基因,科学家设法删除了小鼠体内该基因两个拷贝中的一个。当这些小鼠交配时,一部分胚胎将带有两个基因拷贝,有的带有一个,有的则一个也没有。不论是缺少这三种DNA片段中的哪一个,小鼠都会胎死宫中或在出生后不久死亡。“敲除了一个‘垃圾DNA片段,小鼠就无法存活,”里恩说。“如果你要提出批评意见,尽管说好了。但我已经很满意了。我又发现了一个新的生命必需的基因组片段。”
在寻找新的具有重要功能的RNA分子的同时,科学家们也从中选出了几个来进行分子层面上的详细研究。里恩站在白板前,用循环线图示向我阐释另一种被他命名为“firre”的RNA分子,“我想我已经深深爱上它了,”他说。里恩的团队目前对firre进行的实验表明,它的功能像一个巨大的套索,可以同时抓住三个不同的染色体并把它们拉到一块儿来。里恩怀疑我们的基因组编码了成千上万个可以进行类似壮举的RNA分子,它们可以弯曲DNA、解开DNA螺旋,使其与某些特定的蛋白质接触或者赋予其本身没有的广泛功用。
“这就好比在基因组层面上做折纸手工,”里恩这样解释他的理论。“每个细胞都拥有一张同样的纸。干细胞、脑细胞、肝脏细胞……全都是从同样的纸上诞生的,是你的折法决定了最后会得到一架飞机还是一只鸭子。你折叠出来的形状才是最重要的。这是生物学的三维代码。”
一些生物学家认为,里恩这类新发现提示我们的基因组中隐藏着一座大宝库。由于已有研究证明,有几种这样的RNA分子至关重要,他们认为,基因组其余的非编码片段一定也蕴藏着丰富的宝藏。但是格雷戈里和其他人表示这种想法不过是潘格罗士博士那样的盲目乐观罢了。相比之下,他们倒是对这项研究的前景深感悲观。事实上,我们的细胞制造的大多数RNA分子很可能并没有像hotair或firre那样的重要功能。相反,在大部分情况下,不过是制造RNA的蛋白质偶尔撞上了“垃圾DNA”而已。
“你兴奋地宣称:‘我发现了美洲新大陆!”多伦多大学(University of Toronto)的生化学家,与格雷戈里协力在《公共科学图书馆:遗传学》杂志(PLOS Genetics)上撰文为“垃圾DNA”坚决辩护的亚历克斯·帕拉佐(Alex Palazzo)说,“但你发现的很可能只是一点点噪音罢了。”
帕拉佐和同事们还将目光转向了近期的一次大规模人类基因组调查的胜利宣言。一项N.I.H.项目最近发布新闻称:“人类基因组中之前被称为‘垃圾DNA的片段其实大多是巨大的控制面板,内含数以百万计的开关,调节着我们的基因活性。”格雷戈里等研究人员认为这是远远超出了实际证据的浮夸之辞。格雷戈里将寻找有用的非编码DNA片段比作使用金属探测器搜索埋在沙滩里的黄金。“把海滩彻底搜查一番是个好主意,”他说。但你必须确保你的金属探测器不会遇到任何金属都警铃大作。“不然你找到的绝大部分都将是瓶盖和钉子。”格雷戈里说;
他预计,随着我们更仔细地检查基因组,还会发现许多瓶盖和钉子。他和其他人表示,这个预测是基于我们基因组深厚的进化史做出的。数百万年来,必需基因并没发生多少变化,而“垃圾DNA”却带上了很多无害的突变。牛津大学(University of Oxford)的科学家们衡量了过去一亿年来人类基因组的每个位点在进化上的改变。该研究的作者之一,克里斯·庞廷(Chris Ponting)说:“现在我敢拍着胸脯说,我认为其中只有8%(上下波动范围不会超过1%)具有生物学功能。”那其他的92%呢?“似乎就没那么重要了,”他说。
格雷戈里等研究人员认为,虔诚的创世论者不约而同地利用“垃圾DNA”观念中的最新變化,这绝非偶然,他们这是试图让时间倒退回达尔文时代之前。(创世论研究学会[Institute for Creation Research]称:近期关于非编码DNA的研究“清楚地表明我们是造物主‘创造的奇妙又可怕的作品”。)从某种意义上说,这场辩论可以追溯到达尔文本人,他在1859年出版的著作《物种起源》(“On the Origin of Species”)中将我们对自然选择的理解定位为天然的“设计师”。晚年时期的达尔文也曾煞费苦心地强调,自然选择只是进化的一个方面。看到许多读者误以为他主张自然选择是产生生物多样性的唯一动力,令他十分沮丧。“接连不断的错误阐释的力量真大。”达尔文在1872年更新该书第六版时抱怨道。事实上,他对有可能推动进化的其他力量,比如“在我们毫不知情的情况下自发产生的变异”等持有相当开明的态度。
达尔文肯定对基因组一无所知,因为直到他去世几十年后,科学家们才开始孜孜不倦地研究这一课题。但格雷戈里认为,基因组恰好体现了达尔文的初衷:适应性和随意性的混合体。数百万年来,人类基因组自发增大了不少,其中充斥着无用的基因拷贝和新的转座因子。我们的祖先宽容地将所有这些额外的行李带在了身上,因为它们本来也不算多重的负担。这些额外的DNA既不会导致重病,复制所需的能量也很少,不会影响其他正常工作的完成。当然,基因组不可能无限制地接纳垃圾,但其垃圾容量确实相当巨大。另一方面,要清除垃圾则很麻烦,需要大批的蛋白质来删除每一个“死基因”或转座因子——同时还得保证不会伤及必需基因。一个冗余的基因组可以保留更多的资源来进行繁殖或与疾病斗争,而丢失“垃圾DNA”的基因组则将沦为进化中的输家。
格雷戈里认为,只有当我们不再认为生命总是朝着更完善的方向发展,才能理解塞满他实验室的那些血淋淋的切片中展示的巨大基因组。在他看来,“垃圾DNA”并不是进化失败的标志,相反,它表明进化是个缓慢的过程,其成功往往是不经意间的妙手偶得。