DNA:精准实验的力量
2016-10-10艾伦奥尔AllenOrr
H.·艾伦·奥尔(H.Allen Orr)
游忆/译
DNA:精准实验的力量
H.·艾伦·奥尔(H.Allen Orr)
游忆/译
《生命最大的秘密:破解基因密码的竞赛》(Life's Greatest Secret: The Race to Crack the Genetic Code)作者:马修·科布(Matthew Cobb)
美国基础图书出版社,434页,29.99美元
一
兰迪·莱芬韦尔(Randy Leffingwell)
DNA(脱氧核糖核酸)分子有两种功能。第一,承载遗传信息,代代相传。第二,在相当大的程度上指导身体构造的形成,告诉细胞制造什么分子,指引我们从单细胞的受精卵发育成为一个完整的成年人。这两种功能无疑是相互联系的。构造出最好的躯体的DNA序列更有可能传给下一代,因为更好的躯体更有可能生存和繁殖。这是达尔文(Darwin)有关于DNA语言的自然选择学说。
1953年,弗朗西斯·克里克(Francis Crick)和詹姆斯·沃森(James Watson)在加利福尼亚的圣地亚哥发现了DNA分子的双螺旋结构。在1984年大家都知道了DNA是遗传物质。众所周知,20世纪中期,美国人詹姆斯·沃森和英国人弗朗西斯·克里克发现了DNA的分子结构为双螺旋结构。就是这种双螺旋结构构成了我们的基因。这些基因打包进入卵子或者精子,遗传给我们的孩子,所以孩子们才长得像我们。
生物学家研究DNA如何帮助指导身体运行的故事并不为人所知。DNA以某种方式给细胞传达信息,指导细胞制造血红蛋白、胶原质以及成百上千的其他分子,并且生产出的是人类的分子,而不是,比如说,猫的分子。这稍有些不同。细胞如何解读DNA中编制的那些决定身体中不同分子结构的信息?大体来说,这取决于基因如何编码。这些编码的方式在20世纪50—60年代被破解,成为生物学史上影响最深远和最精彩的事件。
马修·科布在他的新书《生命最大的秘密》中讲述了这个故事。科布是曼彻斯特大学(University of Manchester)的动物学教授、一位遗传学工作者。他还学习科学史。写了好几部有关于生物学史的书。《生命最大的秘密》一书针对的是对生物学只有基本了解的大众读者,这本书对DNA运作的分子力学细节讲解较少,是对生物技术发展形成的基因介入的新世界感兴趣的人的初级读物。此外,专业的科学家也会对科布这本书感兴趣,因为本书记录了科学史上具有转变意义的重大事件:分子生命研究的兴起。
虽然这本书侧重史学描述,但它依然非常有趣,有时还惊险刺激。在这场破解基因密码的大赛中,有许多戏剧性事件,科布一一为大家详述。
二
你也许没有注意到我用了“语言信息”一词来讨论DNA。被“编录”进DNA的“信息”被细胞“读取”。你可能没有注意到是因为现在我们讲到DNA都是用这些词,甚至通俗文学也这么用。显而易见,DNA储存信息,例如卷发或蓝眼睛,就像硬盘和电脑储存信息一样。然而,科布的主要观点之一就是,这是生物学的最新思潮。
这种新的思维方式和二战期间及之后其他科学领域的发展息息相关。在此期间,出现了有关信息的两大科学。克劳德·香农信息理论(Claude Shannon)和其他链式信息理论,为信息流在传达过程中(例如电子通信)信息量的确定提供理论基础。以及诺伯特·维纳(Norbert Weiner)在其控制论中提出的反馈环理论,尤其是负反馈环。(恒温器就使用到反馈环:恒温器控制空间内的温度,温度又控制恒温器,就是这样一个回路。)
随着这些理论的发展,一些科学家对这些领域的数学抽象对生命研究提供的新方法的前景表现出极大兴趣。有机体可能不能像数学公式那样准确描述一个信息流,但是新科学显示有机体也有可能做到。科布称,信息思维是解决“编码问题”(coding problem,20世纪50—60年代生物学的主要问题)的重要手段。
为了理解编码问题,我们首先应该明白遗传信息DNA是一个由两条链子互相螺旋状缠绕的长分子。1953年沃森和克里克将其命名为双螺旋结构。每条单链都有四种化学元素:腺嘌呤、胸腺嘧啶、鸟嘌呤、胞嘧啶,缩写分别为A、T、G、C。原则上来说,这四个DNA字母(又叫碱基)在单链上的顺序是随机的,例如AAGCTG。与之相对应的那条单链DNA上的字母顺序是相匹配的:A相对应的是T,G相对应的是C。所以,在这个例子中另外一条单链DNA的碱基顺序应该是TTCGAC。人类的基因组,所有的基因信息都是由这些DNA碱基组成。
我们身体大部分成分不是DNA,而是多种不同蛋白质。例如,红细胞中的β-珠蛋白(血红蛋白成分之一),以及皮肤中的胶原质都是蛋白质。根据科布的调查,20世纪30—40年代间,有大量的研究证明我们的基因在某种程度上可以指定生产蛋白质。大体上来说,每一段基因——有几千个碱基长度的DNA片段——都描写了某种蛋白质。因此,人类基因组的无数基因以某种方式编码了不同的蛋白质,构成了我们的躯体。
那么,什么是蛋白质呢?蛋白质是由许多独立链接的氨基酸组成的长分子链。生物体的构成有20种氨基酸。你身体中的β-珠蛋白就是146个氨基酸按照特定顺序排列而成。如果用另一种氨基酸替换掉其中任何一个氨基酸,事情会变得完全不同。科布指出,正常红细胞和镰状红细胞形成的β-珠蛋白只差一个氨基酸,但是后者却能导致镰状细胞性贫血。
我们现在可以清楚地阐述编码问题:DNA的A、T、G、和C碱基顺序如何决定蛋白质中氨基酸的排列?无论这个编码顺序如何,都决定了生命形式。它将我们从父母那里获得的遗传物质和我们身体的构造形式紧密联系起来。
编码问题在DNA结构发现之后很快就被解开了。沃森和克里克发现双螺旋结构两周之后,发表在《自然》(Nature)杂志之前,克里克在给其儿子的信中写道:
我们认为DNA是一种密码。碱基的顺序将基因互相区分(就像一页一页的书一样)。
克里克这封信在2013年拍卖到了600万美元。
沃森和克里克发表双螺旋结构的论文几周之后,他们写道:“碱基的准确顺序就是基因的信息。”1957年,克里克指出“信息”就是“蛋白质中氨基酸顺序的具体描述”。科布认为,这是生物学家最早使用的信息语言来描述遗传物质。[物理学家埃尔温·薛定谔(Erwin Schrödinger)早前使用过类似的语言。]
更重要的是,破解编码的比赛悄然开始。
三
生物学家很快意识到,我们可以阐明编码问题,并不意味着我们能够解决编码的问题。科布书中大部分提到了两种解决方法:理论和实验。
沃森和克里克提出双螺旋结构之后,许多数学家和物理学家开始提供可能的解码方案。解决方法的根本属于组合学。DNA四个碱基的组合方式需要阐述20种氨基酸构成蛋白质的方式。这就帮理论学家们排除了某些编码方案。很明显,比如说单个碱基无法描述蛋白质,因为这段基因只能编码四种氨基酸。也不能帮助理论学家找到正确的编码方式。但这没有降低理论家的热情。
例如,物理学家乔治·伽莫夫(George Gamow)给生物学家写信提出“菱形”结构。DNA围绕成一个柱面,相邻DNA螺旋结构上的邻近碱基形成菱形空穴。公式显示这种组合恰好能够编码20种氨基酸。如果你不能想象出伽莫夫的菱形模型,别担心,这个组合以及理论学家提出的其他组合,不仅是绝妙的,还有点异想天开。克里克自己也提出了一个巧妙的模型,可以编码20种氨基酸,但是后来证明是错误的。
幸运的是,有关于编码的猜测也有经验主义的参与。例如一些可能的编码方案,限制了蛋白质中相邻氨基酸的相互作用。但是生物学家将蛋白质分类标记时却发现一种氨基酸后面可以跟随任何一种氨基酸。
此外,人们越来越清楚DNA不是构造蛋白质的物理模型。DNA甚至和其编码的蛋白质没有直接互动。而是涉及到一个中间分子。这个中间分子后来被证实为RNA(核糖核酸),和DNA相伴而生。RNA和DNA有所不同,其中之一就是有不同的化学成分——缩写为U——取代了T,并且是单链,而DNA是双链。生物学家很快发现DNA片段的双螺旋结构中单链的碱基顺序和RNA的顺序是匹配的。如果DNA顺序是AAGCTG,那么相应的RNA顺序应该是UUCGAC。就是这段RNA顺序决定了蛋白质上氨基酸的顺序。
所以到了20世纪50年代中期,生物学家有了重大发现:生物体的遗传信息从DNA转到RNA再转到蛋白质。克里克将这个说法认定为生物学的“中心法则”。遗传信息只能从DNA转到蛋白质,别无他法。由此,中心法则成为19世纪早期法国博物学家让·巴蒂斯特·拉马克(Jean-Baptiste Lamarck )观点的重要论据:获得性遗传。你生命中所经历的事情可能对身体有影响,却没有办法将这些影响产生的蛋白质转变成DNA,再遗传给后代。
虽然研究获得进展,但是基因编码仍然没有破解。但是我们能否知道DNA编码的碱基指代哪个氨基酸?生物学家在发现双螺旋结构之后没有新的进展。1959年克里克遗憾地表示编码问题陷入“谜团”。
谜团很快就会解开。但是解决方法并不是理论学家突出的巧妙的算法,也不是通常人们认为的人——由克里克领导一群优秀的生物学家。解开谜团的是一个不为人知的团队:马里兰州贝塞斯达国立卫生研究院的马歇尔·尼伦伯格(Marshall Nirenberg)和约翰·马特哈伊(Heinrich Matthaei)。尼伦伯格是两人中年长的一位,他太默默无闻了,以至于1961年申请参加一个有关基因编码的会议时还被拒绝了。按照科布的说法是:“讽刺的是,分子生物学的伟人和佼佼者在讨论基因编码的时候,尼伦伯格和马特哈伊却在实实在在地破解编码。”
尼伦伯格和马特哈伊的破解方法非常巧妙,也很简单直接。他们使用人造RNA序列——UUUUUUU……——研究生产出来的蛋白质的组成(这些是在实验室完成的,最后生产出来的蛋白质不需要是自然界的一种。)实验的结果是,利用UUUUUUU……这个RNA序列生产出来的蛋白质只含有苯基丙氨酸,没有其他物质。所以,编码就这样被破解了。
克里克和悉尼·布伦纳(Sydney Brenner)一起设计了一个特别巧妙的实验,其他更多的实验很快证明编码是“三个一组的”。DNA每三个碱基指定一种氨基酸。1967年,由尼伦伯格、马特哈伊、塞韦罗·奥乔亚(Severo Ochoa)、哥林德·科拉那(Gorind Khorana)以及其他学者共同操作,根据尼伦伯格的实验衍生出的实验——尽管充满技术不足和很多错误——使得实验主义者能够破解整个基因编码。
最后,只要有一段DNA的碱基顺序,生物学家就能准确地判断其生产的蛋白质。尼伦伯格在1968年因此获得诺贝尔奖。奖项宣布后,他的实验室挂了一条庆祝横幅:“马歇尔干得漂亮(UUU are great Marshall)。”
“以上是马修·科布新书《生命最大的秘密》中基因编码在蛋白质合成过程中如何运作的大纲示意图。”根据科布的说法,密码子是“DNA或RNA分子为氨基酸进行编码的三个碱基序列”;核糖体是“蛋白质合成的初始地点,一种存在于所有细胞中的复杂的RNA结构”;多肽则是一种氨基酸长链。
四
《生命最大的秘密》最后1/3讲的是分子遗传学的发展近况。基因编码破解之后,人们有更多的发现。最重要的发现可能是基因编码方式几乎对所有生物通用(只有少许变化)。这些发现具有革命性意义。所有生物——细菌、真菌、植物和人类——使用同一套编码,因为几十亿年前我们的共同祖先就是用这一套编码。
这也清楚地解释了为什么这么长时间基因编码的方式都没有变化。如果要变化,比如说GCA编码生产的不是丙氨酸这样的普通氨基酸,成千上万的蛋白质结构都要发生变化,任何发生该变化的生物体都会面临一定灾难。然而并没有明确的物理和化学原因说明为什么某些特定的DNA碱基编码出特定氨基酸,而且发生任何变化都会有灾难性后果。克里克称之为“冻结机遇”假说。
过去几十年的研究发现,不是所有的DNA编码都是蛋白质。人体内98%的基因属于“非编码”DNA。这类DNA中有些看起来好像没有任何功效。其他非编码DNA起基因调节作用,也即是帮助决定何时哪个细胞来生产这个蛋白质。此外,包括人类在内的许多物种都有割裂基因:一段DNA可能为某种蛋白质的一部分编码,后面接着的一段DNA可能是没有意义的,紧接着又一段DNA为同一种蛋白质的其他部分编码。
科布在《生命最大的秘密》一书最后一部分阐述了基因编码破译以及分子遗传学的发展带来的社会意义。有两个重大事件:转基因(GM)农作物的产生和人类遗传病的治疗。
生物学家在利用DNA技术创造能生产理想蛋白质的农作物方面获得了巨大成功。这些实验生产出来的蛋白质在抵抗害虫、除草剂以及增产方面有明显改善。尽管大众对“转基因食物”仍有担忧,尤其在欧洲,但是在美国转基因农作物已经是大势所趋。科布指出:“2014年,94%的美国大豆作物都是转基因的,玉米作物转基因的比例是93%,甜菜作物是95%,棉花是96%。”
相比之下,内科医生在使用基因技术治疗人类遗传病方面取得成功(这种疗法一般都是注射一段正常健康的基因到患者病变的组织中,例如肝脏,而不是卵子或精子。按照科布的话,基因修饰不会对后代产生影响)。不过到目前为止,基因技术对医学界的改变还没达到对农业改变的程度。
但这个情况可能即将改变。虽然这个话题饱受争议——但是你们还记得20世纪90年代时我们说过人类基因组计划(the Human Genome Project)将会改变医学界吗?——我们有理由相信新的“基因剪辑”技术可能为遗传病治疗打开新的大门。这里说的新技术一般指的是成簇的、规律间隔的短回文重复序列(CRISPR,发音同crisper),或更准确的是Cas9核酸酶靶向基因编辑技术(CRISPR-Cas9 system)。
这个CRISPR基因编辑技术本质上非常复杂,涉及到的基因技术包括识别生物体中特定的DNA序列(例如一段突变基因),将其从生物体的基因双螺旋结构中剪切出来,然后使用一段DNA序列(例如一段正常的健康的基因)将其替换。CRISPR基因编辑技术已经成功高效地运用到许多物种。科布强调:“虽然仍然存在一些障碍,但近期(过去5年中)发现的新技术可能给医疗界带来重大改变。”
虽然分子遗传学的新进展具有重要意义,但是科布新书的后1/3和之前的部分比起来就没那么精彩。后面的章节有点枯燥,读起来有点像教科书,比不上前面的史学惊险小说。《生命最大的秘密》一书如果没有这部分可能会更精彩。但是如果全都是讲故事又有些掉档次。整体来说,科布给我们呈现的是一个精彩的故事,这本书读起来也很有趣。这本书包装精美,注重细节,尤其对一个科学实践工作者来说是一本难得的好作品。虽然我自认为自己对基因发展史和生物变革史非常了解,但是读到科布这本书里的故事时也收获了许多惊喜。
五
《生命最大的秘密》有几个主题。第一个主题是信息理论和控制论对生物学的影响。据科布总结,这些科目虽然对20世纪生物学有重大影响,“但并不是以这些零散的理论研究群体希望的方式”。最后,信息科学为生物学家提供的是粗略但实用的比拟和模拟方法,为科学家提供了一种新的思考和表达方式。这种高性能的数学运算方法在生物学界发挥的作用却不大。例如没人使用香农的算式来解释生物体的有趣现象(香农本身并不惊讶,他对自己的理论的实用性都抱有质疑)。科学史和其他历史一样具有许多玄妙之处。其中一个玄妙之处就是信息科学在某种意义上对现代生物学有重要意义,但是从另一种意义上来说却又是没有意义的。
第二个主题是生物学中各种理论对实验的影响。在20世纪60年代早期,数学家信心满满地说:“在实验主义者解开编码问题之前,看数学家们能够提出多少种最终解决方案,整件事情将会很有趣。”科布后来总结说:“结果很明显,一个都没有。”
所以这里有一个有趣的问题,为什么理论在生物学界失效了呢?部分原因就如科布说的,有关克里克提出的冻结机遇假说。基因编码看起来至少有部分是随机的。在自然选择粗略地筛选和修改之后,编码呈现出某些规律。一旦规律稳定下来,不能再改善或条理化。在这种情况下,理论就失效了。
我认为还有另一个相关原因,那就是理论对破解编码问题几乎没有贡献。因为实际上,要解决的问题的本质和生物学理论的本质并不相同。生物学界成功的理论和其他科学界例如物理学界理论所发挥的功效并不相同。生物学界的理论一般都是引导思维方式,或者培养直觉,或者表明某种和自然界相近的模型。生物学理论很少像物理学理论那样提供一个完全准确的答案(生物学的近似答案,甚至是经验法则,往往比精确的结果更有用)。这种宽泛的理论并不能解决编码这样精确的问题。
用一个简单的比较来解释。数学理论可能会告诉你有关于密码锁的一些有趣又普遍的现象:例如,它们需要有一组3个或3个以上的数字来防止小偷随便几下就打开密码箱。但是如果设置一个特定的组合,即便是一个理论学家也不比我们一般人厉害。
最后,可能《生命最大的秘密》最想强调的是巧妙的科学实验的力量。虽然科布对这个话题的关注不够多,但是他自己研究的这段科学史正是生物学实验百花齐放的黄金时期。当时的生物学家——UUU实验的尼伦伯格,三个一组密码子实验的克里克和布伦纳,以及其他生物学家马修·梅瑟生(Matthew Meselson)、富兰克林·斯特尔(Franklin Stahl)和乔舒亚·莱德伯格(Joshua Lederberg)——都是这类实验的大师。通过对实验进行简单的改变,给过去看起来无解的问题带来突破性进展,得出几乎精确的答案。这样的实验体现了一种智力的艺术,只有科学家这个小圈子才懂得欣赏的一种艺术。
讽刺的是,基因编码的破解,以及其他进展,将生物学带偏,进入一个完全不同的大数据时代。由自动化器械排序的从无数物种中取得的整个基因组的DNA和蛋白质序列充斥着各大电脑。许多生物学家使用复杂的统计学来推算这些数据。间接地,越来越多的生物学家开始接受这样的方式,越来越少的人注意到巧妙设计实验的迷人之处。这样间接的方法明显缺乏有价值的见解,但是毫无疑问他们会持续这么做下去。大数据为生物学和医学研究提供了新的重要的工具。但是《生命最大的秘密》一书告诉我们一个更大道理,当科学家寻求一个明确的答案,而不只是一种建议性的模型时,他们需要的是精准的实验,如果顺利的话,结果会非常漂亮。
原文标题:DNA,“The Power of the Beautiful Experiment”