分子生物学中心法则存在两个版本
2024-04-23杨克恭
杨克恭
(中国医学科学院基础医学研究所 北京协和医学院基础学院生物化学与分子生物学系, 北京 100005)
分子生物学中心法则(central dogma of molecular biology, 以下简称“中心法则”)阐述生物体内的遗传信息流动方向,是重要的分子生物学经典理论之一。
1 中心法则存在两个版本
1957年9月,Crick F 在英国实验生物学学会举办的学术会议上做报告,首次提出分子生物学中心法则,并于1958年正式发表。克里克中心法则的表述如下[1]:
TheCentralDogma
This states that once ‘information’ has passed into protein it cannot get out again. In more detail, the transfer of information from nucleic acid to nucleic acid, or from nucleic acid to protein may be possible, but transfer from protein to protein, or from protein to nucleic acid is impossible. Information means here the precise determination of sequence, either of bases in the nucleic acid or of amino acid residues in the protein. This is by no means universally held——Sir Macfarlane Burnet, for example, does not subscribe to it——but many workers now think along these lines. As far as I know it has not been explicitly stated before.
1970年克里克论文在《自然》杂志发文[3],将1958版和1970版中心法则内容分别绘制成图。克里克将所有可能存在的9种遗传信息传递方式分为三组(见Fig.1A):
Fig.1 Two versions of central dogma of molecular biology (A) Crick’s central dogma divided genetic information transfer modes into three groups: (1) general transfer occurs normally in cells (solid arrows), (2) special transfer is present only in certain viruses or laboratories (dotted arrows), and (3) undetected transfer has never been discovered or may not exist (absent arrows)[2] ;(B) Watson took the protein biosynthesis pathway as the central dogma, dividing genetic information transfer into two steps: DNA→RNA and RNA→protein. It is usually simplified as DNA→RNA→protein, and later scientists added "RNA replication" and "reverse transcription" (red arrow)[16]
● 3种普通传递(general transfer),指在大多数细胞中遗传信息的正常流动,包括DNA→DNA、DNA→RNA和RNA→蛋白质。
● 3种特殊传递(special transfer),仅发生在某些病毒或实验室中,包括RNA→RNA、RNA→DNA和DNA→蛋白质(体外直接使用DNA模板合成蛋白质)[4,5]。
● 3种未知传递(undetected transfer),指从未发现、或可能不存在的信息传递,包括蛋白质→蛋白质、蛋白质→DNA和蛋白质→RNA。换言之,一旦遗传信息传递到蛋白质就无法再往下传递。
“中心法则”的另一个版本广为流传,出自Watson JD主编的教材《基因分子生物学(第1版,1965年,W. A. Benjamin出版社)》[6]。沃森中心法则根据蛋白质生物合成途径,将遗传信息传递分成两步:(1)转录,DNA→RNA;(2)翻译,RNA→蛋白质;通常简化为DNA→RNA→蛋白质,之后又补充了“RNA复制”和“逆转录”(Fig.1B)。沃森主编《基因分子生物学(第7版,2014年)》中心法则的表述如下:
THE CENTRAL DOGMA
By the fall of 1953, the working hypothesis was adopted that chromosomal DNA functions as the template for RNA molecules, which subsequently move to the cytoplasm, where they determine the arrangement of amino acids within proteins. In 1956 Francis Crick referred to this pathway for the flow of genetic information as the central dogma:
网络百科全书“维基百科”词条“Central dogma of molecular biology”提出,沃森中心法则不同于克里克中心法则的本意,相关表述如下:
The central dogma of molecular biology is an explanation of the flow of genetic information within a biological system. It is often stated as "DNA makes RNA, and RNA makes protein", although this is not its original meaning.
对照以上两个中心法则的表述,不难发现其主要区别有三:
(1)出处不同。克里克中心法则的内容出自他在1958/1970年发表的两篇论文。1965年沃森教材首次提出中心法则,迄今一直说中心法则是克里克于1956年提出的,所依据的可能只有两张照片:一张是克里克在1956年10月私人笔记本上画的简图,另一张是克里克在1963年冷泉港研讨会演讲时板书画图,而不是克里克的两篇论文。
(2)遗传信息传递途径分类不同。克里克将所有可能存在的9种遗传信息传递途径分为三组。而沃森根据蛋白质生物合成途径将遗传信息传递分为两步——转录和翻译。
(3)表述方式包容性不同。克里克中心法则的包容性较大,例如“特殊传递”中的(RNA→DNA)没有局限于逆转录,客观上为日后发现的非编码RNA传递遗传信息预留了空间。沃森中心法则相对比较简单。
2 沃森中心法则的局限性受到质疑
半个多世纪以来,沃森中心法则一直在国际生物化学和分子生物学类主流教材中占据主导地位。但是,近20多年来,全球学者不断质疑沃森中心法则的局限性。
2003年,美国MIT学者Gibbs W在《ScientificAmerican》连续撰文[7][8],指出生物学界普遍认为沃森版中心法则已经过时,它存在两个明显缺陷:(1)“DNA→RNA→蛋白质”这一通常表述方式过于简单,容易使人误以为只有产生蛋白质的DNA序列才有资格称为“基因”(除tRNA等极少数例外)。(2)对于寻找遗传性疾病致病基因有误导作用,例如软骨毛发育不全症(cartilage-hair hypoplasia, CHH)。
Gibbs W认为,在人类基因组中至少存在3个遗传信息层,除了蛋白质编码基因以外,还隐藏着另外两个表观遗传学信息层——ncRNA和表观遗传标记,这两个信息层被称为“基因组中的暗物质(dark matter in genome or dark genome)”[7,8]。在人类基因组DNA中,编码蛋白质的外显子序列仅占2%,而内含子占26%,转座子44%,混杂单一序列(miscellaneous unique sequences)或单拷贝序列(single-copy sequences)等非编码序列28%[9](Fig.2)。Gibbs W指出,沃森中心法很容易使人误以为,除了蛋白质编码外显子以外的基因组绝大多数DNA都不是基因,统统是在进化中产生的“垃圾DNA(junk DNA)”。
Fig.2 Composition of the human genome Exons of protein-coding genes only account for 2% in human genome DNA, while introns 26%, transposons 44%, and noncoding sequences such as miscellaneous unique sequences 28%
2023年7月美国国家人类基因组研究所(NHGRI)发布了人类基因组数据更新[10](Fig.3)。人类有6.27万个基因,其中蛋白质编码基因1.94万,非编码RNA(ncRNA)基因2.75万。换言之,ncRNA基因数超过蛋白质编码基因40%以上。实际上,ncRNA基因大多位于内含子和转座子等“垃圾DNA”中。
Fig.3 National human genome research institute (NHGRI) of US releases human genome data (July 2023)[10]
1965年,软骨毛发育不全症(cartilage hair hypoplasia syndrome, CHH)发现于一个北美基督教派阿米什人(Amish)[11]。CHH是一种常染色体隐性遗传性疾病,患者有侏儒、癌症易感和免疫缺陷等症状,该人群发病率为1/1 340,19人有1人携带缺陷基因。寻找CHH致病基因前后耗时36年之久。
CHH遗传缺陷很快被确定在第9号染色体一个区域,但研究者的注意力长期聚焦在该区域10个蛋白质编码基因,直到逐一排查这些基因与CHH无关以后,才将目光转向这一区域中的ncRNA基因。2001年,丹麦赫尔辛基大学学者Ridanpää M终于在这一区域中找到了CHH罪魁祸首——一个ncRNA基因发生突变[12]。这个ncRNA名为RMRP(RNA component of mitochondrial RNA processing endoribonuclease),长267 nt。RMRP RNA和几个蛋白质形成RNA内切酶MRP(mitochondrial RNA processing endoribonuclease),在线粒体DNA复制中切割加工RNA引物,并参与核仁pre-rRNA加工。另外,RMRP RNA还与端粒酶的催化亚基形成复合物,具有RdRP(RNA-dependent RNA polymerase)活性,其产物双链RNA可加工成siRNA(small interfering RNA)[13]。Ridanpää M发现,CHH患者的RMRP基因突变有两种类型:一种在TATA盒和转录起点之间出现6~30 nt插入(insertions)或重复(duplications),抑制RMRP基因转录;另一种是编码区发生点突变等,例如高度保守的碱基70A→G,导致RMRP RNA失活[12](Fig.4)。
Fig.4 RMRP mutations in cartilage hair hypoplasia syndrome (CHH) patients RMRP gene mutations in CHH patients can be divided into two types. One type is 6-30 nt insertion (ins.) or duplication (dup.), occurring between the TATA box and transcription initiation site. Another type is point mutations, such as the highly conserved base 70A→G, leading to the inactivation of RMRP RNA
Gibbs W文中说,20世纪遗传学家对于寻找某些遗传性疾病的基因突变感到十分棘手,研究了几十年无果,方向错误是重要原因之一,即:仅仅在蛋白质编码基因范围内寻觅,忽略了ncRNA基因。对此,Gibbs W认为沃森中心法则表述方式“DNA→RNA→蛋白质”有误导作用[7,8]。著名的澳大利亚分子生物学家Mattick 说:“The failure to recognize noncoding sequences may be transmitting parallel information in the form of RNA molecules, may be one of the biggest mistakes in the history of molecular biology.”[7]
2010年,时任美国国立卫生研究院院长Collins F等在《新英格兰医学杂志》发表综述,题为《Genomic Medicine — An Updated Primer》[14]。文中提及,根据沃森中心法则(DNA→RNA→蛋白质),基因的传统定义是编码蛋白质的DNA片段,但新型RNA基因的发现需要重新审视这一定义。该文Fig.1名为“The Increasing Complexity of the Central Dogma of Molecular Biology.”,对中心法则做了修改和补充。原文相关表述如下:
Once DNA had been identified as the basis of heredity, and the central dogma of molecular biology (DNA→RNA→protein) had been established, the gene was defined as a segment of DNA encoding a protein. But with the discovery of new classes of RNA, the traditional definition of a gene has required re-examination.
2017年9月,英国曼彻斯特大学教授、著名生命科学科普作家Cobb M发文,纪念克里克中心法则演讲发表60周年[15,16]。Cobb M认为,克里克中心法则迄今“仍然是我们理解生命的框架”,而沃森中心法则有误导作用,导致“现在的学生经常接受错误的教育,以为中心法则是DNA→RNA→蛋白质。”
对于两个版本的中心法则,“维基百科”词条“Central dogma of molecular biology”的评价是[17]:
The central dogma……was first stated by Francis Crick in 1957, then published in 1958…….A second version of the central dogma is popular but incorrect. This is the simplistic DNA → RNA → protein pathway published by James Watson in the first edition ofTheMolecularBiologyoftheGene(1965). Watson’s version differs from Crick’s because Watson describes a two-step (DNA → RNA and RNA → protein) process as the central dogma. While the dogma as originally stated by Crick remains valid today, Watson’s version does not.