分子标记发展简史
2009-07-08周宇爝
周宇爝
摘要比较详细地介绍了分子标记的概念、理论基础和目前常用的分子标记的的发展过程和技术特点。
关键词分子标记;概念;基本原理;特点
中图分类号Q78文献标识码A文章编号 1007-5739(2009)11-0264-07
随着人们对生命认识的不断加深以及遗传学的不断深入发展,越来越多的遗传标记被发现,遗传标记的种类和数量越来越多。主要分为4种类型,即形态标记、细胞学标记、生化标记和DNA分子标记。显然,前3种标记都是以基因表达的结果(表现型)为基础,是对基因的间接反映;而DNA分子标记则是DNA水平遗传变异的直接反映。与表型标记相比,DNA分子标记具有能对各发育时期的个体、各个组织、器官甚至细胞作检测,既不受环境的影响,也不受基因表达与否的限制,数量丰富,遗传稳定,对生物体的影响表现“中性”以及操作简便等特点。分子标记的所有这些特性,奠定了它具有广泛应用性的基础[1-2]。
1分子标记的来源及定义
1.1分子标记的来源
“标记”一词,根据汉语大词典的解释,是“便于识别的标识或者记号”。随着人们对生命本质认识的一步步加深,在人们研究DNA序列时发现了大量的非编码序列,甚至占到了全序列的90%以上。这些非编码序列具有特殊的一级结构,如串联重复、回文结构、Alu序列(反向重复序列)、CpG岛等,并且全基因组分布[3]。随着人类基因组计划的人类基因组框架草图的完成和一个个模式生物的全基因组测序,一个个新的DNA特异序列被发现并且在染色体上定位,整个基因组内的标记密度越来越高,并且大量的特异序列与不同的基因片段有着不同程度的连锁,所有这些标记构成了人类研究探索各种生物基因组DNA的地图与路标。
1.2分子标记的定义
广义的分子标记指可遗传并可检测的DNA序列或者蛋白质。蛋白质标记包括种子贮藏蛋白和同工酶(不同基因位点编码的酶的不同分子形式)及等位酶(同一基因位点上不同的等位基因编码的酶的不同形式)。狭义的分子标记仅仅指DNA标记,一般所称的分子标记即被界定在此范围之内[4]。这是因为在应用上DNA标记比蛋白质标记广泛的多。蛋白质的结构比DNA的结构复杂的多。构成蛋白质的氨基酸有几十种,而构成DNA的碱基只有4种,通过指数级的排列方式仅是其一级结构的可能性就有数量级上的差异,且不计蛋白质更加复杂的二级、三级、四级结构及其结构域。并且到目前为止,蛋白质的复制与合成远不及DNA复制技术成熟,可控性也不高。因此,蛋白质标记应用远不如DNA标记方便和广泛。但从更严格的意义上讲,蛋白质标记是研究生命现象更为精确的标记,因为其更稳定、多态性更高,每种蛋白质都是唯一的(序列唯一、构象唯一)。
1.3理想的分子标记
理想的分子标记必须达到以下要求:①具有高多态性;②共显性遗传,即利用分子标记可鉴别二倍体中杂合和纯合基因型;③能明确辨别等位基因;④遍布整个基因组;⑤除特殊位点的标记外,要求分子标记均匀分布于整个基因组;⑥选择中性(即无基因多效性);⑦检测手段简单、快速(如实验程序易自动化);⑧开发成本和使用成本尽量低廉;⑨在实验室内和实验空间重复性好(便于数据交换)[5]。
特别需要提出的是,所有的分子标记都必须满足和某个基因或者已知标记紧密连锁(连锁程度越高越好)甚至共分离。
但是,目前发现的任何一种分子标记均无法同时满足以上所有要求。使用者可以根据自己的实验目的和要求具体选用某种标记技术。
2目前常用分子标记的基本原理
2.1限制性片断长度多态性(RFLP)
限制性片断长度多态性(Restriction Fragment Length Pol-ymorphism)是指用限制性内切酶处理不同生物个体的DNA所产生的分子片断大小的差异。此技术基于生物个体的基因组的变异,是研究不同基因组间的差异的技术,由Grod-zicker于1974年首先提出。其基本原理是:物种经过长期的进化,各个种属甚至品种之间的同源DNA序列上的限制性内切酶识别位点不同,或者由于突变、重组等原因引起限制性内切酶位点上的核苷酸的变化。若引起DNA分子某一特定内切酶识别位点序列内发生变化,这样该位点就不能被切开,使得DNA片段比亲本长;若突变后形成新的酶切位点,则酶切后的片断变短。这样,通过电泳可以将大小不同的片断区分开来。对于分子量较小的质粒DNA就可直接观察到DNA长度的差异,但对于核DNA而言,DNA片断呈连续分布,无法辨别差异,需通过Southern杂交转移至支持膜上,用单拷贝或低拷贝的DNA克隆作为探针与膜上的酶切片断杂交,通过放射自显影或非同位素显色技术,发生变异的材料显示的带就可能与亲本的带处于不同位置。检测出与此标记DNA相关的片段构建出多态性图谱,即为RFLP[5,6]。这种特定的限制性片断与DNA探针的组合,便可以作为遗传标记。由于RFLP起源于DNA的变异,不受显隐性关系、环境条件和发育阶段的影响,具有遗传的专一性和稳定性的特点,在数量上不受限制,可随机选取足够数量能代表整个基因组的RFLP标记,而且每个标记变异大,检测方便。用于检测RFLP的克隆探针可随机选取,可以是使核糖体DNA、叶绿体DNA,也可以是总DNA。这样就可以获得能够反映遗传差异的大量多态性,为进行资源分析、品种鉴定、物种进化、基因定位、亲缘关系和遗传距离的分析,遗传图谱的构建提供了有力的工具。并且RFLP是共显性标记,能够区别出杂合体与纯合体[7]。虽然RFLP具有结果稳定可靠,重复性好,特别适合建立连锁图等优点,但也具有检验步骤多、周期长、成本高等缺点。并且RFLP对DNA多态性检出的灵敏性不高,RFLP连锁图谱上还有很大的空间区(gap),甚至在使用同位素时可能对人有一定的伤害等等,这些都是需要进一步完善的地方。
2.2随机扩增多态性DNA(RAPD)
随机扩增多态性DNA(Random Amplified Polymorphi-sms DNA)是美国杜邦公司的Williams和加利福尼亚生物研究所的Welsh等领导的2个小组于20世纪90年代同时开发出来的一种新的DNA指纹技术。此技术是应用一系列随机引物扩增并寻找多态性DNA片段的遗传标记技术。这一技术建立于PCR反应基础之上,以随机的短脱氧核苷酸(通常为10个碱基)作为PCR引物,对基因组DNA进行扩增而产生多态的DNA图谱。扩增产生的片段可通过琼脂糖电泳或聚丙烯酰胺凝胶电泳分开,经溴化乙锭染色或银染色得到多态性的DNA图谱后进行多态性观察。在基因组上,每个引物可以连续直接扩增特定的DNA片段,对一个特定的基因型来讲,这些扩增的片段或片段的类型是唯一的。它的应用是基于这样的一个理论:对于同一模板DNA,用同一引物扩增既可能得到相同的带谱(模板基因组间可能具有同源性),也可能得到不同的带谱。仅在某一特定模板中出现的条带即可作为该模板的分子标记[8,9]。事实上,不同基因组DNA总是有一定差异的,所以用RAPD即可进行分子标记研究。理论上讲,在一定的扩增条件下,扩增的条带数取决于基因组的复杂性。对特定的引物,复杂性越高的基因组所产生的扩增条带数也越多。
RAPD所用的一系列引物的DNA序列虽然各不相同,但对于某一特定引物来说,它同基因组DNA序列有特定的互补区域。这些特定区域在基因组的分布如果符合PCR扩增的反应条件的话,即引物在模板上的2条链如果有互补位置并且与引物的3′端在200bp以内,就可以扩增出这一片段。如果基因组在这些区域内发生插入、缺失或者替换即可导致这些特定的结合位置分布发生变化而使PCR产物发生增加、缺失或者分子量发生改变,通过对PCR产物的检测,即可找出基因组DNA在这些区域内的多态性[10]。由于RAPD分析时所用的引物数量极大,并且引物序列随机,虽然对某一引物而言检测的区域有限,但是利用一系列引物可以检测的区域几乎可以覆盖整个基因组。与RFLP是从一系列酶切片段中寻找多态性片段不同,RAPD是利用PCR随机合成多态性DNA片段,检测被扩增区域内的遗传特征变化。其具体优点体现在:①极大的丰富性,能反映整个基因组的变化;②强大的可探测性,无需合成特定的引物;③高效性与灵敏性。短期内可以得到大量的扩增片段,只要是遗传特异性的发生变化,即使亲缘关系很近的个体也可以识别出[11]。
RAPD最大的特点是引物的碱基序列是随机的,所用引物通常多达几百种,并且1套引物可以用作多个物种或者群体,所以RAPD技术在用于遗传多样性和品种鉴定的研究中具有极大的优越性。因此,用来鉴定品种纯度是很有用的。据报道[9],从玉米、大豆、小麦及红三叶草干种子中提取DNA并成功地利用RAPD技术扩增DNA片段;中国科学院遗传所陈洪等利用OPP-18引物成功地鉴定了杂交水稻汕优63杂种纯度,鉴定结果与田间小区种植鉴定完全一致。RAPD技术反应灵敏、多态性强,操作简便,速度快,费用低,既有大量的随机引物可供筛选之用,又不受种属的限制,被广泛用于多种作物的种子鉴定[9,11,12]。
由于是随机引物对整个基因组进行多态性检测,在技术上简单易行不需要克隆制备、同位素标记、Southern印记等预备性工作,所需DNA样品量少,安全性好,价格便宜,是继RFLP之后应用最广的分子标记。由于引物没有特异性,1套引物可用于不同生物基因组的的分析,分析速度快,短期内可得到大量的遗传标记,并克服了同工酶位点少和RFLP操作技术复杂的弊端,已经广泛应用于遗传作图、基因定位和克隆、物种进化及鉴定特殊染色体区段的鉴别和分离以及动植物育种等方面,特别是在寻找与目的基因连锁的分子标记方面,近年来报道了大量的与各种目的基因连锁的RAPD标记。水稻的Xa-21 基因和西红柿的pto基因的成功分离就是首先找到了与目的基因紧密连锁的RAPD标记,然后通过定位克隆的方法克隆了目的基因[13]。
与PCR相比,RAPD具有以下特点:①RAPD使用的是随机引物,不需要预先了解目的基因和相应的序列;②操作简便,实验周期短,能在较短的时间筛选大量样品;③引物具有普遍适应性,适用于自动化操作分析。
与RFLP相比,RAPD具有以下特点:①RAPD分析只需要少量模板,1次扩增仅需20~100ng,这对于DNA量很少的材料进行基因组分析有利。比如对花粉粒、原生质体、种子等的DNA分析是切实可行的。②RAPD标记具有更大的随机性,亦有利于图谱的构建。对于DNA含量大的和多倍体物种,RFLP探针会与多倍体的多个片段杂交,所得到的混合指纹会对其他等位基因的阐明带来困难。而且由于DNA量较大,进行单拷贝的Southern杂交不很实际,至少需要很长的曝光时间,并且已知的探针数量有限。RAPD大大增加了可构建遗传图谱物种的数量。③无需借助于有伤害性的同位素,耗费的人力物力少。④灵敏度高。引物中的个别碱基的变化会引起扩增条带和强度的剧烈变化,这是RFLP所无法比拟的。短期内可以得到大量的扩增片段,只要是遗传特异性发生变化,即使亲缘关系很近的个体也可以识别出。⑤RAPD标记可以覆盖整个基因组,包括编码和非编码区,可以反映整个基因组的变化。但是,由于引物的竞争性等,基因组的RAPD位点有时不能全部检出,造成假象上的差异,这在种属亲缘关系的研究上尤其明显。⑥RAPD产物有大于50%的条带扩增于单拷贝区,经过克隆和序列分析后,可作为RFLP和原位杂交的探针,在基因定位、克隆及辅助选择育种中可以广泛应用。
随着RAPD日益广泛的使用,其不足之处也逐渐显现,比如标记的显隐性位点性,致使其不能在后代中区分杂合体和纯合体;稳定性差,由于是单链引物随机的结合,在众多的反向重复序列上,每次的实验结果可能不一致。解决办法是对单链引物进行筛选,优化PCR条件;高度的变异性,即使在亲缘关系很近的物种间,结果也可能差异极大;Tm值低的随机引物易受外界环境影响,如Mg2+浓度等[8,9,14]。
由于RAPD技术是由多种成分参加的生化反应,反应中各种成分均为微量,尽管其反应灵敏度高,但是影响因素较多,故而RAPD受环境影响很大,稳定性差,重复性也不好,因此对实验的设备、条件及其操作的一致性很严格,这又大大限制了它的使用。为了得到较稳定的结果,各种反应参数必须事先优化选择,操作中每一步都必须小心谨慎,以防止出现差错。
2.3特征序列扩增区域(Sequence-characterized amplified regions,SCAR)
RAPD标记一般表现显性遗传,但若某RAPD片段不是重复序列,也可将其转化为RFLP标记。另外,为了提高某一理想RAPD标记的稳定性,可首先将其克隆并对其末端测序,之后,在原来RAPD所用的10bp引物上增加合成上述末端序列的14bp的核苷酸,以此为引物对基因组DNA再行扩增分析,此即SCARs(Sequenced Characterized Amplified Regions)标记[15]。
SCAR首先由Parar和Michlmore(1993)提出并应用。SCAR标记是在RAPD技术的基础上发展起来的。其基本步骤是:先作RAPD分析,然后把目标RAPD片段(如与某目的基因连锁的RAPD片段)进行克隆和测序,根据原RAPD片段两末端的序列设计特定引物(一般比RAPD引物长,通常24个碱基,是在原RAPD引物的3′与5′端延长14个碱基),利用两端各24个碱基的引物再进行PCR特异扩增,这样就可把与原RAPD片段相对应的单一位点鉴定出来。这样的位点就称为SCAR。总的来说,SCAR比RAPD和其他利用随机引物的方法在基因定位和作图中的应用更好,因为它有更高的可重复性(原因是使用的引物长),标记是共显性遗传的[16]。
该方法与RAPD相比,具体有如下优点:①由于有较长的引物,退火温度较高,因此具有更高的检测稳定性;②有将显性RAPD标记转化为共显性的SCAR标记的可能性;③如果是显性标记,则在检测中可以直接染色而不需电泳检测。另外,用RAPD找到扩增片段后不再设计引物,而是直接测序后通过电脑软件分析(如用ClustalX软件进行对位,MEGA软件计算DNA序列间的差异百分率和转换/颠换数,UPGMA软件建亲缘关系树状图等),找出特异性的碱基作为鉴定的特异性标记[17]。
2.4与RAPD技术相近的分子标记种类
下面提到的所有技术都是利用1个或2个短的富含GC碱基的随机引物。
(1)DNA扩增指纹图谱(DNA amplification fingerprint-ing,DAF)[18]。与RAPD技术不同的是,在DAF分析中,引物浓度更高,引物长度更短(一般5~8个碱基),只有2个温度循环(在RAPD中是3个温度循环),并且往往用聚丙烯酰胺凝胶电泳,DAF通常会产生非常复杂的带型。
(2)任意引物PCR(arbitrarily primed polymerase chain reaction, AP-PCR)。AP-PCR使用的引物较长(10~50个碱基),但PCR反应前2个循环的严谨条件较低,最终的反应结果与RAPD类似[19]。在AP-PCR分析中,扩增分为3个部分,每个部分要求的条件和组分的浓度存在差异;在第1个PCR循环中,引物浓度较高;引物长度不定,并且常常来自为其他目的而设计的引物(如M13通用测序引物)。
2.5扩增片段长度多态性(AFLP)
扩增片段长度多态性(Amplified Fragment Length Poly-morphism),亦称选择性限制片段扩增(SRFA, Selective Res-triction Fragment Amplification),是荷兰Keygene公司的Za-beau Marc和Vos Pieter于1993年创建的一种新型的分子标记,并于当年获得了欧洲专利局专利[20]。
它是RFLP和PCR相结合的分子标记技术,既有RFLP的可靠性,又有PCR(如RAPD)的灵敏性,多态性高。其基本原理是利用PCR技术选择性扩增基因组DNA双酶切后产生的限制性片断。基因组经2种限制性内切酶消化以后将一双链DNA人工接头(artificial adapter)连接于限制性片断两端。然后根据接头序列和限制性位点附近的区域的碱基序列,设计一系列3′端含数个随机变化的选择性碱基的PCR引物进行特异性条件扩增,只有那些限制性位点的侧翼序列与引物3′端选择碱基相匹配的限制性片段才能得以扩增。这些选择性碱基数目的多少主要是由待测样品的基因组大小决定,选择性碱基数目多,选择性就强,扩增产物就少;反之,其数目就少,选择性弱,扩增产物就多。扩增产物经变性聚丙烯酰胺凝胶电泳分离显示其多态性。当不同基因组DNA中因为突变引起限制性位点的数量发生改变或2个限制性位点之间的区域内发生碱基插入、片段消失或顺序重排时,电泳谱带显示多态性,多态性以扩增片段的长短不同和数量多寡显示出来[21]。
AFLP的技术特点包括以下几个方面:①使用2种内切酶消化模板DNA。一些酶的切割位点较多,如MseI、TaqI、XbaI等,另一些酶切位点较少,如PstI等等。采用双酶切割的原因是:多切点酶产生小片段,便于凝胶分析切点数少的酶减少扩增片段,由于AFLP反应中扩增片段是2个酶共同酶切的片段,这样减少了选择扩增时所需的选择碱基数。双酶可以进行单链标记,从而防止电泳中因为双链泳动不均而产生的双带假象。并且可使少量引物产生许多不同的引物组合,从而产生大量的不同的AFLP指纹图谱[22]。另外,不同物种基因组的AFLP过程中使用的限制性内切酶也不尽相同。EcoRI可靠廉价,是6碱基内切酶的首选。分析真核生物基因组时大多使用MseI(4碱基),因为MseI的识别序列是TTAA,而真核生物基因组富含AT序列,与TaqI相比(其识别序列为TCGA),可以获得更多的便于PCR扩增和电泳分离的小片段DNA[23]。②AFLP的接头为双链寡核苷酸。人工合成时接头未进行磷酸化处理,所以只有1条单链连接于酶切片段的末端。③与常规的PCR相比,AFLP的引物有其独特性。其引物有3部分构成:与接头互补的核心序列、内切酶识别序列以及3′末端的选择性碱基。该类引物的一个重要特征是通常以鸟苷酸G开头,这样可以有效的形成双链,不过当dNTP浓度过低时容易形成双链结构。此外,选择性碱基的数目影响着AFLP反应的特异性。研究表明,引物带有1~3个选择性碱基时扩增的选择性较好。当选择性碱基超过4个时,扩增的错配程度超过了允许程度,故而AFLP的选择性碱基数目一般不超过3个,具体数目取决于基因组的大小。研究表明,分析500Mbp以下的植物基因组时用EcoRI+2(2个选择性碱基)/MseI+3引物组,500~6 000 Mbp的基因组应采取EcoRI+3/MseI+3较为严谨的引物组。微生物通常采用1个选择性碱基的引物组[24]。④AFLP的PCR扩增分两步进行。首先预扩增,其扩增产物经过一定比例稀释后,以此为模板再进行选择性扩增。两步扩增可以减少扩增产物中的非特异性带,降低了不清晰电泳造成的指纹图谱的背景,提高了指纹图谱的清晰度,还可以增加扩增片段数,为AFLP分析提供充足的模板。
AFLP技术不仅具有其他分子标记的优点,即位点数量无限,呈典型的孟德尔遗传,无表型、复等位效应,不受环境影响等,还具有一些独特的优越性,如标记异常丰富,典型的AFLP反应中,1次电泳可得到100~150个扩增产物,其他标记技术难以达到。稳定性、重复性好,应用非常广泛,可用于任何生物基因组的遗传分析。与PCR技术结合,可在短时间内得到大量多态性标记。同时对模板浓度不敏感,模板需求量也小。Vos Pieter在对番茄基因组AFLP分析时,证实了模板浓度在相差1 000倍以内(0.000 5~25ng)获得的指纹图谱基本一致。另外,在AFLP中标记的引物会全部耗尽,引物耗尽后,扩增的带型不受循环数的影响。这样模板浓度即使不一致也可以通过增减循环次数的方法获得强度一致的带型。目前,AFLP是构建基因组特定区段高密度连锁图谱的最有效的方法。此外,AFLP全基因组分布非常适合构建遗传连锁图谱。AFLP也可以用于检测DNA库(DNA pool)克隆的DNA大片段的多态性,而且其多态性的标记大多对应于基因组的某一位置,这样就可以和STS一样,成为遗传图谱(genetic map)和物理图谱(physical map)之间的桥梁[25,26]。
实际操作中,影响AFLP指纹图谱结果的因素很多。因此,应采取质量高、纯度好、分子量大的的基因组DNA作为模板。如果模板中含有其他杂质或者DNA降解很严重,导致酶切不完全,许多未经酶切的模板片段经电泳后产生表现为高分子量的条带(假带),导致不能真实地反映被测物种的多态性。为了避免电泳的条带过多或者过少,应对PCR反应体系进行优化,筛选出最佳的引物组合。PCR扩增时,应在模板变性之前加入Tag酶和dNTP,否则会导致扩增失败。反应体系中的dNTP浓度不能过低,否则扩增产物容易形成双链结构[21,27]。
2.6序列标签位点(STS)
序列标签位点(Sequence -Tagged Site,STS)指的是一段序列已知并且能够在基因组中作为“路标”使用的DNA序列,是对由特定引物序列所界定的一类DNA标记的统称。其最大特点就是利用特异PCR,因此结果非常可靠。显然,成为STS必须满足2个条件:①序列已知;②位置确定并唯一。从理论上讲,任何一段DNA都可以成为STS。但是,由于需要的是与某一个目标性状基因或已知的标记紧密连锁的DNA片段,因此能够利用的STS数量则非常有限。根据单拷贝的DNA片段两端的序列设计1对特异引物扩增基因组DNA,产生的一段长度为几百bp的特异序列在基因组中往往只出现1次,从而能够界定基因组的特异位点。在人类基因组作图中已用其作为将遗传图谱与物理图谱整合的共同位标,这在基因组作图上具有非常重要的作用。随着大量的模式生物的全基因组测序,会有越来越多的可利用的STS被发现。
2.6.1表达序列标签标记(Expressed Sequence Tags,EST)。EST是指一小段(通常长度300~500bp)单次重复的mRNA序列或cDNA序列。它们在特定的组织或者特定的时期内特异的表达,可以看作是特定的cDNA文库中的标记。EST计划由美国科学家Venter于1989年提出,并首先应用于人类基因组研究,之后被广泛用于植物基因组研究,它是通过大规模的cDNA随机测序,从而获得对基因组认识的一种研究策略。目前,许多国家和组织正在开展某些作物基因组EST计划的研究,如成立于1998年的国际小麦族EST协作网(International Triteace EST corperation,ITEC),就是致力于麦类EST研究和开发的[28]。近几年来,国际公共数据库中的EST序列呈指数增长,截止到2006年8月,美国生物信息中心(NCBI)数据库Genbank已公布涉及205 000种生物的61 132 599条EST序列,总长度共65 369 091 950bp。
快速增长的ESTs数据为SSR标记的开发提供了一个巨大的有价值的来源。首先,避免了传统SSR标记开发需要构建基因组DNA文库等烦琐步骤,而且从ESTs中发掘出的SSR只是ESTs测序计划的副产品,从而节省了大量人力物力[29];其次,其本身是功能基因的一部分序列,所以它将为功能基因提供“绝对”的标记[30]。同时,由于不同物种间基因共线性和保守性,从一种作物中开发的EST-SSR可同时用于其他作物研究,从而能够为比较基因组学和同源基因克隆提供新的途径[31]。现在EST-SSR已被用于构建遗传图谱、分离与鉴定新基因、基因表达差异研究、比较基因组研究和制备DNA芯片等方面。
另外,还有一种被称为GSS序列的标记。GSS序列本质上和EST序列是一样的,不同之处是它的序列直接来源于基因组而不是mRNA或cDNA。它通常有以下几种来源:①全基因组检测得到的特异/单次重复序列;②来自质粒/BAC/YAC克隆所得到的单次重复序列;③基因组外显子捕获;④通过Alu—PCR得到的序列。
2.6.2微卫星(SSR)。微卫星(microsatellite)又叫做简单重复序列(Simple Sequence Repeat)或者短串联重复序列(Short trandem repeat,STR)、简单序列长度多态性(Simple Seque-nce Length Polymorphism,SSLP)。简单序列重复多态性(Si-mple Sequence Repeat Polymorphisms,SSRP)微卫星指的是真核生物普遍存在的遍布整个基因组的排列为2~5个核苷酸的短串联重复序列,如(CA)n、(GT)n、(CAG)n等,尤以(CA)n重复序列最为常见,其长度由重复单位的拷贝数决定。在真核生物基因组中微卫星很丰富,通常长度能够达到150bp,是一类呈高度多态的遗传标记,不仅可用于基因组遗传连锁图的构建以及基因的定位与克隆,而且可用于遗传性疾病的连锁分析和基因诊断。其重复单位数目的改变可以引起相当高的多态性,但突变率仅为0.5×10-4~5.0×10-4,在家系中可以稳定地遗传,是一种很好的遗传标志[32]。
微卫星约占真核基因组的5%,其基本构成单位一般为1~8bp,多位于编码区附近,也可位于内含子、启动子及Alu序列(反向重复序列)中。人类基因组约有5~10万个(CA)n重复序列。通常认为重复序列的产生是由于在遗传物质复制过程中DNA滑动或在有丝分裂、减数分裂期染色体不对等交换所致,因此该重复序列多存在于不经严格选择的基因组区域。目前普遍认为微卫星充当基因重组的热点是基因重排和变异的来源[33]。微卫星不稳定性(microsatellite instabi-lity,MSI)是指由于复制错误(replication error,RER)引起的简单重复序列的增加或丢失,也称RER阳性或RER表型。MSI首先在结直肠癌中观察到。微卫星通过改变DNA结构或通过与特异性蛋白质结合而发挥其基因调控作用。
由于微卫星的寡核苷酸在同一物种的不同基因型之间差异很大,可以利用特异引物进行PCR扩增。引物根据与微卫星重复序列两翼的特定保守序列设计,用来扩增重复序列本身。由于重复的长度变化极大,所以这是检测多态性的1种有效方法[34]。其特点包括:一般检测到的是1个单一的多等位基因位点;共显性遗传,故可鉴别杂合子和纯合子;得到的结果复性很高。为了提高分辨力,通常使用聚丙烯酰胺凝胶电泳,它可检测出单拷贝差异。也可以在同1个反应试管中把PCR反应与不同的SSR引物结合起来(称为multiplexing),这可节省时间,但是,这只能在不同引物的产物在大小上下不重叠的情况下才能使用[35,36]。很显然,使用SSR技术的前提是需要知道重复序列两翼的DNA序列的信息,这一方面可以在其他种的DNA数据库中查询,否则就必须先建立含有微卫星的基因组文库,再从中筛选可用的克隆,进行测序,然后设计合适的引物。同时,这种由保守序列确定的微卫星序列也具有染色体位点的特异性,因此1981年Miesfeld等首次发现微卫星后,很快成为1种常用高效的分子标记。统计分析表明,不同的物种其微卫星的突变频率也是稳定的。SSR的PCR引物也是对某一高变重复位点高度专一的。用特定引物扩增出相应的微卫星片段后,再通过电泳分离,差异可经过EB或者银染后观察。一般种群可显示出超过10种类型的等位基因。微卫星不仅重复单位变异数大,而且其重复区域总长度又在PCR易于扩增的区域,快速简便,所需的DNA用量小。与等位酶相似,微卫星是具有独立的共显性基因。由于微卫星的遗传中性并且比等位酶法有更多的可供检测的等位基因,这样就可以提供更加精细的基因变化的范围,因此在种群研究上有着更大的应用[3,34,37-39]。
简而言之,微卫星的最大优点在于通过简单的PCR扩增即可直接检测到已知的特定的染色体位点,不仅具有一般PCR操作简单、快速、成本低的特点,还具有RFLP的稳定可靠、特异性、共显性等特点,不足之处是其引物开发难度较大,技术复杂,周期长,成本也高。不过随着众多模式生物的全基因组测序的飞速进展,对全基因组了解的日益全面,各个大型数据库的逐步完善,并且借助越来越发达的计算机计算和预测技术,使得开发成本有所降低。
2.6.3其他具有特定引物的分子标记种类。
(1)加锚微卫星寡核苷酸(Anchored microsatellite oli-gonucleotides)。Zietki-ewicz et al(1994)对SSR技术进行了发展[40],他们用加锚微卫星寡核苷酸作引物,对基因组节段而不是重复序列本身进行扩增。在SSR的5′端或3′端加上2~4个随机选择的核苷酸,这可引起特定位点退火。这样就能导致位于反向排列的间隔不太大的重复序列间的基因组节段进行PCR扩增。这类标记又被称为ISSR(inter-simple sequence repeat)、ASSR(anchored simple sequence repeats)或AMP-PCR。这类标记往往是显性遗传的。在所用的两翼引物中,可以1个是ASSR引物,另1个是随机引物。如果1个是5′端加锚的ASSR引物,另1个是随机引物,则被称为RAMP技术。
(2)CAPS(Clea-ved amplified polymorphic sequence)。CAPS技术又可称为PCR-RFLP。所用的PCR引物是针对特定的位点而设计的。其基本步骤是:先进行PCR扩增,然后将PCR扩增产物用限制性内切酶酶切,再用琼脂糖凝胶电泳将DNA片段分开,用EB染色,观察。与RFLP技术一样,CAPS技术检测的多态性其实是酶切片段大小的差异。在酶切前进行RCR产物检测,其多态性称为ALP。Neff et al.(1998)在此基础上又发展出dCAPS技术(derived CAPS),这是检测单核苷酸多态性的一种良好方法。
(3)单引物扩增反应(single primer amplification reaction,SPAR)。SPAR技术与RAPD技术相似的是也只用1个引物,但SPAR分析中所用的引物不是随机的,而是在SSR的基础上设计的,例如可能的序列是(TA)10或(CGA)6。扩增的是SSR之间的DNA序列。又称为MP-PCR(microsate-llite-primed PCR)。
(4)小卫星区域DNA直接扩增(directed amplification of minisatellite region DNA,DAMD)。直接用小卫星的核心序列作引物进行扩增。
(5)Inter-Alu PCR like genomic profiling。与SPAR技术相近,也只用1个引物,但所用的引物是在Alu序列(反向重复序列)的基础上设计的,扩增的是copia(另一种反向重复序列)序列之间的DNA序列。
(6)ISTR(inverse sequence-tagged repeat)。这种技术与SPAR技术也相近,所用的引物是在copia序列的基础上设计的,扩增的是copia序列之间的DNA序列。
(7)IFLP(intron fragment length polymorphism)。检测的对象是内含子的长度差异。根据内含子两端的特征序列设计引物,扩增出长度不同的内含子片段。
(8)RAMPO(random amplified microsatellite polymorph-ism)。RAMPO的英文全名与RAMP的英文全名相近,但实验方法却不同。RAMPO的基本步骤是:先用1个单一的随机引物(即RAPD引物)对基因组DNA扩增,用电泳将扩增片段分开,然后,把凝胶转移到尼龙膜上,使之与一个带有放射性标记(或其他标记)的与SSR互补的寡核苷酸探针如(CA)8和(GA)8杂交,放射自显影后可得到新的多态性类型。
先找到RFLP标记后,对RFLP探针进行测序,再合成适当的PCR引物,这样可发现新的STS标记。这也可称为RFLP-PCR。
3抗性基因同源序列(RGA)
近年来,在各种农作物抗性育种的进程和模式生物的抗性研究中,在水稻、玉米、番茄、马铃薯、烟草、拟南芥等植物中克隆了若干抗性基因,包括植物对病毒、细菌、线虫的抗性基因。例如烟草抗花叶病毒基因、水稻抗白叶枯病基因Xa-21、拟南芥抗丁香假单胞杆菌基因RPS2、亚麻抗锈病基因L6以及甘蔗抗胞囊线虫基因HS1等。
Leister等通过分析研究已克隆的植物抗病基因的结构特征,发现很大一部分的抗病基因都含有NBS保守序列。同年,《美国科学院院刊》在同一期发表了2篇应用同源序列从大豆中克隆R基因同源序列的报道,从而引发了同源序列法在植物抗病基因研究中的应用。随后的大量研究表明,植物抗病基因中存在多种类型的保守结构域。Hammond Kosack和Parker通过分析已克隆的植物抗病基因结构,将植物抗病基因分为8 类,其中,含有NBS-LRR(富亮氨酸重复子Leucine-rich Repeats,LRR)结构域的抗病基因是最主要的类型。
这些结构可能是参与蛋白质之间的相互作用或者细胞信号的传导以及识别。根据抗性基因的这一共性,以其保守结构的序列为基础设计引物,在任何作物中,用PCR技术扩增和分离具有相似序列的DNA片段,即抗性基因同源序列。
RGA提供了一种快速鉴定候选抗性基因的便捷途径。目前已经利用此技术在小麦、大豆、马铃薯中鉴定了候选抗性基因,它们在基因组的位置基本上就在已知的抗病基因区域。已知基因包括抗病毒、细菌、真菌和线虫的基因。而且部分与抗性基因紧密连锁的标记本身就是抗性基因或者抗性基因的一部分。因此,应用RGA进行基因定位可以较快地检测到与抗性基因紧密连锁的分子标记。可以预见,RGA将成为抗性基因定位的重要手段,并且在分子作图的领域将发挥更加巨大的作用[41,42]。
4单核苷酸多态性(Single nucleotide polymorphisms,SNPs)
单核苷酸多态性是指2套基因组的DNA序列两两进行位置比对时, 单个核苷酸的的不同而显示出的差异(多态性)。因此,SNP反映了过去多数突变事件的特点,2个个体在同一位点携带的不同等位基因被认为是进化的遗传标志。显而易见,SNP是目前已知的多态性最高的分子标记。据Genbank估计,如果比较2套人类基因组的DNA序列,出现SNP的频率可达1/2 000~1/1 000,看起来这个频率并不高,但是考虑到人类基因组共有3.2×109bp时,即可能出现3.2×1012个SNP位点时,这个数量已经相当可观了。并且这只是2套基因组之间的比较,所有的SNP位点肯定比这个数字大得多。水稻中SNP分布频率也很高,平均1 000bp就有1个SNP,这些标记随着水稻基因组的实施而被发现和利用。由于SNP具有同一个位点多态性低而全基因组多态性又极其丰富的特点,并且分析时只需要进行阴/阳性分析而不需进行片段的长度分析,特别适合用DNA芯片技术进行大规模的扫描分析,是继微卫星后最为高效的标记。不过其昂贵的成本(开发和使用的成本都很高)使其应用受到一定的限制。建立可供利用的SNP标记需经过以下几步:①全基因组测序;②根据测序结果确定特定的序列标记位点;③对STS进行扫描,寻找SNP位点;④确定SNP;⑤将SNP定位到染色体上。
5单链构象多态性(Single Strand Conformational Poly-morphism,SSCP)
SSCP是指DNA单链构象的多态性,是基于PCR扩增而新发展起来的一项检测DNA多态性的分析技术。在进行SSCP分析时,利用PCR特异的扩增出基因组目的DNA片段,然后将这些扩增出来的DNA片段进行变性处理,使双链DNA分开成单链,再用非变性凝胶电泳分离。由于在自然状态下,单链DNA会折叠卷曲,形成一定点空间构象,这种空间构象是由DNA链的碱基序列决定。如果扩增的目的DNA片段序列的碱基发生了变异,就可能造成其单链的空间构象发生改变,从而影响其单链电泳时的迁移速率,导致其在电泳图谱上的带纹位置不同,显示出不同生物个体DNA的特异性。
6新型分子标记的开发及其应用前景
自从20世纪70年代第1代分子(RFLP)标记出现以来,分子标记家族迅速发展繁荣起来,并且准确性和灵敏性也一步步提高。目前的SNP技术已经可以在单个核苷酸的水平上找出不同样本之间的差异,即使它们之间的亲缘关系非常接近。
纵观分子标记的发展,是伴随着人们对生命本质的认识一步步加深,认识范围从宏观表型一步步逼近微观世界的进程同步发展的。任何一个特殊生命现象的发现,都可能导致革命性的理论或技术的产生,DNA双螺旋理论的提出导致了DNA的自我复制理论,又进而导致了PCR技术以至于后来的全自动PCR仪的问世(当然也少不了其间Taq聚合酶的发现)。比如各种类型的外切酶和内切酶的发现导致了RFLP技术的产生。
重大的技术突破来源于理论的突破性进展,重大理论的提出来源于无数细微现象的总结。回顾20世纪生命科学的重大突破:1900年孟德尔的遗传理论被重新认识;1920年,摩尔根的基因理论和连锁遗传的提出;1953年,DNA双螺旋结构理论的提出;直到90年代,自动PCR仪的出现。从此,人们又进入了一个众多实验现象的重复和积累的阶段。已经有很多不能解释甚至是矛盾的试验现象在陆续出现。可以预言,下一次的理论突破将导致更加革命性的发现,也必将使得分子标记技术能够从更加深的层面上解释生命现象本身,人们对分子标记的认识和利用也更加深刻和简便。并且随着计算机技术的迅速发展,使得人们不仅能从浩如烟海的数据和现象中发现总结规律,还能够根据现有的现象和规律来预测可能的现象乃至规律。根据目前的发展来看,分子标记的用途不会再局限在传统的生物、医学、农业等领域,还会扩大到诸如数据加密传输、计算技术等领域。
7参考文献
[1] 黎裕,贾继增,王天宇,等.分子标记的种类及其发展[J].生物技术通报,1999(4):19-22.
[2] 郑康乐,黄宁.标记辅助选择在水稻改良中的应用前景[J].遗传,1997, 19(2):40-44.
[3] 樊叶扬,庄杰云,吴建利,等.应用微卫星标记鉴别水稻籼粳亚种[J].遗传,2000,22(6):392-394.
[4] 贾继增.分子标记种质资源鉴定和分子标记育种[J].中国农业科学,1996,29(4):1-10.
[5] TANKSLEY S D,YOUNG N D,PATERSON A H. RFLP mapping in plant breeding: new tools for an old science[J].Biotechnology,1989(7):257-264.
[6] HUANG N.pyramiding of bacterial blight resistance genes in rice:maker-aid selection using RFLP and PCR[J].Theor Appl. Genet,1997(95):313-320.
[7] 张汉尧.RFLP在植物遗传育种研究中的应用[J].西南林学院学报,2006, 26(l):75-80.
[8] 刘春林,官春云,李木旬.植物RAPD标记的可靠性研究[J].生物技术通报,1999,15(2):31-34.
[9] 钱惠荣,郑康乐.DNA标记和分子育种[J].生物工程进展,1998,18(3):12-18.
[10] WILLIAMS J K G,HANAFEY M K,RAFALSKI J A,et al.Genetic analysis using random amplified polymorphisms DNA markers[J]. Meth-ods in Enzymology,1993(218):704-740.
[11] 方宣钧,刘思衡,江树业.品种纯度和真伪的分子标记鉴定及其应用[J].农业生物技术学报,2000,8(2):106-110.
[12] 汤复跃,周立人.RAPD和RFLP在大豆研究中的有关进展[J].安徽农学通报,2006,12(6):52-53.
[13] D ZAMIR,S TANKSLEY. A advanced backcross QTL analysis of to-mato[J]. Theor Appl Genet,1998(97):170-180.
[14] 倪新强,王忠华,夏英武.分子标记辅助选择及其在水稻育种中的应用[J].中国农学通报,2001,17(3):58-61.
[15] 罗素兰,贺普超,周鹏,等.与葡萄抗霜霉病基因紧密连锁的分子遗传标记[J].遗传学报,2001,28(1):76-82.
[16] 田义轲,王彩虹,戴洪义,等.与苹果Co基因紧密连锁的RAPD标记的筛选及其SCAR标记转换[J].遗传学报,2004,31(9):919-925.
[17] 刘俊峰,张国珍,马秋娟,等.一个与稻瘟病菌无毒基因AVR-Pik连锁的SCAR标记的分离[J].植物病理学报,2003,33(2):151-155.
[18] LI YU,JIA JI-ZENG,WANG TIAN-YU.Types of molecular markers and their development[J].Biotechnology Information,1999(4):19-22.
[19] WELSH J,MCCLELLAND M.Fingerprinting genomes using PCR with arbicary primers[J].Nucl Adics Res,1990(18):7213-7218.
[20] ZABEAN M,VOS P.Selective reseriction fragment amplification:a ge-neral method for DNA fingerping. Euro pean patent Application 9240-2629[D],1993-03-31.
[21] 王斌,翁曼丽.AFLP的原理及其应用[J].杂交水稻,2003(5):27-30.
[22] VOS P,HOGERS.R,BLEEKER M,et al. AFLP:a new technique for DNA fingerprinting[J].Nucleic Acids Research,1995(23):4407-4414.
[23] 李珊,赵桂仿.AFLP分子标记及其应用[J].西北植物学报,2003,23(5):830-836.
[24] POWELL W,MOGANTE M,ANDRE C,et a1.The comparison of RFLP、RAPD、AFLP and SSR(microsatellite)Markers for germplasm analysis[J].Molecular Breeding,1996,2(3):225-238.
[25] 熊立仲,王石平,刘克德,等.微卫星DNA和AFLP标记在水稻分子标记连锁图上的分布[J].植物学报,1998,40(7):605-614.
[26] 缪颖.AFLP分子标记及其应用[J].亚热带植物通讯,1999,28(2):55-60.
[27] 郑先云,郭豆平,马恩波,等.AFLP分子标记技术的发展[J].生命的化学,2003,23(1):65-67.
[28] 骆蒙,贾继增.国际麦类基因组EST计划研究进展[J].中国农业科学,2000,33(6):l10-l12.
[29] 李永强.基于表达序列标签的微卫星标记EST—SSR研究进展[J].植物遗传资源学报,2004,5(1):91-95.
[30] ADAMS M D,KELLEY J M,GOCAYNE J D,et a1.Complementary DNA sequencing:expressed sequence tags and human genome project[J].Science,1991,252(5013):1651-1656.
[31] SCOTT K V,EGGLER P,SEATON G,et al.Analysis of SSRs derived from grape ESTs[J].Theor Appl Genet,2000(100):723-726.
[32] 何平.真核生物中的微卫星及其应用[J].遗传,1998,20(4):42-47.
[33] 朱振东,贾继增.小麦SSR标记的发展及应用[J].遗传,2003,25(3):355-360.
[34] 李云海.用微卫星DNA标记检测中国主要杂交水稻亲本的遗传差异[J].植物学报,1999,41(10):1061-1066.
[35] 李晶炤,何平,李仕贵,等.利用微卫星标记鉴定杂交水稻冈优22种子纯度的研究[J].生物工程学报,2000,16(2):211-214.
[36] 李晓辉,李新海,李文华,等.SSR标记技术在玉米杂交种种子纯度测定中的应用[J].作物学报,2003,29(1):63-68.
[37] 朱作峰.用SSR标记比较亚洲栽培稻与普通野生稻的遗传多样性[J].中国农业科学,2002,35(12):1437-1441.
[38] 赵勇,杨凯,Akbar arc cheema,等.利用水稻功能基因SSR标记鉴定水稻种质资源[J].中国农业科学,2002,35(4):349-353.
[39] 刘殊,程慧,王飞,等.我国杂交水稻主要恢复系的DNA多态性研究[J].中国水稻科学,2002,16(1):1-5.
[40] ZIETKIEWICZ E,YOTOVA V,JARNIK M,et al. Nuclear DNA diversity in worldwide distributed human populations[J].Gene,1997,(205):161-171.
[41] 丁成龙,沈益新,顾洪如,等.与多花黑麦草抗灰叶斑病相关基因紧密连锁的RGA-CAPS标记筛选[J].江苏农业学报,2005(3):202-206.
[42] 汪旭升,吴为人,金谷雷,等.水稻全基因组R基因鉴定及候选RGA标记开发[J].科学通报,2005(11):1085-1089.