SNP标记及其在园艺作物上应用的研究进展

2015-10-10王治宇秦玉芝

湖南农业科学 2015年7期

潘妃，周榕，丁旭，王治宇，秦玉芝

（湖南农业大学园艺园林学院，湖南长沙410128）

单核苷酸多态性（SingleNucleotidePolymorphisms SNP）标记是近年来分子标记的研究热点，具有广泛分布性、遗传稳定性、易规模化检测等特点。SNP 自1994年第一次被提出之后，已成为遗传标记研究最多最有前景的分子标记。由于丰富的基因组突变位点和高通量检测平台的开发，SNP 迅速占领了分子遗传学的中心舞台。Lander[1]在1996年正式指出SNP 开启了新的分子标记时代，是继SSR 和ISSR 等二代分子标记发展起来的第三代新型分子标记。

1 SNP 标记的概念

SNP，即单核苷酸多态性，主要是指由于单个核苷酸的变异而引起的基因组水平上的DNA 序列多态性，其形式包括单个碱基的缺失、插入、转换及颠换等[2]。根据突变的位置可将SNP 划分为3种形式：一是广泛分布于基因编码区的cSNP；二是存在于基因周边的pSNP；三是存在于基因间的iSNP[3]。cSNP 经常会导致表达蛋白的多态性变异，而引起功能的改变。Halushka 等[4]人的研究表明，SNP 在单个基因或者整个基因组的分布并不均匀。在同一条染色体上，SNP也存在明显的富集区域和稀缺区域。SNP 在非转录序列的出现频率高于转录序列，而在转录区非同义序列突变的频率要比其他突变方式低很多。以人类基因组为例，Halushka 等[4]检测了75个基因，进而推测人类基因有近百万个SNP，其中大约有50 万个在非编码区，24 万～40 万个在编码区，而这些SNP 与蛋白质的功能息息相关。

2 SNP 标记的特点

2.1 突变频率低，遗传稳定性高

一般而言，SNP 在群体中发生的频率不低于1%[5]。在人类基因组中，有些区域SNP 分布率只有0.1%，有些特异性编码区域则达到了5%～10%，分布极度不均匀，但总体突变率不高，每个核苷酸每年的突变率约为1×10-9%～5×10-9%[6]。

从理论上看，SNP 可以任意发生于A、G、C、T 之间。但研究表明，SNP 多发生在T 和C 之间，且两者的比列是2∶1。在人类基因组中，CpG 二核苷酸的胞嘧啶是最易发生突变的位点，其中大部分是甲基化，可自发地脱去氨基形成胸腺嘧啶[7]。相比串联重复微卫星等多态性标记，SNP 标记可能由2个、3个或4个等位基因构成，但实际上后两种情况出现的几率非常小，常常被忽略[8]。相较于其他RAPD、SSR、PFLP 等分子标记，SNP 标记是基于单核苷酸的突变，突变频率低，与一些不良性状间也不存在连锁遗传。这种基因上的变异属于可遗传性变异，遗传稳定性高。

2.2 位点丰富，分布广泛

SNP 是基因组中分布最广泛的点突变。Geleron等[9]通过鸟枪法基因测序比较分析了Landsberg（Ler）野生型拟南芥和已知序列的Columbia（Col）型拟南芥，识别出37 344个SNPs。Nasu[10]等比较分析了3个粳稻品种、2个籼稻品种和1个野生稻之间SNP 发生的频率，发现每232个碱基就存在1个SNP。在玉米基因组中，每57个碱基就有1个SNP[11]；在大豆基因组中，每272个碱基就有1个SNP[12]。Lammer 等[13]在对5个大麦品系的54个基因进行研究时发现，大麦的38个基因中共存在112个SNP。

2.3 检测快速，筛选规模化

RFLP、RAPD 等传统分子标记都是建立在凝胶电泳基础上，对多个个体进行分析，过程繁琐、速度慢、耗时长、实验精度不高、价格昂贵。SNP 标记在技术上摆脱了电泳检测的过程，进行自动化检测，检出率也相应提高。由于SNP 多由2个等位基因构成，又被称为二等位基因标记[14]。因此，在SNP 筛选时，只需对其进行+/-的分析，无需分析DNA 片段的长度，这就有利于自动化分析处理来筛选或检测SNP[15]。SNP 自身所具备的这些特点，使其极大程度上优于其他分子标记，也为DNA 芯片、构建遗传图谱等奠定了基础。但也由于自身的二态性限制，使得SNP 无法取代RFLP、SSR 等多态性分子标记。SNP 分布位点远远多于SSR 位点，可以通过加大分析密度构建遗传图谱来精确地进行基因定位。

3 SNP 标记的开发

最常用的SNP 开发途径有两种[16]：一是直接测序DNA 的扩增片段。其原理是根据已知序列或者EST库设计引物，选择有代表性的个体进行扩增，通过比较扩增后的产物来发现差异。这种途径开发出来的SNP 假阳性率比较低，但工作量大且成本高。二是利用生物信息学软件从核酸数据库中开发SNP。利用软件自动识别序列上的多态性位点，得到疑似SNP，再比对EST 库得到有效实际的SNP。玉米、大麦等尚未完成基因组测序的物种，则可以通过这一途径来发现SNP 位点[17]。

SLAF-seq 高通量测序技术可以检测到SNP、InDel 两种类型的多态性差异[18]。其主要的技术流程包括：基因组DNA 的酶切、构建测序文库、上机测序以及数据分析。该技术准确性高、通量高、成本低，常用于关联性图谱、多态性图谱的构建。陈士强等[19]利用SLAF-seq 技术开发了368个长穗偃麦稻草1E 染色体特异性片段，并利用其中的80个序列开发出48个长穗偃麦稻草1E 特异性分子标记，这些标记中包含了20个长穗偃麦稻草1E 染色体特异性分子标记，效率高达25%。

RAD-seq 技术是在二代测序技术上发展起来的一项全基因组酶切位点的简化测序技术[20]。其具有不依赖于基因组序列的优点，可进行高通量的SNP 标记的开发。Baird 等[21]利用八碱基酶sbfⅠ对三刺鱼的基因组进行酶切，通过RAD 标记测序得到14 万个SNP 标记；改用出现频率更高的六碱基酶EcoRⅠ对两个性状不同的亲本进行酶切，分别得到150 万和250 万个SNP 标记。两种不同内切酶得到的SNP 的数量截然不同，双酶切系统对DNA 的筛选更为严格，通过测序得到的序列也更加准确。在同等条件下，双酶切系统的RAD-seq 能够检测更多的样本，大大提高了数据的利用率。

随着高通量测序的发展，越来越多的测序平台被开发。RAD-seq 最常用的测序平台是Illumina GAΠ和Ill um ina HiSeq 1000，其他常见的还有3730xl 及454，Ion Torrent，SOLiD，PacBio RS 等[22-23]。如表1 所示，不同的平台其成本、运行时间、测序长度均存在一定的差异[24-25]。

表1 不同高通量测序平台比较

4 SNP 标记在园艺作物上的应用

4.1 CAPS 标记的开发

CAPS（cleaved amplified polymorphic sequence）标记是根据已发表的基因序列或EST 库基因序列来设计引物，将特异PCR 和限制性内切酶相结合而检测多态性的技术，又称为PCR-RFLP[26]。其特点包括共显性、位点特异性、操作简单和低成本。近年来，CAPS 广泛应用于基因分型、基因定位、图位克隆和物种亲缘关系鉴定等。束永俊等[27]利用EMBOSS 软件开发了简便易行的SNP 检测方法，用该软件筛选导致酶切位点改变的EST-SNP，分别以绥农14、合丰25 等9种大豆的DNA 及其混合的DNA 为模板，设计引物并进行PCR 扩增，发现44个PCR 产物中有36个测序峰图在EST-SNP 位点表现出多态性。酶切分析发现其中26个PCR 产物具有酶切多态性，可以作为CAPS 标记，成功率约为72.22%。该EST-SNP 挖掘体系及其CAPS 标记转化系统具有高效率、低成本等优点，有利于促进大豆的遗传育种研究。

4.2 高密度遗传图谱的构建

SNP 位于基因组DNA 的部分，由于其二态性等位性和分布广泛性，非常适合用于大规模自动化扫描。在此基础上绘制而成的高密度遗传图谱对分子标记辅助育种起着非常重要的作用，可以选择出与目标性状相关的基因，降低甚至消除目的基因以外的其他遗传背景所带来的干扰。这项工作在大豆、玉米、水稻、大白菜等重要作物上已经取得重大进展。肖炳光等[28]以SSR 标记遗传连锁图作为骨架，利用基因组简约法开发分析了烤烟某群体的SNP 标记，获得包括SNP 标记在内总数为1 307 的烤烟遗传连锁图，并且将该遗传图谱和普通烟草两个祖先种的基因组序列相关联，分析了24个连锁群染色体之间的同源关系，发现了大量染色体之间的重组或交换以及部分染色体之间的共线性。

4.3 SNP 分型

SNP 分型技术可以分为两个不同时代，一是早期的凝胶时代；二是新型的高通量时代[29]。凝胶时代的技术主要包括限制性内切酶长度多态性分析（RFLP）、寡核苷酸连锁分析（OLA）以及等位基因特异聚合酶链式反应（AS2PCR）、单链构象多态性分析（SSCP）、变性梯度凝胶电泳（DGGE）。这些技术与高通量时代的技术原理基本一致，但由于其不能进行自动化分析，只能应用于小规模的SNP 检测，在实际应用中受到极大的限制。高通量时代的技术主要有5种，分别是特异位点杂交（ASH）、特异位点引物延伸（ASPE）、单碱基延伸（SBCE）、特异位点切割（ASC）和特异位点连接（ASL）。近年来，“光刻法”原位合成的实现[30]，可直接在晶体上合成高密度的序列可控的核糖核苷酸，发挥了DNA 芯片的强大威力，推动了SNP 检测自动化、批量化的发展，在构建SNP 图谱上已投入使用[31]。

4.4 抗性相关的SNP 标记的开发

由于SNP 定位目的基因的准确性，现已被广泛应用于园艺作物抗性基因定位。在抗病性的研究上，Hittalmani 等[32]利用SNP 标记，最早将抗稻瘟病基因定位于水稻第12 条染色体上靠近着丝点的区域，具体位于RG241 与RZ397 之间，遗传距离分别是5.2 cM 和3.3 cM，并将其命名为Pi-ta 基因。Pi-ta 位点上抗感基因的差异仅为1个氨基酸，由于存在1个SNP，原来的GCT 突变为TCT。正是由于这个氨基酸的变化造就了水稻的抗稻瘟病基因。时克等[33]研究表明，Pi-ta 基因对水稻稻瘟病抗性表现出很高的水平，可广泛应用于水稻的育种和生产。Laterrot 等[34]利用SNP 标记将番茄抗枯萎病基因I-2 定位于第11 染色体的长臂上。徐薪惟等[35]检测了不同抗性的番茄抗枯萎病基因I-2，发现了许多SNPs，通过进一步筛选发现了2个与番茄抗枯萎病相关的SNP 标记，分别是第1 793 位的C→T，第1 963 位的G→A。这是一个螺旋卷曲，有核酸的结合位点，导致亮氨酸序列出现重复，构成了番茄抗枯萎病基因。刘肖[36]以抗寒性和敏感性蓝莓杂交的F1代为材料，确定与蓝莓抗寒性密切相关的SNP 标记SL8088，并利用该标记对F1代实生苗进行鉴定，得到了抗寒性极为突出的2个植株。王彩香[37]以六倍体普通小麦和二倍体野生进缘种为材料，采用双酶切系统RAD-seq 酶切后，检测TaABC1L 部分基因片段，确定出与小麦抗性相关的SNP 标记，并将其定位于3A、3B 和3D 染色体长臂上。Garg 等[38]成功利用SNP 开发了与大麦叶锈病抗性基因相关的标记基因Rph7，已广泛应用与大麦抗叶锈病的筛选和育种。此外，在番茄中开发了与其糖分含量密切相关的SNP 标记Brix9-2-5，该基因碱基的变化导致了其编码蛋白质的变化，影响了番茄中糖分含量[39]。

[1]Lander E S.The new genomics：global views of biology[J].Science，1996，（274）：536.

[2]唐立群，肖层林，王伟平.SNP分子标记的研究及其应用进展[J].中国农学通报，2012，28（12）：154-158.

[3]邹喻苹，葛颂.新一代分子标记——SNPs及其应用[J].生物多样性，2003，11（5）：370-382.

[4]Halushka M K，Fan JB，Bentley K，et al.Patterns of single nucleotide polymorphisms in candidate genes for blood-pressure homeost asis[J].Nat.Genet，1999，22：239-247.

[5]刘传光，张桂权.水稻单核苷酸多态性及其应用[J].遗传，2006，（28）：737-744.

[6]杜玮南，孙红霞，方福德.单核苷酸多态性的研究进展[J].中国医学科学院学报，2000，（4）：392-394.

[7]Ravi S，David W，Steven CS，etal.The international SNPmap working group：a map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms[J].Nature，2001，409：928-933.

[8]Hillier LW，Marth G T，Quinlan A R，et al.Whole genome sequencing and variantdiscovery in C.elegans[J].Naturemethods，2008，5（2）：183-188.

[9]Geleron G，Alain V，DenisM，etal.A review on SNPand other typesof molecularmarkersand theiruse in animalgenetics[J].GenetSe1 Evol，2002，（34）：275-305.

[10]Nasu S，Suzuki J，Ohta R，et al.Search for and analysis of single nucleotide polymorphisms in rice and establishmentof SNPmarkers[J].DNARes，2002，（9）：163-171.

[11]宋伟，王凤格，田红丽，等.利用核心SNP位点鉴别玉米自交系的研究[J].玉米科学，2013，21（4）：28-32.

[12]Somers D J，Kirkpatrick R，Moniwa M，et al.Mining single-nucleotide polymorphisms from hexaploid wheat ESTs[J].Genome，2003，46：431-437.

[13]Lammer D，Cai X，Arterburn M，et al.A single chromosome addition from Thinopyrum elongatum confers a polycarpic，perennial habit to annual wheat[J].Journal of experimental botany，2004，55（403）：1715-1720.

[14]Snelling W M，Casas E，Stone R T，et al.Linkage mapping bovine EST-based SNP[J].BMCGenomics，2005，6：74.

[15]Velasco R，Zharkikh A，Affourtit J，et al.The genome of the domesticated apple（Malusx domestica Borkh）[J].NatGenet，2010，42：833-839.

[16]Davey JW，Davey J L，Blaxter M L，et al.RAD-Seq：next generation population genetics[J].Briefings i functional genomics，2010，9（56）：416-423.

[17]Miller M R，Dunham JP，Amores A，et al.Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA（RAD）markers[J].Genome research，2007，17（2）：240-248.

[18]Hohenlohe PA，Catchen J，CreskoW A.Population genomic analysisof model and nonmodel organisms using sequenced RAD tags in data production and analysis in population genomics[M].New York：Humana Press，2012.

[19]陈士强，秦树文，黄泽峰，等.基于SLAF-seq技术开发长穗偃麦草染色体特异分子标记[J].作物学报，2013，39（4）：727-734.

[20]Barchi L，Lanteri S，Portis E，et al.Identification of SNP and SSR markers in eggplant using RAD tag sequencing[J].BMC Genomics，2011，12（1）：304.

[21]Baird N A，Etter P D，Atwood T S，et al.Rapid SNP discovery and genetic mapping using sequenced RAD markers[J].PloS one，2008，3（10）：3376-3379.

[22]Amores A，Catchen J，Ferrara A，et al.Genome evolution and meiotic maps bymassively parallel DNA sequencing：spotted gar，an outgroup forthe teleost genome duplication [J]. Genetics，2011，188（4）：799-808.

[23]Houston R D，Davey J W，Bishop S C，et al.Characterisation of QTL-linked and genome-wide restrictionsite-associated DNA（RAD）markers in farmed Atlantic salmon[J].BMC Genomics，2012，13（1）：244.

[24]王兴春，杨致荣，王敏，等.高通量测序技术及其应用[J].中国生物工程杂志，2012，32（1）：109-114.

[25]张春兰，秦孜娟，王桂芝，等.转录组与RNA-seq技术[J].生物技术通报，2012，12：51-56.

[26]Emerson K J，Merz C R，Catchen J M，et al.Resolving postglacial phylogeography using high-throughput sequencing[J].Proc Natl Acad SciUSA，2010，107（37）：16196-16200.

[27]束永俊，李勇，吴娜拉胡，等.大豆EST-SNP的挖掘、鉴定及其CAPS标记的开发[J].作物学报，2010，36（4）：574-579.

[28]肖炳光，邱杰，曹培健，等.利用基因组简约法开发烟草SNP标记及遗传作图[J].作物学报，2014，34（3）：397-404.

[29]Rozen S，Skaletsky H.Primer3 on theWWW for general users and for biologistprogrammers[J].MethodsMolBiol，2000，132：365-386.

[30]汪维鹏，倪坤仪，周国华.单核苷酸多态性检测方法的研究进展[J].遗传，2006，28（1）：117-126.

[31]Guryev V，Berezikov E，Malik R，etal.Singlenucleotide polymorphisms associated with ratexpressed sequences[J].Genome research，2004，14（7）：1438-1443.

[32]HittalmaniS，Eduard A，CharlesN，etal.Singlenucleotide polymorphism genotyping in polyploid wheatwith the Illumina Golden Gate assay[J].Theor ApplGenet，2009，119（3）：507-517.

[33]时克，雷财林，程治军，等.稻瘟病抗性基因Pita和Pib在我国水稻主栽品种中的分布[J].植物遗传资源学报，2009，10（1）：134-139.

[34]Laterrot，AmoresA，Catchen J，etal.Genomeevolution andmeioticmaps bymassively par-allelDNA sequencing：spotted gar，an outgroup for the te-leostgenomeduplication[J].Genetics，2011，188（4）：799-808.

[35]徐薪惟，李景富，姜景彬，等.番茄抗枯萎病I2基因的SNP分型[J].植物保护，2012，38（6）：22-26.

[36]刘肖.蓝莓抗寒性、需冷量SNP分析与分子辅助育种研究[D].北京：北京林业大学，2013.

[37]王彩香.小麦抗旱相关基因TaABC1L的克隆、表达分析及SNP标记开发和定位[D].太原：山西大学，2007.

[38]Garg K，Green P，Nickerson D A.Dentification of candidate coding region single nucleotide polymorphisms in 165 human genes using assembled expressed sequence tags[J].GenomeRes，1999，9：1087-1092.

[39]Richards PM，Liu MM，Lowe N，etal.RAD-Seq derivedmarkers flank the shell colour and banding lociof the Cepaea nemoralis supergene[J].MolEcol，2013，22（11）：3077-3089.