基于EST序列的甘蔗SNP发掘及分析

2016-10-20檀小辉张继梁芳

江苏农业科学 2016年7期

关键词：甘蔗

檀小辉　张继　梁芳

摘要：从NCBI中的EST数据库下载已公布的甘蔗EST序列28 512条，利用DNAStar软件中的Seqman程序进行叠连群构建，EST序列共构建3 449个叠连群，从中筛选出93个叠连群，长度共计105 385 bp，发现候选SNP位点 1 449个，SNP平均出现频率为1.37%，共有74个contigs含有SNP位点，平均每个contig含有19.58个SNP位点，含有SNP位点数最多的1个叠连群有229个SNP候选位点，不同的叠连群含有的SNP位点数量差异较大，但转换类型与颠换类型所占比例很接近。本研究所用的叠连群的总长度是105 385 bp，平均72.93 bp含有1个SNP位点。

关键词：甘蔗；NCBI；EST序列；DNAStar；SNP位点

中图分类号： S566.101 文献标志码： A 文章编号：1002-1302（2016）07-0064-03

单核苷酸多态性（single nucleotide polymorphism，SNP）指基因组内DNA序列在某一特定的核苷酸位置发生缺失、插入、颠换、转换等变化。作为第3代遗传标记，已在动植物遗传连锁图谱构建[1]、重要性状的基因定位[2]、多样性分析[3]以及品种鉴定[4]等相关研究中得到广泛的应用，跟以简单序列重复（SSR）为代表的第2代分子标记相比，SNP具有易于实现自动化分析、遗传稳定性强、密度高等优点。但SNP标记开发在前期测序阶段成本较高而限制了SNP相关标记的大规模开发。因此，利用已有数据，通过生物信息学进行相关分析来开发SNP标记，然后通过相关试验对候选SNP标记加以验证，已成为一种降低成本且快捷高效的SNP开发途径[5]。

表达序列标签（expressed sequence tags，EST）是来源于功能基因表达的cDNA片段，是转录区域多态性识别的重要资源，随着相关研究的深入，公共数据库中的核苷酸序列中EST序列的增速最快，以EST序列为基础开发分子标记，变得越来越方便。目前，常用的EST标记有EST-AFLP、EST-RFLP、EST-SSR、EST-SNP等[6]。除了具有一般分子标记的特点，EST标记还具有通用性好、信息量大、开发方法简单快捷以及成本低等优点。因为EST序列是基因表达区的cDNA序列，所以EST序列为基础开发出的SNP位点很可能与表达基因的功能密切相关，或者直接在基因的编码区之内，可直接用于动植物分子育种等相关领域的研究[7]。而且在EST序列中，SNP频率很丰富[8]。因此，在尚未获得基因组全序列的动植物中，开发EST-SNP标记具有重要意义[9]。但NCBI中甘蔗dbEST数据库中的EST-SNP研究在国内外尚未发现相关报道，本研究利用NCBI上公布的甘蔗EST数据中筛选SNP候选位点，为甘蔗EST-SNP标记的开发以及后续的分子生物学研究奠定一定的基础。截至2014年10月，NCBI的dbEST数据库中已收录了甘蔗EST序列28万多条，如此庞大的数据为从甘蔗EST序列中开发SNP标记提供了良好的数据支持，甘蔗EST-SNP标记的开发可为甘蔗分子育种和基因组学等方面的研究提供重要的技术支持，本研究从NCBI中的dbEST数据库中下载了28 512条EST序列，利用DNAStar软件中的Seqman程序拼接得到3 449个重叠群（contigs），并将拼接结果进行人工筛选，为提高候选SNP位点的可靠度，本研究选用的EST序列拼接而成的contigs都至少含有20条EST序列，每个候选位点都至少有5条EST序列的相关位点作为支持，旨在发掘甘蔗的EST-SNP位点和寻求能得到大量可靠的候选SNP位点的筛选方法。

1 材料与方法

2014年10月13日从美国国立生物技术信息中心网站dbEST数据库（http：//www.ncbi.nlm.nih.gov/nucest/？term=sugarcane）下载28 512条甘蔗EST序列，所有序列均以FASTA格式保存，未得到可靠性较高的SNP候选位点，本研究用DNAStar软件中的Seqman程序检测并去除所有EST序列的载体序列，然后组装拼接成contigs。因为本研究选取DNAStar软件进行EST-SNP候选位点的开发，因此筛选步骤主要分为以下几类：（1）在Seqman的拼接结果中提取包含20条以上EST序列的contigs，并在其中筛选候选SNP位点；（2）候选SNP位点两侧至少有5 bp碱基要完全保守为原则对候选SNP位点进行人工筛选；（3）对筛选结果进行整理、归纳、分析。

SNP发掘：应用Seqman程序的SNP工具查找SNP候选位点。

SNP频率计算：SNP频率=（候选SNP数目/contigs长度）×100%。

2 结果与分析

2.1 候选位点的人工筛选

对候选软件筛选出的SNP位点根据2个筛选原则进一步人工将可靠度较高的SNP位点筛选出来：（1）候选SNP位点中的次要等位基因频率至少为30%[10]；（2）候选SNP位点两侧至少有5 bp完全保守的序列。Wang等研究发现，在包含不小于4条EST序列的contigs中筛选SNP时，候选SNP位点的主要、次要等位基因出现的频率之比约为1 ∶ 1时的可靠度最高[11]。为了进一步提高候选SNP位点的可靠度，本研究在筛选SNP候选位点时，把包含4条EST序列的contigs提高到至少包含20条EST序列的contigs，同时，在1个候选SNP位点的两侧经常会出现间断或连续的非SNP位点的不保守区域，这些区域可能是在比对时序列错误引起的，从而降低了候选SNP位点的可靠度，因此本研究规定候选SNP位点两侧至少5序列必须完全保守（图1为合格SNP候选位点，图2及图3为不合格SNP候选位点）。

2.2 甘蔗EST序列SNP频率分析

在GenBank数据库中下载28 512条甘蔗EST序列，通过序列组装构建3 449个contigs，为了提高SNP候选位点的可靠性，本研究所用的contigs均为EST序列条数大于20的contigs，经过筛选，共有92个contigs符合要求，92个contigs的碱基总数为105 385个bp，发现1 449个SNP位点，SNP出现的频率为1.37%，平均72.93个bp含有1个SNP位点。总共有74个contigs含有SNP位点，平均1个contig含有1958个SNP位点（表1），含有SNP位点数目最多的contig中含有281个SNP候选位点，含有5、8个SNP候选位点的contigs最多（8个）（表2）。

本研究使用的EST序列包含SNP位点以碱基的颠换（49.00%）和转换（49.07）为主，其中碱基的插入、缺失的数量最少，占全部SNP的1.93%，不同叠连群所含不同突变类型SNP位点的数量差异较大，所以分布密度的变化也很大（表3）。

由甘蔗EST序列构建的contigs中，组成contigs的EST序列条数和组成contigs的碱基数不同，得到SNP位点的频率也就不同，组成contigs的碱基数越多，其SNP位点的频率就越大。表4为甘蔗EST序列组成的序列数最多的10个contigs及SNP出现频率，这10个contigs共组装了5 053条序列，SNP平均出现频率为3.48%，明显高于所有用于筛选候选位点的contigs的SNP出现频率1.37%，所以大规格contigs（多序列、多碱基数）更易得到候选SNP位点。另外，检测 EST-SNP位点时，需大量冗余EST序列作为其检测的数据基础，如果EST条数少，得到的结果可能就不太理想，这也是本研究用至少包含20条EST序列的contigs进行SNP位点筛

3 结论与讨论

SNP广泛分布于动植物的基因组中，是动植物基因组中可遗传变异中最常见的一种，据估计，SNP在人类基因组中广泛分布，平均每500～1 000 bp对中就有1个SNP，其总数可能在300万个以上[12]。作为第3代遗传标记，由于SNP具有许多独特的优点，自从1994年问世以来，已越来越被分子标记领域的相关研究人员所重视，特别是cDNA的SNP，因其本身就是功能基因表达的组成部分，所以SNP被公认为新一代分子标记中最有应用前景的一类。然而，由于SNP的开发难度大、检测成本高，需要高额的资金投入以及大量的时间投入，导致该标记在甘蔗基因组研究领域的应用很少。但是如果以生物信息学为技术基础，以大量冗余EST序列为数据基础，EST-SNP的开发就成为一种既高效又廉价的方法[7，13-14]。但是，目前有很多因素都限制了EST-SNP的发掘，比如为了节约成本，EST序列在测序时只进行单向测序，测序结果的低质量进而导致筛选SNP位点会有预测已经查找方面的错误；EST序列来源对SNP位点的筛选也有很大的影响。但是，通过改进方法，可以对EST-SNP位点进行更准确、高效的发掘。通过有28万多条EST可以看出，人们对甘蔗的关注度很高，但是到目前为止还没有在NCBI中的SNP数据库中发现甘蔗SNP的相关数据，这可能与甘蔗是由多倍体原种热带种（2n=80，x=10）与多倍体野生种割手密（2n=40～128，x=8）经过一系列杂交之后形成的异源多倍体有关，其遗传背景非常复杂，染色体数在100～150条之间，因此甘蔗在分子遗传连锁图谱、质量性状基因定位、数量性状基因定位以及分子标记辅助辅助育种方面远远落后于其他作物[15]。因此，本研究对甘蔗SNP标记的开发研究就更具有重要意义，为了保证SNP位点的准确性，对满足SNP位点contigs包含的EST序列的要求就更高，必须是包含20条以上的EST序列序列组成的contigs，这样一来可能会有大量的真正的SNP位点被遗漏。但是当contigs所含EST序列较少时，又可能会有大量的EST序列无法被利用，EST序列不能被用于SNP位点的筛选，因此，笔者认为只有当contigs所含EST数目超过一定程度，筛选出的候选EST-SNP位点的可靠性才会有保证；只有当dbEST数据库中EST序列达到一定程度之后，其利用率才会得到保证，筛选出的SNP位点的可靠性才会更高。例如，利用全基因组测序，在水稻中（品种为日本晴和9311）获得了5 019 016个SNP位点[16]，另外，分布于基因表达调控区，以及外显子和内含子区域的SNP可能和基因的功能直接相关[17]。同时，对contigs中所含的SNP数量进行统计分析发现，组成contigs的EST序列条数越多，碱基数越多，发现的候选SNP位点的数量也就越多，这同Duran等在研究大麦EST序列时发现的结果基本一致但是具体每个类型的contigs所含的SNP位点数没有发现明显的规律[18]，这可能跟不同物种其多态性位点分布不同有关。

大多数动植物没有全基因组序列的数据，但是有大量的EST数据可供大家分析利用，EST本身就是表达基因的片段，因此基于EST序列的的SNP可能与基因的功能以及目标的性状有更多的关联，本研究从NCBI中的dbEST序列中下载了28 512条甘蔗EST序列，分析了92个由EST序列组成的contigs，这些contigs长度共计105 385 bp，发现候选SNP位点 1 449 个，SNP平均出现频率为3.48%，总共有74个contigs含有SNP位点，平均1个contig含有19.58个SNP位点，平均每72.93 bp发现1个候选SNP位点，低于水稻基因组中SNP发生频率接近（水稻平均每89 bp有1个SNP）[19]，高于玉米基因组SNP发生频率（玉米基因组平均每61 bp有1个SNP）[9]。由此可见，SNP在禾本科植物中的发生频率相差不大。接下来准备根据发掘到的SNP位点设计相应的SNP引物，并进行测序和酶切相结合的方法来验证发掘的SNP位点的可靠性，以期为甘蔗的分子遗传研究提供一定的参考。

参考文献：

[1]Hyten D L，Choi I Y，Song Q J，et al. A high density integrated genetic linkage map of soybean and the development of a 1 536 universal soy linkage panel for quantitative trait locus mapping[J]. Crop Science，2010，50（3）：960-968.

[2]Singh A，Singh P K，Singh R，et al. SNP haplotypes of the BADH1 gene and their association with aroma in rice （Oryza sativa L.）[J]. Molecular Breeding，2010，26（2）：325-338.

[3]van Inghelandt D，Melchinger A E，Lebreton C，et al. Population structure and genetic diversity in a commercial maize breeding program assessed with SSR and SNP markers[J]. Theoretical and Applied Genetics，2010，120（7）：1289-1299.

[4]Jiang D，Ye Q L，Wang F S，et al. The mining of citrus EST-SNP and its application in cultivar discrimination[J]. Agricultural Sciences in China，2010，9（2）：179-190.

[5]Kim S，Misra A. SNP genotyping：technologies and biomedical applications[J]. Annual Review of Biomedical Engineering，2007，9：289-320.

[6]Chen Q Q，Zhan X J，Lan J Y，et al. Study progresson application of EST（expressed sequence tags）in the functional genomics[J]. Chinese Agricultural Science Bulletin，2010，26（3）：59-63.

[7]Picoult-Newberg L，Ideker T E，Pohl M G，et al. Milling SNPs from EST databases[J]. Genome Research，1999，9（2）：167-174.

[8]李雪姣，张耿，顾爱侠，等. 芸薹属作物EST-SNP的发掘与分析[J]. 植物遗传资源学报，2010，11（6）：772-776.

[9]Ching A，Caldwell K S，Jung M，et al. SNP frequency，haplotype structure and linkage disequilibrium in elite maize inbred lines[J]. BMC Genetics，2002，3：19.

[10]李猛，郭大龙，刘崇怀，等. 葡糖EST-SNP位点的信息与特征[J]. 浙江大学学报：农业与生命科学版，2012，38（3）：263-270.

[11]Wang S，Sha Z，Sonstegard T S，et al. Quality assessment parameters for EST-derived SNPs from catfish[J]. BMC Genomics，2008，9：450.

[12]Fornage M，Doris P A. Single-nucleotide polymorphism genotyping for disease association studies[J]. Methods in Molecular Medicine，2005，108：159-172.

[13]Gu Z，Hillier L，Kwok P Y. Single nucleotide polymorphism hunting in cyberspace[J]. Human Mutation，1998，12（4）：221-225.

[14]Buetow K H，Edmonson M N，Cassidy A B. Reliable identification of large numbers of candidate SNPs from public EST data[J]. Nature Genetics，1999，21（3）：323-325.

[15]刘新龙，毛钧，陆鑫，等. 甘蔗SSR和AFLP分子遗传连锁图谱构建[J]. 作物学报，2010，36（1）：177-183.

[16]Zhao W，Wang J，He X，et al. BGI-RIS：an integrated information resource and comparative analysis workbench for rice genomics[J]. Nucleic Acids Research，2004，32：D377-D382.

[17]刘学军，闫双勇，刘小红，等. 植物SNP数据库及转化CAPS的方法[J]. 分子植物育种，2006，4（3）：443-447.

[18]Duran C，Appleby N，Vardy M，et al. Single nucleotide polymorphism discovery in barley using autoSNPdb[J]. Plant Biotechnology Journal，2009，7（4）：326-333.

[19]Nasu S，Suzuki J，Ohta R，et al. Search for and analysis of single nucleotide polymorphisms（SNPs） in rice and establishment of SNP markers[J]. DNA Research，2002，9：163-171.