香蕉EST-SNP标记的开发
2019-01-03赵涛王静毅刘菊华徐碧玉金志强
赵涛 王静毅 刘菊华 徐碧玉 金志强
摘要:为发掘出一批香蕉的SNP位点、进一步研究香蕉的遗传关系、相关性状的定位等打下基础,从美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)的dbEST数据库下载46 665条香蕉EST序列,经生物信息学方法分析发掘EST-SNP位点,并对其所在核酸序列进行功能注释分析。通过对46 665条EST进行拼接,共得到3 490條重叠群(contigs),在含有4条以上重叠群中发现有39条重叠群中含有SNP位点,从中筛选出127个候选SNP位点,其碱基突变类型中转换、颠换分别占SNP位点总数的63.78%、36.22%。通过序列比对分析发现了34个与香蕉相关基因,证明NCBI中的香蕉EST数据库数据量大,能够发掘出SNP标记对香蕉进行品种鉴定、分类和遗传多样性分析。
关键词:香蕉;EST序列;SNP位点;重叠群;转换;颠换;序列比对分析;遗传多样性
中图分类号: S668.101文献标志码: A
文章编号:1002-1302(2019)21-0107-04
收稿日期:2018-08-03
基金项目:海南省重点研发计划(编号:ZDYF2018097);国家自然科学基金(编号:31501043);国家现代农业产业技术体系建设专项(编号:CARS-31);中央级公益性科研院所基本科研业务费项目(编号:1630052017018)。
作者简介:赵涛(1990—),男,江苏徐州人,硕士研究生,研究方向为园艺学。Tel:(0898)66890772;E-mail:2532450562@qq.com。
通信作者:金志强,博士,研究员,博士生导师,研究方向为热带果树分子遗传学,E-mail:zhiqiangjin2001@yahoo.com.cn;徐碧玉,博士,研究员,研究方向为热带园艺植物基因工程,E-mail:biyuxu@126.com。
单核苷酸多态性(single nucleotide polymorphisms,SNPs)是指在基因组水平上,由单个核苷酸的变异导致等位基因的多态性,不同的等位基因在特定位置上含有不同的碱基对,等位基因频率一般要大于1%。SNP变异类型有转换(transition)、颠换(transversion)、插入(insert)和缺失(deletion)4种,通常只分析颠换和转换。如果一个SNPs的次等位基因频率大于0.1,便可用于关联或者连锁研究。单核苷酸多态性不仅分布在非编码区,在编码区也有分布,存在于编码区的SNP称为cSNP,这为研究者提供了丰富的生物信息。同时,SNP相比SSR具有更高的遗传稳定性。因此,现在人们广泛的将其称为第3代分子标记,同时被认为是应用前景最好的遗传标记[1-3]。
表达序列标签(expressed sequence tags,EST)是来源于功能基因表达的cDNA片段,是转录区域多态性识别的重要资源。随着公共数据库中EST序列的暴发式增长,以EST序列为基础开发分子标记变得越来越方便;同时,EST标记还具有通用性好、信息量大、开发方法简单快捷以及成本低等优点。利用EST开发分子标记可直接用于动植物分子育种等相关领域的研究[4]。
香蕉(Musa acuminata)属于芭蕉科芭蕉属,单子叶草本植物。目前,香蕉已经成为我国热带地区主要农业支柱产业,同时也是世界6亿人口的主食作物[5],更是世界四大水果之一。然而,近年来环境气候的变化导致我国香蕉主产区经常遭受冷、干旱等逆境胁迫,同时香蕉枯萎病使得香蕉产业正遭受着毁灭性威胁[6]。目前,香蕉主栽品种大多是三倍体,基因组高度复杂,通常状况下都是高度不育的,难以通过传统的杂交育种得到优良品种。现在香蕉育种中如何进行品种鉴定是难点之一。近年来,SNP已广泛应用于品种鉴定和重要性状的基因定位、遗传连锁图谱构建、遗传多样性分析等相关研究领域[7-13]。同时,国内外在香蕉方面进行开发SNP的文章鲜有报道。本研究利用NCBI中的dbEST数据库,通过生物信息学分析开发SNP,以期获得合适的分子标记,为香蕉育种株系鉴定提供技术支持。
1材料与方法
1.1香蕉EST序列的获取
从NCBI网站(http://www.ncbi.nlm.nih.gov/genbank/)通过关键词“MUSA”搜索下载,共得到46 665条香蕉EST,所有EST序列均以FASTA格式保存。
1.2香蕉SNP的挖掘
利用SeqClean(http://compbio.dfci.harvard.edu/tgi/software)去除载体序列及冗余序列,之后使用CD-HIT(http://www.bioinformatics.org/cd-hit)和CAP3(http://seq.cs.iastate.edu/cap3.html)进行序列的聚类与拼接。利用QualitySNP(http://www.bioinformatics.nUtools/snpweb/)寻找SNP位点。
1.3筛选原则
香蕉SNP位点筛选原则:(1)规定候选SNP位点两侧至少有5 bp碱基要完全保守;(2)候选SNP位点中的次要等位基因频率至少为30%[14];(3)碱基判读质量与其所在的位置相关,测序所得的序列前区段质量普遍偏低,应选择序列100 bp 以后的候选SNP位点。
1.4BLAST比对
提取含有SNP位点的重叠群(contigs)在NCBI的BLASTn数据库中进行序列比对,提取与序列相似性最高的序列注释信息,对SNP靶向基因产物和物种来源进行分析。
2结果与分析
2.1EST文库来源
由表1可知,香蕉EST文库数量多,但其序列主要来源于14个EST文库,其数量为44 829条,占总EST的96.06%。香蕉EST文库主要来源于香蕉A基因组,在所有的EST文库中,来源于香蕉叶片组织的高达49.48%,来源于菜花样芽分生组织的占23.72%,来源于香蕉根系的占11.09%,来源于香蕉果实的仅占5.41%。在香蕉EST文库中源于Cachaco品种的最多,高达23.72%,其次为Calcutta 4-AA,占比为2000%,Grande Naine品种占14.05%,Pisang Awak(ABB)Sukari Ndizi(AB)Mpologoma(AAA)占11.77%,Pisang Klutug Wulung(PKW)-BB仅占11.33%,其品种和主要组织来源见表1。
2.2香蕉EST序列SNP频率分析
如表2所示,在GenBank数据库中下载到46 665条香蕉EST序列,通过SeqClean去除序列冗余,得到有效的EST序列46 056条。使用CD-HIT和CAP3进行序列的聚类与拼接,获得3 490条重叠群,为了提高SNP位点的可靠性,本研究所用的重叠群EST条数均大于4,经过QualitySNP软件发掘SNP位点,在456条重叠群中发现39条中含有SNP位点,总计127个SNP位点。39条重叠群的碱基总数为35 743 bp,SNP出现的频率为0.35%,即平均每281 bp含有1個SNP位点。39条重叠群中平均1条重叠群中含有3.2个SNP位点,含有SNP位点数最多的重叠群有14个位点,具体见表3。
如表4所示,本研究使用的EST序列包含SNP位点碱基转换占比63.78%,颠换占比36.23%,碱基的插入、缺失不统计。在不同重叠群中不同突变类型SNP位点的数量差异较大,其分布密度变化也很大。
2.3SNP位点所在核苷酸序列同源性比对结果分析
提取39个含有SNP位点的重叠群在NCBI的BLASTn数据库中进行比对。本研究发现3个未知蛋白,可能是香蕉特有或尚未被发现的基因(表5),但须进一步验证。其他基因包括1个与抗逆有关的类热休克蛋白,3个与蛋白质降解、DNA损伤修复有关的泛素蛋白,1个CBS(cystathionine-beta-synthase)编码胱硫醚-β-合成酶基因,4个与蛋白质合成相关的核糖体蛋白,1个与信号传导相关的钙调蛋白,1个参与真核翻译起始进程的真核翻译起始因子,1个含LIM结构域的LIM蛋白,1个与DNA结合的组蛋白,1个参与细胞内物质运输和信号转导的ADP-核糖基化因子,1个运输蛋白,1个过氧化物酶基因,1个韧皮部蛋白以及1个磷脂酰肌醇转移蛋白质家族成员等,其具体的SNP位点的比对结果见表5。
3讨论与结论
目前,开发EST-SNP的软件众多,软件的选取以及如何设置参数都是影响试验结果的关键因素。如PolyPhred只能预测某一核苷酸位点上单个碱基的替换,SNPdetector假阳性率和假阴性率均低,novoSNP的假阳性率明显偏高;在具有可靠的参考序列时,SOAPsnp正确率较高;AutoSNP正确率低;QualitySNP预测位点少但正确率高于AutoSNP,且QualitySNP运行速度更快[15];因此,本研究应选取QualitySNP开发SNP。
在EST序列中进行SNP位点开发时,研究者应当注意影响SNP开发质量的各种筛选参数。其中最主要的因素为重叠群的规格(重叠群所包含EST序列的数量)和次要等位基因(等位基因中出现次数较少的碱基)的出现次数。李猛利用QualitySNP软件对葡萄EST序列进行候选SNP位点分析时发现,为了得到高质量的候选SNP位点,重叠群规格应选择拼接EST数量≥4条以上,同时次要等位基因至少出现2次[16]。因为错配仅出现1次的话很可能是由序列差错引起的,而同一碱基位置上发生2次序列差错的概率则很小。因此在规格为4条,主次等位基因出现次数比为1 ∶1,即次要等位基因出现2次的重叠群中开发的候选SNP其可靠度较高。在规格大于4条的重叠群中,也应当尽量保证主次等位基因出现次数比近似为1 ∶1,即在规格为5~6条的重叠群中,次要等位基因应至少出现2次。一般在聚类时为得到高的比对分值,通常须要在1条序列中加入空格,但这样会被误判为插入或缺失,为避免出现这种情况,在处理结果时可以不考虑插入或缺失,而只分析替换类型。
本研究从NCBI中dbEST公共数据库下载46 665条EST序列,共有46 056条EST序列参与拼接,总计拼接成3 490条重叠群,所含EST序列≥4条的重叠群共456条,在39个重叠群中发现SNP位点。同时大于4条以上的重叠群主要由4~7条EST序列拼接而成,最多的1条重叠群也只有13条EST,8条以上EST拼接的重叠群比较少。同时,本研究中重叠群主要长度在800~1 500 bp,长度在1 500 bp以上的较少。一般为了提高SNP的可靠性,用于SNP分析的重叠群至少包含4条以上。
在39条重叠群中筛选出127个候选SNP位点,SNP频率为0.35%,较甘蔗[14]、茶树[17]等其他物种的SNP频率低,可能是由于香蕉是三倍体植物自交高度不育,在生产上主要依靠吸芽和组培苗进行繁殖生产,香蕉无法通过基因交流产生新的基因变化,所以自身遗传差异变化小,SNP位点相比其他植物少。
一般情况下碱基转换的C/T比A/G更常发生。CpG二核苷酸的胞嘧啶(C)在基因组中最易发生突变,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶(T),因此转换型变异的SNP约占2/3[17]。在本研究中,香蕉SNP位点碱基变异类型以G/A为主,占33.07%,C/T占30.70%,与甘蔗[14]、栉孔扇贝[18]碱基变异类型相同,与小麦[19]、大麦[20]、辣椒[21]等物种的SNP碱基变异类型不符。转换类型和颠换类型的数量分别占候选SNP位点总数的63.78%和36.22%,转换与颠换比为1.76 ∶1.00,即转换类型的数量明显高于颠换,与檀小辉等的研究结果[14]存在差异。
本研究中,含有SNP位点最多的重叠群Contigs402和Contigs373分别有14、11个SNP位点,其EST构成分别为5、4条,长度分别为852、863 bp。而只含有1个位点的Contigs97、Contigs287的EST组成分别为6、6条,长度分别为766、901 bp。由此看出,香蕉重叠群中EST序列数量与包含的SNP位点数量并无明显规律,这可能与不同物种间SNP位点的分布差异有关。
参考文献:
[1]Collins F S,Guyer M S,Charkravarti A. Variations on a theme:cataloging human DNA sequence variations[J]. Science,1997,278(5343):1580-1581.
[2]Harding R M,Fullerton S M,Griffiths R C,et al. Archaic African and Asian lineages in the genetic ancestry of modern humans[J]. American Journal of Human Genetics,1997,60(4):772-789.
[3]Nickerson D A,Taylor S L,Weiss K M,et al. DNA sequence diversity in a 9.7kb region of the human lipoprotein lipase gene[J]. Nature Genetics,1998,19(3):233-240.
[4]梁芳,張继,吕平,等. 基于EST序列的玫瑰EST-SNP位点发掘与分析[J]. 南方农业学报,2016,47(3):325-331.
[5]张静,孙秀秀,徐碧玉,等. 香蕉分子育种研究进展[J]. 分子植物育种,2018,16(3):914-923.
[6]窦同心. 香蕉抗寒、抗病相关基因的遗传转化验证[D]. 广州:华南农业大学,2016:1-2.
[7]孟霞,曾兴权,其美旺姆,等. 西藏冬青稞种质资源SNP标记的遗传多样性分析[J]. 现代农业科技,2018(1):40-41,43.
[8]姚丹青,楼坚锋,朱文莹,等. 基于SNP标记的黄瓜遗传多样性分析[J]. 上海农业学报,2017,33(1):21-30.
[9]刘凯,邓志英,李青芳,等. 利用高密度SNP遗传图谱定位小麦穗部性状基因[J]. 作物学报,2016,42(6):820-831.
[10]杨润婷,吴波,李翀,等. 两种SNP分型方法的比较及其在柚品种鉴定中的应用[J]. 园艺学报,2013,40(6):1061-1070.
[11]毛建军. 杂交水稻品种鉴定的SNP研究及东乡野生稻两个NBS序列的分析[D]. 长沙:湖南农业大学,2005:44-45.
[12]李胜杰,白俊杰,赵荦,等. 大口黑鲈EST-SNP标记开发及其与生长性状的相关性分析[J]. 海洋渔业,2018,40(1):38-46.
[13]阴长发. 甘蓝型油菜EST-SNP开发及花色性状的QTL定位[D]. 长沙:湖南农业大学,2013:38-40.
[14]檀小辉,张继,梁芳,等. 基于EST序列的甘蔗SNP发掘及分析[J]. 江苏农业科学,2016,44(7):64-66,67.
[15]李猛,郭大龙,刘崇怀,等. EST-SNP开发软件特性分析及比较[J]. 生命的化学,2011,31(6):906-911.
[16]李猛. 葡萄EST-SNP标记的开发及应用[D]. 洛阳:河南科技大学,2012:24-25.
[17]王丽鸳,张成才,成浩,等. 茶树EST-SNP分布特征及标记开发[J]. 茶叶科学,2012,32(4):369-376.
[18]李纪勤,包振民,李玲,等. 栉孔扇贝EST-SNP标记开发及多态性分析[J]. 中国海洋大学学报(自然科学版),2013,43(1):56-63.
[19]Chao S,Zhang W J,Akhunov E,et al. arker polymorphism in US wheat (Triticum aestivum L.) cultivars[J]. Molecular Breeding,2009,23(1):23-33.
[20]Sato K,Close T J,Bhat P,et al. Single nucleotide polymorphism mapping and alignment of recombinant chromosome substitution lines in barley[J]. Plant & Cell Physiology,2011,52(5):728-737.
[21]刘峰,谢玲玲,弭宝彬,等. 辣椒转录组SNP挖掘及多态性分析[J]. 园艺学报,2014,41(2):343-348.