甜荞根转录组SSR位点特征分析
2021-09-08石桃雄黎瑞源陈庆富梁成刚
石桃雄,黎瑞源,黄 娟,陈庆富,梁成刚**
(1.贵州师范大学 荞麦产业技术研究中心,贵州 贵阳 550001;2.贵州省信息与计算科学重点实验室,贵州 贵阳 550001)
荞麦(FagopyrmMill)属蓼科双子叶植物,有甜荞(Fagopyrmesculentum)和苦荞(Fagopyrumtartaricum)两个栽培种。甜荞又名普通荞麦(Common buckwheat),主要种植在我国华北、西北和东北地区[1]。甜荞含有丰富的蛋白质、脂肪、粗纤维、维生素、无机盐和多种有益于人体的微量元素,且含有小麦、大米和玉米等谷类作物没有的芦丁和叶绿素等生物活性物质[2],因此其营养价值明显高于谷类作物,是我国重要的粮药兼用的杂粮作物之一。
我国甜荞种质资源丰富,在编入“中国荞麦品种资源目录”的2704份荞麦种质中,甜荞占67.43%[3]。评价甜荞种质资源的遗传多样性有利于优异基因的挖掘和新品种的培育。SSR标记具有数量多、多态性丰富、操作简单、扩增结果稳定等优点,是目前荞麦属植物遗传多样性研究和遗传图谱构建最常用的分子标记[4]。随着高通量测序技术成本的降低,前人已根据苦荞基因组[5,6]和转录组[7-9]序列大规模发掘了SSR位点,并将这些位点应用于苦荞种质资源遗传多样性评价[10,11]、群体结构分析[12]、遗传图谱构建[13]和重要农艺性状的关联分析[14]等研究。近年来,甜荞参考基因组序列[15]以及籽粒[16-19]、花[20]和根[21]等组织的高通量转录组序列已相继被公布,为甜荞大规模SSR标记的开发奠定了基础。Shi等[10]分析了甜荞籽粒转录组SSRs的分布特征,从合成的150对SSR引物中筛选到36对多态性SSR引物,并比较了SSR引物在甜荞和苦荞中的通用性。目前已开发的甜荞SSR标记不超过300对,远远不能满足其应用于遗传图谱构建、数量性状的QTL定位和关联分析等研究。本文根据甜荞根转录组高通量测序获得了Transcripts序列,分析了SSRs的分布、重复类型、基序种类和重复次数等特征,并基于检索到的SSRs设计全部的引物,筛选了与黄酮类物质合成相关的SSR引物。
1 材料与方法
1.1 SSRs扫描
基于甜荞品种丰甜1号根系转录组高通量测序数据,利用Misa软件在默认参数下对长度大于200 bp的Transcripts序列进行了SSR位点扫描,筛选标准为:单核苷酸重复次数≥10;二核苷酸重复次数≥6;三至六核苷酸重复次数≥5;将相距20个碱基以内的SSR位点视为复合型位点。利用Excel 2019对获得的SSRs进行统计分析。
1.2 SSRs引物合成
根据Transcripts拼接的Unigenes序列,采用Krait v0.10.2软件,在默认的参数下设计SSR引物。根据Unigenes注释信息筛选与黄酮生物合成相关的结构基因的SSR引物。
2 结果与分析
2.1 甜荞根Transcripts长度的分布和SSR位点的出现频率
对甜荞根转录组测序,共获得了55392条长度大于200 bp的Transcripts序列,其中,长度介于201~400 bp的Transcripts数量最多,有23249条,占总数的41.97%;其次是长度>1000 bp的Transcripts,有15647条,占总数的28.25%。含有SSR位点的Transcripts共3906条,SSR的分布频率为7.54%。随着Transcripts序列长度的增加,SSR的分布频率和出现频率均增高,平均每1.709 kb出现1个SSR位点(表1)。
表1 甜荞根转录组SSR位点数量及频率
2.2 甜荞根转录组SSRs分布和重复类型
对SSRs重复类型的统计分析结果显示:在3906个SSRs中,2133个(占54.61%)分布在长度>1000 bp的Transcripts序列中;688个(17.61%)分布在长度介于201~400 bp的Transcripts序列中;在长度介于401~600、601~800和801~1000 bp的Transcripts序列中分别含有400个(占10.24%)、366个(9.37%)和319个(8.17%)SSRs。
在3906个SSRs中,单核苷酸重复类型数量最多,为1880个,占总数的48.13%;其次是三核苷酸重复类型,为1253个,占总数的32.07%;第三是二核苷酸重复类型,为609个,占总数的15.59%;四至六核苷酸重复类型数量很少,总共64个,占总数的1.63%;另外有100个位点是复合型,占总数的2.56%(表2)。
表2 甜荞根转录组SSRs的重复类型、数量(比例/%)与分布特征
2.3 甜荞根转录组SSRs单至三核苷酸重复的基序类型和分布
由于单、二和三核苷酸重复类型占SSRs总数的95.80%,因此针对这3个类型进行了SSR基序类型、数量与分布特征的统计分析。表3显示:在1880个单核苷酸重复类型中,有(A)n和(T)n两种基序,其中(A)n占绝对优势,共有1856个,占单核苷酸重复类型总数的98.72%,占总SSRs的47.52%;在609个二核苷酸重复类型中,有(AC)n、(AG)n和(AT)n三种基序,其中(AG)n和(AT)n数量较多,分别有299和268个,分别占二核苷酸重复类型总数的49.10%和44.17%,分别占总SSRs的7.65%和6.86%;在1253个三核苷酸重复类型中,有(AAC)n、(AAG)n、(AAT)n、(ACC)n、(ACG)n、(ACT)n、(AGC)n、(AGG)n、(ATC)n和(CCG)n等10种基序,其中数量较多的为(AAG)n、(ATC)n和(ACC)n这3种基序,分别有371、220和192个,分别占三核苷酸总数的29.60%、17.56%和15.32%,分别占总SSRs的9.49%、5.63%和4.91%。
表3 甜荞根转录组SSRs单、二和三核苷酸重复的基序类型、数量与分布特征
2.4 甜荞根转录组SSRs单至三核苷酸基序的重复次数
对单至三核苷酸类型SSR基序重复次数的统计分析结果显示:SSRs以10次重复的频率最高,有994个,占25.45%;其次为5次重复,有809个,占20.71%。在每个重复类型中,SSR数量均随着基序重复次数的增加而减少。在1880个单核苷酸SSRs中,10次重复的SSRs数量最多,达960个,占单核苷酸数的51.06%和SSRs总数的24.58%;重复次数≥12的SSRs总共有516个,占单核苷酸数的27.45%和SSRs总数的13.21%。在609个二核苷酸SSRs中,6次重复的SSRs数量最多,为299个,占二核苷酸数的49.10%和SSRs总数的7.65%。在1253个三核苷酸SSRs中,5次重复的SSRs数量最多,为809个,占三核苷酸数的64.57%和SSRs总数的20.71%(表4)。
2.5 甜荞根转录组SSRs引物设计
黄酮类化合物是甜荞的主要药用成分之一。基于1793个含有SSR位点的Unigenes序列,共成功设计了1183对SSR引物。通过筛选SSR引物源自Unigenes的功能注释信息,共获得了3对与黄酮生物合成途径中关键结构基因相关的SSR引物(表5),可用于评价甜荞种质资源黄酮生物合成相关基因内部序列的多态性。
表5 来自黄酮生物合成相关基因的SSR引物的信息
3 讨论与结论
SSR标记根据来自序列的不同可分为两种:基因组Genomic-SSR和表达序列表签Genic-SSR(EST-SSR)。与Genomic-SSR相比,Genic-SSR源自保守性较高的转录序列,在物种间的通用性更好。Shi等[16]开发的150对甜荞Genic-SSR引物中,32对(20.7%)在苦荞种质中具有多态性。马名川等[6]开发的200对苦荞Genomic-SSR引物中,48对(24.0%)在甜荞种质中具有多态性。为了丰富荞麦属植物SSR标记数量,本研究挖掘了甜荞根转录组SSR位点,共获得了3906个SSR位点,SSRs出现频率为1/1.709 kb,接近于甜荞的(1/1.17 kb)[16],略低于苦荞籽粒转录组的SSRs出现频率(1/1.73 kb)[9],高于苦荞基因组(1/21.339 kb)[6]和苦荞不同品种种皮混合转录组(1/7.809 kb)[7]SSRs的出现频率。
SSRs重复类型和基序的分布与作物种类、检索条件和序列类型等因素有关。本文检索到的3906个SSRs中,单至三核苷酸重复类型占SSRs总数的95.80%,数量从大到小依次为单核苷酸(1880)>三核苷酸(1253)>二核苷酸(609)。不考虑单核苷酸重复,且当二、三核苷酸在相同的筛选条件下时,SSRs重复类型的分布与甜荞籽粒[16]、苦荞籽粒转录组[7-9]和苦荞基因组[6]一致。前人的研究表明单核苷酸SSRs数量多,多态性程度较高,例如,贺润丽等[7]开发的41对多态性Genic-SSR引物中,单核苷酸重复就有29对(70.73%),因此在开发荞麦属SSR标记时,对单核苷酸SSRs应予以考虑。本文单核苷酸以(A)n基序出现的频数最高,与Shi等[16]和贺润丽等[7]的研究结果一致;二核苷酸重复以(AG)n基序出现的频数最高,与甜荞[16]和苦荞[8]籽粒转录组SSR的研究结果相同,但与苦荞基因组[5,6]和种皮转录组[7]中以(AT)n是优势基序的研究结果不同,说明荞麦属植物二核苷酸基序的分布与种属和组织有关。三核苷酸重复以(AAG)n基序数量最多,与甜荞[16]、苦荞转录组[7-9]和苦荞基因组[6]SSR的研究结论一致,也与双子叶植物Genic-SSRs重复基序的分布相同,但与谷类作物Genic-SSRs以(GGC)n为优势重复基序的研究结果[22]不一致。
本文根据搜索的全部SSR位点共成功设计了1183对SSR引物,为荞麦属植物种质资源多样性评价、遗传图谱构建、基因定位和重要性状基因的发掘等研究提供了丰富的SSR标记。筛选SSR位点对应的Unigenes的功能注释信息,获得了3对与黄酮生物合成途径关键结构基因相关的SSR引物,可用于评价荞麦属植物种质资源黄酮代谢相关基因内部序列的多态性,可为发展与黄酮含量关联的功能标记、分子标记辅助改良荞麦黄酮含量提供依据。