枸杞转录组SSR分布特征分析及其与基因组SSR分布特征的比较
2018-08-08张得芳樊光辉王占林
虞 杭,张得芳,2,樊光辉,2,王占林,2
(1.青海大学,青海西宁 810016; 2.青海省农林科学院/青海高原林木遗传育种实验室,青海西宁 810016)
枸杞(Lyciumbarbarum)属于茄科(Solanaceae)枸杞属(LyciumL.)落叶灌木,是重要的药用资源,其果、叶、根等均能被利用,在中药配方中有重要地位[1-2]。枸杞的营养含量非常丰富,富含蛋白质、维生素和多种氨基酸,还有类胡萝卜素以及钙、铁、锌、硒等对人体有益的元素,有很高的药用价值和保健效果。枸杞不仅有美容养生和抗衰老的功效,还具有抗癌、降血糖、降血脂以及护眼等功能[3-7]。
转录组是指某个物种或细胞在某一条件下所有转录产物的集合。RNA-Seq技术能够在单核苷酸水平对特定物种的整体转录活动进行检测,以提供最全面的转录组信息[8-12]。同样,RNA-Seq技术的应用也非常普遍,利用此技术鉴定油菜(BrassicacampestrisL.)叶片干旱胁迫应答相关基因,从转录组水平揭示油菜适应干旱胁迫环境的分子机制[13];在果树学中通过追踪柑橘(CitrusreticulataBlanco)、葡萄(VitisviniferaL.)、香蕉(MusananaLour.)等10个常见果树的RNA-Seq实例,研究具体应用进展[14];在地道药材形成机制研究以及改善牦牛基因结构信息上也起到了至关重要的作用[15]。
简单重复序列(simple sequence repeat,简称SSR)又称微卫星,是核苷酸串联重复单元(1~6个核苷酸),在真核及原核生物基因组中都有分布,SSR标记可分为表达序列标签SSR(EST-SSR)和基因组SSR[16-22]。此标记技术具有高多态性、高重复性和较广的覆盖面等特点,目前在构建植物的遗传图谱、分析遗传多态性上有较普遍的应用,对遗传多样性评价和种质鉴定也起到了很大的帮助[17,23-25]。EST-SSR是在已有EST序列的基础上,用电子筛选鉴别SSR,再用PCR检测,避免了SSR引物开发过程中的克隆和测序步骤,很好地利用了现有数据,节约了开发成本[26]。
本研究对枸杞转录组进行测序,通过对不同基因序列长度类型微卫星的统计与分析,了解枸杞转录组SSR的特征及组成,并将其与基因组SSR进行分析比较,从而进一步了解枸杞基因组SSR和转录组SSR在分布特征上的变化规律。
1 材料与方法
1.1 供试材料
2015年春天在青海省林业科学研究所枸杞种质资源圃,采集青杞1号的新梢顶端刚长出的幼叶作为试验材料,采集叶片后立即放入液氮罐冷冻并带回实验室,保存于-80 ℃冰箱中。
1.2 RNA提取
采用植物总RNA提取试剂盒(北京天根生化科技有限公司)提取总RNA,按照试剂盒要求进行操作。
1.3 构建文库及上机测序
用带有Oligo(dT)的磁珠富集mRNA,然后加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用6碱基随机引物合成第1链cDNA,然后加入缓冲液、dNTPs、DNA polymeraseⅠ、RNase H合成第2链cDNA,再用AMPure XP beads纯化双链cDNA。将处理后的cDNA先进行末端修复、加A尾并连接测序接头,再用AMPure XP beads进行选择。最后进行PCR扩增,并用AMPure XP beads纯化产物,得到最终的文库。把不同文库按照有效浓度及目标下机数据量的需求pooling后进行Illumina HiSeq测序。
1.4 分析方法
利用Misa软件对测序结果进行SSR查找,从较短的表达序列标签中挖掘SSR标记位点,识别SSR的重复单元并找寻其侧翼序列,并对数据进行整理分析[27]。其中参数设定为:1~6碱基重复最短的重复数,依次为10、6、5、5、5、5个重复。
2 结果与分析
2.1 枸杞转录组与基因组微卫星丰度及分布密度分析
在本次测序结果中,对枸杞转录组多碱基重复的微卫星进行统计。2碱基重复单元和3碱基重复单元的SSR含量最多,分别占SSR统计总数的49.27%、48.22%,之后依次是4碱基重复(2.18%)、5碱基重复(0.18%)、6碱基重复(0.15%)。含有66种不同重复碱基组成的2碱基重复微卫星,还有由不同重复碱基组成的3碱基、4碱基、5碱基、6碱基重复微卫星,分别有188、59、9、8种。通过对测得的低覆盖度的枸杞转录组的序列进行微卫星查找,从总长为75 398 046 bp的 111 921 个重叠中共查找出5 411个SSR;而基因组中SSR含量最多的是3碱基重复单元,约占SSR统计总数的66.51%。对测得基因组的序列进行微卫星查找,从总长为 260 163 757 bp 的880 315个重叠中共查找出14 733个SSR[28]。利用微卫星密度公式计算得,转录组平均每 13 934.2 bp 出现1个SSR,而基因组平均每17 658.6 bp出现1个SSR[28]。
2.2 枸杞转录组与基因组微卫星优势重复单元类型碱基构成
由图1可知,转录组中在66种2碱基重复单元中,AG/CT基序的数量最多,共1 285个,占48.20%,其次是AT/AT共845个,占31.70%;AC/GT共531个,占19.92%;CG/CG共5个,占0.19%。
由图2可知,在188种3碱基重复单元中,AAC/GTT基序的数量最多,共690个,占26.44%,其次是AAG/CTT,共675个,占25.87%;ATC/ATG共345个,占13.22%;AAT/ATT共340个,占13.03%;ACC/GGT共185个,占7.10%;其余3碱基重复单元数量均较少。
由图3可知,59种4碱基重复单元中,重复类型数量最大的基序为AAAT/ATTT,共35个,占29.66%,其次主要是AAAG/CTTT共34个,占28.81%;AAAC/GTTT共20个,占16.95%。
由图4可知,5碱基重复单元中,AAAAG/CTTTT共2个,占20%,其余均为1个,各占10%。
由图5可知,6碱基重复单元中的基序均为1个,各占12.50%。
综合分析,转录组中2碱基重复数量最多,其次是3碱基重复,其中2碱基重复的优势序列为AG/CT、AT/AT,而6碱基重复丰度最低。
基因组中,在2碱基重复微卫星中AT/TA基序重复的数量最多,共1 806个,占44.7%;在61种3碱基重复单元中,GTT/CAA基序的数量最多,共2 744个,占28.0%,其次是ACA共738个,占7.5%;ATC共709个,占7.2%;AAC共483个,占4.9%;ATG共427个,占4.4%;其余3碱基重复单元数量均较少[28]。
综合分析,基因组中3碱基重复数量最多,2碱基重复数量仅次于3碱基重复,其中3碱基重复的优势序列为GTT/CAA、ACA、ATC;同样6碱基重复丰度最低。
经计算得,枸杞转录组SSR的平均长度为16.19 bp,最长为62 bp,最短为12 bp,其中主要以12~18 bp的微卫星为主,占总数的81.76%,长度>18 bp的微卫星仅占总数的 18.24%。枸杞基因组SSR的平均长度为13.81 bp,最长为36 bp,最短为12 bp。其中主要以12~14 bp的微卫星为主,占总数的64.80%。长度>14 bp的微卫星仅占总数的35.20%[28]。
3 结论与讨论
经测序分析,转录组中在总长为75 398 046 bp的有效读长中发现有5 411个微卫星分布,平均每13 934.2 bp出现1个微卫星;基因组中在总长为260 163 757 bp的有效读长中发现有14 733个微卫星分布,平均每17 658.6 bp出现1个微卫星[28]。转录组SSR和基因组SSR的分布存在明显差异,转录组2碱基重复数量最多,而基因组中则是3碱基最丰富(表1)。并利用SSR密度计算公式D=N/L算出密度。式中:L代表重叠群总长(Mb);N代表各重复微卫星数量(个);D代表不同重复微卫星密度(个/Mb)。
表1 转录组与基因组不同长度重复单元微卫星所占比例及分布密度比较
枸杞转录组平均每13 934.2 bp出现1个微卫星,分布密度为71.6个/Mb。2碱基重复数量最多,占总数的49.3%,其次3碱基重复数量与2碱基相近,占48.2%,其余重复所占比例均较少。2碱基重复单元中,基序数量从多到少分别为AG/CT、AT/AT、AC/GT;3碱基重复单元中分别为AAC/GTT、AAG/CTT、ATC/ATG等。与转录组相比,基因组平均 17 658.6 bp 出现1个微卫星,分布密度为56.6个/Mb,小于转录组分布密度。基因组中3碱基重复最为普遍,所占比例较大,为66.5%,其次是2碱基重复,为27.4%,2、3碱基重复数量差距较大,其余重复所占比例均较小。2碱基重复单元中,基序数量较多的分别为AT/TA、GT/TA、AC/CA;3碱基重复单元中分别为GTT/CAA、ACA、ATC等。转录组SSR与基因组SSR分布特征差异较大,转录组中2碱基重复数量最多,而基因组中则是3碱基重复数量最多,基因组基序数量与种类也与转录组存在显著差异。
同为茄科植物的辣椒(CapsicumannuumL.),从转录组SSR上看,不考虑单碱基重复,2、3碱基重复分别占19.16%、23.18%,碱基重复数量相近,其余重复占很小比例。2碱基重复单元中以AG/CT基序数量最多,占58.02%;3碱基重复单元中以AAC/GTT基序数量最多,占27.8%[29]。辣椒基因组SSR基序中2、3碱基重复分别占22.59%、29.01%,AT/AT、AAT/ATT分别是2碱基和3碱基重复单元中数量最多的基序。由此可见辣椒转录组SSR与基因组SSR分布特征较为类似,2、3碱基的重复数量都较为接近,且3碱基重复略多于2碱基重复[30]。
茄科的另一物种马铃薯(SolanumtuberosumL.)与上述2种植物的SSR分布特征又有不同。马铃薯转录组SSR,以宁薯4号为例,SSR重复类型从2核苷酸重复到9核苷酸重复均有,其中3碱基重复为主要的重复类型,占58.2%,其次是6碱基重复和2碱基重复,分别占12.8%、10.7%,3碱基重复单元中GAA/TTC基序出现的次数最多,占7%[31]。在基因组SSR中,单碱基重复、2碱基重复、3碱基重复这3种重复类型占总SSR位点的94.16%,而4~6碱基重复占 1.24%[32]。可见马铃薯转录组SSR与基因组SSR无论是重复的碱基类型还是主要重复类型都存在较大差异。
有研究发现,单碱基重复和2碱基重复类型的SSR大多位于非编码区,而有部分3碱基重复类型位于编码区,在试验中发现,基因组SSR中,3碱基重复类型要明显多于2碱基重复类型。简化基因组测序是通过对基因组特定区域进行测序来反映部分基因组序列结构信息的测序技术,而表达序列标签(EST)中SSR结构及分布广,不仅可以存在于内含子,也存在于编码区、非编码区和调控区,数量庞大的SSR在基因组中分布均匀,可代表整个基因组。可见在转录组SSR中2、3碱基重复所占比例较大,而且重复数量相近。
根据本次试验结果分析表明,枸杞转录组SSR与基因组SSR分布在主要碱基重复类型上和主要的基序数量上都存在较显著差异,基因组序列能够帮助转录组注释数据,而转录组数据也可对校正基因组注释信息和发现新基因起到帮助,可为研究枸杞性状及多态性提供参考依据。