基于生物信息学的睡莲SSR位点特征分析
2021-12-14王凌云李春牛李先民黄展文王虹妍
苏 群,田 敏,刘 俊,王凌云,李春牛,李先民,黄展文,王虹妍*
(1.广西农业科学院花卉研究所,广西 南宁 530007;2.云南省农业科学院花卉研究所/国家观赏园艺工程技术研究中心,云南 昆明 650200;3.广州市番禺区莲花山旅游区,广东 广州 511400;4.金华市农业科学研究院,浙江 金华 321000)
【研究意义】睡莲为睡莲科(Nymphaeaceae)睡莲属(NymphaeaL.)多年生草本宿根花卉[1],其花朵挺于或浮于水面,香味馥郁芬芳,色彩绚丽而多变,是极好的园林造景素材;花梗和叶梗可作蔬菜食用,且根茎具有良好的净化水质作用[2-3]。蓝星睡莲(N.colorata)具有其他园林花卉中不常见的纯蓝色花瓣,是睡莲育种中蓝色基因亲本的来源之一,且基因组有较小[4];小花睡莲(N.micrantha)叶片具胎生能力,可短时间内繁殖大量个体,是培育胎生品种的重要亲本。但目前有关睡莲分子遗传学和分子生物学及针对睡莲属植物开展特异性分子标记的研究较少[5],在睡莲属植物群体遗传结构分析及分子层面品种鉴定等相关工作严重滞后,睡莲优质种质资源的筛选和后续开发利用进展缓慢。因此,分析蓝星睡莲和小花睡莲叶片转录组测序产生的Unigene及蓝星睡莲全基因组序列的简单重复序列(SSR)位点特征,对睡莲属植物种质资源鉴定、遗传多样性分析及遗传连锁图谱构建均具有重要意义。【前人研究进展】Peter等[6]、苏群等[7]研究发现,ISSR分子标记可应用于睡莲属植物的遗传多样性分析,ISSR分子标记为单引物标记,虽具有较好的种属间通用性,但其特异性相对较差。SSR为共显性分子标记(第二代分子标记技术),具有分布广、重复性好、多态性高、种属间通用性良好、信息量大及结果稳定等优点[8],已广泛应用于植物种质资源库[9-10]和DNA指纹图谱构建[11]、群体遗传多样性分析[12-13]及连锁遗传图谱构建[14-15]等。传统SSR分子标记的开发与合成投入高、难度大、耗时长相对费时,而转录组测序技(RNA-Seq)属于新一代高通量测序技术,可为低廉、高效、大规模地开发SSR分子标记提供新的有效方法。杨彬等[16]利用云锦杜鹃转录组数据开发出8439对SSR引物,随即合成的45对引物中有32对引物扩增出多态性条带。段豪等[17]对天竺桂根部和叶片组织进行转录组测序,利用Primer 3.0设计EST-SSR引物,并随机挑选50对SSR引物,测出可进行有效扩增引物23对,其中7对引物具有多态性。许岳军等[18]利用苎麻转录组数据开发出1214对EST-SSR引物,其中有216对引物表现出良好的多态性,占总引物的17.79%。可见,根据转录组数据开发的EST-SSR分子标记简便而可行,具有较好的实用性。杨梦婷等[19]研究认为,EST-SSR扩增效果较好,与已知功能基因密切相关,转染水平高,共显性遗传,但其多态性较低。【本研究切入点】至今,鲜见针对以睡莲属植物开发强特异性SSR分子标记的研究报道。【拟解决的关键问题】利用本课题组前期研究获得的蓝星睡莲和小花睡莲叶片转录组Unigene及已公开发表的蓝星睡莲基因组数据,以MISA(http://pgrc.ipk-gatersleben.de/misa)进行SSR位点搜索,并统计分析SSR位点出现的频率、基元序列长度和基元类型等,以期为睡莲属植物种质资源鉴定、遗传多样性分析及遗传连锁图谱构建等提供基础数据。
1 材料与方法
1.1 试验材料
蓝星睡莲和小花睡莲4个不同发育阶段叶片转录组测序产生的Unigene序列(NCBI登录号GSE164888)由本课题组在前期研究获得;蓝星睡莲全基因组数据(ftp://download.big.ac.cn/gwh/Plants/Nymphaea_colorata_Nym_GWHAAYW0000 0000/GWHAAYW00000000.genome.fasta.gz)已于2019年公开发表[4]。
1.2 试验方法
以MISA进行SSR位点搜索,并统计、分析蓝星睡莲和小花睡莲叶片转录组及已公开发表的蓝星睡莲全基因组中SSR位点出现的频率、基元类型和基元序列长度等。选择默认参数,对应的各重复基元类型为二核苷酸至少重复6次,三核苷酸~六核苷酸至少重复5次。采用荧光毛细血管电泳法,利用8份形态差异较明显的睡莲属植物筛选和验证合成的144对SSR引物。
1.3 统计分析
试验数据采用Excel 2016进行统计分析,使用GeneMarker读取引物筛选基因型数据。
2 结果与分析
2.1 睡莲叶片转录组和基因组中SSR位点的分布情况
在蓝星睡莲和小花睡莲叶片转录组的114 762个Unigenes序列中共搜索到38 998个SSR位点(表1),其中完整型SSR位点30 124个,复合型SSR位点8874个,实际以全部38 998个SSR位点进行分析;SSR位点出现频率为33.98%,平均分布距离11.94 kb,即在睡莲转录组中平均11.94 kb就出现1个SSR位点,说明SSR较丰富,可为后期SSR引物的开发提供丰富基础数据。在蓝星睡莲基因组中共搜索到249 029个SSR位点,其中完整型SSR位点163 265个,复合型SSR位点85 764个,实际以全部249 029个SSR位点进行分析;平均分布频率为609.0个/Mb,即在蓝星睡莲基因组中平均1.0 Mb分布609.0个SSR位点;SSR基元序列总长度为2 775 181 bp,总平均为27.25 bp,占基因组大小的0.68%。在蓝星睡莲和小花睡莲叶片转录组及蓝星睡莲基因组的SSR重复基元中,以二核苷酸和单核苷酸的重复次数最多,分别为19 059次(占48.87%)和15 999次(占41.03%)、128 748次(占51.70%)和108 006次(占43.37%),而三核苷酸和四核苷酸在转录组和基因组的SSR重复基元中分别出现3694次(占9.47%)和183次(占0.47%)、9657次(占3.88)和1609次(占0.65%)。
从表1还可看出,在蓝星睡莲和小花睡莲叶片转录组中,二核苷酸的平均分布距离最短,其次为单核苷酸和三核苷酸,分别为24.43、29.01和126.03 kb,五核苷酸的平均分布距离最长,达16 626.79 kb。在蓝星睡莲基因组中,二核苷酸平均1.0 Mb分布315.0个SSR位点,其次为单核苷酸的264.0个和三核苷酸的24.0个,五核苷酸分布的SSR位点最少,平均1.0 Mb分布0.7个。
综上所述,蓝星睡莲和小花睡莲二核苷酸和单核苷酸的SSR位点出现数量及频率远高于其他重复基元类型核苷酸,蓝星睡莲基因组中的单核苷酸和二核苷酸重复占比略高于蓝星睡莲和小花睡莲叶片转录组。
图1 蓝星睡莲和小花睡莲转录组及蓝星睡莲基因组的SSR基元重复次数比较Fig.1 The number of SSR repeat motifs in the transcriptome of N.colorata and N.micrantha and in the genome of N.colorata
2.2 睡莲叶片转录组和基因组中SSR基元的重复次数比较
从图1可看出,在蓝星睡莲和小花睡莲叶片转录组中,SSR重复基元以单一重复10次最多,重复数达8001个;重复6次的有5818个,重复11次的有4529个,重复9次的重复数最少,为2085个;重复基元重复11次以上的各重复次数合计有9853个。在蓝星睡莲基因组中,SSR重复基元也以单一重复10次最多,重复次数达54 579个;重复11次的有30 078个,重复6次的有26 754个,重复7次的有18 555个;重复11次以上的各重复次数合计有85 406个。可见,在蓝星睡莲和小花睡莲叶片转录组及蓝星睡莲基因组中,SSR重复基元均以重复10次的最多,重复基元重复6次和11次的也占有较高比例。
由表2可知,蓝星睡莲和小花睡莲叶片转录组中单核苷酸重复基元有A/T和C/G 2种类型,其中A/T型占整个转录组重复基元的40.13%;二核苷酸重复基元有AG/TC、AC/TG、AT/TA和CG/GC 4种类型,各类型占整个转录组重复基元的比例排序为AG/TC(31.41%)>AC/TG(8.73%)>AT/TA(8.60%)>C/G(0.13%),其中AG/TC型在二核苷酸重复基元中占绝对多数;三核苷酸重复基元有10种类型,其在整个转录组重复基元中占比排名前3位的类型排序为AAG/TTC(3.50%)>AGG/TCC(1.41%)>AGC/TCG(1.23%),而ACT/TGA型在整个转录组重复基元中占比最低,仅占0.07%;四核苷酸中主要重复基元有8种类型,各类型占比均较低,占比最高的为AAAT/TTTA型,最低的为AAAC/TTTG型(0.02%);五核苷酸和六核苷酸各基元重复类型总计占比非常低,分别为0.07%和0.09%。
表1 蓝星睡莲和小花睡莲叶片转录组及蓝星睡莲基因组SSR的分布特征
表2 蓝星睡莲和小花睡莲叶片转录组及蓝星睡莲基因组SSR重复基元类型比较
在蓝星睡莲基因组中,单核苷酸重复基元有A/T和C/G 2种类型,其中A/T型占整个基因组重复基元的41.69%,略高于转录组中的A/T型占比;二核苷酸重复基元有6种类型,其中在整个基因组重复基元中占比排名前3位的类型排序为AT/TA(22.47%)>AG/TC(12.19%)>CT/GA(9.74%);三核苷酸重复基元主要有10种类型,其中在整个基因组重复基元中占比排名前3位的类型排序为AAG/TTC(0.57%)>AGA/TCT(0.46%)>CTT/GAA(0.44%);四核苷酸重复基元主要有9种类型,各类型在整个基因组重复基元中占比均较低,占比最高的为ATAA/TATT型和AAAT/TTTA型,最低的为AGAA/TCTT型。
综上所述,在转录组和基因组的单核苷酸重复基元中,A/T型占比均在40.00%以上,为优势重复基元;在二核苷酸重复基元中,AG/TC和AT/TA型占比较高,且远高于其他类型重复基元,为优势重复基元,均含有丰富的A/T核酸。
2.3 睡莲叶片转录组和基因组中SSR基元的长度比较
由表3可知,蓝星睡莲和小花睡莲叶片转录组SSR基元序列总长度为465 550 bp,总平均为21.65 bp,其中,二核苷酸重复类型SSR基元序列的总长度最长,为240 766 bp,平均为18.53 bp;单核苷酸和三核苷酸重复类型SSR基元序列的总长度次之,分别为167 917和52 665 bp,平均分别为12.01和17.72 bp;四核苷酸~六核苷酸重复类型SSR基元序列的平均长度依次增大,分别为22.33、25.65和33.68 bp。蓝星睡莲基因组SSR基元序列总长度为2 775 181 bp,总平均为27.25 bp,其中,二核苷酸重复类型SSR基元序列的总长度最长,为1 544 754 bp,平均为23.33 bp;单核苷酸重复类型SSR基元序列总长度为1 048 644 bp,平均为11.84 bp;三核苷酸~六核苷酸重复类型SSR基元序列总长度分别为128 505、14 580、5290和33 408 bp,平均分别为18.23、21.92、27.41和60.74 bp。可见,在蓝星睡莲和小花睡莲叶片转录组和基因组各重复类型SSR基元序列的总长度中,均以二核苷酸重复类型SSR基元序列的长度最长,单核苷酸~六核苷酸重复类型SSR基元序列的平均长度呈增大趋势。
从图2可看出,在蓝星睡莲和小花睡莲叶片转录组及蓝星睡莲基因组中,SSR基元数均随着基元长度的增加呈下降趋势。其中,长度为10~20 bp的SSR基元最多,分别为29 367和168 201个,各占对应总SSR基元数的75.30%和67.54%;长度为21~30 bp的SSR基元分别为4223和22 272个,各占对应总SSR基元数的10.83%和8.94%;长度为31~40 bp的SSR基元分别为1908和12 858个,各占对应总SSR基元数的4.89%和5.17%;长度大于40 bp的SSR基元分别为3500和45 688个(长度大于100 bp的SSR基元累计分别为777和12 902个),分别占对应总SSR基元数的8.98%和18.35%。可见,蓝星睡莲和小花睡莲叶片转录组及蓝星睡莲基因组中的低级基元类型非常丰富,种类较多,具有开发为高多态性SSR引物的潜力。
图2 蓝星睡莲和小花睡莲转录组及蓝星睡莲基因组SSR基元长度的分布情况Fig.2 Distribution of SSR motif length in the transcriptome of N.colorata and N.micrantha and in the genome of N.colorata
表3 蓝星睡莲和小花睡莲叶片转录组及蓝星睡莲基因组各重复类型SSR基元序列的长度比较
A~H分别代表睡莲属样本紫色幻想、米奴塔、小花睡莲、增值睡莲、喀麦隆、小白子午莲、墨西哥黄睡莲和白巨睡莲 A-H correspond to Nymphaea samples N.purple fantasy,N.minnuta,N.micrantha,N.prolifera wiersema,N.zenkeri,N.tetragona,N.maxicana,N.gigantea Albert de Lestang图3 SSR引物NtG006在8份睡莲样本中的毛细管电泳结果Fig.3 The capillary electrophoresis of SSR primers NtG006 in eight water lily samples
2.4 睡莲SSR引物筛选结果
以蓝星睡莲和小花睡莲叶片转录组及蓝星睡莲基因组数据合成144对SSR引物,采用荧光毛细血管电泳法,选取8份形态差异较明显的睡莲属植物为筛选样本进行验证。图3为引物NtG006在8份睡莲属植物样本中的毛细管电泳结果,从图3可看出,在预设产物为120~160 bp间出现1~2个较好的峰值,经重复试验后,不同样本间峰值稳定,说明引物NtG006在睡莲属植物样本中具有较好的扩增性和多态性。最终从合成的144对SSR引物中筛选出12对扩增性好且多态性高的SSR引物(表4),可用于睡莲属植物种质资源鉴定、遗传多样性分析及遗传连锁图谱构建。
表4 12对扩增性好且多态性高的SSR引物序列信息
3 讨 论
本研究结果表明,从蓝星睡莲和小花睡莲叶片转录组获得的114 762个Unigene序列中共搜索到38 998个SSR位点,SSR位点出现频率为33.98%,高于木本植物的油茶(33.58%)[20]、牡丹(29.19%)[21]和南酸枣(25.52%)[22],也高于草本植物的密花香薷(28.10%)[23]、云南火焰兰(5.95%)[24]、金钗石斛(15.78%)[25]和山地虎耳草(7.25%)[26];在蓝星睡莲基因组中共搜索到249 029个SSR位点,占蓝星睡莲全基因组大小的0.68%,平均分布频率为609.0个/Mb,略低于木荷的644.0个/Mb[27],高于灯盏花的190.0个/Mb[28]和茶树的272.0个/Mb[29]。说明睡莲具有丰富的SSR位点。
多数植物的SSR基元重复类型虽存在明显差异,但均以二核苷酸和三核苷酸重复类型为主[30-31]。本研究中,睡莲基元重复类型最多的为二核苷酸,其次为单核苷酸和三核苷酸,其中,转录组中的二核苷酸基元重复频率(16.61%)>单核苷酸基元重复频率(13.94%)>三核苷酸基元重复频率(3.22%),基因组中的二核苷酸分布频率(315.0个/Mb)>单核苷酸分布频率(264.0个/Mb)>三核苷酸分布频率(24.0个/Mb),与灯盏花的基元重复类型相似[28]。可见,无论是转录组还是基因组,均以二核苷酸重复基元占主导地位。本研究还发现,在蓝星睡莲和小花睡莲叶片转录组SSR重复基元类型中,单核苷酸以A/T型为主(占比40.13%),二核苷酸以AG/TC、AC/TG和AT/TA型(分别占31.41%、8.73%和8.60%)为主,三核苷酸以AAG/TTC型(占3.50%)为主,四核苷酸以AAAT/TTTA(占0.13%)为主;而在蓝星睡莲基因组中,单核苷酸以A/T型为主(占41.96%),二核苷酸以AT/TA型、AG/TC和CT/GA型(分别占22.47%、12.19%和9.74%)为主,三核苷酸以AAG/TTC型(占0.57%)为主,四核苷酸以ATAA/TATT和AAAT/TTTA型(均占0.09%)为主。可见,在转录组和基因组中,数量较多的重复基元(优势重复基元)均为A/T、AG/TC、AT/TA、AAG/TTC和AAAT/TTTA,说明这些重复基元中含有丰富的A/T核酸,与前人对木荷[27]、火龙果[32]、中国樱桃[33]、黑麦草[34]等植物的研究结果一致。
SSR基元长度是影响SSR多态性的主要因素[35]。已有研究表明,SSR基元长度大于20 bp时具有较高的多态性,小于20 bp时SSR的多态性随着SSR基元长度的减少而降低[29]。本研究中,睡莲叶片转录组和基因组中长度为10~20 bp的SSR基元数最多,分别占总SSR基元数的75.30%和67.54%;长度大于20 bp的SSR基元数占对应总SSR基元数的24.7%和32.46%,表现出较高的多态性;低级基元类型SSR的多态性普遍高于高级基元类型SSR,二核苷酸和三核苷酸中长度大于20 bp的基元序列可作为潜在的SSR引物序列信息给予重点考虑,与Dreisigacker等[36]的研究结果相似。
4 结 论
蓝星睡莲和小花睡莲叶片转录组及蓝星睡莲基因组SSR中的低级基元类型非常丰富,种类较多,具有开发为高多态性SSR引物的潜力;筛选出12对扩增性好且多态性高的SSR引物可用于开展睡莲属植物种质资源鉴定、遗传多样性分析及遗传连锁图谱构建等研究。