‘龙岩野柿1号’雄花和两性花花芽的转录组SSR特征分析
2022-09-26李树战王艺儒李华威傅建敏
李树战,王艺儒,孙 鹏,李华威,傅建敏
(1.中南林业科技大学 林学院,湖南 长沙 410004;2.中国林业科学研究院 经济林研究所,河南 郑州 450003;3.经济林种质创新与利用国家林草局重点实验室,河南 郑州 450003)
柿Diospyros kakiThunb.为柿科Ebenaceae柿属Diospyros多年生植物,是我国重要的木本粮食树种,综合利用价值高[1]。柿树起源我国,历史悠久,分布广泛,主要产区为陕西、河南和广西等地[2]。柿花性复杂,绝大多数柿品种为完全雌株,少数品种为雌雄同株和三全同株,仅有野生资源中含有少量的完全雄株[3]。自然界的缺乏,加上生产上对雄株不断改接,使得优良授粉父本严重缺乏,限制了杂交育种的开展,目前在日本甜柿中已出现近交衰退现象[4-5]。通常性别类型的进化过程是由两性花株开始,经雌全同株或雌雄同株阶段分化为雌雄异株,进而分化出三全同株或雄全同株[6]。
目前报道的柿雄全同株性别类型的资源仅有中国林科院经济林所柿属植物创新团队从实生后代中选育出的‘龙岩野柿1号’,经连年观测,‘龙岩野柿1号’花序为三朵合生聚伞形,中心花为两性花的概率大于80%,侧花为两朵雄花[7]。Li等[8]对‘龙岩野柿1号’进行组织及形态学观察,确定了雄全同株样品雄花花芽和两性花花芽的发育关键阶段,并通过激素含量的测定和基因表达量的检测,确定了花芽分化过程中的关键基因。雄全同株材料的发现对阐明柿性别分化机理和人工培育产生可育花粉的优良种质具有重要意义,因此,有必要开发可早期鉴定雄全同株类型的分子标记,加快柿分子标记辅助育种及良种选育进程。
简单重复序列(simple sequence repeat,SSR)一般由1~6个碱基作为基元重复串联而成的DNA序列,在基因组中具有分布广泛、多态性高和结果稳定等优点[9-10]。柿属植物早期通过NCBI上的EST序列等开发SSR引物,获得的SSR引物数量少[11]。随着高通量测序技术的发展,利用转录组数据可快速、大量鉴定SSR位点的序列信息和分布情况,为尚无参考基因组的物种提供了极大的便利。
目前柿属植物中利用转录组开发SSR引物的报道较少,仅有杜改改等[12]对雌雄同株的‘禅寺丸’柿雌雄花芽转录组和张晓娜等[12]对君迁子Diospyros lotus叶片转录组的SSR位点进行分析。本研究基于‘龙岩野柿1号’两个发育关键时期的雄花花芽和两性花花芽的转录组信息,对雄花或两性花发育过程中的基因进行SSR位点的序列特征及分布情况分析,不仅可以丰富柿属植物SSR位点的信息,并且可用于开发柿性别类型相关的SSR分子标记,以期为杂交后代性别类型早期鉴定的分子辅助育种、亲缘关系分析和遗传图谱构建等提供基础数据。
1 材料与方法
1.1 材 料
试验材料为6年生雄全同株的‘龙岩野柿1号’,种植于河南省原阳县中国林业科学研究院经济林研究所原阳基地(34°55′18″~34°56′27″N,113°46′14″~113°47′35″E)。根据Li等[10]对‘龙岩野柿1号’雄花和完全花不同发育阶段的细胞学观察,选取三朵合生花序完全显现和雄花雌蕊原基败育2个阶段进行转录组测序。
1.2 转录组测序及组装
使用TRIzol试剂(Invitrogen,Carlsbad,CA,USA)提取花芽总RNA,质量检测合格后,用Illumina TruSeq RNA样品制备的试剂盒(Illumina,San Diego,CA,USA)构建mRNA测序文库。cDNA文库质检合格后,委托深圳华大基因生物科技有限公司进行转录组测序,测序平台为BGIseq500平台。使用Trinity对过滤后的clean reads进行de novo组装,在此基础上对组装的转录本聚类和去冗余,得到unigenes作为参考序列,用于后续分析[14-15]。转录组测序原始数据已上传至NCBI SRA数据库(PRJNA647029)。
1.3 SSR分析
采用默认参数运行MISA软件(https://webblast.ipk-gatersleben.de/misa/)[16],搜索的单碱基类型SSR重复数≥10、双碱基类型重复数≥6和三、四、五、六碱基类型重复数≥5的SSR位点,并对SSR位点的数量和分布等相关特征进行分析。
2 结果与分析
2.1 ‘龙岩野柿1号’SSR位点的数量
‘龙岩野柿1号’的雄花和两性花花芽经高通量测序,共获得了82 910条unigenes,序列总长度为114 119 802,平均长度为1 376 bp。运用MISA软件,在默认参数条件下对全部unigenes进行SSR位点搜索,共获得38 751个SSR位点,出现频率为46.74%,SSR位点的平均分布密度为0.34个/kb,即平均每2.94 kb会出现1个SSR。这些SSR位点分布在25 349条unigenes上,发生频率为30.57%。其中含有1个以上SSR位点的unigenes序列有8 481条,占总unigenes序列数的10.23%;含有复合型SSR位点的unigenes序列有4 799条,占总unigenes序列数的5.79%。可以认为‘龙岩野柿1号’雄花及两性花花芽转录组中的SSR位点比较丰富。
表1 ‘龙岩野柿1号’转录组信息及SSR分析结果Table 1 Analysis of SSR and information of the D.kaki ‘Longyanyeshi 1’ transcriptome data
2.2 ‘龙岩野柿1号’转录组SSR重复类型分析
对‘龙岩野柿1号’转录组的SSR位点进行各重复类型的数目、占比及出现频率等进行分析,结果如表2所示。SSR重复类型丰富,单碱基重复类型至六碱基重复类型均存在,但重复类型间的SSR位点数目有较大差异,双碱基重复类型SSR位点数目最多,占总SSR位点数的50.59%,在unigenes上的出现频率为50.59%,平均分布距离最近,每5.82 kb就会出现一个双碱基重复类型SSR位点。五碱基重复类型SSR位点数目最少,占总SSR位点数的0.36%,出现频率为0.17%,平均分布距离最远,为815.14 kb。
表2 ‘龙岩野柿1号’转录组SSR重复基元类型数量和分布Table 2 Number and distribution characteristics of SSR repeat types in the transcriptome of D.kaki ‘Longyanyeshi 1’
2.3 ‘龙岩野柿1号’转录组SSR重复基元特征分析
‘龙岩野柿1号’转录组的38 751条SSR位点共由148种重复基元构成,单碱基重复至六碱基重复分别有2、4、10、28、34和70种基元。以AG/CT为重复基元的SSR数目最多(13 622个,占比35.15%)),其次为A/T(8 834,22.8%)、
AT/AT(4183,10.79%)、AAG/CTT(3 011,7.77%)和AC/GT(1 737,4.48%)。单碱基重复以A/T为优势重复基元,出现频率为10.65%;双碱基重复的优势重复基元为AG/CT,出现频率为16.43%;三碱基重复的优势基元为AAG/CTT,出现频率为3.63%;四碱基重复的优势基元为AAAG/CTTT(174,0.45%),出现频率为0.21%;五碱基重复和六碱基重复的重复基元类型丰富,但数量较少,优势基元分别为AAAAG/CTTTT(35,0.09%)和AGGGCG/CCCTCG(19,0.05%),出现频率均不足0.1%。另外,在‘龙岩野柿1号’转录组中还发现了以CG/CG(63,0.16%)和CCG/CGG(696,1.80%)为重复基元的SSR位点,出现频率分别为0.08%和0.84%。
表3 ‘龙岩野柿1号’转录组SSR重复基元序列特征Table 3 Characteristics of SSR motifs in the transcriptome of D.kaki ‘Longyanyeshi 1’
2.4 ‘龙岩野柿1号’转录组各基元重复次数分析
由表4可知,‘龙岩野柿1号’转录组SSR位点的基元重复次数以5~20为主,占SSR位点总数的98.47%,且重复基元的数量随重复次数的增加呈现降低的趋势。单碱基重复的重复次数集中在10~16次,占单碱基重复类型SSR位点数的89.34%;双碱基重复的重复次数集中于6~16次,占双碱基重复类型SSR位点数的93.62%;三碱基重复至六碱基重复的重复次数均集中于5~8次。低重复(1~5次)的SSR位点数有4 779个,占SSR位点总数的12.33%;较低重复(6~15次)的SSR位点数有30 618个,占SSR位点总数的79.01%;中度重复(16~20次)和高度重复(20次以上)的SSR位点数分别有2 763和591个,占SSR位点总数的7.13%和1.53%。
表4 ‘龙岩野柿1号’转录组SSR不同重复类型的重复次数Table 4 Repeat times of different SSR repeat types in the transcriptome of D.kaki ‘Longyanyeshi 1’
2.5 ‘龙岩野柿1号’转录组SSR序列长度分析
对‘龙岩野柿1号’转录组SSR长度进行分析,发现序列长度变化范围较大,为10~94 bp(图1),平均长度为17.78 bp,主要集中于10~30 bp。共有4 406个SSR序列长度<12 bp,占SSR总数的11.37%;序列长度介于12~20 bp之间的SSR数目最多,为22 614个,占比58.36%;11 731个SSR序列长度≥20 bp,占比30.27%。单碱基重复类型SSR长度范围最大,为12~94 bp,平均长度为12.78 bp;双碱基重复SSR长度范围为12~84 bp,平均长度为19.26 bp;三碱基重复、四碱基重复和五碱基重复的SSR序列长度为15~78、20~48和25~40 bp,平均长度分别为19.12、21.93和25.97 bp;六碱基重复类型SSR长度范围最小,为30~48 bp,平均长度最长为31.47 bp。
图1 ‘龙岩野柿1号’转录组中的SSR长度分布Fig.1 SSR length distribution in the transcriptome of D.kaki ‘Longyanyeshi 1’
3 讨 论
随着高通量转录组测序的发展,可快速、高效地研究基因的表达水平、定位功能基因并开发分子标记[17]。本研究对‘龙岩野柿1号’雄花花芽和两性花花芽在两个关键发育期的转录组数据进行了SSR序列特征分析,共计获得了38 751个SSR位点,分布于25 349条unigenes上,SSR位点在unigenes上的发生频率为30.57%,远大于同为柿属植物的君迁子(10.71%)[13]。‘龙岩野柿1号’花芽转录组中的SSR位点平均分布距离为2.94 kb,与‘禅寺丸’柿花芽转录组中的SSR位点较为接近(2.3 kb)[12],小于柿近缘种君迁子叶片的SSR位点(5.52 kb)[13],平均分布距离的差异可能与柿属植物间的亲缘关系、采样组织的测序深度和拼接质量及MISA软件设置的参数等原因相关[18]。‘龙岩野柿1号’转录组的SSR位点丰富,对性别分化研究、亲缘关系分析及分子标记开发等具有重要意义。
SSR碱基重复类型共有6种,且在不同物种中的出现频率存在明显差异[19]。‘禅寺丸’柿以单碱基重复类型SSR位点数量最多,占比47.63%[12];君迁子以单碱基重复和双碱基重复类型SSR位点为主,分别占比39.87%和37.22%[13];而‘龙岩野柿1号’双碱基重复类型SSR位点数目最多,占比23.65%,这与花椰菜[20]、党参[21]、茶树[22]和中国樱桃[23]一致。单碱基重复和双碱基重复类型是柿属植物主导碱基重复类型,这与植物转录组SSR位点常以单碱基、双碱基和三碱基重复为优势重复类型的规律相一致[24]。在搜索到的全部SSR位点中,单碱基、双碱基和三碱基重复类型分别以A/T、AG/CT和AAG/CTT为优势重复基元,与柿属植物君迁子和柿‘禅寺丸’一致,与茶树[25]和楠木[26]完全一致,但在双碱基和三碱基重复上分别与苦楝[27]和草原1号杂花苜蓿[19]有所区别,可能与不同物种间编码蛋白的使用差异有关[28]。另外,在‘龙岩野柿1号’转录组数据中还检索到了63个高等植物中不常见的以CG/CG为重复基元的SSR位点,远高于腊梅[29](6个)、杜仲[30](1个)和甘蓝[31](1个),还检索到了696个双子叶植物不常出现的以CCG/CGG为重复基元的SSR位点,这些SSR位点的出现可能与抗逆和代谢等特定的生理功能有关,也表明‘龙岩野柿1号’SSR位点较为丰富,可据此开发更多特异的SSR分子标记。
SSR位点的多态性是对其应用价值进行评价的重要指标,影响SSR序列多态性的主要因素包括基元长度和基元重复次数。对‘龙岩野柿1号’转录组中SSR重复次数进行分析,发现重复次数范围较大,但以5~20为主,且SSR位点的数目随着重复次数的增加呈现降低的趋势。高级重复类型SSR位点(四、五和六碱基重复)的多态性普遍低于低级重复类型(单、二和三碱基重复)[32]。‘龙岩野柿1号’转录组中双碱基重复类型SSR的基元重复次数跨度较大并且重复次数相对较多,这一类型的SSR位点可能具有较高的多态性。另外,SSR序列长度<12 bp多态性较低,序列长度12~20 bp多态性中等,序列长度≥20 bp多态性较高[32]。‘龙岩野柿1号’转录组中序列长度≥20 bp的SSR位点占比30.27%,远高于‘禅寺丸’柿[12](13.15%)、美国红枫[33](11.27%)、大花序桉[34](16.12%)和银杏[35](11.44%)。‘龙岩野柿1号’转录组中的这些多态性较高的SSR位点具有较高的应用价值,在柿属植物的分子标记开发过程中具有较大的潜能。
综上所述,雄全同株柿‘龙岩野柿1号’转录组SSR位点碱基重复类型以单碱基重复、双碱基重复和三碱基重复为主,较为丰富,且30.27%的SSR序列长度≥20 bp,多态性强,说明利用价值较高。但目前本项研究仅对转录组获得的序列进行SSR位点搜索和特征分析,并未根据SSR位点信息进行引物开发和验证,这也是后续拟开展的研究内容,即根据该研究获得的SSR位点,针对不同性别类型,设计对应的SSR分子标记,用于杂交后代性别类型早期鉴定及遗传多样性分析。
4 结 论
本项研究基于‘龙岩野柿1号’2个发育关键时期的雄花和两性花花芽转录组的测序数据,检索转录水平上的SSR位点,并进行序列特征和分布情况的分析,在25 349条unigenes上获得了38 751条SSR序列,发生频率高(30.57%),共有11 731个SSR位点的序列长度≥20 bp(30.27%)。重复基元类型丰富,单至六碱基重复基元类型均有分布,以单、双和三碱基重复为主,序列长度≥20 bp的SSR位点占比30.27%,有较高多态性潜能的SSR位点。据此可以认为‘龙岩野柿1号’雄花和两性花花芽转录组获得的SSR位点具有较大的应用潜力,对后期种质资源遗传多样性分析、性别类型相关分子标记的开发、杂交后代早期鉴定及分子标记辅助育种具有重要意义。