小果甜柿果实转录组的SSR、SNP和InDel特征分析
2022-07-12王艺儒索玉静傅建敏
王艺儒,索玉静,傅建敏
(中国林业科学研究院 经济林研究所,经济林种质创新与利用国家林业局重点实验室, 河南 郑州450003)
柿(DiospyroskakiThunb.)为柿科(Ebenaceae)柿属(Diospyros)植物,有“木本粮食”之称[1]。中国甜柿是我国原产完全甜柿(PCNA)的统称,在果实硬食期即可自然脱涩,其自然脱涩机理以单宁的凝固效应为主。中国甜柿与日本甜柿各自独立起源,日本甜柿自然脱涩性状受隐性单基因控制,而中国甜柿自然脱涩性状呈显性遗传的特点,该特点使其在杂交育种中较日本甜柿更具潜力[2]。开展杂交育种是获得甜柿新种质的重要手段,但对于柿育种而言,较长的童期增加了育种成本,因此有必要开发有效的分子标记,在育苗阶段将完全甜柿筛选出来,以节约时间和成本,提高种质创新与育种效率。目前柿属植物中仅有针对二倍体柿近缘种油柿和君迁子基因组的报道[3-5],而对六倍体柿基因组的研究缺乏,这在一定程度上限制了柿重要性状的分子辅助育种进程。
DNA分子标记的开发对植物分子遗传育种具有重要意义,因为分子标记具有稳定遗传、不受取材部位限制和不受环境影响等优点[6]。目前,分子标记广泛应用于亲缘关系及遗传多样性分析[7-8]、遗传图谱构建[9]、基因定位[10]、分子标记辅助育种[11]和品种纯度鉴定[12]等研究中。在柿属植物中报道过利用核酸数据库中的氨基酸序列信息[13]、富集CT/AG的基因组文库[14]和NCBI上的柿属EST序列[15]开发简单重复序列(simple sequence repeat,SSR)引物,但SSR引物数目较少。随着转录组的发展,杜改改等[16]、张晓娜等[17]分别以‘禅寺丸’柿雌雄花芽和君迁子不同单株叶片的转录组数据对其SSR和单核苷酸多态性(single nucleotide polymorphisms,SNP)位点进行分析,一定程度上丰富了柿属植物SSR和SNP的引物来源。
目前柿属植物SSR分子标记可用于品种鉴定的位点仍然偏少,而SNP和插入/缺失多态性(insenion-deletion,InDel)分子标记尚未应用于柿属植物研究中,可用于鉴别中国甜柿的引物则更为缺乏。转录组测序方法为尚无基因组的非模式物种基因功能及分子标记的开发提供了便利[18]。本研究对中国甜柿品种小果甜柿5个发育期的果实转录组数据进行SSR、SNP和InDel位点分析,以丰富中国甜柿的SSR、SNP及InDel数据,为开发中国甜柿特异性分子标记、品种早期鉴定和遗传多样性分析提供理论基础。
1 材料与方法
1.1 材 料
试验材料为种植于中国林业科学研究院经济林研究所原阳基地(34°55′18″ N~34°56′27″ N,113°46′14″ E~113°47′35″ E)的中国甜柿传统小果类型种质(文中统称为小果甜柿)。由于中国甜柿自然脱涩时间较晚,根据Guan等[19]建立的柿不同发育期描述规范,分别于果实生长到最终大小的40%阶段(07-24,花后70 d)、50%阶段(08-24,花后100 d)和70%阶段(09-14,花后120 d)及果实成熟期着色阶段(10-04,花后140 d)、果实开始成熟阶段(10-24,花后160 d)采样,共采样5次,最后一次采样时已完全脱涩。采集大小一致、无机械损伤及病虫害的柿果,迅速取3个果的赤道部果肉液氮速冻,作为1次生物学重复,共3次重复。
1.2 柿果总RNA的提取
使用UNlQ-10柱式Trizol总RNA抽提试剂盒(B511321,上海生工)对小果甜柿各时期果实的总RNA进行提取,用Merinton SMA4000紫外可见微量分光光度计和1.5%琼脂糖凝胶电泳检测RNA的质量和完整性。
1.3 转录组测序及数据组装
总RNA质量检测合格后,委托北京诺禾致源构建cDNA文库并进行转录组测序。cDNA文库质检合格后进行Illumina测序,采用Trinity拼接获得transcripts,在此基础上进行Corset层次聚类,挑选其中最长的一条参考序列unigene作为后续分析用。
1.4 SSR、SNP和InDel的分析方法
采用MISA软件的默认参数(https://webblast.ipk-gatersleben.de/misa/)对SSR位点进行搜索,过滤掉单碱基类型SSR重复数<10、双碱基类型重复数<6和三、四、五、六碱基类型重复数<5的SSR,分析各类型SSR重复基元的位点数、出现频率、平均分布距离及其优势重复基元、重复次数、序列长度的分布特征。用软件GATK3进行SNP Calling和InDel Calling,过滤掉质量值<40和距离<2的SNP及InDel,分析其位点类型、数量、发生频率及位点数目分布特征。
2 结果与分析
2.1 小果甜柿果实的总RNA质量检测
小果甜柿果实5个发育时期总RNA在1.5%琼脂糖凝胶中的电泳结果如图1所示,28S及18S条带明亮且亮度比为2∶1,说明RNA完整性合格;A260/A280均大于1.8(表1),即RNA纯度较高;表明RNA完整性、纯度及质量浓度均满足转录组测序要求,可用于后续试验。
1-1表示果实第1个发育期的第1个重复,其他依此类推
表1 小果甜柿果实的RNA纯度及质量浓度
2.2 小果甜柿转录组信息及SSR位点的数量
对小果甜柿果实转录组测序,将 Trinity 拼接得到的转录本进行Corset层次聚类,以得到最长的Cluster序列,结果共获得85 432条unigenes,含93 435 470个核苷酸,序列长度介于301~16 015 bp,unigenes平均长度为1 094 bp,将拼接转录本从长到短排序,N50(累计转录本长度不小于总长50%时的长度)为1 704 bp。运用MISA软件对全部unigenes进行搜索,发现有42 427个SSR位点分布于26 928条unigenes上,发生频率为31.52%,SSR位点的平均分布密度为0.45个/kb。其中有9 273条unigenes序列中含1个以上SSR位点,1 726条unigenes序列中含有复合型SSR位点。据此认为小果甜柿转录组中的SSR位点分布广泛、位点丰富。
2.3 小果甜柿果实转录组中SSR位点的重复基元类型与统计分析
对小果甜柿转录组中SSR 位点各碱基重复基元类型的数量及比例等进行统计分析,结果(表2)显示,SSR重复基元类型丰富,从单碱基到六碱基重复均有分布,但不同重复基元类型的SSR位点数目有较大差异,表现出随重复基元类型的碱基数增多SSR序列数量减少的趋势;以单碱基重复的SSR位点数量最多,含18 805个SSR位点;六碱基重复的SSR位点数最少,为130个;单碱基和六碱基重复SSR位点数分别占转录组总SSR位点数的44.32%和0.31%,2种类型在转录组unigenes中的出现频率分别为22.01%和0.15%。单碱基重复的SSR平均分布距离最小,为4.54 bp;而六碱基重复的SSR平均分布距离最大,高达 657.17 bp。
表2 小果甜柿转录组中SSR重复基元类型及其基本统计信息
2.4 小果甜柿转录组SSR位点优势重复基元的分布特征
对小果甜柿转录组SSR位点基元数目进行统计,发现出现频率最高的5类基元分别为A/T(17 356,占总SSR的比例为40.91%)、AG/CT(10 224,占比24.10%)、AT/AT(4 874,占比11.49%)、AC/GT(2 247,占比5.30%)和AAG/CTT(1 980,占比4.67%)(图2)。分析不同SSR基序重复基元类型优势碱基的出现频数表明,小果甜柿全部SSR位点共包含159种重复基元,单碱基重复至六碱基重复分别包含2,4,10,28,38和77类基元。其中,单碱基重复以A/T基元类型占绝对优势;双碱基重复的优势基元类型为AG/CT;三碱基重复的优势基元类型为AAG/CTT;四碱基重复的优势基元类型为AAAG/CTTT(共123个,占比0.29%);五碱基重复和六碱基重复的基元类型较多但数量少,优势基元类型分别为AAAAG/CTTTT(共27个,占比0.06%)和AAAAAG/CTTTTT(共16个,占比0.04%)。此外,在SSR位点中发现了101个高等植物中少见的CG/CG重复基元和331个在双子叶植物中不常见的CCG/CGG重复基元,分别占比0.24%和0.78%。
图2 小果甜柿转录组中不同重复基元类型的SSR位点分布
2.5 小果甜柿转录组各基元类型重复次数分析
对小果甜柿转录组不同基元类型的重复次数进行分析,结果如表3所示。由表3可知,从单碱基至六碱基重复基元的重复次数主要集中于5~20次,占总SSR位点总数的97.82%。单碱基和双碱基重复SSR在10次及以上的重复次数均有分布,三碱基重复的SSR主要为5~16次重复,四碱基到六碱基重复的SSR主要分布在5~8次,并且6种重复基元类型的SSR数量均随着碱基重复次数的增大而减小。
表3 小果甜柿转录组不同重复基元类型的SSR数量分布
2.6 小果甜柿转录组的SSR序列长度分布
小果甜柿转录组中不同SSR 重复基元类型的序列长度差异较大,介于10~74 bp,平均长度为16.02 bp。SSR序列长度差异最大的为单碱基重复(10~74 bp),最小的为六碱基重复(30~54 bp)。如图3所示,随着SSR序列长度的增加,SSR数量呈下降趋势。以长度为12 bp的SSR数目最多,为6 007个,占总SSR数的14.16%;长度为29 bp的SSR数目最少,为24个,占比0.06%;序列长度<12 bp的SSR位点数目为8 284个,占比19.52%;序列长度为≥12~<20 bp的SSR位点数目为24 596个,占比57.97%;序列长度≥20 bp的SSR位点数目为9 547个,占比22.50%。
图3 小果甜柿转录组的SSR长度分布
2.7 小果甜柿转录组SNP和InDel的特征分析
从小果甜柿转录组中共获取了1 070 614个SNP位点,发生频率为11.46 kb-1(表4);其中转换类型SNP位点包括C/T(335 486个)和A/G(337 266个),发生频率分别为3.59和3.61 kb-1;颠换类型SNP位点包括A/T(114 228个)、A/C(94 711个)、T/G(95 758个)和C/G(93 165个),发生频率分别为1.22,1.01,1.02和1.00 kb-1。转换类型SNP的发生频率远高于颠换类型SNP,比值为1.69,其中以C/T最高。共有6 570个unigenes(7.6%)仅包含1个 SNP位点,含有更多SNP位点的unigenes数量表现出下降趋势(图4)。
表4 小果甜柿转录组中SNP位点的统计分析
在转录组46 175个unigenes中获取了167 924个InDel位点,平均0.556 kb即出现1个InDel位点。InDel位点分布与SNP表现出相似的趋势,即含有1个InDel位点的unigenes数目最多,为14 139个,占总unigenes数的16.55%,含有更多InDel位点的unigenes数量呈下降趋势(图4)。
图4 小果甜柿转录组中的SNP和InDel位点分布
3 讨 论
小果甜柿不同发育时期的果实转录组SSR数目较为丰富,共有42 427个SSR位点分布在26 928条unigenes上,出现频率为31.52%,高于柿属植物君迁子(10.41%)[17]。SSR的平均分布距离为0.45个/kb,即平均2.22 kb出现1个SSR位点,分布密度接近柿品种禅寺丸雌雄花芽(0.43个/kb),远大于君迁子的0.20 个/kb[17]。这可能与分析方法、物种间差异、测序深度、拼接质量和MISA软件参数设置等相关[20]。小果甜柿转录组中丰富的SSR位点对柿属植物亲缘关系和遗传背景的探索具有重要意义。
SSR序列可反映物种进化水平,并对基因功能产生重要的影响[16,21]。本研究中小果甜柿果实转录组SSR种类丰富,以单碱基至三碱基为主。单碱基重复为小果甜柿的优势重复基元,其数量占总SSR位点的44.32%,与已报道的禅寺丸柿[16]、黑果枸杞[22]和红松[23]等一致。SSR重复基元的种类及数量多,可在一定程度上反映该物种进化水平较高[24-25]。小果甜柿的SSR位点中单碱基至三碱基中优势碱基重复基元出现频率最高的分别为A/T、AG/CT和AAG/CTT,与君迁子和禅寺丸柿一致,与其他植物如冬瓜[26]也一致,但与苦楝[27]和大花序桉[28]分别在二和三碱基重复的优势碱基不一致,这可能与物种特异性或搜索条件有关[16,29]。此外,在小果甜柿SSR位点中发现了101个高等植物中少见的 CG/CG 重复基元,其数量远高于黑果枸杞[22](5个)、杜仲[29](1个)和短丝木犀[30](13个)。还发现了331个单子叶植物常见而双子叶植物中不常见的 CCG/CGG 重复基元,这些重复基元的出现可能具有代谢调控、抗逆性和信号转导等生理功能。
多态性是SSR的一个重要考察指标[31]。SSR基元重复次数与序列长度影响SSR位点的多态性,长度≥20 bp时,多态性较高[32]。本研究中,小果甜柿SSR序列长度介于10~74 bp,其中序列长度为12~20 bp的SSR数量最多,占比57.97%。单碱基和双碱基类型基元的重复次数最多,可能具有更高的多态性。序列长度≥20 bp的SSR位点有9 547个,占比22.50%,高于禅寺丸柿[16],这类SSR位点具有潜在较高的多态性,在后续鉴别中国甜柿的SSR分子标记开发中具有较大的应用潜力。
SNP和Indel位点在基因组中分布广泛[33]。本研究从小果甜柿转录组中共检测到1 070 614个SNP位点,平均每kb出现11.46个SNP位点;还检测到了167 924个InDel位点,平均0.556 kb出现1个InDel位点。转换和颠换的SNP位点比例理论上应为0.5,而本研究中转换类型与颠换类型SNP比值为1.69,这种现象叫做转换偏差,最先在水稻[34]中有相关报道。出现这一现象可能与进化过程中的选择相关,表明转换可能并非随机出现的[35]。
柿树童期较长,水肥条件适宜的条件下,最快3年才能够开花结实,本研究利用不同发育时期小果甜柿果实转录组数据分析了SSR、SNP和InDel位点及其特征,为后续中国甜柿特异性分子标记的开发提供了数据及理论基础,对中国甜柿及其杂交后代的早期鉴别具有重要意义。