云南金花茶转录组SSR的分布及其序列特征
2019-09-05李显煌唐军荣张贵良辛培尧
叶 鹏,李显煌,唐军荣,李 斌,张贵良,刘 成,雷 瀚,辛培尧
(1.西南林业大学 a.西南山地森林资源保育与利用教育部重点实验室;b.云南省高校林木遗传改良与繁育重点实验室,云南 昆明 650224;2.毕节市林业科学研究所,贵州 毕节 551700; 3.云南省大围山国家级自然保护区河口管理分局,云南 河口 661399)
云南金花茶Camellia fascicularisH.T.Chang也叫云南显脉金花茶或者簇蕊金花茶,为山茶科山茶属金花茶组的一个种,是云南特有的一个极小种群植物[1]。云南金花茶现今只仅存在于云南的马关、河口和个旧三个地方,数量极其稀少[2]。 云南金花茶的观赏及药用价值极高,但是关于它的相关研究较少,有报道仅见于繁育技术[3]、组培苗的移栽炼苗[4]以及金花茶的化学成分的研究[5]等方面,而对云南金花茶种质资源的遗传多样性评价及保护方面的报道较少。
简单重复序列(Simple sequence repeat,SSR)又称为微卫星标记,是一类由1到6个碱基串联而成的重复DNA序列[6]。由于SSR标记较其他分子标记具有多态性高、标记数量多等优点,通常被应用于分子辅助育种、遗传图谱的绘制以及遗传多样性分析[7-11]。按照来源可分为转录组SSR和EST-SSR,前一种SSR是通过cDNA文库构建与克隆测序的方法获得的,但是步骤较为复杂,工作量大且花费较大[12];后一种通过在公共数据库搜索表达序列标签和转录组测序的结果来开发[13]。目前,利用转录组测序技术,开发SSR引物的方法,在木本植物中得到了广泛的应用[14]。而对转录组测序后的数据库进行SSR分布及序列特征的分析,可为后期引物的设计和筛选提供理论指导[15-16]。本研究采用Illumina HiSeqTM2000高通量测序技术对云南金花茶转录组进行测序,建立了其转录组数据库,并对SSR的分布及其序列特征进行分析,研究结果可为EST-SSR引物的大量开发以及利用SSR技术对云南金花茶群体进行遗传多样性分析,有望为其遗传资源的保护提供分子水平的理论依据。
1 材料和方法
1.1 材 料
试验材料采自云南省河口县,海拔1 036 m,生长在阳坡的石灰岩季节雨林地带,受人为因素破坏严重。采集野生的云南金花茶,引种于西南林业大学智能温室大棚,取其幼嫩叶片,迅速放入干冰中保存。
1.2 转录组测序
将采集的云南金花茶幼嫩叶片送至北京诺禾致源科技股份有限公司进行转录组测序。
1.3 序列拼接与SSR位点搜索
参考Manfred G Grabherr[17]的方法对云南金花茶转录组测序结果使用Trinity软件进行de novo组装。使用MISA软件对获得的Unigene进行SSR位点的搜索,搜索的标准为二核苷酸最少为6次,三核苷酸到六核苷酸最少搜索次数为5次,由于单核苷酸重复基元的SSR位点的实际应用较少,因此不进行筛选。经筛选得到的序列使用Primer3软件进行设计引物,设计引物的主要原则是:引物长度18~25 bp;退火温度55~65 ℃;GC含量40%~60%;PCR产物长度100~500 bp;前后引物的退火温度相差不超过5 ℃。
1.4 数据分析
利用Excel软件对云南金花茶转录组中SSR位点的出现频率、重复单元的类型、基元组成以及SSR分布的平均距离统计分析,以此来分析云南金花茶的SSR分布和序列特征。其中,SSR位点的平均距离是得到的微卫星总数和总Unigene的长度之比;SSR的出现频率是检测到的微卫星的总数与Unigene的总序列数量之比[18]。
2 结果与分析
2.1 云南金花茶转录组中SSR位点出现频率和分布距离
通过对云南金花茶转录组的组装,总共获得155 011条去冗余的Unigene,总长度是105 378.64 kb,G+C含量为42%。经搜索发现30 435个SSR位点,SSR的出现频率为19.63%。在这之中,有10 516条Unigene含有1个以上的SSR位点,云南金花茶转录组中平均3.46 kb就出现1个SSR位点(表1)。
2.2 云南金花茶转录组中SSR的基元类型
云南金花茶转录组中的SSR基元类型较为丰富,对云南金花茶转录组SSR的各个重复基元统计可知,重复率最高的基元类型为二核苷酸,占总数的71.44%;其次是三核苷酸,占总数的25.48%;四核苷酸到六核苷酸重复基元较低,并且四核苷酸重复基元要高于五核苷酸和六核苷酸。各重复类型SSR分布的平均距离方面,五核苷酸最高,为1 239.75 kb(每1 239.75 kb就会出现一个五核苷酸SSR);而二核苷酸的平均分布距离最低,仅为4.85 kb(每4.85 kb就会出现一个二核苷酸SSR)。统计各个重复类型SSR出现的频率发现,二核苷酸重复基元类型的出现频率最高,为14.03%;而五核苷酸重复类型的出现频率最低,仅为0.05%(表1)。
表1 云南金花茶转录组各SSR的分布特征Table 1 The distribution characteristics of various SSR in Camellia fascicularis
2.3 云南金花茶转录组中的SSR重复单元碱基的组成与比例
云南金花茶转录组中的SSR重复单元碱基的组成与比例情况列于表2。由表2可知,云南金花茶转录组SSR中,二核苷酸至六核苷酸出现的基元数分别为6、30、82、45、74种,总共有237种基元。其中,二核苷酸的主要重复基元是AG,占总SSR的15.91%(4 841个);三核苷酸的主要重复基元是GAA,占总SSR的1.76%(537个);四核苷酸的主要重复基元是AAAT,占总SSR的0.30%(90个);五核苷酸的主要重复基元是CATTT,占总SSR的0.03%(10个);六核苷酸的主要重复基元是CTCCAG、TCTTCC、TTGGTC,分别占总SSR的0.02%(6个)。其中,二核苷酸的主要重复基序是AG/TC,一共有8 142个,占总SSR的26.75%;其次是CT/GA,一共有7 662个,占总SSR的25.17%;而CG/GC最少,仅有32个,占总SSR的0.11%。三核苷酸的主要重复基序是CTT/GAA,一共有802个,占总SSR的2.63%;其次是AGA/TCT,一共有679个,占总SSR的2.23%;最少的是CGT/GCA,一共有87个,占总SSR的0.29%。四核苷酸的主要重复基序是AAAT/TTTA,一共有119个,占总SSR的0.39%;五核苷酸重复基序均较低,均在0.03%以下;而六核苷酸的重复基序均在0.02%以下(图1)。
表2 云南金花茶转录组的SSR重复的基元序列特征Table 2 Characteristics of SSR repeat motifs sequence in transcriptome of Camellia fascicularis
2.4 云南金花茶转录组中各个基元重复次数
由表3可知,云南金花茶不同重复类型的重复次数主要为5~10次重复,占总SSR的98.54%。其中,占总SSR比例最多的是6次重复,共7 799个,占总SSR的25.63%;其次是7次重复与9次重复,分别占总SSR的17.68%(5 380个)与17.29%(5 262个)。其中,二核苷酸的6次重复比其他类型要高,并且从表3中可以看出,随着次数的增加,SSR数量的出现频率开始降低。
2.5 云南金花茶转录组中基序长度
图2显示,云南金花茶转录组中绝大部分的基序长度集中在12~20 bp,共有28 089个,占总SSR的92.29%;而基序长度在30 bp以上的共有91个,占总SSR的0.30%;基序长度集中在21~30 bp的数量比在30 bp以上的略高,共有22 55个,占总SSR的7.41%。总SSR的平均长度是16.47 bp,二核苷酸到六核苷酸的平均长度分别为15.90、17.27、20.41、27.25、36.00 bp,且随着基序长度的增加,SSR的数量随之减少。
图1 云南金花茶转录组中不同的SSR基序类型比例Fig.1 Motif proportions of different SSR in Camellia fascicularis transcriptome
表3 云南金花茶转录组SSR不同重复类型的不同重复次数Table 3 Different repeat types SSR with different number of repeats in Camellia fascicularis transcriptome
图2 云南金花茶转录组中SSR基序长度的分布频率Fig.2 Distribution frequency of SSR motif length in Camellia fascicularis transcriptome
2.6 云南金花茶转录组SSR引物设计与检测
依据云南金花茶转录组测序结果,使用Primer3软件进行引物设计、合成,筛选出SSR引物50对,并对其进行1.5%的琼脂糖凝胶电泳扩增检测。其中,部分SSR引物的PCR产物出现拖带和多条带的现象,表明这些引物扩增出了非特异性的条带;另有部分引物扩增的条带较暗或者无条带,这说明该引物不能很好的与模板DNA结合,其特异性并不强。最终,经筛选只有14对引物可以扩增出清晰、单一、明亮且无拖带的条带,扩增效率为28.0%。这些引物可用于后期云南金花茶遗传多样性的分析。部分结果见图3。
3 结论与讨论
图3 云南金花茶SSR引物的PCR扩增凝胶电泳结果Fig.3 The PCR amplification gel electrophoresis result of SSR in Camellia fascicularis
基于对云南金花茶的转录组测序,一共获得155 011条Unigene,经过SSR位点搜索之后,共获得二核苷酸到六核苷酸30 435个SSR位点,出现频率为19.63%,平均分布距离为3.46 kb。该结果高于同属的油茶Camellia oleifera(为14.73%)[15]和 四 球 茶Camellia tetracoccaZhang(为18.25%)[19],但要略低于同属金花茶组的崇左金花茶Camellia chuongtsoensisS.Y.Liang et L.D.Huang(为21.88%)[20]与蔷薇属的刺梨Rose roxburghiiTratt(20.37%)[21],并且云南金花茶的平均分布距离要高于油茶[15](3.30 kb)、四球茶[19](2.64 kb)与刺梨[21](1.68 kb),但要比崇左金花茶[20](3.60 kb)略低。可以看出,云南金花茶转录组的SSR相对较高,说明云南金花茶转录组中SSR的数量与种类较丰富。
通常基元的重复次数与基序长度影响着SSR的多态性[22]。SSR位点的多态性主要是由基元重复次数和由碱基数量不同形成的不同序列的长度。所以,SSR的长度是影响多态性高低的主要因素[23-24]。云南金花茶转录组的基序长度集中在12~30 bp,占总SSR的99.70%,其中基序长度在12~20 bp的占大多数,占总SSR的92.29%;其次在21~30 bp,占总SSR的7.41%;大于30 bp的占总SSR的0.30%。依据Xu等[25]提出的理论,基序长度存在着一个数值范围,当SSR的长度在该范围以上的倾向于收缩;而其长度在该范围以下则倾向于扩张。而云南金花茶转录组的基序长度大多数倾向于扩张,所以云南金花茶转录组测序所得的SSR位点大部分具有多态性的潜能,能够用于云南金花茶的引物设计和开发。
目前,大多数的植物的转录组SSR位点都以二核苷酸与三核苷酸为主,不同的只是主导重复基元。而云南金花茶转录组的SSR位点是以二核苷酸重复为主,占总SSR的71.44%。并且在云南金花茶转录组中,二核苷酸基序是以AG/TC为主,占总SSR的26.75%;在三核苷酸基序中则是以CTT/GAA为主,占总SSR的2.63%。而在油茶[15]、四球茶[19]中,二核苷酸主要重复基序与云南金花茶相同,三核苷酸主要重复基序则不同,分别为AAT/AAT与ACC/GGT。在崇左金花茶[20]、刺梨[21]、丹参Salvia miltiorrhizaBunge[26]、金银花Lonicera japonicaThunb.[27]、党参Codonopsis pilosula(Franch.) Nannf[28]等植物中,其二核苷酸、三核苷酸主要重复类型均与云南金花茶的相同,这种差异的产生原因可能与植物的物种不同有关。
从总体上来看,云南金花茶转录组的SSR出现频率比较高,而SSR的类型也比较丰富,密度较大,多态性潜能较高。但就初步试验来看,其引物的扩增效率仅为28.0%,扩增效率较低,并且SSR标记普遍存在着多态性低的缺点。由于根据转录组数据可以开发出大量的SSR标记,从而可以对上述缺点进行一定的弥补,这就需要较多的工作来筛选更多的引物用于后续遗传多样性及变异结构的分析。同时SSR标记也是一种经济实惠的分子标记方法,比较适合云南金花茶的遗传分析。因此,本试验研究结果可为云南金花茶SSR引物的设计、SSR遗传多样性分析以及种质资源的遗传保护提供重要的理论依据。