APP下载

大花序桉顶芽转录组SSR位点信息分析

2021-04-22蒋维昕梁馨元王建忠白天道

中南林业科技大学学报 2021年4期
关键词:基元花序核苷酸

蒋维昕,梁馨元,兰 俊,王建忠,白天道

(1.广西大学 林学院,广西 南宁 530000;2.广西壮族自治区国有东门林场,广西 崇左 532108)

SSR 表示简单拷贝序列重复(Simple sequence repeat),又称为微卫星(Microsatellite)DNA 序列,是DNA 在复制或修复过程中DNA 滑动、错配或不均等交换的结果,大多数由1~6 个核苷酸的重复片段串联组成长达几十个核苷酸的单拷贝重复序列,较为均匀的分布在动植物细胞基因组DNA 的编码和非编码区域。SSR 标记是一种以特异性引物扩增核心微卫星DNA 的两端侧翼序列,并利用电泳分析技术获得其长度多态性的分子片段标记技术。SSR 标记为共显性标记,与其他分子标记相比,SSR 标记具有扩增稳定、数量丰富、多态性高以及特异性等优势,已被广泛应用于群体遗传学研究、保护遗传学、分子标记辅助育种以及遗传图谱的构建等[1]。按其序列来源,SSR 标记可分为基因组SSRs(genomic SSR,简称gSSR)和基因表达序列SSRs(EST-SSRs,简称eSSRs 或cDNA-SSRs),前者基于基因组DNA序列开发SSR 标记,后者基于物种基因表达序列(RNA-seq)的开发[2]。与前者相比,eSSR 标记位于高度保守的物种基因序列的编码核心区,因而在近源种属甚至科间具有较高的通用性[3]。同时,eSSR 标记可通过转录组测序数据,也可通过公共基因组数据库中共享的基因表达序列标签进行引物序列的设计和开发,较为便捷和高效。另外,随着功能序列基因组学的发展,测序成本的大幅度降低,公共数据库中逐日增多的测序数据也可推动基因表达功能序列及其他与基因功能相关的SSR 标记开发。

大花序桉Eucalyptus cloeziana为桃金娘科Myrtaceae 桉属Eucalyptus昆士兰桉亚属的大型乔木,也叫昆士兰桉,树高可达55 m。该树种天然分布于海拔在25~950 m 之间的澳大利亚昆士兰州中部和北部区域(144°44′~152°52′E,15°45′~26°41′S)[4]。以往研究表明,大花序桉材干通直、木材硬度高、尖削度低,木材的花纹美观、纹理和结构较为均匀,是一种用于制作高档实木家具的优良材料,该种的木材经济价值远高于短轮伐期的普通桉树,是极具经济培育价值的中大径材树种之一,现已被国家纳入珍贵用材树种的名录之列,具有非常广阔的发展前景[5]。我国对大花序桉的引种工作最早开始于20世纪70年代,广东、广西、海南、福建、湖南和四川等省区陆续组织开展大花序桉引种与种源选择试验。对于大花序桉育种的试验研究,目前主要集中于引种试验、种源选择、家系试验、木材的材性及其树木生长特性的关联度等,总体来看,大花序桉在轮伐期具有较强的木材生长潜力和材质特性,并且成熟阶段材积生长显著,具体可详见黄振等[5]的研究综述。

基因组和转录组信息的缺乏,限制了大花序桉遗传改良的研究,群体遗传学研究是进行大花序桉分子育种及遗传资源保护的基本前提[6]。王莉等[7-8]基于近源种巨桉基因组和转录组序列开发SSR 标记研究了大花序桉群体遗传多样性及其与环境适应性遗传变异相关的序列位点;邓紫宇等[9]也基于已发表文献内SSR 位点分析了大花序桉主要分布地区的群体遗传变异;类似地,Lyu 等[10]运用近源种桉树SSR 位点研究了大花序桉不同种源自由授粉子代林遗传变异水平。在转录组测序方面,朱林生等[11]首次对大花序桉根系转录组序列进行基因表达序列及其功能注释分析。根据已有的桉属系统进化分析表明[12],大花序桉与同属其他桉树存在较远的亲缘关系,为独立的亚属分支,因而针对该物种的基因组或转录组相关研究将有助于进一步探究其遗传学特性。到目前为止,关于大花序桉SSR 的分布特征以及EST-SSR 分子标记的开发相关研究少见报道。本研究对基于Illumina HiSeq X Ten 高通量测序技术获得的大花序桉顶芽转录组序列数据进行SSR 位点的挖掘,分析和总结转录组中SSR 的分布密度和重复基元特征,旨在为大花序桉新的功能基因表达及其相关的具有丰富多态性的SSR 标记开发研究提供可靠的理论依据。

1 材料与方法

1.1 试验材料

试验材料为2年生大花序桉主干顶芽,采集自中国广西崇左市扶绥县的广西国有东门林场大花序桉人工引种栽培试验基地(107°14′108.00″E,22°17′22.30″N)。试验样品采集后立刻投入液氮生物速冻箱内保存,于2019年10月交由上海欧易生物公司进行样本RNA 提取、cDNA 文库构建及转录组测序,技术平台为Illumina HiSeq X Ten高通量测序系统。首先对测序所获高质量转录组序列进行Trinity 拼接[13],以获得Transcript 序列,再根据序列相似性以及长度,挑选出最长的一条作为Unigene,以此作为后续研究所用的参考转录序列。

1.2 试验方法

采用MISA(http://pgrc.ipk-gatersleben.de/misa/)生物信息学位点分析软件对大花序桉转录组序列数据(Unigenes)进行SSR 位点检索和分析。SSR 搜索参数设置标准如下:重复基元1~6 bp,分别代表单核苷酸至六核苷酸,各核苷酸类型最小重复次数依次分别为10、6、5、5、5 和5 次,转录组中复合型SSR 的检索条件是2 个SSR 片段间的距离低于100 bp。

1.3 SSR 引物设计

对含有SSR 且位点上下游序列≥100 bp 的Unigene 序列利用Primer 3 软件进行引物批量设计。SSR 设计所用参数设置为:退火温度(Tm)在58~63℃之间,且上、下游引物之间相差低于5℃;SSR 引物长度为20~27 bp;PCR 产物片段长度在100~280 bp 之间,产物G/C 含量为50%~65%。最后对软件批量设计的全部SSRs 引物在Unigene 库中进行blast 验证。

1.4 SSR-PCR 有效性验证

随机挑选24 对引物,由生工生物工程(上海)股份有限公司合成。大花序桉叶片基因组DNA提取试剂盒及PCR Mix 均由北京擎科新业生物技术有限公司提供。PCR 扩增程序为:95℃预变性6 min;95℃变性30 s,58℃退火30 s,72℃延伸1 min,35 个循环;循环结束后,72℃延伸5 min,最后4℃保存。扩增产物用1.5%的琼脂糖凝胶电泳进行初步筛选。

2 结果与分析

2.1 大花序桉转录组中SSR 位点的数量

对大花序桉顶芽进行转录组测序,通过组装共获得26 587 条去冗余Unigenes,总长度为34 023.022 kb,序列长度在301~15 778 bp 之间,Unigenes 的平均长度为1 279 bp,N50 为1 851,G+C 含量为49.97%。大花序桉全部Unigene序列共检测出12 366 个SSR 位点,出现频率为46.51%,分布于8 218 条Unigenes 上(占总Unigene 序列数的30.91%)。其中,含有2 个或以上SSR 位点的Unigene 序列为2 727 条,含有复合型SSR 位点的Unigene 序列共计1 726 条。在大花序桉转录组序列中,平均每2.75 kb 序列就会出现1 个SSR 位点(表1)。

表1 大花序桉转录组中SSR 基本信息Table 1 Basic SSR results in transcriptome of Eucalyptus cloeziana

2.2 大花序桉转录组中SSR 位点的重复基元类型及比例

大花序桉转录组SSR 基元种类较为丰富(表2),单核苷酸至六核苷酸重复基元类型均有分布,不同基元重复类型的SSR 数量差异较大,以单、二、三核苷酸的重复基元类型较多。其中,数量最多的二核苷酸(5 763 个SSR 位点)和三核苷酸重复(4 229 个SSR 位点)分别占总转录组总SSR 重复数量的46.6%和34.20%;其次为单核苷酸类型,占转录组SSR 数量的16.70%(共2 065 个SSR 位点);其余四、五、六核苷酸的重复类型所占比例均相对较低,三者的比例含量总和为2.5%(共309 个SSR 位点)。总体来看,含SSR 位点的序列数量随核苷酸基元碱基数的增加逐渐减小。其中,二核苷酸重复类型SSR 的平均分布距离最小,为5.9 kb;而五核苷酸的平均分布距离是前者的122.69 倍,高达723.89 kb。

表2 大花序桉转录组SSR 中重复基元类型及数量Table 2 Type and repeat motifs of SSR loci in Eucalyptus cloeziana transcriptome

2.3 大花序桉转录组中SSR 重复基元碱基构成

大花序桉转录组12 366 个SSR 位点中,共发现了116 种重复基元类型,单至六核苷酸重复基元分别为2、4、10、24、25 和51 种(图1)。在所有核苷酸重复类型中,二核苷酸基元重复类型中以AG/CT 占绝对优势(共5 557 个,占44.94%);其次为单核苷酸重复基元中A/T 优势基元类型(共1 984 个,占总SSR 的16.04%);三核苷酸基元类型中,优势重复基元依次为:CCG/CGG(共1 550个,占12.53%),其次为AGG/CCT(共947个,占7.66%),AAG/CTT(共699 个,占5.65%);大花序桉转录组SSR 中四、五、六核苷酸重复基元虽然类型也较丰富,但所占总SSR 位点比例较低(三者共309 个,仅占2.5%)(图1),并且其中50 种基元类型仅出现1 次。

图1 大花序桉转录组中不同重复基元下SSRs 分布Fig.1 Distribution of different SSR motifs in Eucalyptus cloeziana transcriptome

2.4 大花序桉转录组SSR 多态性潜力分析

2.4.1 大花序桉转录组序列中SSR 基元重复次数分布

从大花序桉转录组SSR 位点重复次数分析来看(表3和图2),各类型核苷酸重复基元的数量和比例随着基元重复次数的增加而逐渐降低。大花序桉转录组不同SSR 重复单元重复次数主要集中于5~20 之间,占总SSR 的98.64%(表3)。其中,低重复次数(5~10 次)的SSR 位点数共8 815 个(71.28%);中度重复次数中,11~15和16~20 次重复的SSR 位点分别为2 656 个(占SSR 总数的21.48%)和727 个(占SSR 总数的5.88%)。大花序桉顶芽转录组SSR 全部重复类型中,占比例最高的依次为5 次、6 次、7 次和10次重复类型,分别为2 007、2 185、1 538 和1 252个,各占SSR 总数的16.20%、17.70%、12.40%和10.10%。

2.4.2 大花序桉转录组SSR 重复片段长度

大量研究发现,SSR 序列长度≥20 bp 时具有较高多态性,是理想的标记位点;序列长度在12~20 bp 之间时标记的多态性适中;<12 bp 时SSR 标记的多态性表现极低[14]。因此,本研究选取≥12 bp 的二至六核苷酸重复基元作进一步长度分析(图3)。结果发现,大花序桉转录组SSR长度多数集中于12~20 bp,共有6 567 个,占SSR 总数量的63.75%;其次是21~30 bp,共有3 172 个,占总SSR 数量的30.79%;超过30 bp 以上的SSR 数量为562 个,仅占总SSR 数量的5.46%。数据显示,大花序桉SSR 长度主要集中在中等多态性长度。另外,大花序桉转录组SSR 平均长度为19.7 bp,其中,最长重复片段为三核苷酸类型AGC/CTG(72 bp),出现次数仅为1。

表3 大花序桉转录组不同重复次数的SSR 数量分布†Table 3 Different repeat types with different repetitions in Eucalyptus cloeziana transcriptome

图2 大花序桉转录组SSR 重复类型统计Fig.2 Different repeat types and their repeat frequency in Eucalyptus cloeziana transcriptome

2.5 大花序桉转录组SSR 引物设计及有效性初步分析

对大花序桉12 366 个SSR 位点进行引物设计,结果显示,62.19%的SSR 位点(7 690 个)符合引物设计要求。其中单、二、三核苷酸重复类型SSR 位点数量分别为1 524、2 363 和2 755 个,四、五、六核苷酸重复类型SSR 位点共168 个,以及复合型SSR 位点共880 个。初步统计,符合引物设计参数且引物片段长度≥20 bp 的低重复基元类型(二三核苷酸重复)SSR 序列共1 993 个,对这部分序列进行primer 3 引物设计。随机筛选并合成SSR 引物24 对,使用1.5%琼脂糖凝胶电泳扩增检测。参照目的片段大小,共14 对引物能扩增出清晰条带,扩增效率为58.33%;10 对SSR 引物无法扩增出有效条带(包括无条带,条带较弱,或者产物大小与目的片段大小不符合的类型)占验证引物总数的41.67%。1~24 号SSR 引物扩增情况如图4所示。

图3 大花序桉转录组SSR 基元长度分布Fig.3 Distribution of SSR length in Eucalyptus cloeziana transcriptome

3 讨 论

本研究基于Illumina HiSeq X Ten 高通量测序分析所获大花序桉顶芽转录组数据,并进行SSR分布及其序列结构特征分析,从全部26 587 条Unigenes序列中检测到单至六核苷酸重复类型共计12 366 个SSR 位点,平均每2.75 kb 出现1 个SSR位点,SSR 位点的发生频率约为46.51%。大花序桉转录组SSR 位点的分布密度与早期Ceresini 等[15]基于全forests 公共资源数据库下载近源种桉树(E.grandis,E.globosus,E.saligna和E.urophylla)71 115 条EST 序列的分析结果一致:对转录组采用相同的搜索标准(单~六核苷酸基元类型)可获得20 530 个SSR 位点,SSR 位点间平均分布距离约为2.7 kb(SSR 发生频率约为29%);大花序桉SSR 分布频率高于He 等[16]报道的几种桉树每3.7 kb 出现1 个SSR 位点以及蓝桉(E.globulus)[17]转录组SSR 出现频率约为23.15%;但也低于茶树(平均每2.61 kb 出现1 个SSR 位点)[18]、橡胶树(平均每2.25 kb 出现1 个SSR 位点,SSR 发生的频率约为63.71%)[19]及天竺桂(60.83%)[20]转录组中SSR 序列的平均分布频度。大花序桉顶芽转录组中二至六核苷酸基元类型SSR 平均分布距离为3.30 kb (SSR 发生频率为38.74%),仍远高于采用相同搜索标准(二至六核苷酸)下大花序桉根部转录组中出现的SSR 分布密度(平均每3.57 kb出现1 个SSR 位点,SSR 发生频率为24.87%)[11]。相比以往的报道,本研究获得的大花序桉顶芽转录组SSR 位点发生频度较大,可能与较长的转录组Unigene 序列有关(平均长度为1 279 bp)。朱林生等[11]和Ceresini 等[15]研究获得的大花序桉根部及近源种桉树转录组Unigene 序列平均长度分别为890 和732 bp。Varshney 等[21]认为,即便运用相同方法进行SSR 分析,所获得的SSR 分布频度也会出现差异,除了物种间差异因素,还与测序数据深度、序列拼接数据质量及SSR 位点查找软件以及SSR 搜索标准不完全相同等原因有关。

大花序桉转录组所有SSR 基元类型中,二、三核苷酸重复为主要基元类型,分别占大花序桉转录组总SSR 数量的46.60%和34.20%,与绝大多数植物中SSR 分布特征一致。二核苷酸基元类型在绝大多数已报道植物中均以AG/CT 重复基元类型为主,本试验中,大花序桉转录组中AG/CT 也明显占据绝对优势(44.94%)。三核苷酸优势基元的类型则在不同的物种中含量差别较大,大花序桉顶芽转录组SSR 中三核苷酸类型的优势基元为CCG/CGG(12.53%),与同种根部组织[11]以及近源种桉树E.grandis、E.urophylla、E.globosus、E.saligna和E.camaladulensis及部分桃金娘科植物中[2,15,16]中检测到的结果吻合。根据以往报道,CCG/CGG 基序在双子叶植物中比较罕见,而在禾本科等单子叶植物中含量普遍较高[22],这可能与具有较高的GC 含量或者某些碱基的偏爱程度有关。研究表明,大部分双子叶植物如楠木[23]、龙眼[24]、云南金花茶[25]、杨树[26]等基因组或转录中检测到的三核苷酸基元以CTT/AAG 最为丰富;薄壳山核桃[27]、黑果枸杞[28]等少部分双子植物中三核苷酸基元则以AAC/GTT 为主。

SSR 标记的多态性与其基元重复次数以及序列片段长度密切相关。以往研究表明,SSR 基元重复的次数越高,多态性标记的开发潜力越大,尤其当基元重复的次数≥12 次时多态信息的含量较高[29]。本研究中,大花序桉转录组不同SSR 重复单元重复次数主要集中在5~20 之间(约占98.64%),其中,重复次数≥12 次的比率约为22.52%,表明大花序桉转录组SSR 位点理论上具有较大开发潜能。本研究中,满足该引物设计标准的大花序桉SSR 位点共7 690 个,占总SSR 数的62.19%。由于基元重复的次数及碱基构成的差异直接影响SSR 重复序列的长度,因此SSR 重复序列长度是影响其多态性高低的决定性因素,序列长度≥20 bp 且为低基序重复单元类型(二、三核苷酸)的转录组SSR 位点往往呈现出较高的多态性[14]。大花序桉转录组SSR 序列中,符合引物设计标准且重复片段长度≥20 bp 的低重复基元(二、三核苷酸)类型的SSR 位点共有1 993 个,占大花序桉SSR 总数的16.12%,从中随机挑选合成的24 对引物经PCR 扩增验证,共14 对引物(58.33%)能高效扩增出预期条带大小。表明这部分序列具有较大的多态性标记开发潜力,其群体检测水平及通用性评价需做进一步研究。

4 结 论

基于高通量测序技术获得的大花序桉顶芽转录组SSR 位点发生频率高,分布密度大,重复基元类型丰富,设计的引物扩增效率高,具有较高的多态性标记开发潜能。依据本文研究的大花序桉SSR 位点序列进一步开发出分子标记,可为进一步研究大花序桉及其他桉树的遗传多样性、遗传结构及分子标记辅助育种提供有效的理论基础。

猜你喜欢

基元花序核苷酸
关注基元反应的考查
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
一些花序的新定义和一个新的花序分类系统
——植物学教材质疑(六)
Acknowledgment to reviewers—November 2018 to September 2019
人体细胞内存在全新DNA结构
傀儡师
花序最大的木本植物
花序最大的草本植物
Numerical Modeling and Analysis of Gas Entrainment for the Ventilated Cavity in Vertical Pipe*