甘蔗Ty3-gypsy类逆转座子RT基因的克隆及分析
2022-01-04刘俊仙阳太亿高轶静段维兴雷敬超刘丽敏刘红坚张荣华何为中熊发前
刘俊仙,刘 菁,阳太亿,高轶静,段维兴,雷敬超,刘丽敏,刘红坚,张荣华,何为中,李 松,熊发前 *
(1.广西壮族自治区农业科学院甘蔗研究所,广西 南宁530007;2.广西壮族自治区农业科学院经济作物研究所,广西 南宁530007)
0 引言
【研究意义】甘蔗广泛生长于热带和亚热带地区,不仅是世界上重要的糖料作物,也是我国重要的糖料作物、能源作物和经济作物,甘蔗产业对于保障国家蔗糖供给安全有着举足轻重的作用。LTR逆转座子具有普遍性、拷贝数丰富、高度异质性和插入位点多态性,非常适合用来开发分子标记。LTR逆转座子常被用来开发S-SAP(特异扩增多态性)[1]、IRAP(逆转座子位点间扩增多态性)[2]、REMAP(逆转座子-微卫星扩增多态性)[2]和RBIP(基于逆转座子插入多态性)分子标记技术[3]。而分离和鉴定LTR逆转座子是开发分子标记的前提。因此,克隆甘蔗Ty3-gypsy类逆转座子RT基因序列具有重要意义。【前人研究进展】吴子莺等[4]使用简并引物成功分离了甘蔗属大茎野生种60条Ty1-copia类逆转座子逆转录酶序列。Raza等[5]根据文献中报道的简并引物以及跟Mutator(Mu)和Activator(Ac)有同源性甘蔗的EST设计的引物,利用PCR技术从当地甘蔗栽培种BL4中扩增并分离出甘蔗的Ty1-copia类LTR逆转座子以及Mutator(Mu)和Activator(Ac)转座子,表明这3类转座子元件存在于甘蔗栽培种(BL4)基 因 组 中。Rossi等[6]利 用“transposable element”“transposase”“transposon”和“retrotransposon”为关键词,以期望值低于e−50为搜索标准,搜索甘蔗EST数据库,结果鉴定出276条跟转座元件同源的序列,其中,DNA转座子148条(54%)、逆转座子128条(46%),逆转座子中的Ty1-copia明显多于Ty3-gypsy,没有发现SINE、LINE和M ITE序列。Rossi等[7]经过测序和比对从甘蔗EST数据库中鉴定出34条类mudrA序列,序列系统进化分析揭示出在单子叶和双子叶植物分化前植物界已经存在着4大类类mudrA序列,且至少有3类存在于甘蔗的祖先种中,且每一大类中具有转座活性的类mudrA序列成员的数目是变化的,所有结果表明甘蔗属中存在着活性的Mu转座子系统。De A raujo等[8]从甘蔗EST数据库中鉴定出276条跟植物转座元件同源的EST序列,经过cDNA全测序,68条甘蔗转座子序列被指定为11个家族,表达分析显示在同一个家族中的转座子不同成员呈现不同的表达模式,没有发现组织特异转座子家族,愈伤组织是转座子表达数量最大的组织,表明组织培养显著影响了不同转座元件的表达水平;De Jesus等[9]利用甘蔗EST数据库鉴定出转座子超家族hAT,并研究了它在甘蔗基因组中存在的多样性。Nakayama[10]从甘蔗野生种Saccharum robustum中分离出一个新的tourist类M ITE转座子,序列两端有TIR和TSD,该序列在甘蔗属基因组中呈现高拷贝数,在此基础上开发出的IMP分子标记技术可以厘清甘蔗属6个野生种的亲缘关系。Zhang等[11]综合运用多种生物信息学分析软件和分析策略鉴定了甘蔗属96个BAC克隆序列中的各类转座元件。Zhang等[12]发表了单倍体割手密AP85-441的基因组,长末端重复逆转座子在基因组中占45.62%,其中,Ty1-copia和Ty3-gypsy分别占14.19%和26.04%。【本研究切入点】目前,有关甘蔗LTR反转录转座子的研究鲜见报道。在国内,尚未见甘蔗Ty3-gypsy类逆转座子RT基因序列的克隆报道。【拟解决的关键问题】克隆糖蔗品种新台糖22的Ty3-gypsy类逆转座子RT基因序列,并进行序列特征分析,调查RT基因序列的组成和变异模式,分析与其他物种之间的系统进化关系,以期为下一步开发甘蔗LTR逆转座子的分子标记奠定基础。
1 材料与方法
1.1 材料
供试材料甘蔗品种为国内种植面积最大的糖蔗品种新台糖22。
1.2 甘蔗基因组DNA提取
甘蔗基因组DNA的高质量提取采用笔者先前建立的改良CTAB法[13]进行。
1.3 甘蔗RT基因扩增
甘蔗Ty3-gypsy类逆转座子RT基因的PCR扩增参照前人设计的简并引物进行,上下游引物分别为:Gyrt1:5′-AGMGRTATGTGYGTSGAYTAT-3′和Gyrt2:5′-CAMCCMRAAMWCACAM TT-3′,其中,R=A/G,Y=C/T,M=A/C,S=C/G,W=A/T,N=A/T/C/G[14]。PCR扩增体系、扩增程序以及PCR产物的分离检测参考文献[15]的方法进行。
1.4 目的片段的克隆和测序
目的片段的克隆和测序参考文献[15]的方法进行。
1.5 甘蔗RT基因序列分析
序列同源性检索、序列统计分析、序列图及Logo图生成、蛋白质的二级结构和三级结构预测、蛋白质三级结构的转角数和氢键数统计、保守基序预测等参考文献[16]的方法进行;运用MEGA6.0软件的邻接法(No.of differences模型)构建系统进化树,自展值设置为1 000;与甘蔗EST数据库比对,鉴定具有转录活性的Ty3-gypsy类逆转座子。
2 结果与分析
2.1 甘蔗Ty3-gypsy类逆转座子RT基因序列的分离
根据Ty3-gypsy类逆转座子RT基因的保守区域设计简并引物对,扩增结果显示,在新台糖22中检测到了Ty3-gypsy类逆转座子RT基因,长度约为430 bp(图1),表明Ty3-gypsy类逆转座子存在于甘蔗品种新台糖22的基因组DNA中。对扩增得到的目的片段进行克隆和测序,共获得42条序列,利用DNAMAN软件去除其中的相同序列,利用NCBI中的blastx和blastn与已报道的其他植物的Ty3-gypsy类逆转座子RT基因序列进行比对,去除非RT基因序列,总共获得36条RT基因序列,对每条序列进行命名(SoRT3-X),GenBank登录号对应MK830281~MK830316(表1)。对36条序列进行多重比对并生成Logo图,以展示碱基在每个位置上的保守性(图2~3)。
图1 Ty3-gypsy类逆转座子RT基因的PCR扩增Fig.1 PCR am p lification of RT of Ty3-gypsy-like retrotransposons
图2 Ty3-gypsy类逆转座子RT基因序列多重比对Fig.2 M ultip lealignm ent of RT of Ty3-gypsy-like retrotransposons
2.2 甘蔗Ty3-gypsy类逆转座子RT基因序列的相似性分析
分析发现,只有SoRT3-26的序列长度为430 bp,其余序列长度均为432 bp。SoRT3-26相较于其他序列在第212、213、281个位点处各缺失了1个碱基,但在第253个位点处多出了1个碱基C。36条序列的A、T、C、G变化范围分别为111~135、114~155、49~93和87~110,AT所占比为56.71%~64.81%,AT与GC比值为1.31~1.84(表1)。核苷酸序列间相似性为46.2%~99.3%,其中,SoRT3-26与SoRT3-31的相似性最低,为46.3%,SoRT3-11与SoRT3-44的相似性最高,达99.3%;氨基酸序列间相似性为10.1%~100.0%(表略)。
表1 Ty3-gypsy类逆转座子RT基因序列的基本信息Table 1 Basic inform ation on RT geneof Ty3-gypsy-like retrotransposons
2.3 甘蔗Ty3-gypsy类逆转座子RT基因序列的聚类分析
遗传进化树结果显示,36条甘蔗RT基因序列被分为5个家族(Ⅰ~Ⅴ),其中,家族Ⅰ、Ⅱ、Ⅲ和Ⅳ分别包含11、5、3、16条序列,家族Ⅴ只包含SoRT3-26,家族Ⅴ与其他家族遗传距离最大,亲缘关系最远,单独聚为一类(图4)。
图4 Ty3-gypsy类逆转座子RT基因序列遗传进化树Fig.4 Phylogenetic tree of RT of Ty3-gypsy-like retrotransposons
2.4 甘蔗Ty3-gypsy类逆转座子RT基因的氨基酸序列分析和蛋白质结构分析
将36条RT基因序列翻译成氨基酸序列后,序列多重比对结果显示,所克隆序列符合Ty3-gypsy类逆转座子RT基因序列特征(图5)。36条序列中有6条发生了1~6个无义突变,其中,SoRT3-9(第48个氨基酸处)、SoRT3-22(第50个氨基酸处)、SoRT3-31(第65个氨基酸处)和SoRT3-47(第126个氨基酸处)各发生了1个无义突变,SoRT3-28分别在第13、31、49、77个氨基酸处发生了4个无义突变,且这4个无义突变都集中在序列的上游部分,SoRT3-26发生了6个无义突变,分别在第23、80、93、97、105、125个氨基酸处,造成无义突变的原因是SoRT3-26在第212、213、281这3个位点各丢失了1个碱基,但在第253个位点多出了1个碱基C。剩余30条序列没有发生无义突变,这些序列可能仍具有转录活性。
图5 Ty3-gypsy类逆转座子RT基因氨基酸序列的多重比对Fig. 5 M ultip le alignment of am ino acid sequencesof RT of Ty3-gypsy-like retrotransposons
图3 Ty3-gypsy类逆转座子RT基因序列比对logoFig.3 A lignm ent logo of RT of Ty3-gypsy-like retrotransposons
根据核苷酸聚类分析结果,选择各家族中的代表序列,利用Phyre2预测其蛋白质的二级结构和三级结构,图6为家族Ⅰ中代表序列SoRT3-21的蛋白质二级结构和三级结构,代表序列蛋白三级结构匹配覆盖度最高的模板为c2opqA和c3kk1B,置信度均为100,属于逆转录酶家族。二级结构包含5~6个α-螺旋和8~9个β折叠;三级结构包含12~19个转角和76~94个氢键,还包含5个明显的螺旋结构和5个明显的折叠结构(表2),说明螺旋结构和折叠结构存在大量结构元件(蓝色端是C端,红色端是N端)。
表2 Ty3-gypsy类逆转座子RT基因蛋白质结构信息Table2 RT protein structure of Ty3-gypsy-like retrotransposons
图6 Ty3-gypsy类逆转座子RT基因蛋白质的二级结构(A)与三级结构(B)Fig.6 Secondary (A)and tertiary (B)protein structuresof RT of Ty3-gypsy-like retrotransposon
2.5 甘蔗Ty3-gypsy类逆转座子RT基因保守基序预测
RT基因序列保守基序预测结果显示,36条序列共存在8种保守基序,其中,34条序列同时包含4种保守基序(motif 1、motif 2、motif 3和motif 4),SoRT3-28和SoRT3-26与上述34条序列差异明显(图7)。
图7 Ty3-gypsy类逆转座子RT基因保守基序预测Fig.7 Predicted conservative motifs of RT of Ty3-gypsy-like retrotransposons
2.6 甘蔗Ty3-gypsy类逆转座子RT基因序列的系统进化树构建
为了解甘蔗与其他植物Ty3-gypsy类逆转座子RT基因序列间的进化关系,将甘蔗品种新台糖22与其他植物的RT基因氨基酸序列进行多重比对,进而构建系统进化树(表3、图8)。从系统进化树上可以看出,所有甘蔗RT基因序列被分为7类(Ⅰ~Ⅶ),其中,Ⅰ类中的18条甘蔗RT基因序列与拟南芥的BAB40828.1具有较高同源性,Ⅱ类只含有16条甘蔗RT基因序列,Ⅰ和Ⅱ两大类中共分布着34条甘蔗RT基因序列(94.44%),表明甘蔗品种新台糖22的Ty3-gypsy类逆转座子RT基因序列具有相当高的保守性与相似性。Ⅲ类只有1条来自列当(ABD43042.1)的RT基因序列,Ⅳ类和Ⅴ类中都是来自其他物种植物的RT基因序列,SoRT3-28单独聚为Ⅵ类,SoRT3-26与大豆的BAB40834.1、菠菜的BAB40833.1、粳稻的BAB40824.1一起聚为Ⅶ类。
图8 甘蔗与部分其他物种植物Ty3-gypsy类逆转座子RT基因的氨基酸序列系统进化树Fig.8 Phylogenetic tree of am ino acid sequences of RT of Ty3-gypsy-like retrotransposons from sugarcane and some other plant species
表3 部分其他物种植物的Ty3-gypsy类逆转座子RT基因序列信息Table 3 Am ino acid sequences of RT of Ty3-gypsy-like retrotransposons from som eother p lant species
2.7 甘蔗Ty3-gypsy类逆转座子转录活性分析
将36条甘蔗品种新台糖22中Ty3-gypsy类逆转座子RT基因序列提交到NCBI与甘蔗EST数据库进行比对,以检测甘蔗Ty3-gypsy类逆转座子的转录活性。结果显示,当查询覆盖度分别为87%、87%、87%、85%、86%、86%时,SoRT3-9、SoRT3-21、SoRT3-22、SoRT3-27、SoRT3-29、SoRT3-34与甘蔗EST数据库中的GE325024.1和GE325034.1之间的一致性分别为91.25%、94.96%、92.84%、93.53%、93.33%、84.27%;当查询覆盖度分别为99%、99%、97%、99%时,SoRT3-23、SoRT3-35、SoRT3-36、SoRT3-41与甘蔗EST数据库中的CA177106.1之间的一致性分别为90.26%、89.10%、88.57%、89.10%;当查询覆盖度均为97%时,SoRT3-23、SoRT3-35、SoRT3-41与甘蔗EST数据库中的CA203336.1之间的一致性分别为88.15%、86.76%、86.49%(表4)。以上结果说明GE325024.1、GE325034.1、CA177106.1、CA203336.1这4条EST序列为甘蔗品种新台糖22的Ty3-gypsy类逆转座子的部分转录序列。
表4 Ty3-gypsy类逆转座子RT基因序列与EST数据库比对结果Tab le 4 Sequence alignm ent w ith EST database on RT of Ty3-gypsy-like retrotransposons
3 讨论与结论
本研究首次从甘蔗品种新台糖22中扩增出约430 bp大小的Ty3-gypsy类逆转座子RT基因目的条带,与前人研究结果一致[14,17−21]。目的条带经回收、克隆和测序后,得到了42条序列,去除非RT基因序列和相同序列后,总共获得了36条甘蔗RT基因序列。以上说明Ty3-gypsy类逆转座子存在于甘蔗品种新台糖22中,当然也证实了采用简并引物从甘蔗品种新台糖22中扩增和克隆Ty3-gypsy类逆转座子RT基因序列的策略是行之有效的。
在36条甘蔗RT基因序列中,除SoRT3-26的序列长度为430 bp外,其余序列长度均为432 bp,表明甘蔗品种新台糖22的Ty3-gypsy类逆转座子RT基因序列在长度变化上高度保守,这与前人研究结果不太一致[19,21];所有序列均富含AT,A/T碱基含量的增加使序列呈现一定异质性;核苷酸序列间相似性呈现较高异质性;氨基酸序列间相似性呈现高度异质性;相比核苷酸序列,氨基酸序列表现出更高异质性;除SoRT3-28和SoRT3-26外,各序列间保守基序完全一致,呈现高度保守性;在36条甘蔗RT基因序列当中,有6条发生了无义突变,最多的1条出现了6个终止密码子,无义突变会使得基因功能改变或丧失,无义突变是甘蔗品种新台糖22的Ty3-gypsy类逆转座子产生一定异质性和多拷贝的重要原因。
聚类分析将36条RT基因序列分为5个家族,家族Ⅰ和家族Ⅳ是构成新台糖22的Ty3-gypsy类逆转座子的主要成分,表明新台糖22的Ty3-gypsy类逆转座子RT基因序列具有相当高的保守性与相似性。各家族内部成员数量越多,序列相似性越高,存在有转录活性的逆转座子的可能性也越大,其转座发生时间也可能越近[22]。家族Ⅰ和家族Ⅳ中很有可能存在着具有转录活性的Ty3-gypsy类逆转座子,这两个家族存在的历史也更为久远。
各家族中代表序列的蛋白质三级结构整体构型基本类似,但在氢键数和转角数上存在着较大差别,家族Ⅴ中的SoRT3-26,其存在6个终止密码子突变,可能已经失去活性,核苷酸聚类分析中显示其与其他家族遗传距离最远,在蛋白质结构上的表现也与其他代表序列存在明显差异,其氢键数和转角数要明显少于其他代表序列,这也表明甘蔗品种新台糖22的Ty3-gypsy类逆转座子存在一定异质性和多态性,这些差异可能会影响到甘蔗Ty3-gypsy类逆转座子的转录活性、转座效率以及拷贝数等。
36条中的34条同时包含motif 1、motif 2、motif 3和motif 4,占克隆序列总数的94.44%,说明这4种保守基序是构成甘蔗品种新台糖22中Ty3-gypsy类逆转座子RT基因序列的主要成分,也从保守基序角度表明甘蔗品种新台糖22的Ty3-gypsy类逆转座子RT基因序列具有高度保守性与相似性。只有2条甘蔗RT基因序列的保守基序在种类及长度上与上述34条甘蔗RT基因序列存在明显差异,SoRT3-28存在5种保守基序,其下游的motif 2与上述34条甘蔗RT基因序列的motif 2一致,SoRT3-26也存在5种保守基序,其上游的motif 3与上述34条甘蔗RT基因序列的motif 3一致,推测这两个保守基序是决定这2条序列为甘蔗RT基因序列的重要原因,这两条甘蔗RT基因序列在系统进化树中也是被划分为与其他家族亲缘关系最远的家族Ⅵ和Ⅶ,也从侧面验证了这两条甘蔗RT基因序列含有不同保守基序的准确性。
系统进化树显示,Ⅰ类中的18条甘蔗RT基因序列与拟南芥的BAB40828.1具有较高相似性,亲缘关系较近;SoRT3-26由于发生了多个终止密码子突变而导致其在核苷酸聚类分析中与其他序列遗传距离最大而单独为一家族,但在系统进化树中发现其与大豆的BAB40834.1、菠菜的BAB40833.1和粳稻的BAB40824.1之间的遗传距离最小而聚为Ⅶ类。以上可能是甘蔗Ty3-gypsy类逆转座子在进化过程中与这些物种植物发生过横向传递。除SoRT3-26外,SoRT3-28也与其他甘蔗RT基因序列遗传距离较大,亲缘关系较远,说明这两条序列特异性比较强,在起源和进化上较为古老,可能是甘蔗所特有的。
通过比对甘蔗EST数据库,发现10条甘蔗品种新台糖22的Ty3-gypsy类逆转座子RT基因序列与4条甘蔗EST序列相似性高,且1条甘蔗RT基因序列有时同时与几条甘蔗EST序列相似性高,表明甘蔗中存在可转录的Ty3-gypsy类逆转座子,下一步可以对这些有转录活性的Ty3-gypsy逆转座子的转录特性和功能进行深入详细研究。
本研究首次分离出36条甘蔗品种新台糖22的Ty3-gypsy类逆转座子RT基因序列,并对其序列特征及多样性进行详细分析,进行聚类分析和系统进化树构建,进一步发现了10条具有转录活性的甘蔗品种新台糖22的Ty3-gypsy类逆转座子,这些为基于LTR逆转座子的甘蔗分子标记开发和应用奠定基础。