植物DXS基因的系统发育和分子进化分析
2022-04-19毛积鹏黄林旺刘天颐黄少伟
毛积鹏, 黄林旺, 郝 静, 刘天颐, 黄少伟
(1.华南农业大学 林学与风景园林学院 广东省森林植物种质创新与利用重点实验室,广州 510642;2.台山市红岭种子园,台山 529223)
萜类化合物是高等植物组织中数量和种类最多的一类天然化合物,目前已有超过5万种萜类化合物被成功鉴定和分离。萜类化合物在植物的生长和发育过程中起着不可替代的作用。例如,部分甾醇和萜醇类萜类化合物是植物细胞壁和膜结构的重要组成部分;赤霉素和脱落酸等是植物生长发育过程中必不可少的信号分子;泛醌和叶绿素等分别在线粒体的电子传递和光能转化为化学能的过程中发挥作用[1-3]。虽然萜类化合物种类繁多,结构和功能各异,但均衍生于共同的五碳结构单元异戊烯二磷酸(isopentenyl diphosphate, IPP)和其异构体γ,γ-二甲基丙烯二磷酸(dimethylallyl diphosphate, DMAPP)[4]。在高等植物体中可以通过分别发生于细胞质和质体中的甲羟戊酸(mevalonic acid, MVA)和甲基赤藓糖醇-4-磷酸(methyl erythritol-4-phosphate, MEP)两种途径合成IPP/DMAPP[5]。1-脱氧-D-木酮糖-5-磷酸合成酶( 1-Deoxy-D-xylulose-5-phosphate synthase,DXS)是MEP 途径中的第一个酶,催化丙酮酸和3-磷酸甘油醛生成1 -脱氧-D-木酮糖-5-磷酸。同时DXS也是MEP途径的第一个限速酶[6]。研究表明:过表达DXS基因可以导致拟南芥组织类异戊二烯产物和光合速率的增加[7];在成熟的葡萄中单萜类化合物的含量与DXS的活性显著正相关[8];在枇杷转色期胡萝卜素和隐黄素的增加与DXS基因的表达水平增高有关[9];过表达DXS基因可以增加丹参成熟根中丹参酮的含量[10]。近年来,随着测序技术的发展DXS基因在拟南芥(Arabidopsisthaliana)[11]、茅苍术(Atractylodeslancea)[12]、大豆(Glycinemax)[13]、烟草(Glycinemax)[14]、银杏(Glycinemax)[15]、思茅松(Glycinemax)[16]和南方红豆杉(Glycinemax)[17]等越来越多的植物组织中被成功鉴定与分离。但对DXS基因的系统发育和分子进化特征的研究较少。本研究利用生物信息学相关方法和软件对44种代表性高等植物DXS基因的系统发育和分子进化特性进行分析,为深入揭示植物DXS基因进化特征和功能研究提供理论基础。
1 材料与方法
1.1 DXS基因CDS序列获取
拟南芥、水稻和北美云杉等44种代表性高等植物DXS基因的编码序列(coding DNA sequences, CDS)信息均来源于NCBI数据库(https://www.ncbi.nlm.nih.gov/)。根据其编码酶行使的功能可将DXS基因分为3种类型:催化萜类化合物前体物质形成的管家基因DXS1,编码特异性次生代谢产物的DXS2和编码的酶功能未知或失活的DXS3。以拟南芥的DXS1基因为查询序列,另选取43个代表性物种的DXS基因序列用于分析。同一物种有多条DXS基因CDS序列信息的选取和拟南芥DXS基因CDS同源性最高的为代表。44个物种及其对应的DXS基因的CDS序列信息如表1所示。
1.2 多序列比对与系统发育分析
利用MEGA7.0软件中的Clustal W程序对44个代表性物种的DXS基因的CDS序列进行Align Codons[18]。比对后手动删除终止密码子且保证CDS序列的长度为3的倍数,序列的第一个碱基为密码子的第一位。利用DnaSP v5软件进行序列间的平均遗传距离估算与多态性位点分析[19]。利用DAMBE软件对序列进行碱基替换饱和度检测和作图[20]。利用MEGA 7.0软件和默认参数值构建44个物种DXS基因的系统发育树。
1.3 密码子偏好性和GC含量分析
利用DnaSP v5软件对44个物种DXS基因CDS序列密码子的整体GC含量,密码子第三位上的GC含量(GC3),有效密码子数(effective number of codon, ENC)和同义密码子相对使用度(relative synonymous codon usage, RSCU)进行分析。ENC值的取值范围为20~61,越接近20表明密码子偏好性越强,越靠近61则表示密码子的偏好性越弱。密码子的RSCU值越小于1,表示该密码子被使用的频率越低,RSCU值越大于1则表示该密码子被使用的频率越高。
1.4 选择压与正向选择作用检测
利用非同义替换率(dN)和同义替换率(dS)的比值(ω =dN/ dS)来度量基因在进化过程中受到选择压的大小。ω值等于1表明受中性选择;ω值小于1表明受纯化选择作用;ω值大于1则表明受正向选择作用[21-22]。利用PAML软件Codeml程序中依赖于似然率检测(likelihood ratio test, LRT)的单比率和二比率两种分枝模型,M0、M1a、M2a和M3位点模型以及Model A分枝-位点模型来检测DXS基因或其中某些位点在进化过程中受到选择压的大小以及是否受到正向选择作用[23]。
2 结果与分析
2.1 DXS基因的CDS序列分析
44个代表性物种DXS基因CDS序列的平均遗传距离为0.243。多态性位点分析结果表明,在参与比对分析的1 673 bp长度的DXS基因CDS序列中,保守位点694个,变异位点6 979个,其中单态变异位点124个,简约信息位点855个。表明DXS基因在进化过程中相对保守。利用DAMBE软件对44条DXS基因的CDS序列进行碱基替换饱和度检测及遗传距离与转换和颠换值的比对分析。结果表明,44条CDS序列Iss值(0.304)极显著(P<0.000 1)小于其Iss.C值(0.836),在F84替换模型下,绝大部分序列对之间的遗传距离均介于0.30至0.51,且所有序列对之间的遗传距离均大于其对应的转换和颠换值。综合表明,DXS基因序列间的碱基替换未达到饱和,适合用于系统发育树的构建。
表1 44个物种及其DXS基因的CDS序列信息Table 1 The information of 44 species and the CDS sequences of DXS genes
2.2 DXS基因的系统发育分析
利用MEGA7.0软件中的邻近法及程序的默认参数对44条DXS基因的CDS序列进行系统发育分析(图1)。结果表明,所有的裸子植物和单子叶植物分别被聚类在一块,除茶树外,其余双子叶植物的DXS基因也被聚类在同一个大的进化分枝中。在裸子植物进化分枝中,其中火炬松、欧洲云杉和赤松等3种松科植物的DXS基因聚类在同一个小的进化分枝中,但同为松科的北美云杉的DXS基因却和红豆杉科的曼地亚红豆杉的DXS基因表现出更高的同源性。在单子叶植物进化分枝中,其中11种禾本科植物的DXS基因被聚类在一块,凤梨的DXS基因则和另外两种棕榈科植物油棕和海枣的DXS基因表现出更高的同源性。在双子叶植物进化枝中同为杨柳科、豆科、茄科和十字花科植物的DXS基因也分别被聚类在相同进化分枝中。
图1 44个代表性物种DXS基因的系统发育树Figure 1 Phylogenetic tree of DXS genes from 44 representative species
2.3 DXS基因的密码子偏好性和GC含量分析
各物种DXS基因的ENC、GC3和G+C含量的分析结果如表1所示。结果表明,44个物种DXS基因的ENC值介于31.905~57.534,平均值为47.250。表明该基因密码子的整体偏好性较低,但在所选的单子叶植物中DXS基因的平均ENC值为38.05,显著低于所选双子叶植物(51.16)和裸子植物(53.09)DXS基因的平均ENC值。所选物种DXS基因的GC3含量介于0.29~0.96,平均值为0.49,G+C含量介于0.43~0.68,平均值为0.51。所选单子叶植物的DXS基因的平均GC3和GC含量均显著高于所选双子叶植物和裸子植物DXS基因的GC3和GC含量。单子叶植物DXS基因的平均GC3和GC值分别高达0.82和0.63,而双子叶植物和裸子植物DXS基因的平均GC3和GC含量均只有0.35和0.46。44个物种DXS基因的同义密码子相对使用度分析结果发现:CAG、GAU、AGA、AGG和GGA这5个密码子具有较高的使用偏好性(RSCU值>1)。其中密码子AGA和AGG在绝大部分所选物种的DXS基因中都表现出较强偏好性(RSCU值>2)。
2.4 选择压与正向选择作用检测
利用Codeml程序中的分枝模型、位点模型和分枝-位点模型对44个物种的DXS基因的分子进化特性进行分析。单比率分枝模型分析结果表明,DXS基因受到的平均选择压大小为0.094。分别以44个物种为前景枝的二比率分枝模型分析结果表明,DXS基因在不同的进化枝中受到的选择压大小差异显著,但dN/dS值均介于0.001~0.981,未检测到正向选择作用(表1)。在分别以单子叶植物、双子叶植物和裸子植物为前景枝的二比率分枝模型中,选择压大小分别为0.073、0.105和0.097,无显著差异(表2)。
M0位点模型分析结果表明,DXS基因在所有进化枝中各位点受到的平均选择压大小为0.056。M1a位点模型下,DXS基因95%的位点在进化过程中受到纯化选择作用,5%的位点受到中性选择作用。在M2a位点模型中,DXS基因有2.40%的位点检测到正向选择作用信号(dN/dS>1),且M2a和M1a两位点模型的LRT检测结果显著(P< 0.05)。但受正向选择作用的位点:10M、17N、21R、26K、34S、365S、542K和551E对应的贝叶斯经验贝叶斯(bayes and empirical bayes, BEB)的后验概率值均小于0.95 (表2)。M3位点模型允许所有位点受到的选择压大小呈简单离散分布,分析表明,在M3模型下未检测到受正向选择作用位点,66.98%的DXS基因位点在进化过程中受强烈的纯化选择作用(dN/dS =0.008)。
根据DXS基因的系统发育分析结果,分别以茶树和北美云杉为前景枝进行ModelA分枝-位点模型分析。结果表明,在北美云杉的DXS基因中226G、273T、292S、481A和514I位点被检测到受正向选择作用。在茶树的DXS基因中23H、161K、249R、262A、389V、405D和436V位点被检测到受正向选择作用。但是北美云杉和茶树DXS基因受正向选择作用位点的BEB后验概率P值分别介于0.584~0.837和0.677~0.916,均小于0.95 (表2)。
表2 DXS基因在不同模型下的参数估计值、对数似然值及正向选择位点统计Table 2 Parameter estimation, log likelihood, and positive selection site statistics for DXS gene in different models
2.5 dN/dS、ENC和GC含量相关性分析
虽然DXS基因在各进化枝中均未检测到正向选择作用,但不同物种的DXS基因在进化过程中受到的选择压大小差异显著。此外,不同物种DXS基因的密码子偏好性和GC含量也具有较大差异。dN/dS、ENC、GC3和G+C含量之间的Spearman相关性分析结果表明:ENC与dN/dS正相关,GC3和G+C含量与dN/dS负相关,但相关性均较弱且未达到显著水平;GC3和G+C含量与ENC均无显著相关性;GC3和G+C含量显著正相关,且相关系数高达0.944(图2)。
图2 dN/dS、ENC、GC3和G+C含量的Spearman相关性分析Figure 2 Spearman correlation analyses of dN/dS, ENC, GC3and G+C
3 讨论与结论
研究对44个物种的DXS基因进行了系统发育、密码子偏好性和分子进化特性分析。多序列比对分析结果表明,44个物种DXS基因序列的平均遗传距离为0.243,说明DXS基因家族具有较高的保守性,推测DXS基因在高等植物萜类化合物的生物合成途径中具有重要的作用[24]。系统发育分析结果显示,除茶树和北美云杉外,单子叶植物、双子叶植物和裸子植物分别被聚类在一起,同科的植物也分别形成了分枝。DXS基因树的拓扑结构和其对应物种树的拓扑结构基本一致,进一步说明DXS基因在进化过程中相对保守并推测DXS基因的分化时间先于对应物种的分化,这与盖江涛等[24]的研究结果相反,很可能是由于所选的代表性物种不同造成的。随后以茶树和北美云杉为前景枝的分枝-位点模型结果表明,在茶树和北美云杉的DXS基因中有部分位点被检测到正向选择作用,但对应的BEB后验概率P值均小于0.95,说明茶树和北美云杉DXS基因异常的系统发育树拓扑结构,不是由于受到强烈的正向选择作用导致的,很可能是DXS基因在进化过程中的不完全谱系分化造成的[25]。
密码子偏好性和GC含量分析结果表明,44个物种DXS基因的平均ENC、GC3和G+C含量分别为47.25、0.49和0.51,说明DXS基因的密码子偏好性较低。分子进化分析结果表明:各物种DXS基因受到选择压的大小均介于0.001~0.981,平均选择压大小为0.094,说明DXS基因在进化过程中主要受到纯化选择作用。在位点模型中,DXS基因约2.5%的位点被检测到正向选择作用,但对应的BEB后验概率P值均小于0.95,说明部分位点被检测到较高的选择压很可能是由于在进化过程中选择束缚的放松引起的[26]。Spearman相关性分析结果发现,ENC、GC3和G+C含量与dN/dS值均无显著的相关性,推测在进化过程中DXS基因受到选择压的大小更多的是由其编码的蛋白质特性及其位于的通路位置等因素决定的[27]。本研究为进一步研究植物DXS基因的功能及其在MEP途径中的分子调控机制研究提供理论基础。