APP下载

桦木科叶绿体基因组密码子偏好性及系统发育分析

2023-11-02郭佳星黄祥杨梅花王蕾蕾韩彦奇李卓怡

中国农业科技导报 2023年10期
关键词:桦木密码子叶绿体

郭佳星, 黄祥, 杨梅花, 王蕾蕾, 韩彦奇, 李卓怡

(石河子大学农学院,新疆 石河子 832003)

桦木科(Betulaceae)属于双子叶植物纲壳斗目(Fagales),由6 个属约130 个种组成,各属在中国均有分布,共74 个种[1-2]。该科可分为2 个亚科[3],其中桤木属(Alnus)和桦木属(Betula)属于桦木 亚 科(Betuloideae);其 他4 个 属 为 榛 亚 科(Coryloideae)。桦木科植物是具有重要生态防护功能的造林先锋树种,同时,桦木科植物树形优美,还是优良的园林绿化树种[4]。

植物叶绿体是参与植物细胞光合作用、氮代谢、脂肪酸和核酸合成等多种功能过程的关键质体[5]。植物叶绿体具有独特的基因组,其构造单一,遗传上比较保守,被广泛应用于进化分析和质体工程[6-7]。叶绿体基因组中rbc L、matK和trn L~trn F等基因序列被广泛应用于植物系统发育研究,其中matK基因是叶绿体基因中进化较快的基因之一,在科、属水平,该序列为研究类群内部的系统重建提供了较多的信息和较高的支持率。matK序列的核苷酸变化在种间、种内系统进化研究中也具有重要价值[8-10]。近年来,由于基因高通量测序技术的广泛应用,许多桦木科植物的叶绿体基因通过NCBI (National Center for Biotechnology Information)数据库已共享,这些分子信息有助于植物的进化分析和质体工程研究[11]。

在生物体基因表达过程中,同义密码子的使用频率不同形成了密码子使用偏好性(codon usage bias, CUB)[12-13]。其受碱基突变、环境因素、长期进化过程中基因漂移以及基因表达水平等因素影响,其中自然选择和突变是主要因素[14-15]。研究密码子偏好性有助于优化密码子,不仅能够提高转基因研究中外源序列的表达效率,还能促进物种进化研究[16]。目前,桦木科叶绿体基因组的相关研究主要以科内个体纵向之间系统发育研究为主[17-19],缺乏不同种间密码子使用偏好性的横向系统研究。

本研究以桦木科6个属50个种的叶绿体基因组数据为基础,系统地分析了桦木科叶绿体基因组密码子使用偏好性及其影响因素,进一步确定用于叶绿体基因工程的最佳密码子,并基于同义密码子相对使用度(relative synonymous codon usage,RSCU)和matK基因序列比较了桦木科植物的系统发育关系。研究结果不仅为桦木科植物的遗传进化研究提供思路,也为种质资源开发利用和叶绿体基因工程研究提供参考。

1 材料与方法

1.1 基因组数据获取

桦木科50 个物种的叶绿体基因组数据来源于NCBI 数据库(National Center for Biotechnology Information,https://www.ncbi.nlm.),登录号详见表1,并筛选长度大于300 bp 的基因序列用于进一步分析[20]。

1.2 研究方法

1.2.1 密码子相关参数计算 使用CodonW1.4.2软件分析50 种桦木科植物叶绿体筛选出的基因序列,计算相关参数,包括同义密码子相对使用度(relative synonymous codon usage,RSCU)、有效密码子数(effective number of codon,ENC)、密码子适应指数(codon adaptation index, CAI)、同义密码子GC3s含量和密码子第3位各碱基的含量。使用在线程序CUSP(http://imed.med.ucm.es/EMBOSS/)计算密码子第1位、第2位、第3位碱基的GC 含量(用GC1、GC2和GC3表示)和密码子平均GC含量(用GC表示)。

1.2.2 相关性分析 运用R 语言环境下Hmisc 软件包的Spearman 秩相关系数法对桦木科叶绿体各基因密码子相关参数间进行相关分析,并使用Performance Analytics 软件包的chart.Correlation 命令绘图。

1.2.3 中性绘图分析 对GC3 和GC12(GC1 与GC2 的平均值)绘制散点图,然后分析相关性,通过结果的显著与否来确定密码子偏好性的主要影响因素[21]。

1.2.4 ENC-plot 分 析 以GC3 和ENC 分 别 作X和Y轴,进行ENC-plot 绘图,并绘制标准曲线,如公式(1)所示。通过分析基因与标准曲线的位置关系,判断密码子偏好性的主要影响因素[8]。

1.2.5 PR2-plot 分析 分别计算筛选后基因密码子的G3/(G3+C3)和A3/(A3+T3)值,进行PR2-plot 绘图。图中中心点(0.5,0.5)为A=T 且C=G,表示密码子无使用偏好性,通过图中基因位点和中心点的比较,判断其偏倚程度及方向[9]。

1.2.6 最优密码子分析 选取筛选后基因密码子ENC 值靠前10%和靠后10%的基因,构建高偏好性和低偏好性库。对2 个库中密码子的RSCU 值和ΔRSCU值进行计算,以ΔRSCU≥0.08且RSCU>1为条件确定最优密码子[20]。

1.2.7 系统发育分析 基于叶绿体基因组密码子RSCU 值,运用SPSS 25.0的离差平方和法(Ward’s method)对50 种桦木科植物进行聚类分析。基于叶绿体matK基因序列,运用MEGA 7.0 的最大邻接法(neighbor-joining,NJ)构建50 种桦木科植物系统发育树[21]。

2 结果与分析

2.1 密码子组成特征分析

由表1 可知,桦木科6 个属50 个种之间的叶绿体基因密码子不同位置碱基的GC 含量存在差异,表现为GC1(45.4%)>GC2(37.4%)>GC3(29.7%),平均GC 含量为37.6%,表明密码子偏好使用以A/U结尾;密码子适应指数(CAI)为0.163~0.166,平均0.165,即CAI 值较低;有效密码子数(ENC)为49.29~50.46,平均49.78,ENC 值均大于45。由此表明,桦木科叶绿体基因组密码子偏好性弱。

2.2 相关性分析

相关分析结果(表2)表明,在50种桦木科植物叶绿体基因组密码子中GC1与GC2、GC2与GC3呈极显著相关;GC1 与GC3 相关不显著;GC1、GC2、GC3均与平均GC含量呈极显著相关;这表明桦木科植物叶绿体基因密码子各碱基的组成整体相关性不大。ENC 与CAI 呈显著负相关,与GC2、GC3呈极显著正相关,表明GC2和GC3越高,50种桦木科植物叶绿体基因组密码子偏好性越弱。

表2 基因密码子各参数之间相关性分析Table 2 Correlation analysis between the indexes of codon use

2.3 密码子使用偏好性影响因素分析

在桦木科6个属中分别选取2个代表物种,包括鹅耳枥属(Carpinus)中的美洲鹅耳枥(C. caroliniana)和千金榆(C. cordata)、虎榛子属(Ostryopsis)中的虎榛子(O. davidiana)和滇虎榛(O. nobilis)、桦木属中的沼桦(B. nana)和白桦(B. platyphylla)、桤木属中的桤木(A. cremastogyne)和红桤木(A. rubra)、铁木属(Ostryopsis)中的铁木(O. japonica)和毛果铁木(O.trichocarpa)、榛属(Corylus)中的美洲榛(C. americana)和华榛(C. chinensis),进一步分析桦木科叶绿体基因组密码子偏好性的影响因素。

2.3.1 中性绘图分析 由图1 可知,GC3 的分布区域较小(0.205 9~0.366 3),GC12 分布范围较大(0.306 8~0.550 4),对角线上方有较多基因分布,仅有少部分基因沿对角线分布,表明第3 位碱基组成和第1、2 位碱基组成并不呈线性相关;线性回归系数较小(0.009 49~0.046 37),表明突变对基因组密码子使用偏好性影响最高仅占4.637%。因此,12 种桦木科植物叶绿体基因组密码子使用偏好性主要受自然选择影响,同时也受到突变作用的影响。

2.3.2 ENC-plot 分析 由图2 可知,12 种桦木科植物叶绿体基因在图中标准曲线两侧呈小簇状分布,且主要分布在标准曲线下方,其ENC 期望值大于实际值。由此表明,12 种桦木科植物叶绿体基因组密码子使用偏好性除自然选择因素影响外,部分基因受到突变作用影响。

图2 ENC-plot 分析Fig. 2 Analysis of ENC-plot

2.3.3 PR2-plot 分析 由图3 可知,基因数量在图中4 个区域中分布不均匀。在竖直方向,大部分基因汇集于中线下方;在水平方向,基因在中线两侧分布差异不显著,表明桦木科植物叶绿体基因组密码子第3 位碱基组成中碱基A 的频率小于碱基T,碱基C的频率和碱基G差异较小。该结果进一步表明,桦木科植物叶绿体基因组密码子使用偏好性在一定程度上受到碱基突变的影响。

图3 PR2-plot 分析Fig. 3 Analysis of PR2-plot

2.4 最优密码子分析

根据ENC 值对50 种桦木科植物叶绿体基因组的高表达和低表达基因建库,并计算高、低2库的RSCU 和ΔRSCU。结果(图4)显示,桦木科植物叶绿体基因组的最优密码子的数量在25~30之间,密码子CUC、CUG、AUC、GUC、GUG、GGG、UGC、CCA、ACG、GCC、CGA、CGG、CAG、GAG、AGG 为共有的最优密码子。其中以G 结尾的密码子占最优密码子总数的53.3%,以C 结尾的占33.3%,即最优密码子第3 位碱基偏向于G 和C 结尾。此外,不同属内种间共有最优密码子数量存在差异,鹅耳枥属、铁木属和榛属均有28个,虎榛子属有26个,桦木属和桤木属有19个。

图4 最优密码子分析Fig. 4 Analysis of optimal codons

2.5 系统发育分析

根据叶绿体基因组密码子的RSCU 值对50种桦木科植物进行聚类分析(图5A),在欧氏平方距离18.82 处,天台鹅耳枥(C. tientaiensis)单独聚成1 支,其他49 种桦木科植物聚成1 个大支;在欧氏平方距离16.37 处,9 种桦木属物种单独聚成1 支;在欧氏平方距离14.27 处,5 种桤木属和13 种榛属物种聚成1 支,3 种虎榛子属、3 种铁木属和15 种鹅耳枥属物种聚成1 支,同一分支内的桦木科物种存在相近的密码子使用偏好性。由图5B 可知,除桦叶鹅耳枥外,基于matK基因序列系统发育分析能够对桦木科不同物种的亲缘关系进行到属间的划分。整体上看,基于matK基因序列系统发育树的拓扑结构和基于叶绿体基因组密码子RSCU 值的聚类结果相似。亲缘关系比较近的物种如铁木属、鹅耳枥属和虎榛子属,其密码子使用偏好性比较相似;但也存在亲缘关系相近而密码子使用偏好性存在较大差异的现象,如天台鹅耳枥和另外15 种鹅耳枥属,其物种密码子使用偏好性差别较大。以上结果进一步表明,不同物种间的叶绿体基因组密码子使用偏好性和物种进化两者间有时并不完全相关,但存在不同属间的差异性和属内物种间的相似性。

图5 聚类分析Fig. 5 Cluster analysis

3 讨论

生物在进化过程中会以特定的密码子模式来适应进化、自然选择和突变等[15]。密码子的碱基序列组成对密码子的使用偏好性存在一定程度的影响[22]。密码子第3 碱基的同义突变虽不会改变氨基酸的类型,但却对决定氨基酸种类具有重要作用,因此GC3 是密码子偏好性分析的重要指标[23]。在以往的研究中,双子叶植物中GC3 通常小于50%,即密码子更偏好于以A/U 结尾,而在单子叶植物中却相反[24]。本研究结果与多数双子叶植物的研究结果较为一致。桦木科植物叶绿体基因组密码子CAI值较低,而ENC值相对较高,说明桦木科叶绿体基因组密码子偏好性较弱,这或许与其叶绿体基因的功能相对较为稳定、保守有关[25]。

研究表明,若密码子GC12 与GC3 无显著相关,且GC3 值分布范围较小时,自然选择是密码子偏好性的主要影响因素[26-27]。本研究表明,桦木科植物叶绿体基因组密码子GC3 分布范围较小(0.205 9~0.366 3),且GC3 与GC1、GC2 无显著相关性。因此,桦木科叶绿体基因组密码子使用偏好性的主要影响因素是自然选择。同时,ENCplot 和PR2-plot 研究结果进一步证实了该结论。这与木兰科[28]研究结果一致,但与槲蕨属[29]和秋茄[25]等植物中的研究结果存在差异。

研究生物体中最优密码子有助于最大限度地提高翻译速度和提高翻译准确性[15]。本研究中,50 种桦木科植物叶绿体基因组最优密码子的数量在25~30 之间,表明桦木科不同物种在适应自然选择过程中其最优密码子使用策略存在差异。本研究检测到的共有最优密码子为15 个,且第3 位碱基更偏好于使用G/C结尾,这与大部分双子叶植物密码子偏向于以A/U 结尾特征存在差异[30-31],但和西南桦的研究结果相一致[32],这可能是该科植物叶绿体基因组最优密码子使用的一种特殊机制。

基于密码子使用偏好性进行聚类分析在一定程度上能够反映物种间的亲缘关系[33]。本研究基于 RSCU 值的聚类结果和基于matK基因序列构建的系统发育树,两者的拓扑结构相似。其中,除天台鹅耳枥外,基于RSCU 值的聚类将桦木科植物实现亚属的划分;而基于matK基因序列构建的系统发育树能够对50 种桦木科植物进行到亚科的划分。由此表明,基于密码子RSCU 值的聚类结果和传统桦木科的种属分类结果[17]存在一定程度差异,这可能与桦木科不同物种在进化过程中其叶绿体基因组密码子偏好性受自然选择、突变等因素影响程度存在种间差异有关。因此,密码子RSCU 值的聚类分析在较小型的分类单元中可以提供更加可信的结论,而在较大型的分类单元中只能作为传统分类的补充[25]。

猜你喜欢

桦木密码子叶绿体
桦木酸提取、合成及药理作用的研究进展*
密码子与反密码子的本质与拓展
10种藏药材ccmFN基因片段密码子偏好性分析
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
桦木醇对人结肠癌SW480细胞增殖和凋亡的影响
黄龙山白桦桦木醇与桦木酸含量研究
超高效液相色谱法测定大鼠粪便中的桦木醇
茶树CsActin1基因密码子偏性分析
茶树叶绿体DNA的PCR-RFLP反应体系优化
烟草叶绿体密码子的偏好性及聚类分析