APP下载

荨麻叶绿体基因组密码子偏好性分析

2022-03-21李魁印张海玲从春雷宋晓慧陈薇薇常向彩田山君

种子 2022年2期
关键词:叶绿体同义比值

李魁印, 张海玲, 张 鸿, 从春雷, 宋晓慧,陈薇薇, 庞 丽, 常向彩, 田山君

(1.安顺学院农学院, 贵州 安顺 561000; 2.贵州大学农学院, 贵阳 550025;3.清镇市第一中学, 贵州 清镇 551400)

密码子是DNA或mRNA上的三联体核苷酸残基序列,每一个三联体密码子对应一个氨基酸。在DNA翻译为蛋白质的生物学过程中,同义密码子的使用存在不均衡的现象。同一物种编码相同氨基酸的不同密码子也有着不同的使用频率,即密码子的使用具有偏好性[1]。叶绿体是具有一套完整复制和翻译系统的细胞器,具有遗传信息保守,表达效率高等特点[2-3]。与植物叶绿体基因组相关的研究已在分子进化和系统发育等领域[4-5]广泛应用。研究表明,DNA复制位点[6]、自然选择、突变、基因序列的长度[7]等均会影响叶绿体基因组密码子的偏好性。针对植物叶绿体基因组密码子偏好性的相关研究已经在金莲花、苦荞、巨桉叶等多种植物[8-10]中展开。本研究通过对荨麻叶绿体基因组进行中性绘图分析(neutral plot analysis)、ENC绘图分析(ENC analysis)及PR 2绘图分析(PR 2-bias analysis),表明自然选择是影响荨麻叶绿体基因组密码子偏好性的主要因素。这可为荨麻叶绿体外源基因的改良优化,以及提高其基因表达水平等方面的研究提供参考。

1 材料与方法

1.1 序列的获得与处理

根据登录号(GenBank登陆编号:MZ 313540)从NCBI数据库(http://www.ncbi.nlm.gov)下载得到荨麻科荨麻属荨麻(UrticafissaL.)的基因组及其注释信息,其序列全长为146 829 bp,其中含有86条CDS(Coding DNA Sequence)序列。

使用Python 3.8.0将文件从Genbank格式中获取86条DNA序列,并处理成fasta格式文件,在Codon W 1.4.1[11]中运行,对得到的数据进行整理及分析。

1.2 密码子组成分析

用Python 3.8.0分别统计密码子3个位置的GC含量,GC1,GC2,GC3分别表示密码子第1、2、3位的GC比,GC表示全部序列的GC比。在EMBOSS(https://www.bioinformatics.nl/emboss-explorer)[12]中分析各基因的有效密码子数(Effective Number of Codon,ENC),利用软件SPSS 26.0对所得数据进行处理。

1.3 密码子偏好性分析

相对同义密码子使用度(Relative Synonymous Codon Usage,RSCU)。RSCU表示该密码子实际使用值与理论使用值之间的比值[13]。用Python 3.8.0去除30条长度小于300 bp的CDS[14],剩余56条符合条件的CDS在软件Codon W 1.4.1中进行RSCU统计分析。

1.4 中性绘图分析

以各基因的GC12(GC1和GC2的平均值)为纵坐标,GC3为横坐标作散点图(拟合得到GC3-GC12的方程)(图3)。分析密码子第1、2位和第3位碱基组成的相关性,可以得到影响密码子偏好性的有效因素[15]。若GC12与GC3显著相关,表明3个位置上的碱基组成差异较小,即密码子的使用偏好性更多地受突变影响;若GC12与GC3之间相关性不显著,表明3个位置上的碱基组成存在差异,荨麻叶绿体基因组GC含量高度保守,密码子的使用偏好性更多地受自然选择影响[16]。

1.5 ENC绘图分析

以各基因的ENC值为纵坐标,GC3为横坐标构建二维散点图(图4)。并在ENC-GC3散点图中绘制ENC值标准曲线以分析碱基组成对密码子偏好性的影响[17]。ENC值是反映同义密码子非均衡使用偏好程度的重要指标[18]。若基因位于标准曲线下方,表示自然选择更多地影响该基因密码子偏好性,基因位于标准曲线附近表示突变更多地影响该基因密码子偏好性。密码子偏好性的强弱通常以35为区分标准。一般认为,当ENC<35时,编码氨基酸的密码子使用性较强,反之则弱。标准曲线方程[19]如下:

自然选择和突变二者对密码子偏好性的影响程度并不能通过ENC绘图分析准确区分。因此通过计算ENC期望值(ENCexp)与ENC观察值(ENCobs)之间的差异得到ENC比值频数,从而更有效地评估二者对密码子偏好性的影响程度。ENC比值频数的计算公式为:

(ENCexp-ENCobs)/ENCexp

通过ENC绘图分析和ENC比值频数这两种分析结果对自然选择和突变二者之间的差异进行量化分析[20]。

1.6 PR 2绘图分析

PR 2偏倚分析[21]是分析各密码子第3位碱基A、T和C、G之间突变是否平衡。针对由同义密码子编码的不同氨基酸,统计分析其所有密码子第3位上碱基的数量,分析并计算得到每个基因G3/(G3+C3)和A3/(A3+T3)的比值。以G3/(G3+C3)为横坐标,A3/(A3+T3)为纵坐标作散点图(图5)。散点图中心点的位置表示密码子第3位的碱基含量为A=T且C=G,其余的点与中心点之间的矢量表示该基因的偏性方向和偏移程度[22]。

1.7 最优密码子分析

对56条长度大于300 bp的CDS的ENC值进行排序,两极各选10%的基因构建高低偏性库[23],取偏性库中ΔRSCU≥0.08(ΔRSCU=RSCU高表达-RSCU低表达)[24]的密码子作为高表达密码子。荨麻叶绿体基因组的最优密码子需同时满足高频率和高表达这两个要求[25]。

2 结果与分析

2.1 基因组特征

对比荨麻(U.fissa)和裂叶荨麻(U.lobatifolia)的基因组(表1),发现二者大单拷贝区(Large Single Copy,LSC)、小单拷贝区(Small Single Copy,SSC)、tRNA、rRNA和反向重复区(Inverted Repeats,IR)无较大差异,而CDS差异较大。二者的序列长度和比例分别为:荨麻(77 772 bp,52.96%);裂叶荨麻(68 508 bp,46.66%),荨麻的CDS大于裂叶荨麻,说明荨麻的注释可能更完整。

表1 裂叶荨麻和荨麻基因组特征

使用叶绿体圈图在线绘制工具OGDRAW绘制荨麻叶绿体基因组圈图[26](Organellar GenomeDRAW,https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)。圈内的基因正向转录,圈外的基因反向转录[27]。荨麻叶绿体基因组大小为146 837 bp,共有叶绿体基因115个,其中CDS共81个,tRNA共30个,rRNA共4个(图1)。

图1 荨麻叶绿体基因组序列圈图

2.2 密码子组成分析

统计荨麻叶绿体基因组不同位置的GC含量及ENC值(表2)。所有CDS密码子的平均GC含量为37.40%。密码子第3位GC的平均含量为27.61%,明显低于第1位和第2位的45.73%和38.87%。绝大多数密码子前两位的GC含量通常高于第3位密码子,说明密码子第3位碱基组成多为A和T。ENC值的大小反映了密码子偏性的强弱,原则上ENC的取值范围为20~61。按照惯例,以35作为偏性强弱的区分标准[28]。荨麻56个叶绿体基因组密码子ENC值在35.68~61之间,平均值为47.41,所以荨麻叶绿体基因密码子偏性较弱。

表2 荨麻叶绿体基因组密码子不同位置的GC含量及ENC值

荨麻叶绿体基因组GC1,GC2,GC3,GC、ENC和密码子数目(Codon Number)间的相关性分析详见图2。GC分别与GC1,GC2,GC3的相关性达到极显著水平,而GC3与GC1、GC2之间均未达到显著水平,说明荨麻叶绿体基因组密码子第1,2位的碱基组成与第3位的碱基存在差异。ENC与GC1、GC2相关性不显著,但与GC3含量显著相关。密码子数目与ENC二者间的相关系数R2为0.276,说明密码子偏好性受基因序列长度影响较大。

图2 荨麻叶绿体基因组各基因相关参数的相关性分析

2.3 密码子偏好性分析

各种氨基酸的RSCU值分析见表3。当RSCU>1时,表示该密码子的使用频率高于其同义密码子的使用频率;当RSCU=1时,表示该密码子没有偏好性;当RSCU<1时,表示该密码子的使用频率低于其他同义密码子的使用频率。从表3可以看出,RSCU值大于1.00的密码子数量为33,其中以A结尾的14个,T结尾的16个,G结尾的3个。密码子以A和T为结尾的出现频率比较高,说明A和T是基因组偏好的密码子。

表3 荨麻各氨基酸相对同义密码子使用度

2.4 中性绘图分析

荨麻叶绿体基因组各基因中性绘图分析及结果见图3,根据中性绘图分析可以看出回归系数R为0.151,GC3与GC12的决定系数R2=0.041,GC12的取值范围为0.29~0.53,GC3的取值范围为0.18~0.39。中性绘图分析的结果说明第1,2和第3位碱基组成无较大差异,两者的相关性较低。图中绝大多数基因落在对角线(图3中蓝色直线)下方,说明荨麻密码子偏好性形成的主要因素是自然选择,而不是突变。

图3 中性绘图分析

2.5 ENC绘图分析

ENC与GC3的关联分析及结果见图4。由ENC-GC3关联分析可以看出,标准曲线下方汇集了大部分基因,这一结果说明自然选择对荨麻叶绿体基因组密码子偏好性的影响较大。同时结合ENC比值频数(表4)统计不同组段的频率得到结果:ENC比值分布在-0.05~0.05这一区间的基因频率为0.392 9,比值分布在0.05~0.15这一区间的基因频率为0.446 4,大多数的ENC比值分布在0.05~0.15之间,说明ENCexp与ENCobs差异较大,即离标准曲线较远,因此荨麻叶绿体基因组密码子的偏好性更多地受自然选择的影响。

表4 荨麻叶绿体基因组ENC比值频数分布

图4 ENC绘图分析

2.6 PR 2绘图分析

PR 2绘图分析是分析荨麻叶绿体基因组中氨基酸嘌呤(A和G)与嘧啶(T和C)之间的关系。由PR 2绘图分析可以得到结论:大部分基因位于第四象限,这说明嘧啶T的使用频率高于嘌呤A的使用频率,嘌呤G的使用频率高于嘧啶C的使用频率。若荨麻叶绿体基因组密码子的偏好性完全受突变的影响,那A和T以及G和C的使用频率应当相等。因此可以得出结论:不仅自然突变对荨麻叶绿体基因组密码子的使用有一定的影响,自然选择也影响了其密码子的使用偏好。

2.7 最优密码子分析

根据56条CDS的ENC值对各基因进行排序,根据其数值大小在两极各选取6个基因构建高、低表达基因库,并计算高低表达基因库中密码子的ΔRSCU值(表5)。高表达基因为psbA、ndhC、rpl 16、rps 18、petB和ndhJ;低表达基因为ycf 1、rps 4、petA、ycf 3、rps 2和cemA。在表3中选出共计33个相对同义密码子使用度值大于1密码子为高频密码子。进一步根据ΔRSCU值筛选出ΔRSCU大于等于0.08的高表达密码子,共计22个。其中以T结尾的密码子有10个,以A结尾的密码子有4个,以G结尾的密码子有3个,以C结尾的密码子有5个。最终确定15个密码子为荨麻叶绿体基因组的最优密码子,分别为CAA、AGT、GCT、CGT、CGA、GAT、TGT、GGT、ATT、CCT、TCT、ACT、GTA、TTA、TTG。

表5 荨麻叶绿体基因组氨基酸的RSCU值

3 讨 论

叶绿体是植物中遗传信息保守的细胞器,其基因组的结构也较为稳定。在叶绿体基因中,同义密码子的使用也同核基因一样存在不均等的现象,即密码子存在偏好性。总结前人的研究发现,除自然选择和突变这两个因素对密码子使用偏性有一定的影响外[29],叶绿体基因组密码子的偏好性还与碱基组成差异[30]、tRNA丰度[31]等因素有关。其中,最普遍的影响因素为密码子的碱基组成。密码子第3位的改变对氨基酸的影响较小,即密码子的改变通常不会引起氨基酸的变化,且密码子第3位的碱基突变受到的选择压力比较小。综合考虑以上两种因素发现,研究密码子第3位碱基的组成对探究密码子偏好性有重要意义。本文计算了荨麻叶绿体基因组第3位密码子的组成,发现其中T>A,G>C。结合中性绘图分析、ENC绘图分析及PR 2绘图分析后得出结论:自然选择是影响荨麻叶绿体基因组密码子偏好性的主要因素。结合荨麻叶绿体基因组最优密码子分析,最终确定了CAA、AGT、GCT、CGT、CGA、GAT、TGT、GGT、ATT、CCT、TCT、ACT、GTA、TTA、TTG共15个密码子为荨麻叶绿体基因组的最优密码子。

植物叶绿体密码子偏好性是多个因素共同作用的结果,密码子的偏好性是物种对其生存环境及自然进化的适应性选择的结果。从进化角度上看,这种适应性选择的不同可能与物种对自然环境的适应性调节有关。密码子使用的偏好性及使用模式能够反映物种间的进化关系,因此更深层次的研究在探究密码子偏好性对物种系统发育方面具有积极意义。

猜你喜欢

叶绿体同义比值
祈使句小练
until用法巩固精练
共生
人不吃饭行吗
也谈极值点偏移问题破解策略
物理中的比值定义法
一种快速提取微藻完整叶绿体及其DNA的方法
平均功率与瞬时功率的比较与应用
同义句转换专项练习50题
对“叶绿体中色素的提取和分离实验”的改进