显齿蛇葡萄叶绿体基因组密码子使用偏好性分析
2023-01-13罗永坚
李 清,罗永坚,葛 蓉,刘 军
(广东省农业科学院农业生物基因研究中心/广东省农作物种质资源保存与利用重点实验室,广东 广州 510640)
【研究意义】遗传密码是连接核酸和蛋白质的纽带,在生物体遗传信息的传递中起重要作用,其中mRNA 共有64 个密码子,编码20 个氨基酸和3 个终止信号,除Met 和Trp 仅由1 个密码子编码外,大多数氨基酸由多个同义密码子编码[1]。然而,蛋白质合成过程中不同密码子的使用概率并不相同。一个物种或者一个基因更倾向于使用一个或多个特定的同义密码子,这被称为同义密码子使用偏好性(Synonymous Codon Usage Bias,SCUB)[2]。密码子使用偏好性的特征在原核生物和真核生物中普遍存在。大量研究表明,密码子使用偏好模式可能由于基因在基因组进化过程中受到多种因素影响引起,包括自然选择、组成突变模式、翻译选择、基因长度、tRNA 丰度和mRNA 二级结构等[3-5]。因此,密码子使用偏好性的研究不仅可以揭示一个物种或相关物种基因之间的起源、进化和突变方式,而且密码子的优化可以提高外源序列在转基因研究中的表达效率,进而提高转基因位点的准确性[6]。【前人研究进展】叶绿体是调节植物光合作用的主要细胞器,具有感知外界环境胁迫信号的能力[7]。由于叶绿体基因组的小尺寸和大拷贝数,其功能受到广泛关注[8]。与核基因转化相比,叶绿体基因组具有外源基因表达效率高、定点整合无位置效应现象、遗传稳定、不随花粉漂移等优点,现已被广泛应用于分子进化、系统发育和遗传表达等领域[9-10]。随着高通量测序技术的快速发展,目前已有许多植物的叶绿体基因组完成测序,并且完成了密码子特征的分析,包括木薯(Manihot esculentaL.)[11]、菠萝(Ananas comosusL.)[12]、稷(Panicum miliaceumL.)[13]、芝麻(Sesamum indicumL.)[14]等。
【本研究切入点】显齿蛇葡萄(Ampelopsis grossedentata),是葡萄科(Vitaceae)蛇葡萄属(Ampelopsis)中的一种藤本植物,其嫩茎叶富含二氢杨梅素等黄酮类化合物,具有抗氧化、抗肿瘤、护肝、降血糖和调血脂等多种功效,开发利用前景广阔[15]。目前,关于显齿蛇葡萄的研究主要集中在抗氧化活性、二氢杨梅素测定、药理作用等方面,有关质量标准、指纹图谱等方面也有所报道[16],然而关于显齿蛇葡萄叶绿体基因组密码子偏好性方面的还未见相关研究报道。【拟解决的关键问题】本研究分析显齿蛇葡萄叶绿体基因组的密码子使用偏好、变异来源和筛选最优密码子,并利用多元统计分析方法探讨显齿蛇葡萄叶绿体基因组的密码子使用模式以及分析其影响因素,不仅对提高显齿蛇葡萄叶绿体基因的外源表达水平具有指导意义,同时也为显齿蛇葡萄的后续基因组研究及其遗传改良育种提供理论基础。
1 材料与方法
1.1 试验材料
从NCBI 数据库下载显齿蛇葡萄完整叶绿体基因组(GenBank 登录号:MT267294),序列全长为162 147 bp,为了提高分析密码子偏好性的准确性,首先从82 个CDS 中剔除长度小于300 bp 的序列,其次选择以ATG 为起始密码子,TAA、TAG 或TGA 为终止密码子的CDS 序列,最终筛选出59 条序列进行后续数据分析[17]。
1.2 试验方法
1.2.1 密码子碱基组成分析 使用CodonW 1.4.2软件分析59 个显齿蛇葡萄叶绿体基因组CDS 的同义密码子相对使用度(Relative Synonymous Codon Usage,RSCU)、有效密码子数(Effective Number of Codon,ENC)、密码子适应指数(Codon Adaptation Index,CAI)、氨基酸长度(Length of Amino Acid,Laa)、第3 位碱基上A、T、C、G 含量以及最优密码子使用频率(Frequency of Optimal Codons,FOP),使用在线软件工具EMBOSS(http://www.bioinformatics.nl/emboss-explorer)分析各基因密码子上第1、2、3 位碱基的GC 含量(GC1、GC2、GC3),并计算各基因的总GC 含量(GCall),并利用SPSS 计算GC1、GC2、GC3、Laa、ENC 的相关性。
1.2.2 中性绘图分析 中性绘图是一种可初步判别影响密码子偏好性因素的方法,以GC12(GC1和GC2的均值)为纵坐标,GC3为横坐标绘制散点图,图中每一个点代表一个基因的位置,并对GC12和GC3进行相关性分析,推断影响密码子使用偏好性的因素。若GC12和GC3呈显著相关,则说明密码子3 个位点的碱基具有相同变异模式,密码子使用偏好性主要受突变影响,若相关性不显著,则说明3 个位点的碱基变异模式较大,主要受自然选择影响[18]。
1.2.3 ENC-plot 分析 为探究密码子使用偏好性与基因碱基组成之间的关系,以GC3为横坐标、ENC 为纵坐标绘制散点图,以基因与ENC 标准曲线的距离衡量影响密码子偏好性的主要因素,ENC 的期望值ENCexp=2+GC3+29/﹝GC32+(1-GC3)2﹞[19]。
1.2.4 PR2-plot 分析 通过偏倚分析密码子第3 位碱基A、T 和C、G 之间突变是否平衡,计算密码子第3 位碱基上A、T、C、G 的含量,以A3/(A3+T3)为纵坐标,G3/(G3+C3)为横坐标进行偏倚分析,在平面图上显示各密码子第3 位碱基的组成状态[20]。
1.2.5 最优密码子分析 将59 个基因按照CAI值从高到低排列,分别选择两端10%基因数(共12 个)作为高、低表达库并计算。RSCU值≥1 的为高频密码子,ΔRSCU(RSCU高表达-RSCU低表达)值>0.08 为高表达密码子;若该密码子ΔRSCU ≥0.0 8 且RSCU ≥1,则被确定为最优密码子[21]。
2 结果与分析
2.1 显齿蛇葡萄叶绿体基因组密码子的组成特征
通过利用Codon W 1.4.2 软件分析59条显齿蛇葡萄叶绿体中的编码蛋白基因,由表1 可知,有核糖体基因11 个(rps11、rps12-1、rps14、rps16、rps18、rps2、rps3、rps4、rps7、rps7、rps8),光合作用基因9 个(petA、petB、petD、psaA、psaB、psbA、psbB、psbC、psbD),烟碱脱氢酶基因12 个(ndhA、ndhB、ndhB、ndhC、ndhD、ndhE、ndhF、ndhG、ndhH、ndhI、ndhJ、ndhK),ATP 基因6 个(accD、atpA、atpB、atpE、atpF、atpI),其他基因21 个;平均GC含量为37.98%,其中密码子的3 位碱基的平均GC 含量分别为GC1(44.88%)>GC2(38.13%)>GC3(29.45%),显齿蛇葡萄叶绿体基因密码子末尾碱基偏好以A/T(U)结尾。表1 显示,ENC取值范围为37.39~57.12,平均值为48.48,可见显齿蛇葡萄叶绿体基因组密码子偏好性较弱。
表1 显齿蛇葡萄叶绿体基因组密码子的主要参数GC1、GC2、GC3、GCall 和ENCTable 1 Main parameters (GC1,GC2,GC3,GCall and ENC) of chloroplast genome codons in Ampelopsis grossedentata
基因密码子各参数之间的相关性分析结果(图1)表明,GC1与GC2、GC 为极显著相关,与GC3和ENC 为显著负相关,GC2与GC3为极显著相关,说明叶绿体基因组中,第1 位碱基与第2 位碱基组成具有较大的相似性,但均与第3 位碱基具有较大差异;GC3与ENC 和Laa 为极显著相关,说明第3 位碱基组成的变化对密码子的使用偏好性影响较大,且基因长度影响第3 位碱基的组成,ENC 与Laa 均达到极显著相关,表明序列长度对密码子使用偏好性造成较大影响。
图1 显齿蛇葡萄叶绿体基因组密码子各参数间的相关分析Fig.1 Correlation analysis between the indexes of chloroplast genome codon in Ampelopsis grossedentata
使用CodonW 计算59 条编码蛋白序列的相对同义密码子使用度RSCU,结果(图2)显示,29个密码子的RSCU>1、为高频密码子,其中12 个以U 结尾、14 个以A 结尾、2 个以G 结尾和 1 个以C 结尾,A/U 结尾的密码子占89.65%,表明显齿蛇葡萄叶绿体基因组密码子更偏向A/U 结尾,以G/C 结尾的密码子偏少。
图2 显齿蛇葡萄叶绿体基因组的RSCU 分析Fig.2 RSCU analysis of chloroplast genome in Ampelopsis grossedentata
2.2 中性绘图分析
中性绘图分析结果(图3)显示,GC12的平均值为32.63%~56.12%,GC3的取值范围为21.57%~41.73%。图中各基因均位于对角线上方,且标准曲线斜率为-0.2401,表明第3 位密码子碱基与第1、2 位碱基组成不同。GC12和GC3的相关系数为0.0608,相关性不显著,表明显齿蛇葡萄叶绿体基因密码子3 个位点的碱基组成存在较大差异,且显齿蛇葡萄叶绿体基因组的密码子偏好性主要受自然选择因素影响,然而有3 个基因(clpP、rps16、rpl16)位于对角线下方,说明这3 个基因受突变影响造成。
图3 中性绘图分析结果Fig.3 Analysis result of neutral plot
2.3 ENC-plot 分析
以GC3为横坐标、ENC 为纵坐标绘制散点图(图4),并与ENC 的期望值ENCexp进行比较,ENC<35 表示密码子偏性较强,而ENC>35则表示密码子偏性较弱[19]。ENCexp取值范围为42.95~58.43,说明密码子使用偏好性较弱。计算ENC/ENCexp比值(表2)发现,比值在-0.05~0.05间有39 个,占基因总数的66.2%,说明基因落在标准曲线附近,表明突变对密码子偏好性的形成起重要作用。
表2 ENC/ENCexp 频数分布Table 2 Distribution of ENC/ENCexp ratio
图4 ENC-plot 分析结果Fig.4 Analysis result of ENC-plot
2.4 PR2-plot 分析
偏倚分析可探究突变和自然选择对密码子使用偏好的影响,PR2-plot 分析结果(图5)表明,基因位点在4 个平面中分布并不均匀,从使用频率上看T>A、G>C,其基因密码子主要分布在右下方区域(23 个),表明显齿蛇葡萄叶绿体基因组密码子第3 位碱基T、G 的使用频率高于A、C,说明显齿蛇葡萄叶绿体基因组密码子使用偏好性主要由自然选择因素决定,但同时也受到自身内部碱基突变因素的影响。
图5 PR2-plot 分析结果Fig.5 Analysis result of PR2-plot
2.5 显齿蛇葡萄叶绿体基因组最优密码子鉴定
以RSCU>1 为标准共筛选出28 个高频密码子(表2);通过CAI 值对编码蛋白基因降序排序,取高低两端前10%序列(分别各取8 条)进行最优密码子计算,以ΔRSCU>0.08 为标准确定了31个高表达密码子,其中12 个以A/T 结尾,19 个以C/G 结尾;以ΔRSCU>0.08、且RSCU>1 为标准共确定13 个最优密码子(UUU、CUA、AUA、UCA、CCA、ACA、GCA、CAU、GAU、UGA、AGA、GGA、GGG),其中12 个以A/U 结尾、1 个以G 结尾。
表2 显齿蛇葡萄叶绿体基因组的最优密码子Table 2 Optimal codons in chloroplast genome of Ampelopsis grossedentata
3 讨论
同义密码子使用偏好是生物群中一种不可避免的现象,生物获得特定的密码子使用模式以适应起源、进化、自然选择和突变压力等多种因素[22]。密码子第3 个碱基的同义突变不能改变氨基酸的类型,但被认为是决定氨基酸类型的重要特征,因此GC3经常被用作密码子偏向的重要指标[23-24]。本研究对密码子碱基组成的分析表明,显齿蛇葡萄叶绿体基因组的CDS 序列GC3含量为29.45%,更倾向于使用A/T 密码子,这与王义华[25]分析葡萄属叶绿体基因组的研究结果一致。RSCU 值分析结果也证实了这一点,显齿蛇葡萄的叶绿体基因组中存在A/T 密码子使用偏向,这与大多数高等植物的模式一致[26]。当密码子的使用受到自然选择的影响时,GC3值往往分布在一个较小的范围内,GC12和GC3之间没有显著的相关性[27]。中性绘图结果显示,GC12和GC3之间的相关性较弱,前2 个碱基的组成与密码子的第3 个碱基的组成不同,而各参数相关性分析也证实了这一点,说明所分析的显齿蛇葡萄叶绿体基因组的密码子使用模式主要受自然选择的影响。这一结果与许多物种叶绿体基因组的密码子使用情况一致,如肖蒲桃(Syzygium acuminatissimum)[28]、朝文心兰(Oncidium gower ramsey)[29]、木薯[11]等。此外,结合ENC-Plot 和PR2-Plot 分析的结果推测,显齿蛇葡萄叶绿体基因组的密码子使用偏好性受多种因素影响,包括突变压力、碱基组成和基因长度,其中主要的影响因素是自然选择,重要影响因素是突变。
密码子偏好性可以通过调节基因翻译的准确性和效率影响基因表达,基因表达水平越高,密码子偏好性越强[30-31]。本研究挖掘到显齿蛇葡萄叶绿体基因组共31 个高频密码子,其中13 个被确定为最优密码子。筛选到的最优密码子可以用于设计叶绿体基因表达载体以提高叶绿体基因组中基因的表达水平,也可以利用已知密码子的使用偏好来推测和预测未知基因的表达和功能[32-33],可为今后从遗传水平上进行显齿蛇葡萄育种改良提供参考。
4 结论
本研究从显齿蛇葡萄叶绿体基因组中共筛选出59 条蛋白编码序列,基于显齿蛇葡萄的叶绿体基因组数据进行密码子使用偏好分析,结果表明,显齿蛇葡萄叶绿体基因组的GC 含量为37.98%,说明AT 含量略高;共筛选出13 个最优密码子,分别为UUU、CUA、AUA、UCA、CCA、ACA、GCA、CAU、GAU、UGA、AGA、GGA 和GGG,除GGG 外大多数密码子以A 或U 结尾。显齿野葡萄叶绿体基因组的密码子使用偏好受核苷酸组成、自然选择、突变压力和基因表达水平的影响,最主要影响因素为自然选择。本研究结果为显齿蛇葡萄的密码子使用模式研究提供了新的视角,为显齿蛇葡萄的分子育种奠定了基础。