美国红梣叶绿体基因组密码子偏好性分析
2020-09-22柳燕杰田旭平李倩
柳燕杰 田旭平 李倩
摘要:为了提高基因的表达效率,利用叶绿体基因工程提高美国红梣的重要特性,利用Codon W 1.4.2和在线软件CUSP分析了美国红梣叶绿体基因组中的52条基因编码序列密码子偏好性。结果表明,美国红梣叶绿体基因组密码子的GC含量依次为GC1(45.23%)>GC2(39.23%)>GC3(26.19%);有效密码子数(ENC)范围为37.55~55.28,其中ENC值>45的有34个;RSCU>1的密码子有29个,其中14个以U结尾、12个以A结尾,表明其偏好以A、U结尾,且偏倚很弱。中性点图分析表明,GC12与GC3的相关系数为0.321 7,回归系数为-0.538 5,相关性不显著;美国红梣叶绿体基因组的GC含量是高度保守的,密码子偏好主要受环境选择的影响;17个密码子被确定最优密码子。本研究为美国红梣叶绿体遗传工程和遗传多样性分析提供了科学依据。
关键词:美国红梣;叶绿体基因组;密码子偏好性;选择
中图分类号: S718.43 文献标志码: A 文章编号:1002-1302(2020)15-0083-06
美国红梣(Fraxinus pennsylvanica)是木犀科(Oleaceae)梣属(Fraxinus)乔木,原产美国,雌雄异株,花先叶开放,喜光、抗寒、抗盐碱、抗水湿,是我国重要的行道树或庭园绿化树种[1]。
在生物体传递遗传信息的过程中,作为联结核酸和蛋白质的密码子扮演着重要的角色[2],密码子被称为第二套遗传密码[3];密码子使用的选择方式不仅影响基因的表达[4],也影响基因相应的功能[5]。构成基因组的4种核苷酸可形成64种密码子,各密码子与氨基酸相对应,除甲硫氨酸和色氨酸外,其余18种氨基酸均有2~6个密码子,这些编码同一氨基酸的不同密码子被称为同义密码子(synonymous codon)[6];在翻译过程中,每个氨基酸相对应同义密码子的使用频率存在差异,即有的同义密码子使用频率高于其他同义密码子,这种现象被称为密码子偏好性(codon usage bias)[7]。密码子偏好性广泛存在于不同生物中,是因为物种在长期进化过程中受环境选择、碱基突变、基因漂变等因素共同作用,还受到基因组大小、tRNA丰度和基因表达水平等的影响[8]。密码子偏好性通过对基因翻译准确性和效率的调节影响基因的表达水平[9],叶绿体具有基因组小、基因拷贝数多等特点[10-11];根据最优密码子设计叶绿体基因表达载体,可迅速提高叶绿体基因组中基因表达量,利用目前已知的密码子使用模式推断未知基因的表达,或预测某些未知基因的功能[12];同时亲缘关系较近的物种具有相近的密码子使用模式[13],因此,研究叶绿体基因组密码子的使用模式,对于探索物种进化、提高外源基因的表达水平具有重要意义。
与核基因组对比,关于叶绿体基因组的密码子偏性的研究相对滞后,美国红梣的叶绿体基因组测序工作已经完成,但有关密码子偏性的研究迄今尚无报道。研究美国红梣叶绿体密码子的偏性,对于预测基因的表达水平、确定未知基因的位置和改良外源基因有着重要意义。在本研究中,笔者通过对美国红梣叶绿体基因组编码DNA序列(CDS)的碱基组成和中性绘图分析,推断了影响美国红梣叶绿体密码子偏好性的主要因素,并确定了美国红梣叶绿体基因组的最优密码子。本研究通过分析美国红梣叶绿体基因组密码子使用模式及影响密码子使用偏好的因素,确定美国红梣叶绿体基因组的密码子偏好性和最优密码子,为美国红梣叶绿体基因组的应用和研究提供科学参考。
1 材料与方法
1.1 材料
美国红梣(Fraxinus pennsylvanica)叶绿体基因组序列来自NCBI数据库,共下载到82条CDS(coding DNA sequence),剔除7条重复基因序列和23条长度小于300 bp的序列[14],其余52條序列用于本研究的分析。
1.2 方法
在叶绿体通用密码子表中有64个密码子,TAA、TGA和TAG是终止密码子,不编码任何氨基酸。ATG是蛋氨酸的唯一密码子,TGG是色氨酸的唯一密码子,这些密码子没有偏性,在分析时被剔除。
1.2.1 密码子组成分析 将50条符合条件的CDS整合为1个.fasta文件中,应用Codon W 1.4.2软件分析获得各CDS的有效密码子数(effective number of codon,ENC)和同义密码子相对使用度(RSCU),并应用在线软件CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)分析测定密码子第1、第2、第3位碱基的GC含量(分别为GC1、GC2、GC3)和3位碱基的GC平均含量(GCall)等参数,结果用SPSS和Excel进行统计分析。有效密码子数(ENC)是衡量同义密码子使用偏好的重要指标,ENC的取值范围为20~61,ENC值可以反映密码子偏倚的强弱,当ENC为20时,同义密码子完全处于偏倚状态;当ENC值为61时,同义密码子没有偏倚;ENC值从小到大表示偏倚性由强变弱,通常可以ENC值45作为区分偏倚性强弱的标准[15]。RSCU是一个密码子的实际使用频率与无使用偏性时理论频率的比率,无偏倚时,RSCU为1;RSCU小于1则代表该密码子的实际使用频率低于其他同义密码子的使用频率,反之实际频率高于其他同义密码子的使用频率[16]。用SPSS软件对不同密码子位置的GC1、GC2、GC3、GCall进行统计,分析密码子数(N)与ENC的相关关系,进而判断各因素对密码子偏倚的影响。
1.2.2 中性绘图分析 简并密码子第3碱基通常发生的为同义突变,而简并密码子第1位、第2位上突变通常会改变基因的功能或活性;也就是说,当没有外压时,密码子3个位置的碱基组成应该没有差别;而在存在一定选择压力情况下时,密码子3个位置上的碱基组成是存在差异的[17]。在以GC1和GC2的平均值GC12和GC3分别作为纵坐标和横坐标的中性绘图中,每个散点代表一个基因。如果中性图中的所有基因都沿对角线分布,即GC12和GC3的变异基本相同,则密码子3个位置的碱基组成无显著差异,选择压力弱,但受突变影响较大;回归系数(对角线斜率)是衡量中性程度的指标之一,若回归曲线斜率极小,GC12和GC3的变异的相关性同样很低,说明影响密码子偏好性的主要影响因素为选择效应[17]。同时,通过分析不同位置密码子碱基组成的相关性,可以分析突变或选择对密码子偏好性的影响,即当GC12与GC3显著相关时,表明3个位置密码子碱基组成无显著差异,且偏好性主要受突变的影响;当GC12与GC3呈不显著相关时,回归系数趋近于0,表明密码子的前2位碱基和第3位碱基的组成不同,基因组中的GC含量比较保守,密码子的偏倚主要受到选择的影响[13]。
1.2.3 最优密码子的确定 以美国红梣每个叶绿体基因的ENC为参考标准,从两端选择10%的基因构建高、低偏倚库,将2库间ΔRSCU≥0.08的密码子定义为高表达的优越密码子;将RSCU值大于1的密码子确定为高频密码子[18]。将既能满足高频率密码子又能满足高表达优越密码子确定为最优密码子。
2 结果与分析
2.1 密码子碱基组成
用CUSP软件分析美国红梣52条CDS的碱基组成,用Codon W 1.4.2分析其ENC值(表1),所有CDS密码子的平均GC含量为36.93%,第1位GC含量为45.23%,第2位为39.23%,第3位为26.19%,GC含量在密码子不同位置的分布频率不同,由高到低,依次为第1位>第2位>第3位,第1、第2位的GC含量明显高于第3位,结果表明,在美国红梣中,叶绿体密码子的最后1个碱基主要是A/U(T),这与植物叶绿体基因中A/U(T)含量较高的特点是一致的。表示偏好强度的ENC值的范围为37.55~55.28,平均值为47.27;52个CDS中有34个ENC值>45,说明美国红梣的大部分编码序列具有弱的密码子偏好性。对不同密码子位置碱基的GC含量、密码子数(N)和ENC数值的相关分析(表2)表明,GCall和GC1、GC2、GC3的相关性极显著,GC1和GC2相关性极显著,相关系数为0.513,GC3与GC1、GC2的相关性不显著,说明密码子的第1位和第2位碱基的组成与第3位碱基组成的相似和不同。ENC与GC1显著相关,与GC2相关性不显著,与GC3极显著相关,说明ENC与密码子第3位碱基的组成密切相关。ENC与密码子数(N)显著相关,说明基因编码序列的长度对密码子的偏倚有一定的影响。
编码氨基酸的RSCU(表3)显示,RSCU>1的密码子中以A和U结尾的频率较高,其中14个密码子以U结尾、12个以A结尾、1个以G结尾,表明美国红梣叶绿体基因组更倾向于以A和U结尾;而以C和G结尾的密码子即为非偏性的密码子。
2.2 中性绘图分析
根据美国红梣叶绿体基因组中每个基因的中性绘图分析(图1),GC12的取值范围略大在0.314~0.529之间,GC3的取值范围很小,为0.193~0.392之间,同时大多数基因均位于对角线以上;GC12与GC3的相关系数为0.321 7,相关性不显著,回归系数(趋势线的斜率)為-0.538 5,表明在美国红梣叶绿体基因组的中性绘图分析中,GC12和GC3的相关性很弱,说明密码子第1位、第2位和第3位碱基的组成存在差异,即美国红梣叶绿体基因组的GC含量是高度保守的,而密码子第3位的GC含量相对较低,其密码子偏好性受选择的影响较大。
2.3 最优密码子确定
将美国红梣叶绿体基因组中的52个蛋白编码基因并作一个整体在Codon W 1.4.2软件上运行,通过构建高表达基因和低表达基因库,对这2个基因数据库的RSCU值进行了重新计算,结果(表4)表明,ΔRSCU≥0.08的密码子包括UUU(TTT)、UUA(TTA)等23个密码子,都是高表达的优越密码子,其中11个以A结尾,8个以U结尾,3个以C结尾,1个为G结尾;ΔRSCU≥0.3有11个密码子;ΔRSCU≥0.5 的密码子是UUU、 UUA。 以同时满足高频率密码子和高表达优越密码子作为最优密码子,分别为UUU、UUA、GUA、UCA、CCA、UAU、GCA、CAU、CAA、AAU、AAA、GAA、UGU、CGA、AGA、GGU和GGA等17个,其中11个以A结尾,6个以U结尾。
3 讨论与结论
在生物体内,密码子在核酸和蛋白质的翻译中起着重要作用;植物中不同密码子的使用频率存在差异, 这种密码子使用偏好性是物种和基因长期进化和对环境的适应过程中形成的,是多种因子共同作用的结果,其中突变和自然选择是该现象形成的重要影响因素[7-8]。叶绿体是植物光合作用的细胞器,也包含相对独立的母体遗传基因组信息,因此叶绿体基因组在揭示物种进化、物种亲缘关系、物种鉴定等方面具有重要价值;同时叶绿体基因工程因其可高效表达、安全等特点已成为植物基因工程的研究热点[10]。因此,对植物叶绿体基因组密码子使用偏好的研究可以揭示物种基因组的进化关系及其主要影响因素。
本研究中美国红梣叶绿体基因组中的GC3与GC1和GC2没有显著相关性,且显著小于GC1和GC2。这说明美国红梣叶绿体基因的密码子偏好以A和U结尾,RSCU分析结果从定量分析的角度充分证明了这一观点。这与已报道的黄芩(Scutellaria baicalensis)[19]、普通油茶(Camellia oleifera)[20]、蒺藜苜蓿(Medicago truncatula)[15]的叶绿体基因特征相同;中性绘图分析表明,密码子的第1位和第2位与第3位碱基组成存在着显著差异,由于密码子的GC含量高度保守,密码子的偏倚性主要受选择的影响,与蒺藜苜蓿一致[13];美国红梣叶绿体基因组密码子偏好以AU结尾,且其最优密码子为UUU、UUA,与大多数高等植物的最优密码子NNA、NNU的模式一致[18]。本研究中,美国红梣叶绿体基因组的密码子偏好主要受到选择的影响,同时与其他因素共同作用,确定了17个最优密码子,均为NNA和NNU模式。采取高表达的高频密码子作为最优密码子,在美国红梣叶绿体基因组中选择的17个最优密码子分别是UUU、UUA、GUA、UCA、CCA、UAU、GCA、CAU、CAA、AAU、AAA、GAA、UGU、CGA、AGA、GGU和GGA。美国红梣叶绿体基因组最优密码子的确定,为优化目标基因的高效表达密码子,从而通过叶绿体基因工程改良美国红梣的重要性状提供了科学依据。
参考文献:
[1]郭学明,高忠明,刘振林,等. 美国红梣雄株和雌株茎导管分子的形态解剖比较[J]. 林业科学,2010,46(8):51-55.
[2]梁远楠,陈水莲,张丽君,等. 10个降香黄檀家系在肇庆地区的早期生长评价[J]. 林业与环境科学,2019,35(2):106-110.
[3]Nelson D L,Cox M M. Lehninger principles of biochemistr[M]. New York:W.H.Freeman and Company,2017.
[4]Zhou Z P,Dang Y K,Zhou M,et al. Codon usage is an important determinant of gene expression levels largely through its effects on transcription[J]. Proceedings of the National Academy of Sciences,2016,113(41):6117-6125.
[5]Hershberg R,Dmitri A P. Selection on codon bias[J]. Annual Review of Genetics,2008,42(1):287-299.
[6]Duret L. Evolution of synonymous codon usage in metazoans[J]. Curr Opin Genet Dev,2012,12(6):640-649.
[7]Romero H. Codon usage in Chlamydia trachomatis is the result of strand-specific mutational biases and a complex pattern of selective forces[J]. Nucleic Acids Research,2000,28(10):2084-2090.
[8]Chen X,Cai X N,Chen Q Z,et al. Factors affecting synonymous codon usage bias in chloroplast genome of Oncidium Gower Ramsey[J]. Evolutionary Bioinformatics,2011(7):271-278.
[9]邢朝斌,曹 蕾,周 秘,等. 刺五加葉绿体基因组密码子的用法分析[J]. 中国中药杂志,2013,38(5):661-665.
[10]Wright F. The ‘effective number of codons used in a gene[J]. Gene,1990,87(1):23-29.
[11]牛 元,徐 琼,王嵛德,等. 大花香水月季叶绿体基因组密码子使用偏性分析[J]. 西北林学院学报,2018,33(3):123-130.
[12]Wu X M. The analysis method and progress in the study of codon bias[J]. Hereditas,2007,29(4):420-426.
[13]Yang G F,Su K L,Zhao Y R,et al.Analysis of codon usage in the chloroplast genome of Medicago truncatula[J]. Acta Prataculturae Sinica,2015,35(3):362-371.
[14]Jiang Y,Deng F,Wang H,et al. An extensive analysis on the global codon usage pattern of baculoviruses[J]. Archives of Virology,2008,153(12):2273-2282.
[15]Qin Z,Zheng Y J,Gui L J,et al. Codon usage bias analysis of chloroplast genome of camphora tree(Cinnamomum camphora)[J]. Guihaia,2018,38(10):1346-1355.
[16]Chao Y,Chang Y,Wang M F,et al. Codon usage bias and cluster analysis on chloroplastic genes from seven crop species[J]. Acta Agric Bor Sin,2012,27(4):60-64.
[17]Sueoka N. Near homogeneity of PR2-Bias fingerprints in the human genome and their implications in phylogenetic analyses[J]. Journal of Molecular Evolution,2001,53(4/5):469-476.
[18]Shang M Z,Liu F,Hua J P,et al. Analysis on codon usage of chloroplast genome of Gossypium hirsutum[J]. Sci Agric Sin,2011,44(2):245-253.
[19]Wang W B,Yu H,Qiu X P. Analysis of repeat sequence and codon bias of chloroplast genome in Scutellaria baicalensis[J]. Molecular Plant Breeding,2018,16(8):2445-2452.
[20]Wang P L,Yang L P,Wu H Y,et al. Codon preference of chloroplast genome in Camellia oleifera[J]. Guihaia,2018(38):135-144.