大豆GmRAV基因的密码子偏好性分析
2012-03-12杨春亮张晓丽钟淑琦
杨春亮,王 良,武 斌,赵 琳,张晓丽,钟淑琦
(1.哈尔滨医科大学基础医学院,哈尔滨 150081;2.东北农业大学大豆研究所,哈尔滨 150030;3.黑龙江生物科技职业学院食品系,哈尔滨 150025;4.哈尔滨市农业科学院,哈尔滨 150070)
RAV(Related to ABI3/VP1)转录因子首先是在拟南芥中被克隆出来的,含有AP2/ERF与B3两种DNA结合结构域[1]。大豆属于光周期敏感的短日照作物,短日照促进其开花。据报道,在大豆中,虽然短日照能够强烈诱导大豆叶片GmRAV基因表达,但该基因同时受多个信号调控,由日长和其他因素共同调控开花时间,过量表达该基因的烟草植株开花时间明显延迟,说明GmRAV基因为大豆光周期抑制开花的重要抑制因子[2]。Castillejo等报道,长日照植物拟南芥AtRAV(At1g25560)(也称为TEM1)基因抑制FT的表达从而抑制开花[3]。可见,RAV转录因子为短日照和长日照植物中光周期开花途径的关键抑制因子。此外,有报道RAV蛋白作为一种转录激活物,定位在细胞核中,能够被病原、植物激素以及环境压力所诱导,诱导防卫基因表达[4]。
根据中心法则,遗传信息传递是由DNA到mRNA,再由mRNA到蛋白质。遗传信息在由mRNA到蛋白质的传递过程中是以三联体密码子的形式传递。编码天然蛋白质20种氨基酸的密码子共61种,每种氨基酸至少对应1种密码子,最多的有6种对应的密码子。编码同1种氨基酸的密码子称为同义密码子。在已经研究过的物种中,基因对同义密码子的使用不是随机的,而是优先使用其中的一些密码子,即存在密码子使用偏好[5]。对不同物种的密码子使用偏好性进行研究,发现不同物种的基因在密码子使用上存在着明显的偏好性;不同功能的基因其密码子使用偏好性也存在较大差异。分析密码子的偏好性对于外源基因选择合适的宿主表达系统,进行基因体外表达具有重要意义。如果外源基因含有大量宿主表达系统的稀有密码子,尤其是这些稀有密码子呈连续分布时,就会造成表达量降低或翻译提前终止,阻碍基因工程和酶工程的发展[6-7]。通过密码子偏好性分析,可选择合适的表达系统或通过改造密码子来提高外源基因的表达。本研究利用大豆GmRAV基因的cDNA序列[8],通过EMBOSS和CodonW在线程序,分析该基因的密码子偏好性,并与拟南芥等11种植物的RAV基因密码子偏好性进行比较,以期为该基因在作物遗传改良中选择合适的受体植物提供参考。
1 材料与方法
1.1 序列来源
大豆GmRAV转录因子(GenBank登录号DQ147914)cDNA全序列为1380 bp,ORF为1056 bp,编码351个氨基酸,含有B3(53-108氨基酸)和AP2(172-286氨基酸)DNA结合结构域,不含有内含子,与大豆基因组数据库(www.phytozome.com)中大豆Williams 82 Glyma10g34760序列完全一致,位于Gm10上,另外在大豆基因组数据库找到另外3个拷贝Glyma01g22260、Glyma20g32730和Glyma02g-11060。东方山羊豆、水稻、高粱、盐芥、拟南芥、玉米RAV基因的完整编码区序列来源于GenBank,苜蓿、毛果杨、木薯、甜橙、蓖麻RAV基因的完整编码区序列来源于Phytozome,序列登录号见表1。
表1 RAV基因的完整编码区序列来源Table 1 Sources of coding sequences of RAV genes
1.2 分析方法
1.2.1DNAMAN软件
利用DNAMAN软件(http://www.ibioo.com/soft/biosoft/2011/11535.html)对大豆GmRAV序列DQ14-7914与另外3个拷贝Glyma20g32730、Glyma01g22-260、Glyma02g11060 RAV氨基酸同源性进行分析。
1.2.2 CodonW软件
利用CodonW软件(http://codonw.sourceforge.net/)计算有效密码子数(Enc)、计算CDS区的GC含量、密码子中第3位碱基的GC含量(GC3s)和相对同义密码子使用概率RSCU(Relative synonymous codon usage)。
1.2.3 CUSP程序
利用EMBOSS中的CUSP程序(http://150.185.138.86/cgi-bin/emboss/cusp)计算密码子使用概率。
1.2.4 基于密码子使用偏好性的聚类分析
利用SPSS 11.5(http://www.ibioo.com/soft/netsoft/2009/7573.html)对不同物种的15条RAV基因基于密码子使用偏好性进行聚类分析。在此过程中,将每一条基因作为一个对象,将密码子的RSCU值作为变量。除去值始终为1的编码Trp和Met的密码子UGG和AUG,再除去3个不编码氨基酸的终止密码子,取余下的59个密码子的值对基因的密码子使用偏好性进行分析。
2 结果与分析
2.1 大豆RAV 4个同系物同源性比较
根据大豆基因组网站Phytozome提供的基因相关信息,使用DNAMAN软件对其氨基酸同源性比较发现,该大豆GmRAV序列DQ147914与另外3个拷贝高度同源,都不含有内含子。与Glyma20g32730、Glyma01g22260和Glyma02g11060 RAV序列同源性分别为82.04%、65.90%和66%。
2.2 有效密码子数(ENc)和GC含量分析
ENc值(Effective number of codons)为基因的密码子偏好性程度提供了一个客观的评判标准,代表特定基因中同义密码子非均衡使用的偏好程度。该值的范围在20(每个氨基酸只使用一个密码子的极端情况)到61(各个密码子均被平均使用)之间,越靠近20偏好性越强。GC3s则表示密码子的第3位碱基中G+C的含量在第3位碱基总量中所占的比率[9]。本研究应用CodonW在线程序计算大豆GmRAV基因的ENc值、GC含量和GC3s值(见表2)分别为52.09、0.580和0.686,并且另外3个大豆RAV拷贝ENc值均大于50,可见ENc值偏大,表明大豆RAV基因各密码子在编码氨基酸时出现的频率比较一致;大豆RAV基因编码区GC含量较高,而GC3s值则更高,表明大豆偏好使用以C、G结尾的密码子,且在整个编码区序列中G+C含量大于A+T。
表2 12个物种RAV的Enc、GC和GC3sTable 2 ENc values and contents of GC and GC3s for RAV in 12 species
2.3 密码子偏好性分析
相对同义密码子使用度(RSCU)是指对于某一特定的密码子在编码对应氨基酸的同义密码子中的相对概率。RSCU值与氨基酸的使用及密码子的丰度无关,它能直观地反映出密码子使用的偏好性程度[10]。如果密码子的使用没有偏好,则该密码子的RSCU=1。当某一密码子的RSCU值大于1,则表明该密码子的使用频率相对较高,反之亦然。Fraction(比例)表示各个密码子在编码该氨基酸的密码子中所占的比例(各个比例相加总和等于1)。Frequency(频率)代表该密码子在编码基因总密码子中出现的频率,即在1000个密码子中出现的次数[9]。CUSP和CodonW在线程序计算结果(见表3)表明,在大豆GmRAV基因的密码子中,26个密码子(不包括终止子)的RSCU值大于1,其中,24个密码子是以C或G碱基结尾的,且Fraction值也较大,为大豆GmRAV基因的偏好密码子。大多数A或U碱基结尾的密码子的RSCU值和Fraction值均较低,表明这些密码子在该基因中的使用频率较低。
表3 CUSP和CodonW程序分析大豆GmRAV基因的密码子偏好性Table 3 Condon bias of GmRAV gene analyzed by CUSP and CodonW program
续表
2.4 与其他植物RAV基因密码子偏好性的比较
2.4.1 ENc、RSCU及GC含量分析
各物种RAV基因的ENc值、GC和GC3s含量计算结果见表2。结果显示,大豆4个拷贝RAV基因ENc值相似,为50~52。东方山羊豆、盐芥、拟南芥、苜蓿、毛果杨、木薯、甜橙和蓖麻在密码子使用上与大豆相似,ENc均值>40;而单子叶植物水稻、高粱和玉米的ENc<40分别为33.17、36.45和35.20。一般来说,ENc值越小表明该基因的表达水平越高,ENc<30和ENc>55的基因可被预测为高表达和低表达基因[10]。由数据分析得出,大豆、东方山羊豆、盐芥、拟南芥、毛果杨、甜橙6个双子叶植物的RAV基因表达水平一般,苜蓿、木薯和蓖麻表达水平很低,而水稻、高粱和玉米这3个单子叶植物表达水平偏高。大豆等共9种双子叶植物的GC和GC3s含量明显低于单子叶植物水稻、高粱和玉米,表明单子叶植物比双子叶植物对C或G的偏好性更强。
为了解这几个物种RAV基因密码子使用的具体情况,表4列出了59个密码子[去除编码蛋氨酸(M)的起始密码子ATG、编码色氨酸(W)的密码子TGG以及3个终止密码子]的相对使用度。由表4可知,大豆GmRAV有26个RSCU值均大于1的密码
子,大豆Glyma02g11060有25个,大豆Glyma01g-22260有29个,大豆Glyma20g32730有24个,双子叶植物拟南芥有27个,东方山羊豆有25个,盐芥有25个,苜蓿有28个,毛果杨有28个,木薯有24,甜橙有24个,蓖麻有28个密码子的RSCU>1。单子叶植物水稻有25个,高粱有27个,玉米有28个密码子的RSCU>1,其中以G或C碱基结尾RSCU>1的密码子,大豆GmRAV有24个,大豆Glyma02g11060有21个,大豆Glyma01g22260有25个,大豆Glyma20g32730有21个,双子叶植物拟南芥有17个,盐芥有15个,甜橙有21个,占大多数。而东方山羊豆有9个,苜蓿有12个,毛果杨有7个,木薯有12,蓖麻有7个密码子RSCU>1,占比例较少。但单子叶植物水稻和高粱的密码子全部以G或C碱基结尾且RSCU>1,玉米有27个密码子的RSCU>1。
2.4.2 基于密码子使用偏好性的系统聚类
亲缘关系较近的物种常表现出相似的密码子使用频率[11]。因此,基于密码子使用频率的聚类树状图常可用于推测不同物种、不同基因,以及物种和基因之间在密码子使用方面的相似度或亲缘性,也可推测不同物种之间的进化关系。为进一步了解几个物种RAV基因密码子使用差异的大小,根据表4中各密码子的相对使用度(RSCU)进行聚类分析,结果见图1。9个双子叶植物12个RAV基因聚为一大类,3个单子叶植物聚为一大类。基于大豆RAV基因的相对同义密码子使用度进行的聚类分析表明大豆GmRAV和Glyma20g32730聚为一类,Glyma01g22260和Glyma02g11060聚为一类,这与氨基酸同源性比较结果一致:GmRAV和Glyma20g32730同源性最高,而Glyma01g22260和Glyma02g11060 RAV序列同源性高。另外两种豆科植物东方山羊豆和苜蓿聚为一小支,与豆科植物大豆距离较远,而大豆却与甜橙较近,这还反映在这两者均具有较大GC3s值上。十字花科拟南芥和盐芥聚为一小支,再与大豆和甜橙聚为一支。
表4 各物种RAV基因相对同义密码子使用度(RSCU)Table 4 Relatively synonymous codon usage(RSCU)of RAV
续表
图1 基于RAV基因的相对同义密码子使用度的聚类树状Fig.1 Cluster analysis dendrogram of RSCU values of RAV genes
3 讨论与结论
核酸是生物遗传信息的载体,蛋白质是发挥生物功能的主要分子,密码子作为联系二者的纽带,其使用情况具有重要的生物学意义,所以密码子偏好性现象在许多生物学领域中受到关注。不同物种或同一物种的不同基因对密码子的偏好性有所不同。对于密码子具有偏好性的解释,目前获得较为广泛认可的是“突变—选择平衡”假说(Mutation-selection balance)[12],由于选择压力的存在,生物体倾向于选用最优密码子来编码氨基酸,但由于突变的发生,仍会有非最优密码子的存在,不同物种的基因组的密码子偏好情况主要就是在这两个力量的动态平衡中形成的。
通过分析大豆GmRAV基因的密码子偏好性,发现该基因主要偏好以C或G结尾的密码子,较少使用以A或T结尾的密码子。已有研究表明,单子叶植物的密码子偏好性明显不同于双子叶植物[13]。双子叶植物的GC3s<50%,而单子叶植物往往具有较高的GC3s值。本研究中单子叶植物水稻、玉米和高粱RAV的GC3s>90%与该结论相一致,但双子叶植物中大豆、拟南芥、盐芥和甜橙GC3s>50%,其他5种双子叶植物RAV的GC3s<50%。
要实现目的基因在外源表达系统中的成功表达和提高其表达量,可通过增加目的基因剂量,目的基因密码子优化,改善培养条件等方法实现,其中目的基因密码子优化起到关键作用。本研究分析了该基因在大豆和其他植物中密码子偏好性,以期为该基因在作物遗传改良中选择合适的受体植物提供依据。基于RAV基因的密码子使用偏性的系统聚类分析表明,大豆等共9种双子叶植物聚为一类,玉米、高粱和水稻这3种单子叶植物聚为一类,预示大豆GmRAV基因更适合导入双子叶植物。
[1] Kagaya Y,Ohmiya K,Hattori T.RAV1,a novel DNA-binding protein,binds to bipartite recognition sequence through two distinct DNA-binding domains uniquely found in higher plants[J].Nucleic Acids Res,1999,27:470-478.
[2] Zhao L,Luo Q,Yang C,et al.A RAV-like transcription factor controls photosynthesis and senescence in soybean[J].Planta,2008,227:1389-1399.
[3] Castillejo C,Pelaz1 S.The balance between constans and tempranillo activities determines FT expression to trigger flower-ing[J].Current Biology,2008,18:1338-1343.
[4] Sohn K H,Lee S C,Jung H W,et al.Expression and functional roles of the pepper pathogen-induced transcription factor RAV1 in bacterial disease resistance,and drought and salt stress tolerance[J].Plant Mol Biol,2006,61:897-915.
[5] 徐利娟,钟金城,陈智华,等.流感病毒基因的密码子偏好性及聚类分析[J].生物信息学,2010,8(2):175-180.
[6] Wu X M,Wu S F,Ren D M,et al.The analysis method and progress in study of codon bias[J].Hereditas,2007,29(4):420-426.
[7] Li J,Xue Q Z.Comparison of MADS transcriptional factor on codon bias in arabidopsis and rice[J].J Zhejiang Univ Agric&Life Sci,2005,31(5):513-517.
[8] Li P,Bai Y F,Zhang W F.Cloning and analysis of NAD-ME gene of amaranthus hypochondriacus[J].Acta Bot Bor-Occid Sin,2010,30(2):229-236.
[9] 李平,白云凤,冯瑞云,等.籽粒苋苹果酸酶(NAD-ME)基因密码子偏好性分析[J].应用与环境生物学报,2011,17(1):12-17.
[10] Sharp P M,Li W H.An evolutionary perspective on synonymous codon usage in unicellular organisms[J].J Mol Evol,1986,24(1-2):28-38.
[11] Sharp P M,Cowe E,Higgins D G,et al.Codon usage patterns in Escherichia coli,Bacillus subtilis,Saccharomyces cerevisiae,Schizosaccharomyces pombe,Drosophila melanogaster and Homo sapiens:A review of the considerable within species diversity[J].Nucl Acids Res,1988,16(17):8207-8211.
[12] Bulmer M.The selection-mutation-drift theory of synonymous codon usage[J].Genetics,1991,129:897-907.
[13] Murray E E,Lotzer J,Eberle M.Codon usage in plant genes[J].Nucl Acids Res,1989,17(2):477-498.