APP下载

长囊水云叶绿体基因组密码子使用特征分析

2012-10-08刘福利王飞久邵展茹

海洋科学进展 2012年4期
关键词:水云偏性同义

刘福利,王飞久,邵展茹

(1.农业部海洋渔业可持续发展重点实验室,山东 青岛100049,2.中国水产科学研究院 黄海水产研究所,山东 青岛,100049;3.中国科学院 海洋研究所,山东 青岛,266071)

遗传密码是联系基因核苷酸序列与蛋白质氨基酸序列的纽带,具有简并性特点,即多个同义密码子编码同一种氨基酸。如果没有任何选择压力和突变基因的偏倚,每个核苷酸位点上的核苷酸突变都是随机的,同义密码子出现的概率也是一样的。但研究表明,同义密码子非均衡使用的现象普遍存在,即某些密码子比其他同义密码子具有更高的使用频率,这些密码子被称为最优密码子,此现象称为密码子偏性。这种同义密码子使用的偏好性广泛存在于从原核到真核生物中,从单一物种基因组中的不同基因到不同物种的基因组中[1-2]。研究发现,影响密码子偏好性的因素有很多,如碱基组成的差异[3-4]、自然选择(体现在基因表达水平上)[5-6]、tRNA 丰度[7-9]、基因长度[10-11]、mRNA 二级结构[12]、蛋白结构、疏水性以及氨基酸保守性[13]等。研究基因组和基因的密码子使用特征,具有重要的理论意义和应用价值。

长囊水云(Ectocarpussiliculosus)隶属于褐藻门(Phaeophyta)褐子纲(Phaeosporeae)水云目(Ectocarpales)水云科(Ectocarpaceae)水云属(Ectocarpus)。藻体为异丝体,由单列细胞组成并分枝。生于潮间带岩石上或石沼中,或附生于其他藻体上。由于具有以下特征,长囊水云被法国科学家Peter等推荐为褐藻类研究的模式生物[14]:较小的藻体(数厘米);较短的生活史,实验室培养条件下3个月内可完成其生活史;易于进行遗传分析;可进行大规模的突变体筛选;繁殖力强;可被一种DNA病毒感染(可提供一种潜在的插入突变工具);具有较小的基因组。2004-09长囊水云基因组计划在法国的罗斯科夫海洋研究站(Station Biologigue de Roscoff)启动。在该计划的推动下,长囊水云的相关研究尤其是分子生物学领域蓬勃发展,其叶绿体基因和核基因组分别于2009年和2010年完成了全序列测定[15-16]。另外,在NCBI数据库中存储有67 106条长囊水云的EST序列。这些工作为长囊水云以及以长囊水云为模式生物的褐藻的研究奠定了坚实基础。为研究长囊水云叶绿体基因组的遗传及变异,阐明叶绿体基因组与核基因组的关系,进一步探讨长囊水云叶绿体的进化,本研究以长囊水云叶绿体全基因组序列为基础,对其密码子使用特征进行分析。

1 材料与方法

1.1 序列数据

长囊水云(E.siliculosus)叶绿体基因组序列(序列号:FP102296)从GenBank数据库下载。长囊水云的叶绿体DNA为双链环状,序列全长为139 954bp,基因组平均G+C含量约为30%。根据基因组序列的注释信息,占全基因组72%的编码序列中共有185个编码基因,其中148个蛋白编码基因,37个RNA编码基因。为减少长度较短基因变异所带来的样本误差,依照国际通用办法,去除59个长度小于350bp的基因[17],提取剩余的89个蛋白编码基因的Coding Sequence(CDS)序列,分析长囊水云叶绿体基因组密码子的使用特征。

1.2 同义密码子使用偏好性分析

相对同义密码子使用度(Relative Synonymous Codon Usage,RSCU),用来检测基因中全部密码子使用的变化,它等于同义密码子的实际观测值与同义密码子平均使用时期望值的比值。对于同义密码子家族中的密码子来说,如果这个同义密码子的RSCU>1,则表明该密码子的使用频率高于期望值,反之亦然[5]。我们使用在线分析软件Codonw(http:∥codonw.sourceforge.net/)进行RSCU的计算。

有效密码子数(Effective Number of Codon,ENC),描述密码子使用偏离随机选择的程度,能反映密码子家族中同义密码子非均衡使用的偏好程度[18]。使用欧洲分子生物学开放软件系统(European Molecular Biology Open Software Suite,EMBOSS)的CHIPS软件来计算ENC。

碱基组成也是衡量同义密码子使用偏好性的指标,应用EMBOSS中的CUSP计算GC含量及GC在密码子第1~第3位上的含量(GC1,GC2,GC3)。为了检测密码子使用偏好性是否受到基因组碱基组成的影响,绘制了Nc-plot曲线。若一个基因的密码子使用模式受到GC碱基组成影响的话,则这个基因将落在ENc-plot期望曲线的上面或接近曲线的位置,否则该基因将落在离期望曲线比较远的位置[18]。

密码子适应指数(Codon Adaptation Index,CAI)常用于基因表达水平的测量。此值为0~1,越接近1则表示基因的表达水平越高[1]。以长囊水云叶绿体中25个高表达的核糖体蛋白基因的相对密码子使用度RSCU和密码子相对适应值w(Relative Adaptiveness of Codon)作为计算CAI值的参考数据,用软件Codonw计算各基因的CAI。

1.3 最优密码子的确定

高表达优越密码子(High-expression Codon,HE)和高频密码子(High-frequency Codon,HF)的确定分别参见文献[11]和[19]。研究中将同时确定为高表达优越密码子和高频密码子的同义密码子定义为长囊水云叶绿体基因组的最优密码子。

2 结 果

2.1 同义密码子使用偏性分析

为从整体上研究长囊水云叶绿体基因组的密码子使用特征,将CDS长度大于350bp的89个蛋白编码基因整合为一条长度为88 671bp的序列,该序列占基因组总序列的63.4%,共有29 468个有义密码子,其中28 565为同义密码子,将该序列作为长囊水云叶绿体基因组的代表来研究其密码子使用特征。

长囊水云叶绿体基因组中,GC1,GC2,GC3和GC分别为43.3%,34.8%,17.32%和31.8%,每个值都较低,由此可见基因整体GC含量较低。从密码子不同位置的碱基组成来看,位于密码子中3个位置的GC含量并非平均分布,其分布规律是GC1>GC2>GC3,且3个位置GC含量的差值较大,尤其是密码子第3位的GC3含量很低仅为17.32%。由此可知,以A或T碱基结尾的密码子在长囊水云叶绿体基因中的使用频率高于以G或C碱基结尾的密码子。

ENC是衡量同义密码子使用偏性的一个重要指标,其取值范围在20~61,即如果每种氨基酸只使用1种密码子则有效密码子数为20,如果各种同义密码子的使用机会完全均等,则有效密码子数为61,即该值越靠近20则偏性越强。长囊水云叶绿体基因组的ENC值为39,此值较小。另外,89个基因的ENC值介于31~52,总体上ENC值都较小,这表明长囊水云叶绿体基因组的密码子使用偏离随机选择,反映出长囊水云叶绿体基因组的同义密码子具有较强的使用偏性。

以长囊水云叶绿体25个高表达的核糖体蛋白基因的相对密码子使用度RSCU和密码子相对适应值w作为参考数据,来计算长囊水云叶绿体基因组及各个基因的CAI。长囊水云叶绿体基因组的CAI值为0.638,89个基因的CAI值变化范围为0.51~0.74。总体上CAI值都较大,表明长囊水云叶绿体基因组的同义密码子具有较强使用偏性。

表1 长囊水云叶绿体基因组密码子的相对使用度Table 1 RSCU in the chloroplast genome of E.siliculosus

2.2 同义密码子的相对使用度

同义密码子的相对使用度(RSCU)为某一密码子所使用的频率与其在无偏使用时预期频率之间的比值,它去除了氨基酸组成对密码子使用的影响,且直观地反映了密码子使用的偏好性。表2显示了叶绿体基因各密码子的使用频次和相对使用度。密码子UUU,UUA,AUU等27个密码子的RSCU>1,表明这些密码子是叶绿体基因偏好的密码子。这些偏好密码子均以A或U碱基结尾。而以G或C碱基结尾的密码子的使用情况则刚好相反,它们出现次数少、RSCU<1,是长囊水云叶绿体基因少量使用或避免使用的密码子。叶绿体基因在终止密码子的使用上偏好UAA。

表2 长囊水云叶绿体基因组的最优密码子Table 2 The optimal codons in the chloroplast genome of E.siliculosus

2.3 最优密码子的确定

计算长囊水云叶绿体基因组89个基因的CAI,并按其大小对基因进行排列,从这一排列的两端各取基因样本总数的5%,分别组成高、低表达样本组。根据Duret[11]对最优密码子的定义,确定了UUU,UUG和GUU等25个密码子为高表达优越密码子。根据林涛等[19]方法同样也确定了UUU,UUA和GUU等25个密码子为高频密码子。若将两者综合评定,UUU,GUU,UCA等12个密码子被确定是长囊水云叶绿体基因组的最优密码子(表3)。

2.4 同义密码子使用偏性影响因素分析

长囊水云叶绿体基因组的89个基因的ENC值在31~52变动,平均值为39。GC3值的变化范围为7.9%~23.8%,平均值为14.6%。相关性分析结果显示二者不具相关性。另外,Nc-plot曲线显示(图1),少量偏性较弱(ENC值较大)的基因落在期望线上方,说明这些基因密码子的使用偏性受到碱基组成的影响;而大部分基因落在期望曲线下面,尤其是一些密码子使用偏性较强(ENC值较小)的基因落在距期望线比较远的位置,表明碱基组成不是影响密码子使用偏性的主要因素。这可能与长囊水云叶绿体基因组的GC含量,尤其是GC3含量较低,导致叶绿体基因组的GC异质性较差有关。

图1 长囊水云叶绿体基因组的Nc曲线图Fig.1 Nc-plot curve of the chloroplast genome of Ectocarpus siliculosus

CAI和ENC相关性分析结果显示二者显著负相关(r=-0.397,p<0.01),表明基因表达水平显著影响基因的密码子使用偏性,高表达的基因具有更强的密码子使用偏性,例如叶绿体中高表达的psbA1和rbcS基因,它们的具有较强的密码子使用偏性(ENC值分别为30.85和34.47)。另外,ENC与基因长度不具相关性,表明长囊水云叶绿体基因的长度可能不会影响密码子的使用偏性。

3 讨 论

本研究通过计算长囊水云叶绿体蛋白编码基因的多个密码子使用偏性指标,发现长囊水云叶绿体基因组存在较强的密码子使用偏性,偏好使用以A或T碱基结尾的密码子。这与水稻、杨树和玉米等植物叶绿体基因的密码子用法偏好性分析结果一致,表明这些植物叶绿体基因具有相似的密码子使用规律。

影响密码子使用的因素众多,不同物种或同一物种的不同基因的密码子使用偏好性的原因也不尽相同。Sharp等认为在高效表达基因中,密码子的使用偏性由翻译的选择压主宰;而在低表达基因或群体比较小的物种中,主要通过突变或漂移产生,选择作用相对较弱[5]。Morton认为,在地钱、水稻和烟草的叶绿体基因组中碱基组成是造成同密码子使用偏性的主要因素,但是在个别高表达的基因中(例如psbA),选择造成了密码子使用偏性[20]。Morton认为DNA链的不对称突变也是造成Euglenagracilis使用偏性的主要原因[21]。另外,刘庆坡认为基因表达水平和基因碱基组成是影响水稻叶绿体密码子使用的主要因素[22];Zhou等认为基因组的碱基突变偏好性是影响拟南芥、杨树等种子植物的叶绿体基因密码子使用的主要因素[23];刘汉梅认为玉米叶绿体基因组的碱基组成是影响密码子使用偏性的主要因素[24]。本研究中发现,长囊水云叶绿体基因组的密码子使用受到表达水平上的自然选择以及基因碱基组成的突变影响,其中选择作用对高表达基因的密码子使用的影响比较突出,而突变是低表达基因密码子使用偏性的主要影响因素。

Sugiura等报道在烟草叶绿体基因组中,有3个基因(rps19,psbC和ycf15)以GTG为起始密码子,2个基因(psbL和ndhD)以ACG为翻译起始密码子[25]。刘庆坡等报道在粳稻叶绿体基因组也有与烟草类似的情况[23]。本研究中发现长囊水云叶绿体基因组148个蛋白编码基因中,绝大部分基因以ATG作为起始密码子,但有3个基因(rpl3,rps8和rbcR)以GTG为起始密码子,另外基因Escp99以TTG为起始密码子。密码子GTG和TTG是少数原核生物(例如某些细菌)的起始密码子,这从起始密码子使用的角度上,证明长囊水云叶绿体与原核生物具有一定的相似性,这可以作为关于叶绿体进化的内吞假说的佐证。

研究确定某物种的基因组或基因的最优密码子,具有多方面的意义,例如根据最优密码子可以预测基因的表达量,可以对目标基因进行密码子优化以提高其在宿主中的表达量,还可以发现新基因并对其功能进行预测。不同的研究者对最优密码子的定义并不统一。最优密码子最初定义为在高表达基因中出现频率比低表达基因中出现频率高的同义密码子[7]。后来Sharp等认为从低密码子使用偏性的基因到高密码子使用偏性的基因,那些使用频率在统计上显著增加的同义密码子为最优密码子[6]。Duret等将那些出现频率随基因表达水平升高而增加的密码子定义为高表达优越密码子[11]。林涛等的高频密码子分析法未将高表达与低表达蛋白基因分开,认为相对同义密码子使用频率大于60% 或超过该组同义密码子平均占有频率的1.5倍的即为高频密码子[20]。本研究应用这2种方法分别确定了25个最优密码子,我们把二者共同确定的12个密码子确定为长囊水云叶绿体基因组的最优密码子。

4 结 语

我们研究长囊水云叶绿体基因组的密码子使用特征,通过计算、分析密码子使用偏性的多个参数,发现长囊水云叶绿体基因组的密码子存在较强的使用偏性,偏向使用A或T碱基结尾的密码子。长囊水云叶绿体基因组密码子的使用偏性受到了基因表达水平上的自然选择以及基因碱基组成中性突变的双重影响,其中选择的作用对高表达基因密码子使用偏性的影响比较突出,而突变是低表达基因密码子使用偏性的主要影响因素。另外,首次确定了UUU,GUU,UCA等12个密码子为长囊水云叶绿体基因组的最优密码子。这些结果对研究长囊水云叶绿体基因组相关特性的遗传及变异,阐明叶绿体基因组与核基因组的关系,以及探讨长囊水云叶绿体的进化等问题均有重要的理论意义,也对预测长囊水叶绿体基因组编码基因的表达量及优化其基因体外表达等问题均具应用价值。

(References):

[1] SHARP P M,LI W H.The codon adaptation index-a measure of directional synonymous codon usage bias,and its potential applications[J].Nucleic Acids Research,1987,15(3):1281-1295.

[2] LAVNER Y,KOTLAR D.Codon bias as a factor in regulating expression via translation rate in the human genome[J].Gene,2005,345(1):127-138.

[3] KARLIN S,MRAZEK J.What drives codon choices in human genes[J].Molecular Biology,1996,262(4):459-472.

[4] ROMERO H,ZAVALZ A,MUSTO H.Codon usage inChlamydiatrachomatisis the result of strand-specific mutational biases and complex pattern of selective forces[J].Nucleic Acids Research,2000,28(10):2084-2090.

[5] SHARP P M,LI W H.An evolutionary perspective on synonymous codon usage in unicellular organisms[J].Journal of Molecular Evolution,1986,24(1):28-38.

[6] SHARP P M,COWE E.Synonymous codon usage in Saccharomyces cerevisiae[J].Yeast,1991,7(7):657-678.

[7] IKEMURA T.Correlation between the abundance ofEscherichiacolitransfer RNAs and the occurrence of the respective codons in its protein genes[J].Journal of Molecular Biology,1981,151(3):389-409.

[8] PERCUDANI R,PAVESI A,OTTONELLO S.Transfer RNA gene redundancy and translational selection inSaccharomycescerevisiae[J].Molecular Biology,1997,268(2):322-330.

[9] DURET L.tRNA gene number and codon usage in theC.elegansgenome are co-adapted for optimal translation of highly expressed genes[J].Trends in Genetics,2000,16(7):287-289.

[10] MORIYAMA E N,POWELL J R.Gene length and codon usage bias inDrosophilamelanogaster,SaccharomycescerevisiaeandEscherichiacoli[J].Nucleic Acids Research,1998,26(13):3188-3193.

[11] DURE L,MOUCHIROUD D.Expression pattern and,surprisingly,gene length shape codon usage inCaenorhabditis,Drosophila,andArabidopsis[J].Proceedings of the National Academy of Sciences of the United States of America,1999,96(8):4482-4487.

[12] GU W J,ZHOU T,MA J M,et al.Folding type specific secondary structure propensities of synonymous codons[J].IEEE Transactions on Nanobioscience[J],2003,2(3):150-157.

[13] GU W J,ZHOU T,MA J M ,et al.The relationship between synonymous codon usage and protein structure inEscherichiacoliandHomosapiens[J].Biosystems,2004,73(2):89-97.

[14] PETERS A F,DOMINIQUE M,SCORNET D,et al.Proposal ofEctocarpussiliculosus(Ectocarpales,Phaeophyceae)as a model organism for brown algal genetics and genomics[J].Journal of Phycology,2004,40(6):1079-1088.

[15] CORGUILLE G L,PEARSON G,VALENTT M ,et al.Plastid genomes of two brown algae,EctocarpussiliculosusandFucusvesiculosus:further insights on the evolution of red-algal derived plastids[J].BMC Evolutionary Biology,2009,9:253.

[16] COCK J M,SETERCKL,ROUZE P,et al.2010The Ectocarpus genome and the independent evolution of multicellularity in the brown algae[J].Nature,465(7298):617-621.

[17] MORTON B R.Selection on the codon bias of chloroplast and cyanelle genes in different plant and alga lineages[J].Journal of Molecular Evolution,1998,46(4):449-459.

[18] WRIGHT F.The“effective number of codons”used in a gene[J].Gene,1990,87(1):23-29.

[19] LIN T,NI Z H,SHEN M S,et al.High-frequency codon analysis and its application in codon analysis of tobacco[J].Journal of Xiamen University:Natural Science,41(5):551-554.林涛,倪志华,沈明山,等.高频密码子分析法及其在烟草密码子分析中的应用[J].厦门大学学报:自然科学版,2002,41(5):551-554.

[20] MORTON B R.Chloroplast DNA Codon Use:Evidence for selection at the psb A locus based on tRNA availability[J].Journal of Molecular Evolution,1993,37(3):273-280.

[21] MORTON B R.Strand asymmetry and codon usage bias in the chloroplast genome ofEuglenagracilis[J].Proceedings of the National Academy of Sciences of the United States of America,1999,96(9):5123-5128.

[22] LIU Q P,XUE Q Z.Codon uage in the chloroplast genome of rice(OryzasativaL.ssp.japonica)[J].Acta Agronomica Sinica,30(12):1220-1224.刘庆坡,薛庆中.粳稻叶绿体基因组的密码子用法[J].作物学报,2004,30(12):1220-1224.

[23] ZHOU M,LONG W,LI X.Patterns of synonymous codon usage bias in chloroplast genomes of seed plants[J].Forestry Study in China,2008,11(4):235-242.

[24] LIU H M,HE R,ZHANG H Y,et al.Anaylsis of synonymous codon usage in maize chloroplast genome[J].Journal of Sichuan Agricultural University,28(1):10-14.刘汉梅,何瑞,张怀渝,等.玉米叶绿体基因密码子使用频率分析四川农业大学学报[J].2010,28(1):10-14.

[25] SUGIURA M,HIROSE T,SUGITA M.Evolution and mechanism of translation in chloroplast[J].Annual Review of Genetics,1998,32:437-459.

猜你喜欢

水云偏性同义
独行菜抗逆相关转录因子LaDREB密码子偏性与进化分析
until用法巩固精练
古琴曲《潇湘水云》的题解流变考
西夏文《同义》重复字研究
西夏文《同义》考释三则
看待中药毒性 厘清三大误区
鱼水云2016'随手拍渔业摄影获奖作品展
鱼水云2016'随手拍渔业摄影获奖作品展
胡忌先生读《水云村稿》札记一则
密码子偏性分析方法及茶树中密码子偏性研究进展