APP下载

人类1号、X、Y染色体基因密码子偏好性研究

2014-04-29郭承恩柴志欣钟金城

生命科学研究 2014年5期
关键词:基因

郭承恩 柴志欣 钟金城

摘要:随着人类基因组计划测序工作的完成,进一步数据挖掘工作已成为新的研究热点 根据人类1号、X、Y染色体数据,通过自编的Perl程序,提取3条染色体基因的CDS序列,利用密码子偏好性的理论及生物信息学方法分析其碱基组成特点和密码子使用模式,确定了偏好密码子和最优密码子,探讨影响其密码子用法的主要因素结果表明:1)人类1号、X、Y染色体基因偏好使用以C或C结尾的密码子:2)密码子的使用受基因长度的影响,较长的基因具有较高的表达水平和密码子使用偏性;3)基因表达水平对人类l号、X、Y染色体基因的密码子使用没有影响.暗示了这3条染色体并未承受翻译选择的压力;4)人类1号.X.Y染色体基因共有32个偏好性密码子,其中编码Arg的Arg和AGG、编码Val的GTG、编码Leu的CTG、终止密码子TAG为最优密码子

关键词:人类染色体:基因:密码子偏好性

中图分类号:Q348

文献标识码:A

文章编号:1007-7847( 2014)05-0387-08

随着人类基因组计划测序工作的完成,进一步数据挖掘工作已成为新的研究热点。在人类全部22对常染色体中l号染色体是最大的染色体,包含基因数量最多,破译难度也最大,如癌症、帕金森氏症、老年痴呆症和智障等超过350种疾病被认为与1号染色体上的基因突变有关,但目前对其相关研究较少。X染色体约有900~1 200个基因。Y染色体是人类男性特有的染色体,也是最小的染色体,基因含量仅70多个,大小为1号染色体的1/10、X染色体的1/6。因其短小而长期被遗传学家所忽视,对Y染色体的研究将有助于寻找诸如男性不育等疾病的遗传机理及男性世系的遗传与进化关系。对人类22条染色体同时处理的数据量较大,故本研究根据1号、X和Y染色体的以上特征,对其进行集中分析研究,通过使用密码子偏好性理论和生物信息学方法分析了这3条染色体基因的碱基组成、密码子使用特点以及影响因素等,以期为基因组中未知基因的预测、遗传疾病的诊断和治疗、开放阅读框的判断、功能基因的表达、疫苗的研发、引物的设计、定点突变的引入以及分子水平上研究物种进化关系等提供新的研究方法和理论基础。

1

材料与方法

1.1 序列来源

从NCBI (ftp://ftp.Ncbi.Nih.gov/genomes/H_sapi-ens/)获得人类1号、X、Y染色体全基因组序列。通过自编的Perl程序,根据基因注释提取每个基因的CDS序列。以每个基因表达蛋白最长的CDS序列作为研究对象。最后得到具有正确起始和终止密码子的核苷酸序列(1号染色体有2 224条CDS序列,X染色体有912条CDS序列,Y染色体有79条CDS序列1。

1.2 计算机硬件配置与系统安装

本研究所用的生物信息学平台硬件配置为曙光大型服务器,操作系统为Rocket Linux4.0以及IBM xSeries 226小型服务器,操作系统为Win-dows 2003。

1.3 衡量密码子偏好性的指标

在全面分析研究基因组和基因结构的基础上.根据本研究的情况制定了以下指标来衡量密码子的偏好性。相对密码子使用度(relative syn-onvmous codon usage,RSCU)、密码子适应指数(codon adaptation index,CAI)、有效密码子数(ef-fective number of codons,ENC)、基因的GC3s值、同义密码子相对使用频率(relative frequency of synonymous codon,RFSC)。

1.4 分析软件

欧洲分子生物学开放软件系(Europen molec-ular biology open software suiLe, EMBOSS) (http://cat.Toulouse.Inra.fr/apps/emboss/)使用它的CUSP组件(计算密码子频率表)和CHIP组件,分析计算ENC值;序列处理在线工具包(the sequence ma-nipulation suite, SMS2) (http://www.Bioinformalics.org/)和 CodonW version l.4 (http://codonw.SourCe-forge.net)计算密码子频率表、RSCU值、ENC、G+C、GC3s; INteractive Codon Analysis 2.10 (http://www.bioinfo -hr.org),计算ENC、G+C、GC3s; SPSSV16.0和Microsoft Excel 2003用于数据相关分析和图表绘制。

1.5 对应性分析

对应性分析(correspondence analysis)通过计算将样本中所有基因分布到一个59维(59个同义密码子)的向量空间中,其中每一个点就代表一个同义密码子。密码子使用特点通过图中各个点之间的位置体现出来。应用这些结果能够探究基因间RSCU值的变异情况,从中可判别影响基因密码子使用的主要因素。

2 结果与分析

2.1 人类1号、X、Y染色体基因之间的密码子偏好性

本研究结果表明(表1),3条染色体的FNC值比较接近,说明大部分密码子在编码氨基酸时出现的频率较一致。3条染色体都偏向使用G、C结尾的密码子,其中X染色体密码子偏向G、C结尾的程度最高(表2)。在GC含量分析中发现Y染色体的G+C含量较A+T含量低。

2.2 基因的碱基组成特点

人类1号、X、Y染色体的3 215条CDS序列共有1 624 757个密码子。这3条染色体总的GC含量为52.200/c,GC在密码子第1位的含量为52.58%,在密码子第2位的含量为51.65%,在密码子第3位的含量为52.37%。由表3可知:具有两种同义密码子的氨基酸中,以CJ或C结尾的密码子的RSCU值较高,如TTC (Phe)、TAC (Tyr)、CAC (His)、CAG (Gln)、AAG (Lys)、GAG(Glu)、TGC(Cys);在具有3种同义密码子的氨基酸中,ATC(11e)使用频率最高;在具有4种同义密码子的氨基酸中以GTG (Val)、CCC (Pro)、ACC (Thr)、GCC(Ala)、GGC(Gly)较高;在具有6种同义密码子的氨基酸中以cGG(Leu)、TCC(Ser)频率较高。这3条染色体基因中以G或C结尾的密码子的比例高于以A或T结尾的密码子,这一结果与3条染色体较高的GC含量相一致。人类染色体的基冈组成偏向GC,这种密码子使用的特点可能是南于突变或是有利于某些密码子的自然选择而导致的一由表3可知:GCA、GCC、(JCT、TGC、GAT、GJA GAG、TTC、GCA、GGC、CAC、ATC、ATT、AAC、CTC、CTG、AAT、CCA、CCC、CCT、CAG、AGA、AGC、AGC、TCA、TCC、TCT、ACC、ACA、ACF、CTC、TAC、TGA等32个密码子RSCU值均大于1,为人类1号、X、Y染色体的偏好密码子,且尤以C结尾的密码子最多。

2.3 3 条染色体基因的最优密码子

根据RFSC的计算结果,利用高频密码子分析法分析其最优越密码子。其中编码Arg的AGC和AGA、Val的GTG、Leu的CTG,以及终止密码子rllAC的Result值都超过了1.5,可以将其定义为最优密码子。

2.4 密码子使用的异质性

不同物种中,除了极端偏嗜的物种外.多数物种基冈组内不同基因的密码子使用具有较强的异质性。本研究采用FNC值和GC3值来评估人类1号、X、Y染色体上基因组密码子使用的异质性.发现其ENC值在21~61之间变化,平均值为48.91,标准差为6.507,其中ENC值在20~30范围内的仅有23个,在30~40范围的并不多,绝大部分集中在40~61的范围内,其中等于61的有44个,说明这3条染色体上基因之问的密码子使用具有较大的差异。如图2所示,这3条染色体基冈的GC,值的统计结果也证明了这一结果。其中GC3s值在0.166~0.968之间,平均值0.573,标准差0.157。以上结果显示,除了碱基组成的限制,人类1号、X、Y染色体基因的密码子使用还受到其他因素的影响。

2.5 ENC-plot分析

利用有效密码子数与GC3s含量绘制散点图能直观地反映出密码子使用偏好性的情况(图3)。通过ENC-GC3s分布图,通过比较实际值与理论值之问的关系可以判断除碱基组成限制外是否还有其他因素影响密码子用法。如果GC3s唯一决定密码子用法,那么实际代表基因的点就将完全落在理论曲线上,或落在离理论曲线较近的区域内。图3中的连续曲线为无选择压力的情况下ENC和GC3s之间的对应关系,从图3知,人类1号、X、Y染色体只有小部分基因恰好位于预期的ENC-plot曲线上,且ENC和CJC3s间的相关系数值为-0.588 78,暗示这些基因的GC3s对密码子用法影响较大;但绝大部分基因点都分布在该曲线的下力‘,表明除碱基组成外,自然选择等其他因素可能对密码子的使用也存在重要影响。

2.6 对应性分析

对应性分析结果显示,人类1号、X、Y染色体基因前4个因子轴对变异的贡献分别为47.05 %、37.34%、7.13%和8.48%,由此可知I,密码子使用偏性由多个因素共同作用。第一轴对变异的贡献高达47.05%,第二轴则达到37.34%,说明第一轴和第二轴是解释基因密码子使用偏好的主要参考轴,决定第一轴和第二轴的因子是引起人类1号、X、Y染色体基因密码子使用偏性的决定因子。

各基囚和密码子在前两轴的分布见图4和图5。从图4可以看出,人类1号、X、Y染色体基因在一、二轴上分布相对较集中,说明这些基因的密码子用法相似;由图5可知,人类l号、X、Y染色体基因以A和T结尾的密码子分布于第一轴的左侧,且分布规律不明显,而以G和C结尾的密码子分布于第一轴的右侧相对集中,且含量略高于左侧。

3 讨论

3.1 影响生物密码子使用偏好性的因素

基因组的碱基组成和基因翻译选择的压力被认为是决定物种基因密码子使用最主要的因素。就本研究而言,这些内在因素不尽相同。按照中性进化理论的观点,核苷酸序列中密码子第3位碱基的变化受到突变和自然选择的影响是中性或近中性的。而Sharp等(1986)提出的“选择一突变一漂移”模型则认为,密码子的偏好使用简单地反映了对偏好密码子的选择与突变一漂移对非偏好密码子的保留之间的一种平衡。高表达基因密码子的偏好性由翻译水平上的选择压力主宰,而低表达基凶或群体较小的物种则主要通过突变或漂移产生,选择的作用比较弱。单细胞生物中的酿酒酵母、大肠杆菌和多细胞生物中的线虫、果蝇等均适用于此模型。但随着更多生物基因组计划的完成和研究的不断深入,上述两种假设似乎已不足以解释基因组特异的密码子用法。细菌Ther-motoga maritime的密码子偏好是碱基突变偏好、翻译选择、蛋白质的疏水性、厌氧条件、半胱氨酸的用量等因素共同作用的结果。此外,DNA复制过程中引起的链间的碱基差异、基因的功能类型和基因所处区域的减数分裂重组率等都是能影响基因同义密码子使用偏性的因素。这些探讨性的研究对于理解物种进化以及指导基因的体外表达有着重要作用。

本研究表明,人类1号、X、Y染色体基因的密码子用法与基因的碱基组成、基因所在位置和编码序列长度等因素有关,与基因表达水平无关,这一结论值得进一步研究和分析。

3.2 基因的碱基组成对密码子使用的影响

通常认为,基因的碱基组成影响密码子的使用。但在富含GC的Chlamydomonas reinhardtii和Echinococcus spp基因组中,密码子的偏好使用并未受到核苷酸组成的影响。在单细胞真核生物Streptococcus pneumoniae中碱基组成在其密码子偏好性形成过程中发挥了一定作用。B.mallei与B.pseudomallei全基因组的GC含量分别为68%和67.6%;在高表达基因的密码子第3位上“G和C”占有绝对的优势;高表达的基因同样也具有较高的GC含量。这些结果均表明,与低表达的基因相比较,高表达的基因都趋向使用以C或C结尾的密码子。本研究中,3条染色体总的(GC含量为52.20%,GC在密码子第1位的含量为52.58%,在密码子第2位的含量为5 1.65%,在密码子第3位的含量为52.37%。可以看出人类基因组1号、X、Y染色体基因偏好使用以G或C结尾的密码子,同时也说明了核苷酸组成偏好对人类1号、X、Y染色体基因组中的密码子用法具有比较强烈的影响。

3.3 基因长度对密码子使用的影响

密码子偏好性受基因长度的影响。大肠杆菌中,密码子偏好性与基因的长度呈极显著正相关。Eyrc (1996)将这种现象解释为通过选择米避免翻泽时出现氨基酸的错误整合。像大肠杆菌一样,在P.aeruginosa和S.pneumoniae基因组中,较长基因的密码子偏好性程度也越大。相反,在线虫和果蝇基因组中,密码子偏好性和基因长度却呈极显著负相关。Momyama等(1998)认为果蝇在自然选择的压力下缩短表达量高的基因长度对生物体本身是有利的,因为较长的蛋白编码基因翻译时需要消耗更多的能量。可以看出,出于自身基因组大小的需要和自然选择的作用,不同物种中基因的长度存在差异。因此,没有统一的规律可以表明在不同物种中基因的长度和表达水平的关系。与上述物种不同,本研究结果表明,人类l号、X、Y染色体的基因组中较长的基因具有较高的表达水平和密码子偏好性。推测可能为了在翻译过程中避免错误的配对是产生这一现象的原因。 翻译产生蛋白质所需要的成本和蛋白质的长度呈正比,因此对于较长的基因来说,选择优势密码子编码蛋白质,可以提高翻译的准确性和效率。

3.4 基因的表达水平对密码子使用的影响

除碱基组成外,基因翻译选择的压力被认为是决定物种基因密码子使用的另一个最主要的因素。相关研究表明,不同物种中基因表达水平对密码子使用偏好性的影响不尽相同。通常认为一种密码子的使用比其他密码子占优势,是由于识别这种密码子的tRNA含量较为丰富;而被稀有tRNA识别的密码子,由于需要花费大量的能量和时间来与正确的tRNA结合。因而在表达水平的选择作用下,与tRNA结合效率高的密码子较多的被采用,以提高翻译的准确性与效率。例如在E.coli和S.cerevisiae中基因的表达水平就决定了基因密码子的使用模式,尤其是在高表达的基因当中,受基因表达水平的影响更大。但是Karlin等(1996)却发现人类基因组的密码子偏好性与基因的表达水平无关。

本研究中进行了CAI与GC3s、GC、FNC的相关性分析,发现它们之问兀相关。通过埘GC3s、GC、ENC之间相关分析得到以下结果:GC3s与GC的相关系数为0.877 41,GC3s与ENC的相关系数为-0.588 78. GC、ENC的相关系数为-0.503 28.都为显著相关。另外从图2、图3也可观察到,随着基因表达水平的升高,基因密码子使用偏好性变化没有明显规律,忽高忽低.从而表明了在人类1号、X、Y染色体的基因组中密码子的使用情况并没有受到基因表达水平的影响,暗示了人类基因并未承受翻译选择的压力.这与前人的研究成果一致。这一结果值得进一步深入研究。

3.5 最优密码子的确定

关于最优密码子的确定方法,不同学者的见解不甚一致。传统密码子用法采用高表达优越密码子分析法,此法需要先计算每个基因的密码子,根据其ENC值的大小将所有参试基因的序列进行排序,选取该有序数据集的上下限区域各lO%作为高表达和低表达基因样本,分别计算两个基因样本各个密码予的平均使用频次,然后进行X2检验,最后得出主要的偏好密码子。Durel等(1999)采用该方法将那些出现频率随基因表达水平升高而增加的密码子定义为高表达优越密码子一但结果有时会与RSCU值的表现小太一致,且高表达优越密码子分析法不仪计算方法十分繁琐,而且对于目的生物遗传背景要求高,分析起来十分不便。而高频密码子分析法则是根据RFSC的计算结果,利用高频密码子分析法来筛选基因的偏好密码子。如某密码子相对同义密码子使用频率单值超过60%或超过该组同义密码子平均占有频率的1.5倍即为高频密码子。林涛等(2002)在文章中就采用了这种方法。该方法简洁、方便,但并未将高、低表达蛋白基因分开,当某些密码子的高表达优越性在总体上表现不突出时,这种优越性就会被湮没。本研究中,综合使用两种方法来计算人类1号、X、Y染色体的偏好密码子和最优密码子。人类l号、X、Y染色体的基因偏好密码子较多(32个),但是偏性强度并不高。本研究共确定5个密码子为人类l号、X、Y染色体基因的最优密码子,分别为编码Arg的AGG和AGA、编码Val的GTG、编码I,eu的CrClG,且终止密码子偏好使用密码子TAG。以上结果能够较准确地反应出人类1号、X、Y染色体丛因最优密码子,这对于在分子水平上研究物种进化具有重要的指导意义。

猜你喜欢

基因
让红色基因代代相传
Frog whisperer
吃多吃少或与基因有关
『南橘北枳』辨基因
红的基因 绿的本色
修改基因吉凶未卜
Genome and healthcare
创新基因让招行赢在未来
基因事件
基因