哺乳动物MT基因的进化选择与功能分歧
2010-08-08姬广超王明辉高会江潘玉春
姬广超,王明辉,高会江,潘玉春*
(1.东北农业大学动物科学技术学院,哈尔滨 150030;2.上海交通大学农业与生物学院,上海 200240;3.中国农业科学院北京畜牧兽医研究所,北京 100193)
金属硫蛋白(Metallothionein,MT)是一种低分子质量、富含半胱氨酸的金属结合蛋白,于1957年由Margoshes和Vallee在马肾皮质中首先发现[1],随后在人类、动物、植物以及微生物中也被陆续发现。迄今为止,发现并确定了氨基酸序列的金属硫蛋白超过200种。目前有四种金属硫蛋白亚型在哺乳动物中被发现,分别为MT-1、MT-2、MT-3和MT-4。MT-1和MT-2在哺乳动物所有细胞中都有表达,肝脏中表达量最高;MT-3在脑中表达,主要在谷氨酰胺能(Glutaminergic)神经细胞中表达,也有报道称在胰脏和肠中有很低量表达;MT-4在口腔上皮、食道、新生的皮肤等组织的复层鳞状上皮细胞中表达[2-4]。
哺乳动物金属硫蛋白一般由61~68个氨基酸组成,含有保守的20个半胱氨酸残基,三级结构是由α和β两个球状的金属结合结构域组成,能够有效地结合铜锌等重金属,具有维持微量元素的代谢平衡、重金属解毒、影响细胞的增殖与凋亡、清除自由基及参与应激反应等重要的生物学功能[5-7]。对金属硫蛋白的研究已约50年,传统研究过多地集中于金属硫蛋白的结构和功能,而忽略了对其结构和功能起决定作用的基因序列、代谢途径和调控网络等的研究。而这些序列中含有大量的生物信息,从中挖掘出重要的生物知识,有利于为金属硫蛋白的深入研究提供参考和指导。本研究利用哺乳动物金属硫蛋白的氨基酸序列及其编码序列,通过对其选择进化和功能分歧进行分析,有利于进一步认识金属硫蛋白的生物学特性,有利于畜牧业中动物营养、饲养动物抗应激及转基因动物的研究与利用,有利于对人类疾病的研究和治疗。
1 材料与方法
1.1 材料
本研究利用已有的哺乳动物金属硫蛋白的氨基酸序列和对应的编码序列数据进行研究,蛋白质氨基酸序列来源于UniProt(http://www.uniprot.org/docs/metallo),对应编码序列来源于EMBL、GenBank和DDBJ数据库。筛选保留氨基酸序列和对应编码序列都完整的数据。
1.2 方法
1.2.1 序列比对与系统发生树构建
本研究使用Clustalx 1.83对氨基酸序列进行比对,然后使用MEGA 4.0.2通过NJ法来构建系统发生树,利用Bootstrap分析来确定不同内部节点的可信度。如果Bootstrap值大于700/1 000,即认为该内部节点的拓扑结构具有合理的可信度[8]。
1.2.2 基于选择压力参数ω的选择压力分析
选择压力参数ω是编码蛋白质的核苷酸的非同义突变率与同义突变率的比值(dN/dS),可以用来衡量分子进化受到选择压力的方向和量度。ω<1、ω=1和ω>1分别表示负选择(纯化选择)、中性进化和正选择。
使用PAML 4.3a软件包中的Codeml程序,选用位点模型(Site models)和枝位点模型(Branchsite models)对编码序列数据进行选择压力分析[9]。
位点模型考虑了不同位点进化速率不同的情况,采用三对统计模型M0 vs.M3、M1a vs.M2a和M7 vs.M8来检验是否存在正选择位点。M0是单一速率模型,假设不同位点进化速率是相同的。M3是离散模型,p0、p1和p2分别表示纯化选择、中性选择和正选择的比例;对应的ω分别为ω0、ω1和ω2。M1a是中性选择模型,该模型假设存在一部分保守位点(ω<1),在序列中所占比例为p0,而中性选择位点(ω1=1)所占比例为p1=1-p0。M2a是正选择模型,在中性选择模型中加入正选择位点的比例为p2=1-p1-p0,并且可以从数据中对ω2进行估算。模型M7是一种Beta分布模型,该模型假设ω值在0与1之间。M8模型则是一种Beta分布加ω分布的模型,该模型假设一部分位点的ω>1。两个模型中哪个模型更适合是通过似然比检验(LRT)来评估的,发生正选择的氨基酸位点是通过PAML中的Bayesian方法计算得到的。
枝位点模型同时考虑不同枝以及不同位点进化速率的不同,将所有枝分为两类:前景枝(Foreground branch)和背景枝(Background branch)。当假设某位点在前景枝(待测枝)与在背景枝上进化的ω值不同时,可以将所有位点分为四类:第一类位点背景枝和前景枝上的ω值均为0<ω0<1;第二类位点背景枝和前景枝上的ω值为ω1=1;第三类和第四类位点背景枝上的ω值分别为0<ω0<1和ω1=1,而前景枝上的ω值均为ω2≥1。前两类位点在两种枝上的ω值不发生变化,表明该位点在整个进化过程中受到恒定的选择作用。后两类位点在背景枝上分别为负选择和中性选择,而在前景枝上受到正选择作用。基于这种假设,采用两对统计模型MA vs.M1a、MA vs.MA1来进行检验。MA是枝位点的正选择模型,表示存在第三类及第四类正选择位点,与中性模型M1a比较进行似然比检验。如果似然比检验显著则需要采用MA vs.MA1来进一步检验正选择,其中MA1模型是将ω2=1作零假设条件的模型。发生正选择的氨基酸位点同样采用Bayesian方法计算得到的。
1.2.3 基于功能分歧系数(Coefficient of functional divergence)θ的进化分析
使用Diverge 2.0结合前面构建好的系统发生树对氨基酸序列数据进行功能分歧分析。
Ⅰ型功能分歧导致了功能限制的改变,与基因复制之后基因成员进化速率的改变高度相关。Ⅰ型功能分歧系数θⅠ如下计算:
其中,λ1与λ2分别为基因经过一次复制之后产生的两个基因成员的进化速率。θⅠ从0到1之间变化,反应了两个基因成员之间功能分歧由弱到强的程度[10]。
Ⅱ型功能分歧并没有导致基因复制之后成员之间的功能限制改变,但是氨基酸残基的理化性质发生了改变[11-12]。Ⅱ型功能分歧系数θⅡ,与Ⅰ型功能分歧系数θⅠ的关系如下式:
其中,π0是功能限制系数(Coefficient of functional constraint)[11]。
通过功能分歧分析,研究基因成员之间是否发生功能分歧,以及检测影响基因成员之间功能分歧的重要氨基酸位点。
2 结果与分析
2.1 构建系统发生树
通过筛选,本研究共获得了15种哺乳动物43条金属硫蛋白氨基酸序列及其对应编码序列。其中MT1G_HUMAN,数据库给出了两条氨基酸序列,分别命名为MT1G1_HUMAN和MT1G2_HUMAN。序列比对结果见图1。可以发现半胱氨酸十分保守,其次是赖氨酸也比较保守。
本研究利用啤酒酵母CUP1的氨基酸序列作为外群来构建系统发生树。建树结果如图2所示。由系统发生树可见,哺乳动物MT基因在进化历史中至少经历了3次基因复制,产生了四种分化,但是其中MT1和MT2分化比较复杂,并没有明显地完全区分开来。可以看到,哺乳动物MT基因有三个明显的进化枝,MT1和MT2聚到了一起,Bootstrap值为87%(>70%),这也与已知二者的结构与分布相似一致。而MT3和MT4也分别独自聚在一起,Bootstrap值分别为97%和100%。每个进化枝都有较高的可信度。
2.2 选择压力分析
选择压力分析是利用MT的编码序列(和氨基酸序列比对相对应),使用PAML软件进行分析。
2.2.1 位点模型
选用三对模型来进行正选择分析,结果见表1。位点模型结果中,M3模型优于M0模型,表示不同的枝有不同速率更符合事实,单一的ω值不能很好地描述不同氨基酸位点的选择压力变化。但是M2a模型不优于M1a模型、M8模型不优于M7模型,表示位点模型在哺乳动物MT基因整体进化中没有检测出正选择。并且,位点模型也没有检测出正选择氨基酸位点。M2a模型并不优于M1a模型,可以认为M1a模型更适合描述MT基因的选择进化,表明MT基因经历着中性或纯化选择。从表2中M1a模型的参数估计ω0=0.03719(纯化选择)的比例p0为0.68322、ω1=1(中性选择)的比例p1为0.31678可以看出,MT基因经历纯化选择的比例较高。
图1 氨基酸序列比对结果(Clustalx1.83)Fig.1 Consequences of amino acid alignment(Clustalx1.83)
图2 以啤酒酵母CUP1氨基酸序列为外群构建的哺乳动物MT基因(氨基酸序列)的系统发生树Fig.2 Phylogenetic tree of MT gene in mammalian
表1 位点模型似然比结果Table 1 Results of likelihood ratio test for site model
表2 M1a模型参数Table 2 Parameters results of model 1a
2.2.2 枝位点模型
枝位点模型的结果见表3、4。枝位点模型同时考虑了不同枝以及不同位点进化速率的不同,对于MT1&2和MT4基因,MA模型优于M1a模型,可以认为1&2基因与哺乳动物MT基因整体的进化速率及位点的进化速率并不相同,且检测出正选择氨基酸位点17K;MT4基因同样如此,且检测出正选择氨基酸位点4G、6T。进一步分析发现,针对于MT1&2基因,MA模型不优于MA1模型,表明其在进化中不存在正选择,这从MA模型估计前景枝(MT1&2基因)的第三类及第四类位点的选择压力参数ω2a与ω2b都为1就可以看出来。而针对于MT4基因,MA模型优于MA1模型,表明MT4基因的正选择结果可靠。对于MT3基因,MA模型并不优于M1a模型,表示M1a模型更适合描述MT3基因的选择进化,但检测出了正选择氨基酸位点51P,这可能是由于计算整个MT3基因的参数时湮没了单个氨基酸的正选择信息。PAML检测出来的正选择氨基酸位点顺序是氨基酸比对结果剔除所有有空位列之后的位点顺序,4 G、6 T、17 K、51 P分别对应未剔除有空位列的比对结果的位置为4、7、22、70。
表3 枝位点模型似然比检验结果Table 3 Results of likelihood ratio test for branch-site model
表4 枝位点模型MA模型参数Table 4 MA parameters results of branch-site model
2.3 功能分歧分析
使用DIVERGE2.0软件,利用比对的氨基酸序列进行功能分歧分析。根据前面所构建的系统发生树,其中MT1和MT2成一个组(Cluster),命名为MT1&2;MT3和MT4分别成一个组,分别命名为MT3与MT4(其中MT4基因只有3个样本,Diverge2.0软件不能把其作为一个组,所以MT4基因各取一个重复变为6个样本成一个组,这样并不改变该组基因的进化速率,不会影响基于进化速率相关的功能分歧系数)。结果如表5、6所示。由表5、6可见,每两个组之间都存在着明显的Ⅰ型功能分歧。MT1&2其中与MT3之间的Ⅰ型功能分歧达到显著水平,但是并没有检测到显著的位点,这可能是由于检测功能分歧位点的阈值设定太高而造成的。MT1&2与MT4之间也有较高的Ⅰ型功能分歧,且达到显著水平,并检测到它们的氨基酸第7和第49位置存在显著的Ⅰ型功能分歧。MT3与MT4之间的Ⅰ型功能分歧系数最大,其P值为0.07,并没有达到0.05的显著水平,但检测到它们的氨基酸第4、7、16、18、49位置存在显著的Ⅰ型功能分歧。
表5 Ⅰ型功能分歧分析结果Table 5 Results of typeⅠfunctional divergence
表6 Ⅱ型功能分歧分析结果Table 6 Results of typeⅡfunctional divergence
对每两个组进行Ⅱ型功能分歧研究,任意两个组之间的Ⅱ型功能分歧系数都比较小,虽然DIVERGER软件并没有给出显著性检验,但是可以看出它们的标准差都相对较大。MT1&2与MT3两个组之间可以检测出第49和第50位置存在显著的Ⅱ型功能分歧。
3 讨论与结论
进化历史中,基因的复制过程产生遗传变异,导致了功能分歧,随后纯化选择将功能固定下来。少数位点甚至单个位点的氨基酸替换都有可能导致蛋白质功能的改变,而整个基因的大多数位点都处于纯化选择或中性选择的进化状态,因此少数位点的正选择信息会被其他大多数位点稀释,可能会导致正选择信息被整体湮没。基于参数ω的选择压力分析能检测较短进化时间的选择作用,较长进化时间的选择作用由于整体湮没的原因而不能获得较理想的信息,而功能分歧能够很好地克服这一问题,可以检测较长进化时间的选择作用。另外,正选择的氨基酸位点是否显著的临界值是由人为制定的,存在一定的不确定性,有一定概率漏掉某些同样有重要作用的氨基酸位点。
本研究对哺乳动物MT基因的进化历史以及进化中受到选择的作用以及功能分歧进行了分析。系统发生树构建结果表明基因复制使哺乳动物MT基因形成了三个明显的进化枝,MT1&2、MT3和MT4,这与已有知识相符合,哺乳动物MT1与MT2基因结构与分布十分相似,构建系统发生树时不能各自独立成为一枝。其中MT4基因只在狗、小鼠、和人类中发现,暗示了三个物种有着更近的亲缘关系。选择压力分析的结果表明,哺乳动物MT基因在进化中主要受到纯化选择以及中性选择,在进化中的这种高度保守,也暗示了其在哺乳动物中具有重要的生物学功能。枝位点模型中检测出了4个受到正选择的氨基酸位点,这为进一步研究不同MT基因不同功能提供了参考。功能分歧分析的结果表明,哺乳动物MT基因存在明显的功能分歧,可以推断其在进化历史中曾经受到过正选择。而且可以看到,Ⅰ型功能分歧起主要作用。本研究也检测到5个Ⅰ型功能分歧显著的位点(其中第4、7位置在枝位点模型中也检测出正选择)和2个Ⅱ型功能分歧显著的位点。
选择进化与功能分歧研究从整体上了解了哺乳动物MT基因的进化历史及在进化过程中受到的选择作用,同时也检测出对不同MT基因不同功能有重要作用的关键位点,便于进一步研究其结构与功能,从而为将MT基因作为转基因动物的候选基因提供理论参考及依据,为MT基因在畜牧业中的应用以及人类对疾病的研究和治疗提供帮助。
[1] Margoshes M,Vallee B L.A cadmium protein from equine kidney cortex[J].Journal of the American Chemical Society,1957,79(17):4813-4814.
[2] Quaife C J,Findley S D,Erickson J C,et al.Induction of a new metallothionein isoform(Mt-Iv)occurs during differentiation of stratified squamous epithelia[J].Biochemistry,1994,33(23):7250-7259.
[3] EbadiM,IversenPL,HaoR,etal.Expressionandregulationofbrain metallothionein[J].NeurochemistryInternational,1995,27(1):1-22.
[4] Haq F,Mahoney M,Koropatnick J.Signaling events for metallothionein induction[J].Mutation Research-Fundamental and Molecular Mechanisms of Mutagenesis,2003,533(1/2):211-226.
[5] Miles A T,Hawksworth G M,Beattie J H,et al.Induction,regulation,degradation,andbiologicalsignificanceofmammalianmetallothioneins[J].CriticalReviewsinBiochemistryandMolecularBiology,2000,35(1):35-70.
[6] 韩新燕,许梓荣.哺乳动物金属硫蛋白的研究进展[J].中国兽医科技,2003,33(11):28-32.
[7] 杨晓勃,王建庭.哺乳动物金属硫蛋白的研究概述[J].畜牧与饲料科学,2009(4):134-136.
[8] Brown T A.基因组[M].袁建刚等译.北京:科学出版社,2002.
[9] Yang Z.Paml 4:Phylogenetic analysis by maximum likelihood[J].Molecular Biology and Evolution,2007,24(8):1586-1591.
[10] Gu X.Statistical methods for testing functional divergence after gene duplication[J].Molecular Biology and Evolution,1999,16(12):1664-1674.
[11] Gu X.Maximum-likelihood approach for gene family evolution under functional divergence[J].Molecular Biology and Evolution,2001,18(4):453-464.
[12] Gu X.A simple statistical method for estimating type-Ii(clusterspecific)functional divergence of protein sequences[J].Molecular Biology and Evolution,2006,23(10):1937-1945.