蛋白质序列比对方法的研究进展
2012-01-04邵明峰陈俐娟向明礼
邵明峰,雷 凯,陈俐娟,向明礼
(四川大学 华西医院生物治疗国家重点实验室,成都 610041)
蛋白质是生命体中不可或缺的组成成分。除具有诸多生物化学功能外,蛋白质还参与新陈代谢、运输、免疫响应、信号传导、细胞周期等生理过程并发挥重要作用。蛋白质的三维结构,不仅有助于从分子水平上了解其功能和作用,而且在基于靶点的药物设计中更有举足轻重的作用。根据疾病治疗靶点的三维结构,可以设计出针对该靶点的特异性抑制剂[1]。但仅依赖实验测定的蛋白质三维结构数据,难以满足药物设计的需要。因此在蛋白质的氨基酸序列与空间结构甚至是功能相关区域间建立联系,从理论上预测蛋白质三维结构便成为满足上述要求的唯一途径[2]。在所有经氨基酸序列预测蛋白质三维结构的方法中,同源建模被认为是预测最准确[3]、结果最可靠[4]、应用最成功[5]、使用得最广泛[6]的一种方法,其大致流程[7]如图1所示。而序列比对是同源建模的关键步骤之一,在很大程度上决定着同源建模的准确性[8]。
图1 同源建模流程
序列比对试图准确地重现目标蛋白与模板蛋白在结构相似区域的氨基酸残基之间的对应关系。但除非在两者间有着非常紧密的亲缘关系,否则就可能存在结构差异很大的区域[7]。由于这样的区域的存在,序列比对需要找出目标蛋白与模板蛋白间所有在结构关系和进化关系上相对应的氨基酸,且不考虑有结构差异的区域[7]。因此要得到一个准确的序列比对结果并不容易。本文对不同情况下的蛋白质序列比对方法、比对结果评价、比对结果优化等方面进行详细论述,并介绍相关方面的最新进展。
1 基于序列的比对方法
如果目标蛋白的氨基酸序列与模板蛋白的氨基酸序列在统计学上显著相似,那么可以认为它们始于共同的进化源(evolutionary origin),有相似的三维结构[9]。蛋白间进化距离(evolutionary distance)的远近,可以用它们间的序列同源性(sequence identity)来定量表示,也可以定性描述。把序列间的同源性关系划分成3个区域[3]:同源性高于25%的区域叫作“白昼(daylight)区”,介于10% ~25%间的区域叫作“黄昏(twilight)区”,而同源性低于10%的区域叫作“午夜(midnight)区”。根据序列同源性所在的区域来定性描述蛋白进化远近关系。
探寻蛋白质间不同亲疏的进化关系需要复杂程度各异的序列比对方法。当目标蛋白与模板蛋白氨基酸序列间的同源性落在白昼区时,采用双序列(pairwise sequence)比对。双序列比对是最简单的序列比对方法。当同源性达到40%以上且比对的序列间没有因“插入”或“删除”操作而导致的空隙(gap)时,可以得到很准确的比对结果。在双序列比对中,应用最广的比对搜索工具当属BLAST(Basic Local Alignment Search Tool)。BLAST不仅运行速度快,而且其同源推论具有坚实的统计基础[10]。FASTA和Search在序列比对和序列数据库搜索中也有着广泛的应用。针对BLAST孤立地考虑序列中各个残基的情况,近年来发展了新的CS-BLAST方法[11]。该方法根据前后临近残基的情况考虑了在特定位置进行取代的可能性。这使得CSBLAST方法不仅对于同源性的检测更加敏感,而且能显著提高序列比对结果的质量。
当目标蛋白与模板蛋白序列间的同源性落在黄昏区,它们间的进化关系更为疏远时,双序列比对不足以可靠地鉴别其间的同源性并给出准确的比对结果。此时需采用借助了多序列比对信息的轮廓-序列(profile-sequence)[12]比对方法。这类方法为参与比对的一组同源相关序列构建了综合统计模型,能够显示哪些位置是保守的,哪些位置是变化的,在哪里最可能发生“插入”或“删除”。根据保守位置可以定义蛋白家族的成员;非保守的位置上残基的变化,则用于区分蛋白家族成员。PSI-BLAST是目前应用最广的轮廓—序列比对方法。它用BLAST作初始比对搜索,然后将比对结果返回,再用最高得分匹配的多序列比对构建一个特定位置得分矩阵(PSSM)。在新一轮的BLAST搜索中,用刚构建的PSSM去置换普通的替换矩阵。根据BLAST比对搜寻返回的结果,再重新构建新的PSSM。每循环一次,新获得的得分高于预定阈值的氨基酸序列被补充进来,轮廓调整一次。如此循环多次后,越来越多的远亲序列(distantly related sequences)被补充进来,在丰富了轮廓的同时,还继续保持轮廓对氨基酸序列家族的特殊性。这使得PSI-BLAST成为强大的序列比对搜索工具。
隐马尔可夫模型(HMM)也属于基于轮廓的方法[3],其区别在于它用概率理论来引导如何设置所有的得分参数[3]。此外HMM为在轮廓的每一个位置的“插入”和“删除”提供了额外的概率数据。在所有轮廓—序列比对方法中,HMM表现最好[3]。最知名的HMM—序列比对搜索软件有HMMER和SAM等。然而,HMM—序列方法也有很大的局限性。如同PSI-BLAST,HMM也是孤立地考虑序列中各个残基的情况,这就无法捕获蛋白序列中可能存在的高阶相关性。同时,由于比PSI-BLAST更慢且无法设计一个像在PSIBLAST中那样流畅运行的迭代流程,所以基于HMM—序列的序列比对搜索还没有被广泛运用。
当目标蛋白与模板蛋白序列间的同源性位于午夜区时,表明二者间的进化距离相当遥远。对此用双序列比对、轮廓—序列比对或HMM—序列比对等方法都无法检测其进化关系。而基于轮廓—轮廓或HMMHMM的方法则能对其进行辨别[12]。这类方法试图通过2个序列轮廓间的比较来回答2个序列家族是否进化相关的问题。这使得对序列同源性的检测具有了非常高的灵敏度,而且能在一定程度上提高序列比对的准确性[13]。基于轮廓—轮廓比较的表现最好有 COMPASS、COMA 和 PROCAIN[12-13];而 HHsearch和 PRC是基于HMM-HMM方法的代表[12-13]。目前,基于轮廓的方法和基于HMM的方法都在发展中,其间的表现难分伯仲。如前所述,基于轮廓—轮廓和HMM-HMM的方法都是孤立地考虑序列中各个残基的情况,这显然不是蛋白序列信息的最优表征。而从CS-BLAST相对于BLAST的表现来看,如果在基于轮廓—轮廓和基于HMM-HMM的方法中,考虑前后临近残基的环境因素,将会进一步增加其同源性检测的灵敏度,提高序列比对的准确性[14]。
2 元数据方法
与基于序列的比对方法不同,元数据(meta)方法[15-17]试图通过整合不同算法的结果,为目标蛋白序列找到最恰当的三维结构模板,从而得到最准确的序列比对。这类方法是伴随着CASP蛋白结构预测比赛(The Critical Assessment of protein Structure Prediction)的举行而诞生的。始于1994年的该比赛,每2年举办一次。在前四届的比赛中发现了一些有趣的现象[15]:如正确的蛋白质折叠构象的预测结果通常出现在一个参赛服务器中;没有任何一个参赛服务器能够可靠地将错误预测与较差预测(得分低于某个阈值的预测)区分开来;正确模型混杂在高得分模型中但其得分却低于许多错误模型的得分等。预测专家从中认识到:为了得到更好的预测结果,必须对大量相互独立的预测方法的预测结果进行分析。不同的预测方法适合于不同的靶点[15],而到底哪些方法适合哪些靶点,却是无法预先确定的。预测专家希望通过对结果的分析,从不同预测方法所得到的结果中提取有用信息,以确定到底是最高得分的模型是正确模型呢,还是得分稍低的模型更为准确,或者在某种方法所对应的结果里根本就没有正确模型。这种想法通过自动化计算加人工干预的策略得以实现并在CASP比赛中获得了成功[16]。这表明,把各服务器的计算结果作为整体综合考虑的“元数据”方法效果更佳,“元数据”方法从此成为最成功的预测方法[15-17]。I-TASSER[18]是这类方法的代表,它将多个轮廓—轮廓比较算法的结果进行整合,用于检测恰当的三维结构模板集,并得到一系列序列比对结果。之后经过结构构建、模型评价和模型优化的循环迭代,将初始比对得到的连续片段重新集合成完整模型[7]。从一定程度上讲,I-TASSER代表的不仅是元数据方法,更是一类用于远同源性检测(for distant homology detection),并具有结构模拟和评价功能的元数据服务器(meta-server)的代表。在最近的几次CASP蛋白结构预测比赛中,I-TASSER均进入最优秀的预测服务器行列[18]。
3 比对结果的评价与改进
通常,经搜索序列数据库得到的蛋白质序列比对结果都稍有不足。除非目标蛋白与模板蛋白间序列同源性超过40%且几乎没有因“插入”或“删除”操作而导致的空隙。否则序列比对结果的可靠性都需要谨慎评价[7]。随着进化距离的不断增大,同源蛋白间在结构和序列方面的相似度越来越低,因而其同源性检测难度越来越大。表面上看,目标蛋白与模板蛋白间的序列相似度越低,据此所得的序列比对结果准确性越差。但事实上,在序列相似性、比对的统计学显著性以及比对结果的准确性之间,没有这么简单的关联关系。特别是在远同源性个例中,目标蛋白与模板蛋白间序列间的相似度不能作为衡量序列比对结果准确性的指标,比对的统计学高度显著也不意味着比对结果的高度准确。
序列比对结果本身不能告诉我们哪个序列区域的比对是可靠比对,哪个区域的比对需要调整。但为了提高序列比对的质量,必须弄清楚在比对结果中哪些比对区域是可靠的、哪些区域需要优化、或者用不同的模板或模板片段重新比对。早期的用于鉴别可靠比对区域的方法,主要用于双序列比对。如Mevissen等[19]用算法的鲁棒性参数,将包含某个残基对的最佳序列比对得分与去掉某个残基对后的最佳序列比对得分进行比较,来检验序列比对结果的可靠性。对基于轮廓或基于HMM方法所进行的序列比对,最简单的判别方法是对轮廓—轮廓比对或HMM-HMM比对中的每个位置进行打分。研究表明[20],包含高得分位置的区域对应于正确的比对。对比对结果的正确性进行评判的常用方法是评估特定区域的比对稳定性[21],这可以通过生成足够多的比对变异来实现。生成比对变异,可以用单一方法从同一个序列数据集衍生出众多次优比对,或者对现有同源序列空间采样实现比对多样化;也可以用多种方法得到多种相应的比对结果[7]。无论用哪种方法来产生比对变异,结果一致的区域就是比对结果可靠的区域。导致结果不一致的因素很多,同源性差、有插入/删除或者明显的构象变化等,都能导致比对结果的不一致。
序列比对结果的改进有多种方法。多序列比对(MSA)是其中之一[3,14],它不是用来检测同源序列,而是用来比对用其他方法已经鉴别出来的同源序列。给定一组同源氨基酸序列,MSA方法就构建一个多序列比对,将进化关系上相一致的氨基酸残基排成一列。通过多序列比对,建立同源性搜索和序列比对的轮廓或HMM[13]。许多基于MSA的方法采用渐进比对策略,把多序列比对变成了一系列双序列比对。它先基于双序列间的相似性构建近似比对引导树(guide tree),优先比对那些进化关系最近的序列,然后这些被比对的序列再相互逐一比对。渐进比对策略的不足之处是在初始的双序列比对阶段或在构建引导树时的错误得不到纠正而且还会在整个比对过程中继续传播。利用一致性信息或采用迭代优化,是克服上述不足的一种方法。T-Coffee[22]是一个采用一致性打分方法的例子。一般来讲,基于一致性打分的方法比基于迭代优化的方法更准确,但需要更大的计算资源。
用多种方法的组合或引入附加的信息,也是提高序列比对质量的一种有效方法。附加信息可以是进化信息,也可以是结构信息。M-Coffee[22]是采用多种方法组合用以提高比对质量的一个例子。它将其他多序列比对方法的比对结果收集起来,组成一个库,再进行比较和组合,得到一个新的一致性的序列比对结果。PROMALS[23]是采用一系列附加信息以提高比对质量的例子:它是先用PSI-BLAST检测序列的同源性获得“轮廓”,并据此预测序列的二维结构,然后反过来用所预测的二维结构信息强化轮廓—轮廓比较,从而提高序列比对质量。
4 序列比对新动向
序列比对是否准确,还将在目标蛋白的三维结构构建后接受进一步验证。事实上,序列比对一直是蛋白质三维结构同源建模的一个瓶颈。如何在序列比对的不可靠区域得到正确的序列比对结果,仍然是一项艰难的工作,相应的探索研究也从来没有停下。
2011年,Di Tommaso等[13,22]在T-Coffee服务器上运用同源性延伸(homology extension)的方法对跨膜蛋白远亲序列进行了准确比对。同源性延伸是一种涉及数据库搜索的方法[13]。在这种方法中,常规的每一个序列都用从近同源序列获得的轮廓来代替。这样,每个序列的每个位置都变成了多序列比对的一列。Di Tommaso等认为,他们的比对结果的准确度之所以比当时最准确的比对方法如PROMALS[23]等都还高,那是因为PSI-Coffee的功劳[22]。PSI-Coffee是T-Coffee基于同源性延伸的另一个版本。
最近,Khazanov等[24]从消除初始比对中的比对错误入手,把高斯加权 RMSD技术与播种(seed extension)算法运用到序列比对中,发展了同源蛋白的结构叠合和序列比对HwRMSD技术。在常规方法中,初始比对阶段出现的序列比对错误会在后续的比对过程中继续传播。运用高斯加权RMSD进行结构叠合。根据这种叠合,用播种算法能够得到正确的序列比对。对于那些基于序列和基于结构的比对方法都无法得出正确比对结果的远同源序列以及构象差异较大的序列,HwRMSD能给出正确的比对结果。
5 总结与展望
Dickson等[25]从寻找初始比对中的比对错误着手提高序列比对的质量。要找出序列比对中的错误是很困难的。因为序列比对和对比对质量的评价,都是基于序列保守这一原理的。Dickson等采用了与序列保守不相关的局域共变(local covariation)的统计方法来鉴别序列比对中的错误。共变统计被用来表征2个氨基酸残基是否是共同进化的。共同进化的氨基酸残基受控于一种被约束的氨基酸变化机制。高的局域共变得分意味着2个位置是等同的。通过将错误比对的片段重新比对,减小局域共变,得到了有结构证据支撑的新的比对结果。
蛋白质三维结构特别是重要疾病靶点的三维结构对于基于靶点的药物设计至关重要。它是靶向性药物设计的关键。同源建模是最可靠的蛋白质三维结构预测方法。目标蛋白与模板蛋白间的序列比对,是同源建模流程中的关键环节。
根据目标蛋白与模板蛋白序列间的同源性高低,选择不同的比对方法,并在评价比对结果的基础上进一步优化序列比对比对,可以得到合理的比对结果。
如果目标蛋白与模板蛋白间的进化关系相当疏远,序列间的同源性落在“午夜区”,那么要获得准确的比对结果是很难的。对于这样的目标蛋白,基于轮廓—轮廓或HMM-HMM的方法,以及元数据方法有较好的表现。
在对序列比对结果进行优化时,增加额外的进化信息或结构信息,可以提高比对质量。而新的方法,如同源性延伸搜索[22],用高斯加权RMSD结合播种算法[24]消除序列初始比对中存在的错误,用与序列保守不相关的局域共变[25]统计方法鉴别出初始比对中的错误再重新比对等,都在为获得高质量的序列比对结果做出令人期待的贡献。
[1]GARCIN E D,ARVAI A S,ROSENFELD R J,et al.Anchored plasticity opens doors for selective inhibitor design in nitric oxide synthase[J].Nat Chem Biol,2008,4(11):700 -707.
[2]HOSSAIN M M.Fish antifreeze proteins:Computational analysis and physicochemical characterization[J].Int Curr Pharm J,2012,1(2):18 - 26.
[3]LIU T,TANG G W,CAPRIOTTI E.Comparative modeling:the state of the art and protein drug target structure prediction[J].Comb Chem High Throughput Screen,2011,14(6):532 -547.
[4]VINO S,DILSHAD J,SUKHWAL A.Evolutionary analysis of SEC23A Gene and homology modeling in Zebrafish[J].Drug Invention Today,2011,3(3):22-25.
[5]ANDRADE D V G,G ES-NETO A,JUNIOR M C,et al.Comparative modeling and QM/MM studies of cysteine protease mutant of Theobroma cacao[J].Int J Quantum Chem,2012,112(9):3164 -3168.
[6]BHATTACHARYA D,CHENG J.3Drefine:Consistent protein structure refinement by optimizing hydrogen bonding network and atomic-level energy minimization[J].Proteins,2012:DOI:10.1002/prot.24167.
[7]VENCLOVAS C.Methods for Sequence-Structure Alignment[M].Clifton,NJ:Springer,2012:55 -82.
[8]S DING J.Protein homology detection by HMM-HMM comparison[J].Bioinformatics,2005,21(7):951 -960.
[9]LENGAUER T,ZIMMER R.Protein structure prediction methods for drug design[M].Oxford:Oxford Univ Press,2000:275 -288.
[10]KARLIN S,ALTSCHUL S F.Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes[J].Proc Nati Acad Sci USA,1990,87(6):2264 -2268.
[11]BIEGERT A,S DING J.Sequence context-specific profiles for homology searching[J].Proc Nati Acad Sci USA,2009,106(10):3770 -3775.
[12]BRAMUCCI E,PAIARDINI A,BOSSA F,et al.PyMod:sequence similarity searches,multiple sequence-structure alignments,and homology modeling within PyMOL[J].BMC Bioinformatics,2012(13)1 -6.
[13]CHANG J M,DI TOMMASO P,TALY J F,et al.Accurate multiple sequence alignment of transmembrane proteins with PSI-Coffee[J].BMC Bioinformatics,2012,13(S4):1-7.
[14]DAGA P R,PATEL R Y,DOERKSEN R J.Template-based protein modeling:recent methodological advances[J].Curr Top Med Chem,2010,10(1):84-94.
[15]BUJNICKI J M,FISCHER D.‘Meta’Approaches to Protein Structure Prediction[M].Berlin:Springer-Verlag,2004:23 -34.
[16]BUJNICKI J M,ELOFSSON A,FISCHER D,et al.Structure prediction meta server[J].Bioinformatics,2001,17(8):750 -751.
[17]BUJNICKI J M.Protein-structure prediction by recombination of fragments[J].ChemBioChem,2006,7(1):19 -27.
[18]ROY A,KUCUKURAL A,ZHANG Y.I-TASSER:a unified platform for automated protein structure and function prediction[J].Nat Protoco,2010,5(4):725-738.
[19]MEVISSEN H T,VINGRON M.Quantifying the local reliability of a sequence alignment[J].Protein Eng,1996,9(2):127 -132.
[20]TRESS M L,JONES D,VALENCIA A.Predicting reliable regions in protein alignments from sequence profiles[J].J Mol Biol,2003,330(4):705 -718.
[21]CHEN H,KIHARA D.Estimating quality of template-based protein models by alignment stability[J].Protein,2008,71(3):1255 -1274.
[22]DI TOMMASO P,MORETTI S,XENARIOS I,et al.T-Coffee:a web server for the multiple sequence alignment of protein and RNA sequences using structural information and homology extension[J].Nucleic acids research,2011,39(S2):13-17.
[23]PEI J,GRISHIN N V.PROMALS:towards accurate multiple sequence alignments of distantly related proteins[J].Bioinformatics,2007,23(7):802-808.
[24]KHAZANOV N A,DAMM‐GANAMET K L,QUANG D X,et al.Overcoming sequence misalignments with weighted structural superposition[J].Protein,2012:DOI:10.1002/prot.24134.
[25]DICKSON R J,GLOOR G B.Protein Sequence Alignment Analysis by Local Covariation:Coevolution Statistics Detect Benchmark Alignment Errors[J].PLoS one,2012,7(6):e37645.