基于CASP10的模板依赖型蛋白质结构预测方法研究进展

2016-10-14毕潇文李娟方慧生

医学信息 2016年7期

毕潇文　李娟　方慧生

摘要：CASP（critical assessment of structure prediction）是代表蛋白质结构预测领域的世界前沿水平的评比活动。模板依赖型蛋白质结构预测方法（Template-based modeling，TBM）可以进行蛋白质结构与功能关系分析及蛋白质分子设计。本文详细综述了CASP10中靶蛋白收集、预测模型收集和方法评估以及利用分析讨论得出的CASP10中最佳5种模板依赖型蛋白质结构预测方法，可对研究蛋白质组尤其是对那些通过实验难以测定结构的蛋白质分析则具有理论意义与实用价值。

关键词：CASP10；蛋白质结构预测模型质量评估；模板依赖型蛋白质结构预测方法

Abstract：CASP is the assessment activities representative of the world advanced level of protein structure prediction . TBM can analyze the relationship between structure and function of proteins and protein molecular design. This paper reviews target protein collection， prediction model collection ， evaluation measures and the top5 template-based protein structure prediction methods through the analysis and discussion in CASP10. For proteome studying，especially for those who is difficult to determine the protein structure through experiment analysis has theoretical significance and practical value.

Key words：CASP10； Evaluation measures ；Template-based modeling

迄今為止，蛋白质结构预测已经有近40年的历史，期间，人们提出了一系列预测方法，取得了丰硕成果。自1994 年起每两年在美国加利福尼亚州举办一次蛋白质结构预测评比活动-CASP。它代表着蛋白质结构预测领域的世界前沿水平，深入客观的分析了当前的蛋白质结构预测技术水平，认识到当前的方法能力与局限以及将来的发展方向。CASP 主要包括三部分：①靶蛋白质序列的收集；②蛋白质结构预测模型的收集；③蛋白质结构预测模型及预测方法的评估，组织会议公布和讨论结果。

1 CASP10简介

1.1靶蛋白质序列的收集在2012年举办的CASP10中，来自23个国家的217个预测小组以114个靶蛋白提交了超过66000个预测结果。所选择的靶蛋白被分为全型靶蛋白和仅服务器靶蛋白。全型靶蛋白是从具有挑战性的靶蛋白中选出来的典型例子，难度评估指标是基于启发式搜索和PSI-BLAST模板搜索得出的[1]。并且，在CASP10中，考虑到模板的共识增加了目标类别定义的特殊性，基于得分和LOMETS线串比对的共同判断将靶蛋白分为四组：平常组、简单组、困难组和极其困难组。

1.2蛋白质结构预测模型的收集靶蛋白预测结果公布的时间内，各个靶蛋白通过自动分配系统自动转发给参赛服务器，追踪收集服务器的状况。经过初步评估服务器预测结果之后，预测小组提交较好的模型（GDT_TS[2，3]> 60）。在近三次的CASP比赛中，每次都有超多100个服务器小组参赛，服务器预测组数量超过了专家预测组，这反映了在结构预测方面自动化程度的提高。为了适应预测结果的庞大数据，修改了预测结果处理，存储，评估和可视化的原则。在CASP10中，接受五种不同格式的预测结果：三级结构TS，残基-残基接触RR，无序区域DR，模型质量评估QA，结合位点的预测FN。

1.3蛋白质结构预测模型及方法的评估 CASP10最大的变化是质量评估的分类，除了QA之外，稍微改变了RR和DR分类的规则，对每一个靶蛋白限制预测结果数目。在DR分类中，也开始要求残基的预测结果以无序态。CASP10最明显的改进是类别的精化。首次出现一个预测小组能成功的提高所有靶蛋白预测的准确度。令人鼓舞的是，这个结果由分子动力学方法得出的，显示出更多的物理学衍生的方法可为模建做出贡献。辅助接触型模建新的分类结果证实这些方法可以与适量的额外信息产生更紧缺型的模型[3]。所有提交的模型以预测中心与独立评估小组磋商得出的相应实验参考结构为标准进行评估。为了进行评估，靶蛋白的结构序列，残基编号，链ID需要与公布序列一致[4]。

RMSD[5]是CASP评估中第一个评估标准，并仍然使用。它很适合评估结构非常相似的两个蛋白之间的差异，但当模建的模型结果非常偏离实验结果的时候，就不是评估的最佳标准；GDT-TS[5，6]的开发是为了解决RMSD存在的不足之处，并在CASP中成为一个标准的评价标准。通过扩大阈值后的平均值，更能突出正确结构的得分；GDT-HA[5，6]是GDT-TS改进版，缩小了阈值，更适合高同源性靶蛋白骨架精度评估；GDT-SC[6]用临近每一条侧链末端特征原子来比较残基位置，从而着重在侧链位置上来突出模型之间差异；GDT-like[5，6]评估模板和模型靶蛋白残基和相应的靶蛋白预测残基全局相似性。这些得分，有序列依赖性性质，不能将模型与从与靶蛋白有高结构相似性的不正确构象区分开来，想要完全得出这些差异，用比对准确度得分AL0（AL4），可以显示出比对正确对齐残基所占比例。

CAD[7]是比较基于两个结构残基-残基接触域不同的一种新的评估标准，得分可帮助找到物理学上更加合理的模型；LDDT[8]是另一种最新推出的无叠合评估标准，是基于模型全原子距离图谱和靶蛋白结构的比较。相似于CAD得分，非常适合在结构域动态存在的本地模型质量评估，仍然保留良好的相关性；SG[4]得分反映基于相应子结构局部相似性的模板-靶蛋白相似性，得出的是模型结构与靶蛋白球体一致的百分比；RPF[9]最初开发是用来评估NMR结构准确度的，类似于IDDT，它是一种基于比较模板和靶蛋白距离矩阵的无叠合标准。已经观察到RPF值和GDT-TS/RMSD值有一个很强的相关性。

Molprobity[10]得分可帮助评估者区分正确和扭曲立体化学特征的模型。整体得分包括四个部分来评估结构定义的准确性：冲突得分，旋转异构体异常得分，拉式构像图偏离得分，拉式构象图符合得分。

2 CASP10中最佳模板依赖型蛋白质结构预测方法

目前，常用的蛋白结构预测方法分为三类：①针对高相似序列的同源模建；②针对较低序列相似性的折叠识别；③不依赖于模板而利用物理学原理直接进行从头计算。但实际上由于现在大多数从头预测技术依赖结构数据库和统计学原理及其他技术，为了研究需要，自CASP7开始，前两者合并为模板依赖型蛋白质结构预测方法。CASP10选择114个蛋白，因为各种原因，最后只包括96个序列，112个评估单元，其中有111个评估单元是基于模板模建的。

2.1自动化的结构评估打分 CASP允许每个提交者提供5个蛋白结构，每一个预测小组，只有命名为“模型1”的模型用于排名。自动化结构评估分为如下四步：①对提交的模型计算GDT-HA，GDC-all，LDDT-15，RPF-9；接着，计算这些打分的平均值和标准偏差，用于计算Z-得分；基于Z-得分，对预测小组进行排名，用来消除差模型造成的罚分。②Z-得分小于-2.0的直接排除；对每一评估单元计算，加入UB即最高得分后，重新计算GDT-HA，GDC-all，LDDT-15，RPF-9的平均值和标准偏差；同时当Z值小于-2时，设置Z值等于-2。③计算每一个度量的Z-得分，并进行求和。④计算了每个AU的得分，通过评估单元的数目分配综合得分。而Z-得分只能用于确定前25组，不能用来确定排名，还需配对T检验进行重新排名，同时还对模型选择对结果的影响做了分析。经过分析，CASP10评估认证Zhang-Server，QUARK，PMS， LEEcon，Zhang作为基于模板模建最佳预测小组[11]。

2.2最佳模板依赖型蛋白质结构预测方法方法简介 QUARK[12]最开始是开发作为无需用到全局模板结构的蛋白质从头结构预测的，开始于从非冗余PDB结构库用无缝线串法得到的连续的分散片段集合。最后，这些片段被运用复制-交换蒙特卡洛模拟由距离轮廓和基于物理学和经验诱发复合指导下组装成全长模型。在新的开发中，从LOMETS线串比对提取的空间限制被用于协助QUARK结构重组模拟。

Zhang和Zhang-Server[13]方法是由I-TASSER与QUARK结合相互作用开发的。本质上是相同的，不同的是Zhang是采用的CASP10服务器上的模板，而后者采用的是内部线串方法得到的模板。整体结构预测包括以下三个基本步骤：①模型识别，目标序列来自非冗余PDB结构库，用LOMETS来确定合适的模板比对；②基于模板和从头结构组装；③模型的选择与改进。运用7-MQAP方案来选择模型，包括I-TASSER 的C-得分，TM-得分，五个统计指标（RW，RWplus， Dfire，Dope和verify3D）。最后，7个MQAP得分总和作为MQAP一致性得分，低一致性得分的模型最终被选择出来用于提交。

PMS[14]是基于能量函数和蛋白质3D模型质量评估的全局优化方法，在侧链原子细节模建以及主链结构模建的准确性来说相当成功。PMS对于蛋白质的3D模型的模建，开发了一种新的洛伦兹型能量项取代在MODELLER中使用的高斯型或样条函数用于结构约束限制。利用构象空间退火来优化能量函数。对于模板选择和比对，利用随机森林算法开发了一种新的质量评估方法。在折叠识别步骤中，质量评估方法被用于重新排序由FOLDFINDER产生的候选模板。

LEEcon[15]相似于PMS，但是考虑到从FOLDFINDER获得其他模板。Leecon模建是利用SERVER预测方法即从CASP10发布的所有SERVER模型最大集群中选择模型的一致性方法。进行SERVER模型的结构集群，并确定出最大的集群。对于序列查询，FOLDFINDER用域从PDB中识别最佳模板。排除掉与模板有几乎相同的结构（TM-得分≥0.975）和很不相似的结构（TM-得分<0.65）。基于序列得分和基于3D得分结合起来，确定重心模板和次级可选模板。模板合并生成一个模板列表，对于每个模板列表，进行多重序列比对、侧链构架、質量评估和侧链重建。

3 总结和展望

掌握蛋白质的结构信息对于研究蛋白质的功能及作用机制具有重要意义。对于蛋白质结构和功能，虽然可以通过实验的方法来实现，但当前的蛋白检测技术水平还远远跟不上由“人类基因组计划”不断发展所产生的海量生物信息，所以利用蛋白质预测技术协助实验科学变得尤为重要。CASP作为蛋白质结构预测领域的世界前沿水平代表，可以客观的反映蛋白质结构预测技术水平。CASP10所得到的最佳5种模板依赖型蛋白质结构预测方法：Zhang-Server，QUARK， PMS，LEEcon，Zhang可对研究蛋白质组尤其是对那些通过实验难以测定结构的蛋白质分析则具有理论意义与实用价值。并且首次出现一个由分子动力学方法得出的预测小组能成功的提高所有靶蛋白的准确度，显示出更多的物理学衍生的方法可为模建做出贡献。总之，药物生物信息学对蛋白结构和功能的预测与实验科学的发展结合起来，将给蛋白质设计、药物设计等生命科学领域提供巨大的帮助。

参考文献：

[1]Moult J， Fidelis K， Kryshtafovych A， et al. Critical assessment of methods of protein structure prediction （CASP）-round x[J]. Proteins： Structure， Function， and Bioinformatics， 2014， 82（S2）： 1-6.

[2]Zemla A. LGA： a method for finding 3D similarities in protein structures[J]. Nucleic acids research， 2003， 31（13）： 3370-3374.

[3]Kryshtafovych A， Fidelis K， Moult J. CASP10 results compared to those of previous CASP experiments[J]. Proteins： Structure， Function， and Bioinformatics， 2014， 82（S2）： 164-174.

[4]Kryshtafovych A， Monastyrskyy B， Fidelis K. CASP prediction center infrastructure and evaluation measures in CASP10 and CASP ROLL[J]. Proteins： Structure， Function， and Bioinformatics， 2014， 82（S2）： 7-13.

[5]Moult J. A decade of CASP： progress， bottlenecks and prognosis in protein structure prediction[J]. Current opinion in structural biology， 2005， 15（3）： 285-289.

[6]Monastyrskyy B， Kryshtafovych A， Moult J， et al. Assessment of protein disorder region predictions in CASP10[J]. Proteins： Structure， Function， and Bioinformatics， 2014， 82（S2）： 127-137.

[7]Olechnovi？ K， Kulberkyt？ E， Venclovas. CAD‐score： A new contact area difference‐based function for evaluation of protein structural models[J]. Proteins： Structure， Function， and Bioinformatics， 2013， 81（1）： 149-162.

[8]Mariani V， Biasini M， Barbato A， et al. lDDT： a local superposition-free score for comparing protein structures and models using distance difference tests[J]. Bioinformatics， 2013， 29（21）： 2722-2728.

[9]Huang Y J， Powers R， Montelione G T. Protein NMR recall， precision， and F-measure scores （RPF scores）： structure quality assessment measures based on information retrieval statistics[J]. Journal of the American Chemical Society， 2005， 127（6）： 1665-1674.

[10]Chen V B， Arendall W B， Headd J J， et al. MolProbity： all-atom structure validation for macromolecular crystallography[J]. Acta Crystallographica Section D： Biological Crystallography， 2009， 66（1）： 12-21.

[11]Huang Y J， Mao B， Aramini J M， et al. Assessment of template‐based protein structure predictions in CASP10[J]. Proteins： Structure， Function， and Bioinformatics， 2014， 82（S2）： 43-56.

[12]Xu D，Zhang Y.Ab initio protein structure assembly using continuous structure fragments and optimized knowledge‐based force field[J]. Proteins： Structure，Function，and Bioinformatics，2012， 80（7）：1715-1735.

[13]Xu D， Zhang J， Roy A， et al. Automated protein structure modeling in CASP9 by I‐TASSER pipeline combined with QUARK‐based ab initio folding and FG‐MD‐based structure refinement[J]. Proteins： Structure， Function， and Bioinformatics， 2011， 79（S10）： 147-160.

[14]Joo K， Lee J， Sim S， et al. Protein structure modeling for CASP10 by multiple layers of global optimization[J]. Proteins： Structure， Function， and Bioinformatics， 2014， 82（S2）： 188-195.

[15]Lee J， Gross S P， Lee J. Modularity optimization by conformational space annealing[J]. Physical Review E， 2012， 85（5）： 056702.

編辑/成森