基于Web的疫苗设计工具

2013-07-18张荣波杜昭宏吴静2胡东

分子诊断与治疗杂志 2013年1期

张荣波杜昭宏吴静,2胡东

•综述•

基于Web的疫苗设计工具

张荣波1,2★杜昭宏1吴静1,2胡东1,2★

迄今为止，疫苗是用于预防感染、肿瘤、过敏及免疫失衡等疾病最为有效的工具之一。归功于强大的信息储量及分析能力，网络数据库及分析系统为研究人员提供了更为容易的疫苗设计途径。目前，这些网络工具可以归类为生物大分子的序列信息、结构分析及功能预测。鉴于生物信息学工具的日益增多，本文对其进行分类总结，以方便更多研究者使用。

疫苗；网络工具；预测；生物信息学

最近几年用于疫苗设计的计算机方法发生了巨大的变化。传统的免疫学研究结果可用钢笔、铅笔或电子表格记录，但高通量测序、DNA阵列和蛋白质组学等新实验中产生了大量的数据，这些方法已不能有效地处理和挖掘这些数据。免疫生物信息学需要讨论如何处理在免疫学和疫苗设计领域产生的大量数据（免疫信息学领域的快速增长起到了推波助澜的作用）使没有生物信息专业知识的研究人员也可在互联网上获得许多方法。本文试图作一个关于目前可用的方法的概述，并指出不同方法的优缺点。

1 描述免疫过程的预测服务器

只有一小部分的从致病微生物蛋白质中产生的肽能引起实际的免疫应答。前体肽必须产生蛋白酶才能被提交给CD8+T细胞，在细胞质中由其他肽酶修剪该肽的N-末端[1]。然后，它必须绑定到抗原加工相关转运子（TAP）以便转运到内质网（ER）上易位。在这里，它被与抗原加工相关的氨基肽酶修剪N-末端（ERAAP），直到它结合到主要组织相容性复合体Ⅰ类（MHC I）分子[2]。此后，它被输送到细胞表面。细胞表面上只有一半的肽的免疫原性可能是由于规模有限的T细胞受体（TCR）指导。最有选择性的步骤是与MHC I类分子的结合，因为只有1/200的肽亲和结合强大到足以产生免疫反应[3]。

为了进行比较，TAP结合的选择性报道为1/7[4]。这一切都发生在与其他肽的竞争中，因此为了使肽具有免疫原性（免疫），它必须在给定的细胞中比其他肽更有效地经过上述过程[3]。

而MHC I类分子的主要样肽来自细胞液，MHC II 类分子提呈肽来自胞吞的蛋白质。未折叠的多肽在胞吞细胞器中结合到MHC II分子[5]。MHC I类分子和MHC II类分子具有高度多态性，等位基因特异性往往是非常不同的。因此，不同的个体通常对来自同一病原体的不同系列的肽产生不同的反应。

可以通过氨基酸序列预测一些参与抗原呈递过程的特异性。例如，这可以被用来选择疫苗中的抗原决定簇，并有助于理解在感染性疾病、自身免疫疾病和癌症中免疫系统的作用。下面我们将介绍一些网络上可以进行这样预测的资源。

1.1 MHC结合肽的数据库

存在于互联网上的几个MHC结合肽数据库（表1）。

1.1.1 SYFPEITHI：SYFPEITHI数据库包含肽序列、锚位置、MHC特异性、源蛋白源生物和出版物参考信息。该数据库包括大约3 500个已知的结合MHC I类和II类分子的肽序列和基于以前出版物的T细胞表位和来自许多物种的MHC配体[6]。

1.1.2 MHCPEP：MHCPEP 是MHC结合肽的另一个主要数据库，包括超过13 000个结合MHC分子的肽序列[7]。出版报告编译的条目和直接提交的实验数据一样好。每个条目包含肽序列、MHC特异性和有效性、实验方法、观察到的活性、亲和力、源蛋白、锚的位置和出版物参考。遗憾的是，数据库自1998年6月后不再更新。该数据库可以作为ASCII文件下载。

1.1.3 JenPep：JenPep是一个较新的数据库，它包含MHC、TAP以及T细胞表位肽的大量结合数据，该数据库包含8000多个条目[8]。

1.1.4 FIMM：由Schoenbach和Brusic创建，是一个分子免疫学的功能数据库。该数据库包含571个抗原和1 591个肽[9]。

1.1.5 MHCBN：这是一个MHC结合和非结合肽的数据库，包含14 816个粘合剂，1 782个非粘合剂和5 456 个T细胞表位[10]。

1.1.6 HLA配体/ Motif的数据库：这个网站的数据库可以通过定义等位基因和特异性，氨基酸模式，氨基酸序列中配体/基序，作者的姓氏等更多指标的高级搜索来搜索。

1.1.7 HIV分子免疫学数据库：HIV分子免疫学杂志数据库是一个注释的，可检索HIV-1细胞毒性和辅助性T细胞表面抗原和抗体的结合位点。目标是提供一个全面定义HIV抗原表位的数据库[11]。

1.1.8 EPIMHC：MHC配体数据库可以根据序列长度、类、物种和配位体是否是抗原决定簇进行搜索。

美国国立卫生研究院将在未来五至七年资助“免疫抗原表位数据库和分析计划”（www.niaid.nih. gov/contract/archive/rfp0331.pdf）的设计、开发、填充并维持公开访问性，全面的免疫抗原表位数据库包含的线性和构象的抗体抗原表位和T细胞表位。这个数据库最终可能合并上述数据库中的大部分数据。

1.2 预测MHC结合

存在于互联网上的几个MHC结合肽预测服务器（表2）。如上表所示一些基于互联网的方法同样允许预测II类分子的结合。在互联网上有许多的预测MHC-肽结合的矩阵法。参数往往来自配体测序群。然而，基质或隐马尔可夫模型也同样可以来自配体序列。在这些方法中基序每个位置上的氨基酸为预测得分提供一个独立的贡献。神经网络能够更准确的预测位置之间的相关性是否存在，并有足够的数据来建模。这具有潜在的优点，它可以根据基序中不同位点的相关性说明。

表1 MHC结合肽数据库Table 1 MHC binding peptide databases

1.2.1 BIMAS：BIMAS方法是Parker等[12]1994年开发的，该方法是以已出版的文献推导出的系数表为基础。HLA-A2和肽结合数据结合在一起产生一个包含180个系数的表（20个氨基酸×9个位点），其中每一个系数代表肽内特定位置氨基酸残基的影响。

1.2.2 SYFPEITHI：SYFPEITHI预测以发表的基序（池测序，天然配体）为基础，并考虑到在锚和辅助锚位置氨基酸。得分是根据以下规则计算：某一肽的氨基酸被赋予了特定的值，这取决于他们是否是锚形体、辅助锚或优选的残基。理想中的锚将得到10分，例外的锚形体6～8分，辅助锚4～6分，优选的残基1～4分。氨基酸的结合能力被认为有负面影响，给定的值介于-1～-3[13]。SYFPEITHI Web网站预测用于5个不同的MHC II等位基因除了一些I类等位基因。

1.2.3 PREDEPP：该方法以MHC沟槽中的肽结构为模型，要求多肽候选分子为螺纹型，其与MHC结合的相容性由配对检验统计进行评估。此方法的优点在于，它不需要肽结合实验验证，因此，可以用于只有有限数据的等位基因[14]。

1.2.4 Epipredict：使用合成组合多肽库来定量描述肽-HLA II类相互作用的方法。Jung等[15]的等位基因特异性二维数据库中描述每个II类-配体氨基酸侧链结合作用。

1.2.5 Predict：Yu等[16]利用神经网络预测I类、II类和TAP结合的预测方法。

1.2.6 Propred：Singh以1999年出版的矩阵为根据[17～18]，是TEPITOPE程序的实现和拓展[19～20]。除此之外差异可以归因于我们测试中没有发现任何两者之间差异的微小错误。

1.2.7 MHCPred：11个不同的HLA I类等位基因结合的预测可使用三维定量构效关系方法[21]。

1.2.8 Net MHC：HLA-A2结合的预测利用神经网络。此方法定量预测结合亲和力，将不同的肽进行分类（结合与非结合根据一个阈值比较）。Buus等[22～23]使用同种测定法得到的大量结合数据已经验证过该方法。一些预测粘合剂在小鼠体内诱导CTL反应的能力已经过测试，并由HIV-1 HLA-A2阳性患者CD8+T-细胞识别[22～23]。两个著名的预测方法，TEPITOPE 和 EpiMatrix是不能通过网络获得的，已在表3中列出[24～25]。TEPITOPE的流行是从它允许不同的II类分子肽的预测开始的。

1.3 蛋白酶体的酶切位点预测

MHC I类配位体的C末端最有可能被蛋白酶裂解。蛋白酶体通常产生N-末端延伸MHC配体的前体，这些前体的N-末端可以在内质网上被修剪。抗原决定簇内蛋白酶裂解位点不需要废除这种表位的免疫反应，然而它们可以降低给定肽的免疫反应的有效性[3]。因此，蛋白酶在选择提交给CD8+T细胞的肽中起着重要的作用。在脊椎动物中用IFN-γ刺激，导致蛋白酶三个亚基的替换形成具有不同特异性的免疫保护[26]。在互联网上存在不同的用于预测蛋白酶裂解位点的方法（表4）。

表2 HLA肽结合预测Table 2 Binding predictions of HLA peptides

1.3.1 PAProC：蛋白酶体分裂预测算法是以实验裂解数据为基础的用于人类和酵母蛋白酶的预测工具[27～28]。最新资料显示以体外免疫蛋白酶裂解数据为基础的PAProC程序也是根据PAProC主页操作的[29]。

1.3.2 FRAGPREDICT：包括两种不同的算法。其中一个的目的是预测蛋白酶体裂解的可能性，以裂解带周围决定氨基酸基序裂解的统计分析为基础[30～31]。第二个算法使用切割位点的分析结果作为输入，提供主要蛋白水解片段的预测。

1.3.3 NetChop：这是由不同的调制解调器调整过的神经网络。ÇKesmir建议使用经过C-末端切割位点调整过的C-term2.0网状构造，切割点是用于预测CTL分界线的MHC I类配体的1 110个公认有效的C-末端切割位点[22]。这个网络的特异性可能会类似于特异性免疫蛋白酶。

Margalit组最近在网络上也做了他们的蛋白酶体切割位点的自然倾向实验[32]。

2 综合预测

最近已经开发了许多提供综合预测的网站。MAPPP服务器（表2）允许用户创建开放阅读框搜索结合MHC和预测蛋白酶切割位点，Raghava有一个预测服务器（www.imtech.res.in/raghava/propred1/ index. html）完成了47 MHC-I类等位基因、蛋白酶体和免疫蛋白酶体模型的矩阵[17]。 MHC的网络服务器允许HLA-A2的结合和NetChop预测。

2.1 MHC序列数据库

许多存在于互联网上的含有免疫蛋白质序列的数据库（表5）。

2.1.1 HIG：目前HLA序列数据库包含1 596个等位基因序列。到2002年10月，263 HLA-A，501HLA-B，HLA-F125HLA-C，6HLA-E，1和15个HLA-G I类等位基因已被命名。3HLA-DRA，397HLADRB，22 HLA-DQA1，53 HLA-DQB1，20 HLA-DPA 1100 HLA-DPB1，4HLA-DMA，-DMB6HLA，8HLA-DOA和8HLA-DOB II类序列也被命名，还有6 TAP1，4TAP2和54 MICA序列。HLA序列数据库还包含广泛命名法HLA系统（HLA类I和II类等位基因名的表）该数据库对HLA命名是非常有帮助的，因为HLA命名是非常复杂和繁琐的。

2.1.2 IMGT：国际免疫遗传学项目，是专门从事所有脊椎动物免疫球蛋白、T细胞受体和MHC的一个数据库集。IMGT项目成立于1989年的蒙彼利埃第二大学和法国国家科学研究中心（Montpellier，法国）并且和EBI有密切合作。

2.1.3 ASHI：（ASHI）美国组织相容性和免疫遗传学协会提供的基因和等位基因频率的数据库（www. ashi-hla.org/）。

2.1.4 MHCDB：MHC序列的“注册用户”数据库。这是一个ACEDB式人类主要组织相容性数据库。它在很大程度上被6ace取代，6ace是来自桑格中心的人类第6号染色体ACEDB式数据库。

3 其他网站

表6中列出许多与免疫学和疫苗的设计相关的其他数据库。

表3 非网络的MHC结合预测Table 3 MHC binding peptide based on non-web

表5 MHC序列数据库Table 5 MHC sequence databases

表6 其他网站Table 6 Other web site

[1]Lévy F, Burri L, Morel S, et al. The final N-terminal trimming of a subaminoterminal proline-containing HLA class I-restricted antigenic peptide in the cytosol is mediated by two peptidases[J]. J Immunol, 2002, 169(8): 4161-4171.

[2]Serwold T, Gonzalez F, Kim J, et al. ERAAP customizes peptides for MHC class I molecules in the endoplasmic reticulum[J]. Nature, 2002, 419(6906): 480-483.

[3]Yewdell J W, Bennink J R. Immunodominance in major histocompatibility complex class I-restricted T lymphocyte responses[J]. Annu Rev Immunol, 1999, 17: 51-88.

[4]Uebel S, Kraas W, Kienle S, et al. Recognition principle of the TAP transporter disclosed by combinatorial peptide libraries[J]. Proc Natl Acad Sci U S A, 1997, 94(17): 8976-8981.

[5]Castellino F, Zhong G, Germain R N. Antigen presentation by MHC class II molecules: invariant chain function, protein trafficking, and the molecular basis of diverse determinant capture[J]. Hum Immunol, 1997, 54(2): 159-169.

[6]Rammensee H, Bachmann J, Emmerich N P, et al. SYFPEITHI: database for MHC ligands and peptide motifs[J]. Immunogenetics, 1999, 50(3-4): 213-219.

[7]Brusic V, Rudy G, Harrison L C. MHCPEP, a database of MHC-binding peptides: update 1997[J]. Nucleic Acids Res, 1998, 26(1): 368-371.

[8]Blythe M J, Doytchinova I A, Flower D R. JenPep: a database of quantitative functional peptide data for immunology[J]. Bioinformatics, 2002, 18(3): 434-439.

[9]Schönbach C, Koh J L, Flower D R, et al. FIMM, a database of functional molecular immunology: update 2002[J]. Nucleic Acids Res, 2002, 30(1): 226-229.

[10]Bhasin M, Singh H, Raghava G P. MHCBN: a comprehensive database of MHC binding and non-binding peptides[J]. Bioinformatics, 2003, 19(5): 665-666.

[11]Bette T M K, Christian B, Barton F H, et al. HIV Molecular Immunology 2001[M]. Los Alamos, New Mexico: Los Alamos National Laboratory, Theoretical Biology and Biophysics, 2001.

[12]Parker K C, Bednarek M A, Coligan J E. Scheme for ranking potential HLA-A2 binding peptides based on independent binding of individual peptide side-chains[J]. J Immunol, 1994, 152(1): 163-175.

[13]Rammensee H G, Bachmann J, Emmerich N P N, et al. SYFPEITHI: database for MHC ligands and peptide motifs[J]. Immunogenetics, 1999, 50: 213-219.

[14]Schueler-Furman O, Altuvia Y, Sette A, et al. Structure-based prediction of binding peptides to MHC class I molecules: application to a broad range of MHC alleles[J]. Protein Sci, 2000, 9(9): 1838-1846.

[15]Jung G, Fleckenstein B, von der Mülbe F, et al. From combinatorial libraries to MHC ligand motifs, T-cell superagonists and antagonists[J]. Biologicals, 2001, 29(3-4): 179-181.

[16]Yu K, Petrovsky N, Schönbach C, et al. Methods for prediction of peptide binding to MHC molecules: a comparative study[J]. Mol Med, 2002, 8(3): 137-148.

[17]Singh H, Raghava G P. ProPred: prediction of HLA-DR binding sites[J]. Bioinformatics, 2001, 17(12): 1236-1237.

[18]Sturniolo T, Bono E, Ding J, et al. Generation of tissuespecific and promiscuous HLA ligand databases using DNA microarrays and virtual HLA class II matrices[J]. Nat Biotechnol, 1999, 17(6): 555-561.

[19]Hammer J. New methods to predict MHC-binding sequences within protein antigens[J]. Curr Opin Immunol, 1995, 7(2): 263-269.

[20]Raddrizzani L, Hammer J. Epitope scanning using virtual matrix-based algorithms[J]. Brief Bioinform, 2000, 1(2): 179-189.

[21]Doytchinova I A, Flower D R. Physicochemical explanation of peptide binding to HLA-A*0201 major histocompatibility complex: a three-dimensional quantitative structure-activity relationship study[J]. Proteins, 2002, 48(3): 505-518.

[22]Buus S, Lauemøller S L, Worning P, ea al. Sensitive quantitative predictions of peptide-MHC binding by a "Query by Committee" artificial neural network approach[J]. Tissue Antigens, 2003, 62(5): 378-384.

[23]Corbet S, Nielsen H V, Vinner L, et al. Optimization and immune recognition of multiple novel conserved HLA-A2, human immunodeficiency virus type 1-specific CTL epitopes[J]. J Gen Virol, 2003, 84(Pt 9): 2409-2421.

[24]Meister G E, Roberts C G, Berzofsky J A, et al. Two novel T cell epitope prediction algorithms based on MHC-binding motifs; comparison of predicted and published epitopes from Mycobacterium tuberculosis and HIV protein sequences[J]. Vaccine, 1995, 13(6): 581-591.

[25]De Groot A S, Jesdale B M, Szu E, et al. An interactive Web site providing major histocompatibility ligand predictions: application to HIV research[J]. AIDS Res Hum Retroviruses, 1997, 13(7): 529-531.

[26]Uebel S, Tampé R. Specificity of the proteasome and the TAP transporter[J]. Curr Opin Immunol, 1999, 11(2): 203-208.

[27]Kuttler C, Nussbaum A K, Dick T P, et al. An algorithm for the prediction of proteasomal cleavages[J]. J Mol Biol, 2000, 298(3): 417-429.

[28]Nussbaum A K, Kuttler C, Hadeler K P, et al. PAProC: a prediction algorithm for proteasomal cleavages available on the WWW[J]. Immunogenetics, 2001, 53(2): 87-94.

[29]Toes R E, Nussbaum A K, Degermann S, et al. Discrete cleavage motifs of constitutive and immunoproteasomes revealed by quantitative analysis of cleavage products[J]. J Exp Med, 2001, 194(1): 1-12.

[30]Holzhütter H G, Frömmel C, Kloetzel P M. A theoretical approach towards the identification of cleavage-determining amino acid motifs of the 20 S proteasome[J]. J Mol Biol, 1999, 286(4): 1251-1265.

[31]Holzhütter H G, Kloetzel P M. A kinetic model of vertebrate 20 S proteasome accounting for the generation of major proteolytic fragments from oligomeric peptide substrates[J]. Biophys J, 2000, 79(3): 1196-1205.

[32]Altuvia Y, Margalit H. Sequence signals for generation of antigenic peptides by the proteasome: implications for proteasomal cleavage mechanism[J]. J Mol Biol, 2000, 295(4): 879-890.

Web-based tools for vaccine design

ZHANG Rongbo1,2★, DU Zhaohong1, WU Jing1,2, HU Dong1,2★
(1.Department of Immunology and Laboratory Medicine, Medical School, Anhui University of Science and Technology, Anhui, Huainan 232001, China; 2.Institute of Infection and Immunology, Anhui University of Science and Technology, Anhui, Huainan 232001, China;)

By now, it has been known that vaccines are one of the most effective preventative health tools available against infectious diseases, cancer, allergy, and immunologic imbalanced diseases. Owning to powerful information quantity and prediction ability, web-based central database and analysis system made vaccine design more easily accessible to researchers. Presently, these web-based tools are categorized based on sequence information, structure analysis and function prediction of bio-macromolecule. In terms of increasing bioinformatics tools emerged, we make a summary to classify these web-resource for more available to researchers.

Vaccine; Web-based tools; Prediction; Bioinformatics

国家自然科学基金（No.81202294）；国家自然科学基金（No. 81172778）；国家自然科学基金（No.61170172）；安徽省自然科学基金资助项目（No. 1208085QH162）；安徽理工大学博士科研启动基金（No. 11003）

1.安徽理工大学医学院分子免疫实验室，安徽，淮南 232001 2. 安徽理工大学医学院感染与免疫研究所，安徽，淮南 232001

★通讯作者：张荣波，E-mail: lory456@126.com；胡东，E-mail: austhudong@126.com