新型冠状病毒E蛋白结构与免疫优势表位的信息学预测分析
2021-04-13李明洋SAIDUKamara汪琪郭艳茹李青峰朱珊丽陈俊蒋朋飞张丽芳
李明洋,SAIDU Kamara,汪琪,郭艳茹,李青峰,朱珊丽,陈俊,蒋朋飞,张丽芳
温州医科大学 分子病毒与免疫研究所 病原生物与免疫学系,浙江 温州 325035
新型冠状病毒病(corona virus disease 2019,COVID-19)暴发,严重影响了公众的生活秩序和生命安全。目前认为新型冠状病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)为COVID-19的病原体,与SARS-CoV是姊妹病毒[1]。SARS-CoV-2是目前已知第7种可以感染人的冠状病毒(coronavirus,CoV),其基因组为线性单股正链RNA,可编码刺突蛋白(S)、膜蛋白(M)、包膜蛋白(E)、核衣壳蛋白(N)等结构蛋白[2]。其中,E蛋白结构最小,仅由约80个氨基酸残基组成,分布于CoV的包膜表面,可与M蛋白共同诱导CoV的病毒样颗粒形成,在病毒装配、出芽、包膜形成中发挥着重要作用,若CoV E蛋白缺失,则影响病毒的成熟、增殖,导致子代病毒毒力下降[3]。因此,E蛋白也成为CoV疫苗研究的候选靶抗原之一。本研究基于SARS-COV-2 E蛋白的氨基酸序列,运用生物信息学软件预测和分析E蛋白结构及免疫优势表位,为SARS-CoV-2药物筛选和疫苗研制提供理论依据。
1 材料和方法
1.1 SARS-CoV-2 E蛋白氨基酸序列及理化性质 从美国国家生物技术信息中心(https://www.ncbi.nlm.nih.gov/)GenBank数据库中获取SARS-CoV-2 E蛋白的氨基酸序列(QHD43418.1),并通过EXPASY服务器(https://www.expasy.org/tools)上的ProtParam软件分析预测其理化性质。
1.2 SARS-CoV-2 E蛋白二级结构预测 分别应用EXPASY服务器上的SOPMA、GOR等方法,分析预测SARS-CoV-2 E蛋白的二级结构。
1.3 SARS-CoV-2 E蛋白跨膜区域预测 分别应用EXPASY服务器上预测跨膜结构的TMHMM、Phobius软件,同时预测SARS-CoV-2 E蛋白跨膜区域。
1.4 SARS-CoV-2 E蛋白B细胞表位综合分析 应用EXPASY服务器上的ProtScale(https://web.expasy.org/protscale/)软件对SARS-CoV-2 E蛋白的Hopp & Woods亲水性系数、Emini表面可及参数、Jameson-Wolf抗原性、Zimmerman极性参数、柔韧性参数和线性表位预测。结合各预测参数并用吴玉章等[4]建立的抗原性指数(antigenicity index,AI)综合分析其B细胞优势表位。
1.5 SARS-CoV-2 E蛋白CTL表位综合分析 应用Net CTL(http://www.cbs.dtu.dk/services/NetCTL/)、SYFPEITHI、 (http://www.syfp-eithi.de/bin/MHCServer.dll/EpitopePrediction.htm)、IEDB(http://tools.immuneepitope.org/main/)软件针对HLA-A*02:01、HLA-A*24:02(human leukocyte antigen,HLA,是由HLA基因复合体所编码的产物,存在于所有有核细胞的膜上,是组织排斥反应的主要抗原)及H2-Kd(histocompatibility-2,H2,H-2I类相当于人类HLA的A基因,与移植物排斥反应同样相关)类分子预测E蛋白的CTL限制性表位。结合3个预测软件对CTL表位结果做进一步分析。
1.6 SARS-CoV-2 E蛋白免疫优势表位和同源性分析 综合上述预测的B细胞抗原表位和T细胞抗原表位,选出同时含有多个T或B细胞表位的肽段作为免疫优势表位。应用Vector NTI对已知感染人类的CoV属E蛋白序列及其免疫优势表位进行同源性比对。
1.7 SARS-CoV-2 E蛋白三级结构和功能结构域分析 运用蛋白质分析系统EXPASY网站上Swiss Model工具在线分析SARS-CoV-2 E蛋白三级结构并建模,并对该蛋白功能结构进行分析。
2 结果
2.1 SARS-CoV-2 E蛋白的氨基酸序列和理化性质SARS-CoV-2 E蛋白由75个氨基酸组成,其氨基酸序列为:MYSFVSEETGTLIVNSVLLFLAFVVFLLVTLAILTA LRLCAYCCNIVNVSLVKPSFYVYSRVKNLNSSRVPDLLV。ProtParam分析显示该蛋白质相对分子质量约为8.37 kDa,理论等电点(pI)为8.57,可推测分子式为C390H625N91O103S4,不稳定性指数(instability index,II,II>40 为不稳定蛋白质)为38.68,结果表明该蛋白性质稳定。亲水性平均值(grand average of hydropathicity,GRAVY)为1.128,通常GRAVY分布在-2~2,正值越大表示疏水性越强,负值越大表示亲水性越强,而两性氨基酸多处于-0.5~0.5;该蛋白质包含较高占比的疏水氨基酸,包括18.7%的亮氨酸(Leu)和17.3%的缬氨酸(Val),综合预测结果表明该蛋白质为疏水性蛋白。
2.2 SARS-CoV-2 E蛋白二级结构分析 应用EXPASY服务器上的GOR、SOMPA预测SARS-CoV-2 E蛋白的二级结构。GOR显示其二级结构由33.33% α螺旋(Alpha helix,Hh)、13.33% β片层(Extended strand,Ee)、53.33%无规卷曲(Random coil,Cc)构成;SOPMA显示其二级结构由44% α螺旋、26.67%β片层、20%无规卷曲、9.33% β转角(Beta turn,Tt)构成。综合预测E蛋白主要由α螺旋为主,共同序列出现在15-39,少见β转角。无规卷曲序列为:52-54,63-66,69-71,见图1。
2.3 SARS-CoV-2 E蛋白跨膜区域的预测 应用EXPASY服务器上预测跨膜结构的TMHMM、Phobius预测SARS-CoV-2 E蛋白,结果显示SARS-CoV-2 E蛋白为跨膜蛋白。TMHMM软件预测氨基酸序列1-11为膜外区域,12-34为跨膜区域,35-75为膜内区域,见图2A;Phobius软件预测氨基酸序列1-11为膜内区域,12-37为跨膜区域,38-75为膜外区域,见图2B。综合跨膜预测软件,预测E蛋白跨膜区域为12-34,且为α螺旋,其序列为LIVNSVLLFLAFVVFLLVTLAIL,N端位于膜内,C端位于膜外,见图2C。
图1 SARS CoV-2 E蛋白二级结构预测
2.4 SARS-CoV-2 E蛋白B细胞表位的预测分析 应用EXPASY服务器上的ProtScale软件对Hopp &Woods亲水性系数、Emini表面可及参数、Jameson-Wolf抗原性参数、Zimmerman极性参数、柔韧性参数和线性表位预测。提示其B细胞表位区域最可能为SEETGT(6-11),平均AI为0.018;KNLNSSRV(63-70),平均AI为0.036,见图3和表1。
图3 SARS-CoV-2 E蛋白不同参数预测结果
表1 应用不同方法预测SARS-CoV-2 E蛋白表位的肽段位置
2.5 SARS-CoV-2 E蛋白限制性CTL表位预测结果NetCTL 1.2 Server预测数值中包括HLA-I分子的亲和力分值(affinity,aff)、亲和力分值重置值(affinity rescale,aff-rescale)、羧基端酶切效率(C-terminal cleavage,cle)、抗原处理相关蛋白转运效率(transporter-associated antigen processing,tap)和综合分数(combined score,COMB)。根据COMB值越大,特异性越高的特性,选择阈值为COMB>1.0且aff>0.5的九肽作为候选表位。HLA-A2限制性CTL表位5个,HLA-A24限制性CTL表位1个,见表2。其中人源HLA-A24限制性CTL表位与鼠源H2-Kd限制性CTL表位序列一致,对Net CTL的初步预测结果再用SYFPEITHI、IEDB做进一步的分析。筛选出的HLA-A2和HLA-A24限制性CTL表位均具有较高的亲和力(SYFPEITHI分值>20);IEDB采用人工神经网络进行预测,IC50<50 nmol/L被认为是高亲和力,且数值越低亲和力越高[5]。因HLA-A24型/H2-Kd型限制性CTL表位的IEDB预测结果为低亲和肽段,仅能参考SYFPEITHI分数,故放在最后。选择SYFPEITHI/IEDB值分数较高的限制性表位肽用于下一步研究。
表2 SYFPEITHI、IEDB软件预测SARS-CoV-2 E蛋白CTL天然表位得分表
2.6 SARS-CoV-2 E蛋白的免疫优势表位和同源性分析 根据上述预测结果最终选择具有多个CTL表位的氨基酸区域P1(16-34aa)和同时具有B细胞表位和CTL表位的氨基酸区域P2(50-70aa)作为免疫优势表位,见图4A。通过Vector NTI软件对α、β、γ和δ属冠状病毒E蛋白与SARS-CoV-2 E蛋白序列进行同源性比对,SARS-CoV-2 P1免疫优势表位与Bat-SARS-like-CoV和SARS-CoV序列完全一致(100%);P2免疫优势表位与Bat-SARS-like-CoV的序列仍然完全一致(100%),与SARS-CoV序列也表现出高相似度(86%);而与其他种属冠状蛋白的相似性较低(10%~38%),见图4B。系统进化树的结果显示,SARS-CoV-2、SARS-CoV和Bat-SARS-like-CoV位于同一分支,表明其具有更接近的同源关系,而其他CoV如MERS与SARS-CoV-2虽具有平行关系,但分支相隔较远,物种进化分歧时间更长,亲缘关系更差,见图4C。
2.7 SARS-CoV-2 E蛋白三维结构及功能结构域 运用蛋白质分析系统网站Swiss Model在线分析E蛋白三级结构和功能区域,免疫优势表位P1和P2标记三维结构和功能区域图中,见图5A。红色为P1区段(16-34)SVLLFLAFVVFLLVTLAIL;蓝色为P2区段(50-70)SLVKPSFYVYSRVKNLNSSRV。此外,经NCBI中(conserved domain database,CCD)预测该蛋白中N端(12-34)为跨膜结构域(transmembranedomains,TMD),介导物质运输及信号转导等功能;C端(72-75)为PDZ结合序列(PDZ-bing motif,PBM),与病毒稳定性有关,见图5B。
图4 SARS CoV-2 E蛋白的免疫优势表位和同源性分析
图5 SARS-CoV-2 E蛋白三维结构及功能区域
3 讨论
E蛋白对CoV的感染与致病具有重要意义,作为其孔蛋白(viroporin),可在宿主细胞膜上形成选择性离子通道,介导特殊离子(如Na+、K+、Ca2+、Cl-、H+)运输,从而对病毒的感染复制和增殖等功能产生影响;这不仅有助于阐明SARS-CoV-2高致病性的机制,同时离子通道还可作为一个药物作用的潜在靶点,是抗病毒药物设计的靶点之一[3]。本研究通过信息学分析发现SARS-CoV-2(Wuhan-Hu-1株)与SARS-CoV(BJ01株)两个原型株E蛋白仅有4个氨基酸残基的差别,相似性为94.74%。因此,基于SARS-CoV E蛋白的药物研发可能适用于SARS-CoV-2。
SARS-CoV E蛋白是由76 个氨基酸组成的II型膜蛋白,其功能结构域主要分布于氨基酸的N端和C端。其N端12-34aa区段为疏水性跨膜结构域TMD,该区段主要由亮氨酸和缬氨酸组成,可提供强大的疏水特性,以保证蛋白质结构的稳定性;同时E蛋白同源寡聚化可形成离子通道,其氨基酸序列的Asn 15和Val 25是决定该离子通道活性的关键氨基酸残基,当离子通道转运Ca2+时,可触发并激活炎症小体,进一步诱发炎性肺损伤[6-7]。而E蛋白的C末端包含一个以β-coil-β为基元的保守脯氨酸残基,该基序可能起高尔基体复合物靶向信号的作用,有助于E蛋白的定位并影响病毒的增殖周期[8];C端的最后四个氨基酸残基(DLLV)为PBM,影响着病毒稳定性和毒力[9-10]。本研究结果显示,SARS-CoV-2和SARS-CoV E蛋白空间结构几乎一致,且TMD和PBM区域序列完全一致(100%)。表明SARS-CoV-2 E蛋白与SARS-CoV具有同样的功能。
研究表明,缺失E蛋白可抑制MERS-CoV病毒颗粒的成熟和转运能力,降低SARS-CoV病毒颗粒的滴度,而以缺失E蛋白和突变羧基端制造的减毒活疫苗,在动物实验中已初步取得疗效。SARS-CoV-ΔE(缺失E蛋白)感染的小鼠肺部,与其相关的大量促炎细胞因子的表达水平降低,而在mRNA和蛋白质水平上,抗炎细胞因子的水平均升高[11],表明减毒病毒可以导致肺部炎症的减轻以及更强的抗病毒T细胞反应,保护小鼠免受致命病毒的攻击。然而,也有研究发现E蛋白缺失,SARS-CoV辅助蛋白3a和8a表现出相对补偿功能,存在毒力恢复的可能[3]。因此,减毒活疫苗仍然存在不足,提示疫苗研究需要从新的角度考虑。免疫优势表位研究一直是疫苗的前沿研究。由多个B细胞表位或CTL表位组成的免疫优势表位,既可以通过产生的特异性细胞免疫,达到清除病毒的目的,又可以通过产生的特异性抗体,预防病毒感染和复发。本研究通过生物信息学分析预获得2个SARS-CoV-2 E蛋白的免疫优势表位,位于其N端16-34aa和C端50-70aa区段,与α、β、γ和δ属冠状病毒序列比对,发现具有较高的同源性,表明免疫优势表位在一定程度上可同时识别其他CoV感染的细胞,如SARS-CoV。本研究可为基于SARS-CoV-2 E蛋白的发病机制及特异性预治疗疫苗研究提供理论基础。