新型冠状病毒ORF 1ab/S/M蛋白遗传进化分析及mRNA疫苗 抗原表位序列筛选
2020-12-17常凯刘晨霞朱紫衣许宏宣王艳艳熊杰曲远青江忠勇
常凯,刘晨霞,朱紫衣,许宏宣,王艳艳,熊杰,曲远青,江忠勇*
1解放军西部战区总医院检验科,成都 610083;2四川省简阳市人民医院检验科,四川简阳 611730;3成都市实验外国语学校生物教研组,成都 611130
冠状病毒是属于冠状病毒科的一种有包膜的单股正链RNA病毒[1],分为α、β、γ和δ属。其中α、β冠状病毒仅感染哺乳动物,目前已知的冠状病毒碱基数约为30 kb[2]。当前有6种冠状病毒可感染人类致病,主要引起呼吸道感染,其中两种高致病性冠状病毒为严重急性呼吸综合征(SARS)冠状病毒(SARS-CoV)和中东呼吸综合征(MERS)冠状病毒(MERS-CoV),其他4种低致病性冠状病毒(229E、HKU1、OC43、NL63)引起的轻度呼吸道疾病占呼吸道感染性疾病的10%~30%[3]。研究发现,引起新型冠状病毒肺炎(COVID-19)疫情的新型冠状病毒(SARS-CoV-2)与MERS-CoV、SARS-CoV具有较高的同源性[4],临床症状以发热、乏力、干咳为主,少数伴有鼻塞、流涕、咽痛和腹痛等症状。治疗多在对症的基础上防治并发症等,暂无特异性药物[5-6]。 尽管多国采取了严格的防控措施,但疫情仍然急速发展且造成了全球大流行[7],针对这一公共卫生安全事件,各国对疫苗研发与诊断试剂的精度提出了更高的要求。SARS-CoV-2的基因组由6个主要的功能性开放阅读框(ORF)组成,包括ORF 1ab、S、E、M、N和其他辅助基因,其中ORF 1ab、刺突蛋白(S蛋白)和膜蛋白(M蛋白)在病毒感染与致病中发挥着重要作用[8-10]。本研究基于SARS-CoV-2病毒遗传特征与全球公共数据库资源,应用生物信息学方法快速筛选有效抗原表位序列,以期为mRNA疫苗、血清学诊断性试剂的研发与优化提供参考。
1 材料与方法
1.1 数据收集 检索NCBI、EMBL、DDBJ数据库收集全球SARS-CoV-2全基因组序列,应用Vector NTI及DNA star软件分析全基因组ORF,基于已有的SARS-CoV功能研究,剪切提取SARS-CoV-2的ORF 1ab、S蛋白和M蛋白的ORF。将3种ORF分别翻译为氨基酸序列并储存于物理库备用。
1.2 SARS-CoV-2 ORF 1ab/S/M蛋白遗传分析 应用Clustal X软件将ORF 1ab、S蛋白和M蛋白的核酸序列进行Clustal W对位分析,应用MEGA 7.0软件基于邻位相连法(Neighbor-Joining)构建进化树[11]。 构建参数为发展史检测(无)、分布方式(泊松分布)、Gap处理(完全删除)。基于不同国家检出的序列的遗传距离绘制全球SARS-CoV-2遗传变异分布图。
1.3 SARS-CoV参考抗原及其与SARS-CoV-2的相似性分析 应用IEDB数据库检索SARS-CoV抗原及抗原决定簇,对比分析SARS-CoV-2与SARS-CoV的ORF 1ab、S、M序列的同源性和相似性,筛选共有的抗原决定簇。
1.4 SARS-CoV-2抗原表位预测分析 应用IEDB数据库在线预测工具检索SARS-CoV-2的B细胞抗原决定簇,检索条件为抗原表位(线性表位)、免疫细胞(所有免疫细胞)、宿主(人)、疾病(病毒性感染性疾病);检索SARS-CoV-2的T细胞抗原决定簇,检索条件为HLA等位基因、免疫细胞(所有免疫细胞)、宿主(人)、IC50<500 nmol/L、匹配度等级<0.1、抗原表位长度为默认值,结合SARS-CoV序列及全球SARS-CoV-2保守序列分析,筛选mRNA疫苗候选抗原表位。
2 结 果
2.1 ORF 1ab编码蛋白遗传分析 应用NCBI_PDB数据库收集全球重点COVID-19暴发地区SARSCoV-2核酸序列610条,氨基酸序列74条。应用Vector NTI、Clustal X及MEGA 7.0对ORF 1ab蛋白的核酸与氨基酸序列构建进化树,结果显示,核酸序列相似性为100.0%,同源性为99.3%,其中巴基斯坦地区(MT262993.1)在5749-5769位存在缺失,美国威斯康星州(MT039887.1)在6532-6534位存在缺失;变异氨基酸主要集中在序列中末端。由于核酸变异多发生在密码子的二、三位中,因而氨基酸水平的变异程度低于核酸水平。ORF 1ab蛋白遗传变异全球分布显示,美洲地区与亚欧地区存在明显差异(图1A)。
2.2 S蛋白遗传分析 应用Vector NTI、Clustal X及MEGA 7.0软件对S蛋白的核酸与氨基酸序列构建进化树,结果显示,核酸序列相似性为100.0%,同源性为97.5%,其中印度(MT012098.1)在459-461位存在碱基突变;SARS-CoV-2 S蛋白相对保守,哥伦比亚地区所在的美洲与欧亚地区遗传差异明显(图1B)。
2.3 M蛋白遗传分析 应用Vector NTI、Clustal X及MEGA 7.0对M蛋白的核酸与氨基酸序列构建进化树,结果显示,核酸序列相似性为100.0%,同源性为99.9%,其中仅美国伊利诺伊州(MN988713.1、MT044257.1)和加利福尼亚州(MT994467.1)在第207位存在碱基突变;SARS-CoV-2 M蛋白相对保守,可分为美国部分州与全球其他暴发地区两大类 (图1C)。
图1 SARS-CoV-2 ORF 1ab/S/M蛋白进化树分析Fig.1 The ORF 1ab/S/M protein neighbor-joining tree of SARS-CoV-2
2.4 SARS-CoV参考抗原及其与SARS-CoV-2的相似性分析 应用IEDB数据库检索到SARS-CoV抗原决定簇377个,抗原11个。其中S蛋白含抗原决定簇210个,M蛋白含21个,ORF 1ab蛋白含3个。本研究中用于与SARS-CoV-2进行比对的抗原均为有文献表明可产生中和抗体的抗原,参与比对的抗原决定簇源于上述检索的11个抗原。对SARS-CoV与SARS-CoV-2的ORF 1ab、S、M蛋白进行相似性与同源性分析,结果显示,ORF 1ab蛋白氨基酸序列相似性96.7%,同源性94.5%;S蛋白氨基酸序列相似性84.1%,同源性75.6%;M蛋白氨基酸序列相似性100.0%,同源性100.0%(图2)。
2.5 SARS-CoV-2 ORF 1ab/S/M蛋白序列线性表位预测分析 应用IEDB数据库预测分析ORF 1ab蛋白氨基酸序列的B细胞响应表位显示,共110条肽段存在B细胞响应区域。将长度>10的肽段结合上述全球各地区ORF 1ab蛋白保守区域和SARS-CoV ORF 1ab蛋白保守区域进行分析发现,共15条满足要求,其中11条对应的mRNA序列高度保守,可作为mRNA疫苗候选目标序列(表1)。预测分析ORF 1ab蛋白氨基酸序列的T细胞响应表位,按过滤条件检索MHC Ⅰ和MHC Ⅱ数据库中SARS-CoV-2含有的抗原表位发现,共15条满足要求,其中13条对应的mRNA序列高度保守,可作为mRNA疫苗候选目标序列 (表2、图3A)。
图2 SARS病毒ORF 1ab/S/M蛋白序列参考抗原及相似性分析Fig.2 ORF 1ab/S/M protein sequence reference antigen of SARS-CoV and similarity analysis between SARS-CoV and SARSCoV-2
表1 SARS-CoV-2 ORF 1ab蛋白B细胞响应mRNA疫苗候选序列Tab.1 The mRNA vaccine candidate sequence in B cell of SARS-CoV-2 ORF 1ab protein
表2 SARS-CoV-2 ORF 1ab蛋白T细胞响应mRNA疫苗候选序列Tab.2 The mRNA vaccine candidate sequence in T cell of SARS-CoV-2 ORF 1ab protein
应用IEDB数据库预测分析S蛋白氨基酸序列的B细胞响应表位显示,共68条肽段存在B细胞响应区域。将长度>10的肽段结合上述全球各地区S蛋白保守区域和SARS-CoV S蛋白保守区域进行分析发现,共15条满足要求,其中6条对应的mRNA序列高度保守,可作为mRNA疫苗候选目标序列(表3)。预测分析S蛋白氨基酸序列的T细胞响应表位显示,共15条满足要求,其中4条对应的mRNA序列高度保守,可作为mRNA疫苗的候选目标序列(表4、 图3B)。
应用IEDB数据库预测分析M蛋白氨基酸序列的B细胞响应表位显示,共6条肽段存在B细胞响应区域,将长度>10的肽段结合上述全球各地区M蛋白保守区域和SARS-CoV病毒M蛋白保守区域进行分析发现,共3条对应的mRNA序列高度保守,可作为mRNA疫苗候选目标序列(表5)。预测分析M蛋白氨基酸序列的T细胞响应表位显示,共8条满足要求,其中7条对应的mRNA序列高度保守,可作为mRNA疫苗候选目标序列(表6、图3C)。
3 讨 论
近年来全球经历了多次高致病性冠状病毒大暴发:2002年的SARS-CoV、2012年的MERS-CoV和2019年的SARS-CoV-2[12]。当前临床治疗COVID-19的方法主要分为抗病毒、抗菌和针对危重患者的特殊治疗,并无特异性药物,其对全球公共卫生系统带来了严峻的挑战。采用疫苗防控SARS-CoV-2是最为可行的方法之一。现有的疫苗研发路径包括灭活疫苗、核酸疫苗、重组蛋白疫苗、病毒载体疫苗等[13]。mRNA疫苗作为一种新型疫苗,具有安全性高、有效性高和生产便捷等优点[14]。本研究通过分析SARS-CoV-2具有免疫原性的ORF 1ab/S/M蛋白及mRNA序列特征,结合已有的SARS-CoV研究基础,筛选可用于mRNA疫苗研发的抗原决定簇候选靶序列[15]。基于生物信息学分析结果的有效解读和应用,可缩短探索制备有效mRNA疫苗的时间,提高筛选效率,为mRNA疫苗的稳定性修饰提供参考。
表3 SARS-CoV-2 S蛋白B细胞响应mRNA疫苗候选序列Tab.3 The mRNA vaccine candidate sequence in B cell of SARS-CoV-2 S protein
表4 SARS-CoV-2 S蛋白T细胞响应mRNA疫苗候选序列Tab.4 The mRNA vaccine candidate sequence in T cell of SARS-CoV-2 S protein
表5 SARS-CoV-2 M蛋白B细胞响应mRNA疫苗候选序列Tab.5 The mRNA vaccine candidate sequence in B cell of SARS-CoV-2 M protein
表6 SARS-CoV-2 M蛋白T细胞响应mRNA疫苗候选序列Tab.6 The mRNA vaccine candidate sequence in T cell of SARS-CoV-2 M protein
图3 SARS-CoV-2 ORF 1ab/S/M蛋白序列线性表位预测分析Fig.3 Forecast analysis of linear epitopes from ORF 1ab/S/M protein sequence of SARS-CoV-2
随着疫情的发展,针对SARS-CoV-2感染的多款检测试剂盒相继通过国家应急审批进入市场。RTPCR法可直接检测病毒RNA,但检测结果易受多种环境因素干扰,且存在检测周期长等弊端[16]。抗体检测(如胶体金法、化学发光法等)具有标本采集流程标准化、特异性高、检测周期短、成本低、便携等优点,有利于对SARS-CoV-2感染人群进行常规筛查[17]。本研究结果也为SARS-CoV-2血清学诊断试剂的研发及免疫机制研究提供了参考,有助于获得更为优化与稳定的抗体。
SARS-CoV-2与SARS-CoV在临床表现、传播途径等方面高度相似,全基因序列具有75%的相似性。而其ORF 1ab、S和M蛋白核酸序列相似性较高,使两种病毒的传播效力及致病力高度相似,但两者仍存在差异。结合ORF 1ab、S和M三种蛋白序列的位点突变及遗传进化分析发现,美洲地区与亚欧大陆的SARS-CoV-2病毒具有明显差异。
通过结合已有的SARS-CoV研究基础和全球热点区域全基因组比对分析,预测ORF 1ab、S和M蛋白的B细胞线性抗原表位mRNA序列分别为11条、6条和3条,T细胞线性抗原表位mRNA序列分别为13条、4条和7条。B细胞在抗原刺激下可分化为浆细胞,浆细胞可合成和分泌抗体,主要执行机体的体液免疫功能。而T细胞在抗体传递,产生、储存记忆细胞和杀伤细胞等方面起着重要作用,主要执行机体的细胞免疫功能。因此筛选SARS-CoV-2中能够激活免疫细胞的抗原决定簇对抗病毒免疫机制研究具有重要意义,可为人工构建mRNA疫苗(串联抗原表位)和制备诊断抗体提供参考。