新冠病毒核衣壳蛋白结构与功能的生物信息学分析及原核表达①
2022-02-10徐本锦李卓禧陈晓聪吴惠文玲杨娅男汤文婷寇妍祺余骏骁山西医科大学汾阳学院医学检验系汾阳032200
徐本锦 范 蕾 杜 淼 宣 焱 李 璟 李卓禧 陈晓聪 吴惠文 门 杰 刘 玲杨娅男 汤文婷 寇妍祺 余骏骁 (山西医科大学汾阳学院医学检验系,汾阳 032200)
2019年12 月,武汉暴发了新冠病毒肺炎疫情,患者出现发热、胸闷、呼吸急促等症状,重症患者因急性呼吸窘迫综合征(acute respiratory distress syndrome,ARDS)、多器官功能衰竭而死亡[1-2]。该病毒是20世纪以来第3种可感染人类的高致病性病原[3]。2020年2月11日,国际病毒分类委员会将其命名为“SARS-CoV-2”[4]。据WHO 报道,截至 2021年 8 月23日,全球已有211 730 035例确诊病例。
SARS-CoV-2为单股正链RNA病毒,是目前已知的第七种冠状病毒[5-6]。SARS-CoV-2含有2个大的开放阅读框(ORF1a和ORF1b),二者在不同冠状病毒中高度保守,编码4种同源结构蛋白:刺突蛋白(S)、包膜蛋白(E)、膜蛋白(M)、核衣壳蛋白(N)及8种辅助蛋白[1,4,6-9]。
N蛋白是SARS-CoV-2的重要组成,是一种高免疫原性蛋白,在感染过程中大量表达[10-12]。N蛋白具有较高的保守性和RNA分子伴侣活性,是干扰素拮抗剂和病毒编码的RNA干扰抑制因子[13-14]。N蛋白与病毒基因组RNA相互缠绕形成核衣壳,在病毒RNA合成过程中发挥重要作用[15]。此外,N蛋白还参与病毒mRNA转录和复制,组织细胞骨架和免疫调节,调控细胞代谢和细胞周期,诱导感染后体液和细胞免疫应答[5-6,13,16-18]。因此,N蛋白可作为病毒检测的标志性蛋白,已被广泛用于疫苗研制和血清学检测[19-20]。但目前有关SARS-CoV-2 N蛋白的报道较少,急需对该蛋白的更新认识。
本研究对SARS-CoV-2 N蛋白进行了系统生物信息学分析及原核表达,为阐明N蛋白在SARSCoV-2感染宿主细胞中的作用机制奠定了基础,为靶向该蛋白的抗病毒药物筛选提供了依据。
1 材料与方法
1.1 材料 pET-22b为本实验室保存,蛋白和DNA marker购自宝生物公司;E.coli感受态细胞(Top10和BL21)、质粒提取及胶回收试剂盒购自全式金有限公司;XhoⅠ与NdeⅠ购自NEB;氨苄西林、IPTG、氯化钠等购自国药集团。
1.2 方法
1.2.1 表达载体pET-22b-N构建 酶切N基因片段和空载体pET-22b,回收酶切后的片段,链接载体与N基因片段后转化感受态细胞Top10,将验证后的重组载体转化感受态细胞BL21,IPTG诱导蛋白表达。
1.2.2 N蛋白诱导表达 37 ℃、220 r/min培养11.5 h,采用终浓度为1 mmol/L的IPTG诱导,25 ℃、160 r/min继续培养8 h,10%SDS-PAGE检测诱导前后目的蛋白表达[21]。
1.2.3 生信分析 依据文献中的网站对N蛋白的理化性质等特性进行分析[21]。
1.2.4 多序列比对与进化分析 UniProt网站(https://www.uniprot.org/blast/)下载与N蛋白序列相似度较高的12种病毒蛋白,分别用Clustal X2和MEGA7.0执行多序列比对和进化树构建。
2 结果
2.1 理化性质 N蛋白是由419个氨基酸(共19种)组成的碱性蛋白,不含半胱氨酸。含负电荷氨基酸(Asp+Glu)36个,其中Asp 24个,Glu 12个;正电荷氨基酸(Arg+Lys+His)64个,其中Arg 29个,Lys 31个,His 4个。含量最多的为甘氨酸(10.30%),其次为丙氨酸和丝氨酸(均为8.80%,表1)。N蛋白分子量为45.62 kD,等电点为10.07,分子式为C1971H3137N607O629S7,消光系数为43 890 L/(mol·cm),不稳定指数为55.09;在哺乳动物细胞中的半衰期为30 h,在大肠杆菌体内>10 h,脂肪族系数为52.53,总平均亲水系数为-0.971。
表1 新冠病毒N蛋白的氨基酸组成Tab.1 Amino acid composition of SARS-CoV-2 N protein
2.2 跨膜结构预测 预测结果显示,SARS-CoV-2 N蛋白不存在跨膜螺旋区(图1),不属于跨膜蛋白。
图1 新冠病毒N蛋白的跨膜结构预测Fig.1 Transmembrane structure prediction of SARSCoV-2 N protein
2.3 亲水/疏水性分析 亲水/疏水性预测结果显示,D371亲水性最强,Score值为-3.556;A220和L221疏水性最强,Score值为2.322;亲水残基数远多于疏水残基数(图2)。因此推测SARS-CoV-2 N蛋白为亲水性蛋白。
图2 新冠病毒N蛋白亲水/疏水性分析Fig.2 Hydrophobic/hydrophobic analysis of SARS-CoV-2 N protein
2.4 功能位点预测 SARS-CoV-2 N蛋白含有1个RNA结合结构域,位于N末端A50-G175位,该结构域包含12个RNA结合位点,分别为A50-A55、R107、Y109、Y111、R149、A156和E174。此外,C末端P258-A359位还存在1个二聚体界面,包含51个二聚体相互作用位点,分别为P258、Q260-A264、V270、F274、R277、G284-F286、L291、T296、W301、I304-Q306、A308-I320、M322、V324、G328-D341、N345、F346、L353和I357。
2.5 磷酸化修饰预测 结果显示,SARS-CoV-2 N蛋白共有可能的磷酸化修饰57个,其中苏氨酸位点22个,丝氨酸位点31个及酪氨酸位点4个(图3)。上述位点及对应激酶如表2所示,通常取0.5为阈值,磷酸化势能越高置信度越高。
表2 N蛋白磷酸化修饰及对应激酶Tab.2 Phosphorylation sites of N protein and corresponding kinases
图3 新冠病毒N蛋白磷酸化修饰Fig.3 Phosphorylation sites of SARS-CoV-2 N protein
2.6 糖基化修饰预测
2.6.1 N-糖基化修饰预测 结果显示,N蛋白有2个潜在的N-糖基化位点,分别为N47和N269(图4)。
图4 新冠病毒N蛋白N-糖基化修饰Fig.4 N-glycosylation site of SARS-CoV-2 N protein
2.6.2 O-糖基化修饰预测 结果显示,N蛋白有23个潜在的O-糖基化位点,分别为S33、S176、S180、S183、S184、S186、S187、S188、S190、S193、S194、S197、T198、S201、S202、S206、T247、T271、T379、S410、S412、S413和T417(图5)。
图5 新冠病毒N蛋白O-糖基化修饰Fig.5 O-glycosylation site of SARS-CoV-2 N protein
2.7 信号肽预测 蛋白有无信号序列的判断方法是通过预测N端前70个氨基酸中是否有潜在的酶切位点,结果显示,N蛋白不含信号序列(图6)。
图6 新冠病毒N蛋白信号肽预测Fig.6 Prediction of SARS-CoV-2 N protein signal peptide
2.8 二级结构分析 结果显示,N蛋白含有α-螺旋96个(22.20%),延伸链66个(16.47%),β-转角34个(6.92%),无规则卷曲223个(54.42%)。见附图1(www.immune99.com)。
2.9 三级结构分析 通过SWISS-MODEL数据库将目的蛋白与已有蛋白进行序列比对,选择相似度高或同源蛋白进行自动比对建模,预测未知蛋白的三级结构,SARS-CoV-2 N蛋白三级结构预测结果如图7。
图7 新冠病毒N蛋白三级结构预测及同源蛋白相似性波形图Fig.7 Tertiary structure prediction of SARS-CoV-2 N protein and similarity waveform of its homologous proteins
2.10 抗原表位预测
2.10.1 T细胞抗原表位预测 IEDB预测结果显示,N蛋白共有15个T细胞抗原表位,分别为G5-S21、F66-N77、D81-D98、K100-L113、G116-G120、K127-D128、I130-N140、A220-L230、K257-T271、Y298、H300-W301、A305-A336、D340、H356和 K361-K369(图8)。
图8 新冠病毒N蛋白T细胞抗原表位预测Fig.8 Prediction of T cell epitopes of SARS-CoV-2 N protein
2.10.2 B细胞抗原表位预测 IEDB预测结果显示,取阈值为0.5,N蛋白共有11个线性B细胞抗原表位,分别为N4-I15、F17-N48、H59-S105、A119-K127、G137-Q163、T165-D216、R226-A267、R276-K299、D343-D348、D358-D402和S404-S416。根据表位分布图最终确定N蛋白的优势抗原表位区段为I15~D216(图9)。
图9 新冠病毒N蛋白B细胞抗原表位预测Fig.9 Prediction of B cell epitopes of SARS-CoV-2 N protein
2.11 相互作用网络分析 N蛋白与6种蛋白存在二元相互作用,分别为70 kD热休克蛋白1A、抗病毒天然免疫应答受体RIG-Ⅰ、信号转导和转录激活因子1-α/β、信号转导和转录激活因子2、蛋白酶体激活物复合体亚单位3和富含丝氨酸和精氨酸的蛋白特异性激酶1(图10)。
图10 新冠病毒N蛋白的二元相互作用分析Fig.10 Binary interaction analysis of SARS-CoV-2 N protein
2.12 同源性分析 UniProt网站下载与SARSCoV-2 N蛋白序列相似度较高12个N蛋白序列,分别为SARS冠状病毒、SARS冠状病毒PUMC03、SARS 冠 状 病 毒 PUMC02、BtRs-β-冠 状 病 毒/HuB2013、蝙蝠非典型冠状病毒WIV1、蝙蝠冠状病毒Rp/Shaanxi2011、蝙蝠冠状病毒Rp3/2004、蝙蝠非典型冠状病毒YNLF_31C、SARS冠状病毒WH20、蝙蝠冠状病毒Cp/Yunnan2011、蝙蝠冠状病毒HKU3和蝙蝠冠状病毒279/2005。多序列比对结果显示,与SARS-CoV-2 N蛋白序列相似度最高的为BtRs-β-冠状病毒/HuB2013和蝙蝠冠状病毒Rp/Shaanxi2011(均为90.3%),其次为SARS冠状病毒、SARS冠状病毒PUMC02和SARS冠状病毒PUMC03(均为89.8%)。相似度最低的是蝙蝠冠状病毒HKU3(88.8%)。此外,13条序列中完全相同(*表示)的残基有284个(67.8%);性质及其相似(:表示)和性质微弱相近(.表示)的残基均为19个(4.5%),见附图2(www.immune99.com)。
2.13 进化分析 采用MEGA7.0软件对包括SARS-CoV-2在内的13种病毒N蛋白进行多序列比对并构建进化树,结果显示,SARS-CoV-2与蝙蝠非典型冠状病毒YNLF_31C亲缘关系最近,二者聚为一支,置信度为24,提示其可能具有共同祖先;其次,SARS冠状病毒与蝙蝠非典型冠状病毒WIV1聚为一支,置信度为20;蝙蝠冠状病毒Cp/Yunnan2011与蝙蝠冠状病毒HKU3聚为一支,置信度为49;BtRsβ-冠状病毒/HuB2013与蝙蝠冠状病毒Rp/Shaanxi 2011聚为一支,置信度为25;蝙蝠冠状病毒Rp3/2004与蝙蝠冠状病毒279/2005聚为一支,置信度为36(图11)。
图11 新冠病毒N蛋白的系统进化树Fig.11 Phylogenetic tree of SARS-CoV-2 N protein
2.14 原核表达载体的构建
2.14.1 空载体的酶切验证 pET-22b空载体图谱如图12A,大小约5 500 bp。经NdeⅠ、XhoⅠ单酶切及双酶切后用琼脂糖凝胶电泳检测,结果显示大小符合预期(图12B)。
图12 pET-22b空载体检测及酶切验证Fig.12 Detection and restriction endonuclease digestion of pET-22b empty vector
2.14.2 目的片段的酶切及PCR验证 对N基因片段进行XhoⅠ与NdeⅠ双酶切(图13A);PCR扩增N蛋白编码序列,电泳检测显示,条带大小正确(图13B)。
图13 N蛋白基因片段的酶切及菌落PCR验证Fig.13 Restriction endonuclease digestion and colony PCR validation of N protein gene fragment
2.14.3 重组质粒酶切验证及转化 将pET-22b-N进行双酶切,电泳检测结果显示,大小正确(图14A)。将pET-22b-N转化Top10感受态细胞,在LB平板(Amp+)上于37 ℃培养12~13 h(图14B左);将验证后的重组质粒转化BL21,37 ℃培养13 h(图14B右)。
图14 重组质粒pET-22b-N的酶切验证与转化Fig.14 Verification and transformation of recombinant plasmid pET-22b-N
2.15 蛋白诱导表达 挑取2个单菌落,IPTG诱导后10%聚丙烯酰胺凝胶电泳检测,结果显示:诱导后N蛋白表达含量比诱导前显著增多(泳道4高于泳道1,泳道10高于泳道7)。为进一步优化N蛋白提纯条件,分别对诱导前/后的全菌、上清、沉淀中N蛋白表达进行检测,结果如图15(黑色虚线框):诱导后的N蛋白大量表达于沉淀中(泳道6、12),因此在提纯该蛋白时考虑从沉淀进行。
图15 N蛋白诱导表达检测Fig.15 Detection of induced expression of N protein
3 讨论
N蛋白是病毒检测的重要靶点和药物作用靶标,保守性高,是SARS-CoV-2的重要抗原,参与病毒基因组包装和病毒颗粒释放[22-23]。血清学诊断发现,SARS患者血清中针对N蛋白的特异性抗体比SARS-CoV其他结构蛋白抗体具有更高的敏感性和持久性[24-25]。此外,N蛋白抗体在感染早期具有较高特异性[26]。因此,建立大量表达N蛋白的方法并对其进行系统生物信息学分析有助于深入了解该蛋白的功能和病毒RNA复制机制。
本研究显示,SARS-CoV-2 N蛋白呈碱性,富含正电荷,有助于其与病毒基因组RNA结合[27-28]。N蛋白亲水性较强,无信号肽,不属于分泌型蛋白。二级结构分析发现,N蛋白以无规则卷曲为主(54.42%),与钟琦等[29]报道一致,为抗病毒药物研发与新冠肺炎患者诊断提供了参考。
抗原表位分析发现,N蛋白有15个T细胞表位和11个线性B细胞表位,其中I15-D216是其优势B细胞表位。近期研究显示,N蛋白存在较高频率的R203K和G204R双位点变异,该变异破坏了N蛋白整体结构稳定性和灵活性[30]。尽管N蛋白被认为是SARS-CoV-2疫苗开发和诊疗的重要靶点,但其持续进化的特点易产生传染性更强的突变株,导致病毒与已有抗体亲和力下降,给疫苗研发带来巨大挑战[3]。因此,需进一步进行免疫信息学分析,同时持续监测和追踪SARS-CoV-2 N蛋白演变。
糖基化是重要的蛋白翻译后修饰过程,高度亲水的糖基对蛋白理化性质和生理功能具有重要影响。磷酸化是调节和控制蛋白活力和功能的最基本、最普遍,也是最重要的机制。本研究显示,N蛋白有2个可能的N-糖基化修饰和23个O-糖基化修饰,有31个丝氨酸磷酸化修饰,22个苏氨酸磷酸化修饰,以及4个酪氨酸磷酸化修饰。RAHMAN等[30]对N基因突变频率较高的20例确诊病例与感染率的关系进行了系统研究,发现N蛋白磷酸化修饰位点S250、S255、S310、S325、S327、T141、T247、T263、T265、T271和T362存在2~3种单点变异类型,分别为S250F/P、S255F/A/P、S310I/C/N、S325I/R/A、S327L/P、T141I/P/A、T247I/A、T263I/A、T265I/A、T271I/A 和T362I/K。此外,S193、S194、S201、S202、T205和S206等位点还存在不同形式的氨基端缺失变异类型。O-糖基化修饰位点S180是N蛋白突变形式最多的位点,具有6种氨基酸变异形式。以上变异可能影响SARS-CoV-2的传播和侵染能力,但课题组并未发现N蛋白突变频率与SARS-CoV-2感染率显著相关。
N蛋白通过其N-末端结构域(N-NTD)与病毒RNA形成复合物,在病毒复制周期中发挥重要作用,使该结构域成为重要的药物靶点[31-33]。本研究功能位点分析显示,SARS-CoV-2 N蛋白含有1个RNA结合结构域,位于NTD A50-G175位,包含12个RNA结合位点,与KANG等[5]结果一致,发现N蛋白的N47-A50残基具有高度灵活性且向外伸展,打开了RNA结合口袋,有助于同病毒基因组RNA高级结构结合。RAHMAN等[30]发现,N蛋白A55S、P67T、D81Y、A119V、P122L、D128Y、L139F和D144Y变异增加了NTD结构稳定性,而E62V、D103Y、A119S、A152S、A156S、L161F和P168S变异则降低了该结构稳定性。同样,E62V、P67T、D144Y和P168S变异增加了N蛋白分子柔性,而A55S、D81Y、D103Y、A119S、A119V、P122L、D128Y、L139F、A152S、A156S和L161F变异则降低了RNA结合结构域分子柔性,进一步证明上述位点在功能上的重要性。本研究还显示,CTD第P258-A359位存在1个二聚结构域,包含51个二聚相互作用位点。RAHMAN等[30]研究显示,H300Y、T325I、S327L、T334I、D340N 改变增加了N蛋白稳定性,而Q289H、I292T、P344S、D348H改变则降低了分子稳定性。Q289H、I292T变异增加了分子灵活性,而H300Y、T325I、S327L、T334I、D340N、P344S和D348H则降低了分子柔韧性。提示这些结构域和功能位点在提高病毒转录和组装效率方面起重要作用[34-35]。
多序列比对显示,与SARS-CoV-2 N蛋白序列相似度最高的是BtRs-β-冠状病毒/HuB2013和蝙蝠冠状病毒Rp/Shaanxi2011(均为90.3%),其次是SARS冠状病毒、SARS冠状病毒PUMC02和SARS冠状病毒PUMC03(均为89.8%)。此外,13条序列中完全相同的残基占67.8%,提示N蛋白在进化上高度保守。进化分析显示,SARS-CoV-2与蝙蝠非典型冠状病毒YNLF_31C亲缘关系最近,二者聚为一支,置信度为24,提示其可能有共同祖先。
N蛋白是SARS-CoV-2 IgM/IgG快速检测试剂卡的核心原材料,目前已有多家公司在真核系统中完成了N蛋白表达。大肠杆菌原核表达系统以其安全性好、易放大培养、周期短等优点被广泛用于基因工程药物生产[36]。本研究构建了原核表达载体pET-22b-N,菌落PCR扩增和测序验证结果显示,载体构建正确。在大肠杆菌中表达N蛋白并研究其表达特性,结果显示,经1 mmol/L IPTG诱导,N蛋白即可大量表达,且主要在沉淀中表达。从IgM/IgG快速检测试剂卡成本考虑,大肠杆菌系统中N蛋白表达量高、速度快,将大大降低SARS-CoV-2筛查成本[37]。
本研究有助于全面揭示N蛋白的生物学功能,为开发和设计靶向N蛋白的快速诊断方法和抗病毒药物提供了依据。