结核分枝杆菌TB10.4 蛋白的生物信息学分析
2023-09-20赵晓彤
高 灿,赵晓彤,程 江,2
(1.石河子大学医学院,新疆 石河子 832008;2.石河子大学医学院第一附属医院检验科,新疆 石河子 832008)
结核病(TB)是一种由结核分枝杆菌(M.tb)引起的传染性疾病[1,2]。目前,结核病的感染控制主要靠接种减毒牛分枝杆菌卡介苗(BCG)来实现,但BCG并不能对各个年龄组都起到有效的防护作用[3]。分枝杆菌的耐药性仍在不断出现不断增加,全球健康遭到了耐药结核菌株的严重威胁,将促使开发替代治疗方法。Rv0288(esxH)是分枝杆菌蛋白大家族ESAT-6 家族(ESAT6,ESX)的一名成员,编码分泌蛋白TB10.4 蛋白[4]。研究发现[5],该基因的表达可以改变INH 和RIF 存在下分枝杆菌的生长,与结核病耐药性存在潜在关联。除此之外,TB10.4 蛋白有可能参与铁/锌摄取,这一过程在是结核分枝杆菌生长代谢中起重要作用[6,7]。另有研究发现[8],Rv0288 基因中的编码蛋白TB10.4 能刺激机体产生细胞免疫,具有一定的免疫原性,使结核病人的免疫系统被识别。因此TB10.4 蛋白有可能成为候选抗原和候选疫苗,用于结核分枝杆菌感染的诊断[9,10]。本研究通过生物信息学技术对结核分枝杆菌TB10.4 蛋白的结构和功能进行预测,以探索TB10.4 蛋白的结核耐药性机制,寻找其在结核病的药物新靶点及预防方面的潜在应用价值。
1 资料与方法
1.1 一般资料 TB10.4 蛋白氨基酸序列来自NCBI(https://www.ncbi.nlm.nih.gov/)网站。在GenBank 中检索关键词Rv0288,以获取H37Rv 全基因组信息。RV0288 基因位于MTB 全基因组的区域,基因ID为 886603;它的编码蛋白为TB10.4 蛋白(别名Cfp7,Low molecular weight protein antigen 7 EsxH,ESAT-6-Like protein EsxH),属于分泌蛋白,在蛋白质库中的登录号为CCP43018.1,在UniProt 中的登录号为P9WNK3。通过NCBI 网站查询,TB10.4 蛋白由96 个氨基酸序列组成,检索的氨基酸序列如下:MSQIMYNYPAMLGHAGDMAGYAGTLQSLGAEIAV EQAALQSAWQGDTGITYQAWQAQWNQAMEDLVR AYHAMSSTHEANTMAMMARDTAEAAKWGG。
1.2 方法 使用NCBI 网址中的OFR Finder 软件分析基因Rv0288 的开放阅读框架;应用在线软件ProtParam、ProtScale 对TB10.4 蛋白进行理化性质及亲疏水性分析。运用在线软件SOSUI 及Signal IP 预测TB10.4 蛋白的信号肽和跨膜区,在线软件TMHMM、NerNGlyc、NetPhos 对TB10.4 蛋白的跨膜结构域、糖基化及磷酸化位点进行预测分析。运用PSORT、WoLF PSORT、CELLO 三个软件分析TB10.4蛋白的亚细胞定位,在线软件SOPMA 预测TB10.4蛋白的二级结构,SWISS-MODEL 预测TB10.4 蛋白的三级结构并进行同源建模。运用IEDB 软件对TB10.4 抗原蛋白的B 细胞表位进行预测蛋白的可塑性、线性表位、表面可及性、亲疏水性、β-转角、抗原性6 个方面并筛选的B 细胞表位;运用SYFPEITHI、RANKPEP 预测TB10.4 蛋白的辅助性T 细胞(Th)表位,SYFPEITHI、RANKPEP、NetMHC预测蛋白的CTL 细胞表位并进行综合分析;并使用STRING 预测TB10.4 蛋白的相互作用蛋白预测及富集分析。所用软件具体网址见表1。
表1 使用的基因分析软件及蛋白预测网站
2 结果
2.1 Rv0288 基因开放阅读框架 Rv0288 基因(ID:886603)位于MTB 全基因组的351848-352138 区域,全长291 bp,起始密码子为ATG,终止密码子为TAG,见图1。
图1 Rv0288 基因开放阅读框
2.2 理化性质及亲疏水性 TB10.4 蛋白的理论等电点pI 为4.58,相对分子质量为10 390.6;该蛋白由96 个氨基酸组成,含有18 种氨基酸,其中不含吡咯赖氨酸、苯丙氨酸、半胱氨酸、硒代半胱氨酸,而以丙氨酸(20.8%)、甘氨酸(9.4%)、谷氨酰胺(9.4%)、苏氨酸(6.2%)4 种氨基酸的比例较高。其中有3 个残基(Arg+Lys)带正电荷,9 个残基(ASP+GLU)带负电荷。TB10.4 蛋白的分子式为C448H677N125O143S9,原子总数为1402,消光系数为29 450,280 nm 处的吸光度为2.834。当TB10.4蛋白的N 端残基为Met 时,它在哺乳动物网状细胞中的半寿期为30 h,在大肠埃希菌体内的半衰期大于10 h。TB10.4 蛋白为非稳定蛋白,其不稳定指数为50.36,脂肪族氨基酸指数为59.38,平均疏水性为-0.266。使用在线软件ProtScale 分析TB10.4 蛋白为疏水性蛋白,第56 位氨基酸亲水性得分最高为-1.744;第30、31 氨基酸疏水性得分最高为0.878,见图2。
图2 TB10.4 蛋白的亲(疏)水性分析
2.3 信号肽、跨膜区 软件显示,TB10.4 蛋白是不含信号肽、没有跨膜区域的可溶性蛋白;Signal IP 软件显示,该蛋白max.C 值为0.121,max.Y 值为0.150,max.S 值为0.263,mean S 值为0.170,其中mean S值<0.45,预测无信号肽,见图3。
图3 TB10.4 蛋白的跨膜结构预测
2.4 糖基化和磷酸化位点 TMHMM 软件显示TB10.4 蛋白无跨膜螺旋结构,见图4;NerNGlyc 软件显示该蛋白无糖化位点,见图5;NetPhos 软件显示该蛋白有8 个磷酸化位点,其中磷酸化丝氨酸位点有5 个,分别位于2、27、41、73、74 位氨基酸;磷酸化苏氨酸位点有2 个,分别位于氨基酸的24 位与88 位;磷酸化酪氨酸位点有1 个,位于氨基酸21位,见图6。
图4 TMHMM Server2.0 预测TB10.4 蛋白的跨膜螺旋
图5 TB10.4 蛋白亚基糖基化位点分析
图6 TB10.4 蛋白磷酸化位点分析
2.5 亚细胞定位 结果显示,该蛋白的亚细胞被定位在细胞核内。软件PSORT 分析cyto-nucl:14,cyto:11,extr:6;软件WoLF PSORT 分析extr:17,cyto:11,cyto_nucl:8.5,nucl:4;CELLO 分析此种蛋白位于细胞外。故TB10.4 蛋白可能定位于细胞外。
2.6 二级结构及三级结构 运用在线软件SOPMA 预测TB10.4 蛋白的二级结构,α-螺旋(Hh)83 个,占86.46%;β-转角(Tt)3 个,占3.12%;β-折叠(Ee)3个,占3.12%;7 个无规则卷曲(Cc),占7.29%,TB10.4 蛋白为不稳定性蛋白,见图7。
图7 TB10.4 蛋白二级结构预测
2.7 三级结构同源建模 运用在线软件SWISSMODEL 软件预测TB10.4 蛋白的三级结构并进行同源建模,见图8,SWISS-MODEL 软件中,运用GMQE和QMEAN 评分进行质量评估。GMQE 评分分数范围是0~1 分,数字越接近1 分的质量就越高;QMEAN 评分表示预测模型与期望值的一致程度,是基于对蛋白三级结构的不同几何特性的复合评估,评分范围为0~4 分,待测蛋白越接近数字0 与模板蛋白就有更高匹配度。三级结构的同源建模,见图7。该模型的GMQE 评分为0.71,QMEAN 评分为(0.6±0.09)分,与模板2kg7.1.B 氨基酸序列一致性为100%。
图8 TB10.4 蛋白三级结构预测
2.8 B 细胞表位预测结果 运用IEDB 软件对TB10.4抗原蛋白的B 细胞表位进行预测,以1.0 作为柔韧性的参数基线。最终筛选出3 个B 细胞表位,见表2。
2.9 TB10.4 蛋白Th 表位、CTL 表位的预测分析结果
2.9.1 Th 表位 运用SYFPEITHI 和RANKPEP 在线软件,选择HLA-DR1*0101、HLA-DR1*0401、HLA-DR1*0701 和HLA-DR1*1101 作为HLA 亚型代表,得到5 条共同的强结合Th 抗原表位肽段,见表3。
表3 TB10.4 蛋白辅助性T 细胞表位分析结果
2.9.2 CTL 表位 运用RANKPEP 软件对TB10.4蛋白进行分析,分值较高的CTL 细胞抗原表位,见表4。CTL 表位分别为QAQWNQAME(55-63)、PAMMLGHAGD(9 -18),运 用 SYFPEITHI、RANKPEP、NetMHC 三种生物信息学软件对TB10.4 蛋白进行综合分析,分值较高的CTL 细胞抗原表位,见表5。综合分析得出的TB10.4 蛋白的CTL 表位数量主要集中分簇于HLA-A2 限制性T细胞表位,少部分位于HLA-A3,无多肽序列分布在HLA-B7 限制性T 细胞表位,推测其最佳候选CTL 表位可能位于IMYNYPAML(4-12)等aa 区段,见表6。
表4 RANKPEP 软件预测TB10.4 蛋白CTL 表位
表5 不同软件预测TB10.4 蛋白CTL 表位
表6 TB10.4 蛋白CTL 表位综合分析
2.10 蛋白相互作用网络 采用STRING 预测与TB10.4 相互作用的蛋白质,显示其与等蛋白形成相互作用网络,有esxS、esxB、esxH、esxG、PPE4、PPE18、PE5、eccD3、eccC3、espG3,见图9。
图9 MTB H37Rv 相互作用蛋白
3 讨论
结核病作为一种肺部疾病,具有播散性传播的潜力[11]。一直以来,对结核病的治疗由于药品副作用发生以及患者的依从性差,治疗效果往往不佳[12],多重和广泛耐药(MDR 和XDR)结核分枝杆菌(MTB)对全球公共卫生构成了严重威胁[2,13]。因此,探索新的分枝杆菌药物靶点对于在不久的将来有效解决抗结核药物耐药性和改善一般结核病控制至关重要[2]。接种BCG 疫苗可预防播散性严重的儿童肺结核,但在有效性和持久性上却有着天壤之别[14]。研究表明[15],BCG 可能在所有试验的早期可提供了高水平的保护,但在结核病持续高传播的环境中,BCG可能提供很少(甚至为零)的长期保护。因此需要一种新疫苗来提供针对儿童和成人结核病的一致和持久的保护性免疫力[16]。ESAT6 由结核分枝杆菌RD1区编码,是Mt 重要的毒力因子,也被认为是现有的TB 疫苗卡介苗(Bacillus Calmette-Guerin,BCG)减毒的重要原因[17]。作为Mtb 分泌的细胞外蛋白,ESAT6 是保护性抗原的重要来源[18],对巨噬细胞的免疫反应起调节作用,研究报道,ESAT6 能够诱导巨噬细胞发生凋亡,且ESAT6 融合蛋白对巨噬细胞内的Mtb 生存会产生显著影响[19]。Rv0288(EsxH)属于分枝杆菌蛋白大家族ESAT-6 家族(Esx)[20],大小约为100 个残基,存在一个保守的中心WXG 基序,是分枝杆菌内协调调节的基因对,编码分泌蛋白TB10.4 蛋白。
为了较为全面地预测TB10.4 蛋白的结构与功能性质,本研究运用了多种生物信息学软件对该蛋白进行预测分析。该研究通过生物信息学手段分析TB10.4 蛋白,结果显示该蛋白理论等电点pI 为4.58,且带负电荷氨基酸的残基数多于带正电荷氨基残基数,所以TB10.4 蛋白整体带负电荷,与血浆白蛋白电性相同,提示该蛋白可能是通过入血从而发挥它的作用。TB10.4 蛋白脂肪族氨基酸如丙氨酸(20.8%)、甘氨酸(9.4%)、谷氨酰胺(9.4%)、苏氨酸(6.2%)在氨基酸组成中所占比例较高,提示该蛋白可能和脂质的运输相关。TB10.4 蛋白在细胞中半寿期长达30 h,在细菌体内半衰期大于10 h,提示该蛋白可能作为免疫抗原分子在体内发挥持久作用。生物信息学分析显示TB10.4 蛋白为疏水性蛋白,定位预测该蛋白可能位于细胞外,此外,该蛋白为不含信号肽的非跨膜蛋白,提示该蛋白可能于细胞质基质中合成从而运输到细胞器中起作用。TB10.4 蛋白有8 个磷酸化位点,提示它可能参与细胞间信号传导过程。预测结果显示TB10.4 蛋白二级结构中α-螺旋占86.46%,α-螺旋占比较高的蛋白大多为高度保守蛋白,表明该蛋白可能具有一定的功能。有研究表明,TB10.4 是结核分枝杆菌(Mtb)的一个重要的毒力蛋白抗原[21],CFP10-TB10.4(CT)融合蛋白与甘露聚糖和洛索里宾的结合物(CT-man-lox)能显著增强小鼠的CFP10-TB10.4 融合蛋白特异性体液免疫和细胞免疫应答,CT-man-lox 有可能成为一种有效的抗结核分枝杆菌蛋白疫苗[22]。预测分析显示该蛋白与esxS、esxB、esxH、esxG、PPE4、PPE 18、PE5、eccD3、eccC3、espG3 等多种蛋白相互作用,提示该蛋白参与多种生物学过程。表位预测发现TB10.4 蛋白具有3 条B 细胞表位肽段,分别为QGDTGI、E、AA,同时,该蛋白具有多条与MHC-Ⅱ类分子结合的肽段,但它的具体功能还有待于进行实验研究进一步验证。
综上所述,通过生物信息学技术预测TB10.4 蛋白具有多个B 细胞及T 细胞抗原表位,表明该蛋白可能具有抗原性,提示该蛋白在今后有可能作为抗结核疫苗的候选疫苗。