APP下载

Rv3457c基因及其编码蛋白基本特性及抗原表位的生物信息学分析

2017-01-16赵隆麒王心倩占卫红吴启航李海波余晓丽

武汉轻工大学学报 2016年4期
关键词:表位结核抗原

赵隆麒,王心倩,孙 妍,占卫红,吴启航,李海波,余晓丽

(武汉轻工大学 生物与制药工程学院,湖北 武汉 430023)

Rv3457c基因及其编码蛋白基本特性及抗原表位的生物信息学分析

赵隆麒,王心倩,孙 妍,占卫红,吴启航,李海波,余晓丽

(武汉轻工大学 生物与制药工程学院,湖北 武汉 430023)

运用生物信息学对Rv3457c基因编码蛋白的主要特征进行分析,同时预测并筛选其T/B细胞表位。运用ProtParam、SingnalP、TMHMM来分析基因编码蛋白的理化性质、信号肽区、跨膜区;运用NetMHC、Bimas、NetCTL和SYFPEITHI对其T、B细胞进行细胞表位分析预测。得到该基因编码蛋白由1 044个氨基酸组成,原子数为10 498,理论分子式为C2980H4918N1044O1216S340,分子质量为85.7284 KD,等电点的理论值为4.99,半衰期估计值4.4 h,不稳定系数52.31,平均亲水性0.938,脂肪系数20.11;含有潜在T细胞表位和B细胞表位。得出至少含有一个T细胞和一个B细胞表位,可作为疫苗的研制提供基础。

Rv3457c;生物信息学;细胞表位

1 引言

结核病是一种由结核分枝杆菌(Mycobacteriumtuberculosis)造成的危害性极大的慢性传染病,通常感染肺部和淋巴系统,但对身体的其他器官及系统(如脑,循环系统,中枢神经系统)也会造成感染。结核分枝杆菌对肺部的感染通常造成肺结核,主要症状为发热、咳痰、咳血、胸痛和呼吸困难。患上结核病会对人体的活动能力有很大的影响。

我国是结核病高负担国家,全国的结核菌感染者超过5亿,结核病确诊患者多达500万,每年感染结核病的人数约为130万,结核病感染人数居于全球第二[1]。我国的结核疫情存在地区差异,西部地区结核病患病率为中部的1.7倍;农村地区为城市的1.6倍[2]。从二十世纪四十年代起,随着链霉素的问世,开启了结核病的药物治疗时代。随后氨基水杨酸,乙胺丁醇,异烟肼,利福平相继出现,为结核病的治疗提供更强有力的保障[2]。但是药物的出现也同样造成了耐药菌的出现,结核病也出现了耐多药结核病(MDR-TB)和广泛耐药结核病(XDR-TB),这使得结核病疫情又变得严峻起来。21世纪以来随着各项技术的发展成熟,人们开始寻找新的靶细胞位点,以寻求对耐药结核病的有效治疗。抗原表位即抗原决定簇,是指位于抗原表面可决定抗原特异性的特定化学基团。抗原表位的存在使抗原能和T、B淋巴细胞上的抗原受体进行特异性的结合,从而引起机体T、B淋巴细胞发生免疫应答反应。人们通过对结核分枝杆菌的研究,试图通过其抗原表位特异性的特点来找到合适的靶细胞药物,作为结核病一种新的诊断和治疗制剂。

H37RV一直以来作为结核分枝杆菌研究的标准株,在1998年得到其全基因组后,人们对其基因进行了一系列的分析研究,以寻求对结核病的防治方法。Rv3457c是H37RV标准株上的一段基因序列,笔者通过对其进行一系列的生物信息学分析,来预测该段基因编码的蛋白是否具有合适的抗原表位以及可否用于结核病的诊断。

2 实验方法

运用生物信息学方法对Rv3457c的理化性质、信号肽区、跨膜区和T、B细胞表位进行分析和预测。

2.1 Rv3457c理化性质分析

运用ExPASy-Protparam(http://web.expasy.org/protparam/)程序测定基因编码蛋白的氨基酸组成、分子质量和等电点等理化性质。

2.2 Rv3457c信号肽结构预测

利用SingnalP(http://www.cbs.dtu.dk/services/SignalP/)在线程序分析该基因编码蛋白是否含有信号肽及切割位点。

2.3 Rv3457c跨膜区结构预测

采用TMHMM(http://www.cbs.dtu.dk/services/TMHMM/)在线分析软件对其是否存在跨膜区进行分析。

2.4 Rv3457c T细胞表位预测

2.4.1 Rv3457c CD4+T细胞表位预测

主要组织相容性复合体II(MHCII)分布于B细胞、单核/巨噬细胞、树突状细胞及其他抗原递呈细胞(APC)上,将外源性抗原递呈给CD4+T细胞。人类的MHCII分子主要包括HLA-DP、HLA-DQ、HLA-DR、HLA-N、HLA-O、HLA-M等基因位点编码的所有膜抗原。在这里我们选用HLA-DR来进行预测,打开NetMHC(http://www.cbs.dtu.dk/services/NetMHCIIpan/)网站,将Rv3457c的氨基酸序列输入,设定氨基酸长度为15[3],选择等位基因(Select Allele)设定为DRB1_0101、DRB1_0301、DRB1_0401、DRB1_0701、DRBA_0802、DRB1_0901、DRB1_1101、DRB1_1302、DRB1_1501,将排列方式选择为按亲和值(Affinity)排列,开始分析预测。

2.4.2 Rv3457c CD8+T细胞表位预测

打开网站NetMHC(http://www.cbs.dtu.dk/services/NetMHC/), 打开NetMHC登陆界面,此软件可分析多种HLA类的MHC分子。与HLA强结合的肽段数通常为9个,因此将氨基酸长度设定为9,同时选择HLA-A 0201和HLA-A 0301,即A2和A3作为限制条件[4]。选择以亲和值(Affinity)大小排序,然后输入氨基酸序列开始分析。

进入Bimas网站(http://www-bimas.cit.nih.gov/molbio/hla_bind/),选择同上的MHC分子类型,9个氨基酸,输入序列开始分析。

打开NetCTL的网址(http://www.cbs.dtu.dk/services/NetCTL/),选择同上MHC分子类型,选择分类标准为Combined score,输入氨基酸序列开始分析。

打开SYFPEITHI网站(http://www.syfpeithi.de/#userconsent#),同样选择HLA-A 0201和HLA-A 0301为MHC类型,氨基酸长度为9个,输入序列,开始分析。

2.5 Rv3457c B细胞表位预测

IEDB对B细胞表位进行预测提供了5种参数,选取Chou&Fasman法预测氨基酸编码蛋白质的β转角(β-Turn);选取Emini法预测其表面可及性(Accessibility);选取Karplus&Schulz法预测其柔韧性(Flexibility);运用Kolaskar&Tongaonkar法预测其抗原性(Antigenicity);Parker用来预测其亲水性(Hydrophilicity)。打开网站IEDB(http://tools.immuneepitope.org/main/bcell/),输入氨基酸序列,并分别选择这5种方法分别进行分析。

Bcepred对B细胞表位预测提供了7种参数,分别为采用Parker法预测其亲水性;Karplus法预测其柔韧性;Emini法预测其表面可及性;Pellequer法预测β转角;Janin法预测其暴露表面(Exposed Surface);Ponnuswamy法预测其极性(Polarity);Kolaskar法预测其抗原倾向性(Antegenic Propensity)。打开网站Bcepred(http://www.imtech.res.in/raghava/bcepred/bcepred_submission.html),输入氨基酸序列,选定这7种参数,然后运行。

3 结果

3.1 Rv3457c理化性质分析

经ExPASy-Protparam在线软件分析,Rv3457c编码蛋白1 044个氨基酸组成,原子数为10 498,理论的分子式为C2980H4918N1044O1216S340,分子质量单位为85.728 4 KD,等电点的理论值为4.99,半衰期估计值4.4 h,不稳定系数52.31,平均亲水性0.938,脂肪系数20.11。

3.2 Rv3457c信号肽结构预测

采用SignalP程序预测该基因的信号肽,结果显示该基因信号肽的切割位点在第21和第22之间。

3.3 Rv3457c跨膜区结构预测

采用TMHMM程序预测该基因的跨膜区,结果显示该基因不存在跨膜区结构。蛋白质在细胞外。

3.4 Rv3457c T细胞表位预测

3.4.1 Rv3457c CD4+T细胞表位预测

将预测结果汇总入表1。由表中数据可知,DBR1_0301中肽段的结合数及强结合肽段数都是最多的,在此之中肽段的可选性比较强,故从DRB1_0301中来选其中强结合的11个肽段72-86VTEIILNLKSLVVSS,71-84DVTEIILNLKSLVVS,50-64VTSIRIDGVLHEFTT,49-63AVTSIRIDGVLHEFT,73-87TEIILNLKSLVVSSE,70-84EDVTEIILNLKSLVV,51-65TSIRIDGVLHEFTTV,48-62AAVTSIRIDGVLHEF,74-88EIILNLKSLVVSSEE,52-66SIRIDGVLHEFTTVP,69-83KEDVTEIILNLKSLV。

表1 Rv3457c与HLA分子结合总肽段数汇总

人类白细胞抗原(HLA)分子亚型Rv3457c的总肽段数为339强结合肽段数弱结合肽段数DRB1_0101915DRB1_03011116DRB1_0401118DRB1_0701520DRB1_0802018DRB1_090198DRB1_1101014DRB1_1302517DRB1_1501511

3.4.2 Rv3457c CD8+T细胞表位预测

将四个软件预测的得分较高的序列进行整理汇总,如表2所示。

表2 CD8+T细胞表位预测结果汇总

序列序号序列序列得分NetMHC(Affinity)Bimas(Score)NetCTLSYFPEITHI(Score)76―84IILNLKSLV306.6360.1540.806023300―308KLHQLGLSL337.4374.7681.047125166―174SIYSPVLKV106.0770.3871.0839291―9MLISQRPTL62.6236.3161.039125

结合表1和表2可知重复的肽段为76—84 IILNLKSLV,故T细胞的预测表位为76—84 IILNLKSLV。

3.5 Rv3457c B细胞表位预测

根据软件预测得出的数据选取其中综合得分较高的几项,分别标号为1,2,3,4。1表示序列86—92 SSEEDEP,2表示序列98—104 RKQGPGE,3表示序列309—315 KDSPPSF,4表示序列337—343 DEQDYAE。统计的各个序列得分情况如表3所示。由表3中数据可知,序列86—92 SSEEDEP在IEDB和Bcepred中的综合得分更加高一些,因此更加适合做B细胞表位。

表3 B细胞表位预测结果汇总

参考参数IEDB得分Bcepred得分12341234Hyd6.9295.3143.3865.9712.0411.3601.2902.240Access4.6893.4632.4174.4641.9541.9101.9462.319Fle1.0891.1101.0671.0530.8711.4031.5180.556Anti0.9300.9261.0060.9531.0460.9351.391-0.276Turn1.1511.1891.2811.026-0.083-1.4231.290-2.066Polarity----1.7331.1630.9551.756Exp----1.5631.7301.8042.013

注:IEDB不含有参数Polarity 和Exposed Surface的预测;Bcepred得分取7个氨基酸的平均值四舍五入。

4 讨论

在多年的研究中,人们已经发现了关于结核的很多特异性抗原[4],以这些结核抗原作为对象进行分析研究,为结核疫苗的研究提供了基础。同时还有很多的细胞位点没有被发现,这些潜在的细胞位点很可能成为结核病快速诊断的一种方法。机体产生免疫反应的因素不仅仅只在于其含有编码抗体的基因,更重要的是其有与抗体结合的空间,能够结合在相应的位置等因素。

人体免疫的特异性免疫过程主要为细胞免疫,即T细胞免疫和B细胞免疫。这两个免疫过程需要一套完整的免疫应答过程才能完成。从抗原入侵到细胞呈递最后到产生抗体,只有经过这一系列的步骤才是一套完整的免疫过程。已有的研究证明,CD4+T细胞所产生的细胞因子IFN-γ可以对小鼠的结核模具产生保护作用[5],而且当CD4+T细胞有损坏时,艾滋病患者更易患上结核[6]。同时,对小鼠模具的研究表明CD8+T细胞对其有保护作用[7]。此类实验证明CD4+T细胞和CD8+T细胞对于结核病有一定的特异性反应。笔者所研究的结核分枝杆菌基因Rv3457c尚未有人进行研究,生物信息学进行的分析在某些方面只作为理论参考,还需要进一步的实验来证明其是否适合作为抗原表位。

笔者采用一系列的生物信息学方法,对Rv3457c基因做了基础分析,并预测了其T、B细胞抗原表位。在使用NetMHCIIpan3.1 Server对其CD4+T细胞进行预测时,选取肽段结合数最多的DBR1_0301中的强结合肽段作为备选,然后使用NetMHC、Bimas、NetCTL和SYFPEITHI四个软件对其CD8+T细胞进行预测,综合选择四个软件中得分较高的肽段,再与CD4+T细胞的强结合肽段进行对比,综合选取重复片段即为预测的可能性较高的抗原表位。蛋白质的理化性质决定其是否具有此类空间即表位供抗体结合,因此对于蛋白质理化性质的分析至关重要。据研究发现可以通过利用蛋白质的理化性质来预测其B细胞表位。现在已被公认的预测单参数方案有6种,亲水性方案(Hydrophilicity)、表面可及性方案(Surface Accessibility)、柔韧性方案(Flexibility)、抗原性方案(Antigenicity)、二级结构预测方案(Secondary structure)、抗原指数方案(Antigenivity Index)。这些方案有较好的预测效果。这里我们根据IEDB和Bcepred里面的数据来选择进行分析。

[1] 马麦卷. 结核免疫应答相关基因多态性与肺结核易感性的关联研究[D].北京:中国人民解放军军事医学科学院,2012.

[2] 唐神结,肖和平.结核病流行趋势及治疗未来展望[J].中国实用内科杂志,2012(8):565-568.

[3] 王心倩,孙妍,占卫红,等. 结核分枝杆菌Rv3607c T细胞表位分布情况预测及分析[J]. 武汉轻工大学学报,2016(2):36-39.

[4] 叶娟,张舒林,刘文第. 结核分枝杆菌RD12区T细胞表位分布情况预测及分析[J].上海交通大学学报(医学版),2014(1):7-12.

[5] Rosa Daniela Santoro,Ribeiro Susan Pereira,Cunha-Neto Edecio. CD4+T cell epitope discovery and rational vaccine design[J]. Archivum Immunologiae et Therapiae Experimentalis,2010,58(2) : 121-130.

[6] Oldstone M B.The role of cytotoxic T lymphocytes in infectious disease: history,criteria,and state of the art[J].Curr Top Microbiol Immunol,1994,189: 1-8.

[7] Wang Xinjing,Cao Zhihong,Jiang Jing,et al. Elevated expression of Tim-3 on CD8 T cells correlates with disease severity of pulmonary tuberculosis[J]. Journal of Infection,2011,62(4): 292-300.

[8] 南文龙,金宁一,鲁会军,等. H5N1亚型禽流感病毒血凝素Th和B细胞表位预测及抗原性分析[J].中国免疫学杂志,2009(7):630-633,637.

[9] 刘海灿. 结核分枝杆菌八种蛋白抗原中人T/B细胞抗原表位多态性研究[D].北京:中国疾病预防控制中心,2014.

[10] Nobuhiro Nakamoto,David E Kaplan,Jennifer Coleclough,et al. Functional Restoration of HCV -Specific CD8 T Cells by PD-1 Blockade Is Defined by PD-1 Expression and Compartmentalization[J].Gastroenterology,2008 (7) :927-1937.

[11] Li Fan,Yang Di,Wang Yi-qin,et al.Identification and modification of an HLA-A* 0201-restricted cytotoxic T lymphocyte epitope from Ran antigen[J].Cancer Immunology,Immunotherapy,2009(12):2039-2049.

[12] Grotzke J E,Lewinsohn D M.Role of CD8+T lymphocytes in control of Mycobacterium tuberculosis infection[J]. Microbes Infect,2005,7(4) : 776-788.

[13] Mommaas B,Kamp J,Drijfhout JW,et al.Identification of a novel HLA- B60- restricted T cell epitope of the minor histocompatibility antigen HA-1 locus[J]. J Immunol,2002,169 (6) :3131-3136.

Bioinformatics analysis to characteristics and antigen epitopes of Rv3457c

ZHAO Long-qi,WANG Xin-qian,SUN Yan,ZHAN Wei-hong,WU Qi-hang,LI Hai-bo,YU Xiao-li

(School of Biology and Pharmaceutical Engineering,Wuhan Polytechnic University,Wuhan 430023,China)

Analyzing main features of gene Rv3457c by using bioinformatics,predicting and screening its T/B cell epitope.Using ProtParam,SingnalP,TMHMM to analyze physical and chemical properties, signal peptide and transmembrane region of the protein coded by the gene. NetMHC,Bimas,NetCTL and SYFPEITHI are used to predict its T and B cell epitope.The protein coded by the gene consists of 1044 amino acid,an atomic number of 10498,a theoretical molecular formula of C2980H4918N1044O1216S340,a molecular mass of 85.7284KD,a theoretical isoelectric point of 4.99,an estimated half-life of 4.4h,an instability index of 52.31,an average hydrophilicity of 0.938,an aliphatic index of 20.11.The gene has potential T and B cell epitope.There is one B and T cell epitope at least,which can be the basics of vaccine development.

Rv3457c;bioinformatics;cell epitope

2016-10-18.

赵隆麒(19 -),男,硕士研究生,E-mail:q304451487@vip.qq.com.

余晓丽(1963-),女,教授,E-mail:yxll268@126.com.

2095-7386(2016)04-0026-05

10.3969/j.issn.2095-7386.2016.04.005

Q 93

A

猜你喜欢

表位结核抗原
乙型肝炎病毒B和C基因型S蛋白特异性CTL表位保守性分析
一度浪漫的结核
联合T、B细胞表位设计多肽疫苗的研究进展①
层次分析模型在结核疾病预防控制系统中的应用
梅毒螺旋体TpN17抗原的表达及纯化
小反刍兽疫病毒化学合成表位多肽对小鼠的免疫效果研究
结核分枝杆菌抗原Lppx和MT0322人T细胞抗原表位的多态性研究
中枢神经系统结核感染的中医辨治思路
APOBEC-3F和APOBEC-3G与乙肝核心抗原的相互作用研究
疣状皮肤结核1例