新型分泌蛋白C6ORF120结构及功能的生物信息学分析①
2022-11-25吴苑妮韩晓旭王玉琪首都医科大学附属北京地坛医院北京100015
刘 辉 吴苑妮 张 瑞 韩晓旭 王玉琪 李 鑫(首都医科大学附属北京地坛医院,北京 100015)
人类6号染色体是人体内重要的染色体之一,近年来研究发现6号染色体上不同开放阅读框编码基因及其翻译蛋白质参与多种疾病的发生发展,为疾病的治疗提供新靶点[1-2]。C6ORF120蛋白是由6号染色体第120开放阅读框编码基因(chromosome 6 open reading frame 120,C6orf120)翻译成的蛋白质,是一种新发现的蛋白质。C6ORF120蛋白被认为是一种糖基化蛋白,2009年大连大学肝脏糖蛋白质研究组首次提出C6ORF120蛋白可能在人类肝组织内表达[3]。2011年本课题组首先报道C6ORF120蛋白在肝、淋巴组织及外周血非T淋巴细胞内表达,并且发现C6ORF120重组蛋白与内质网居民蛋白存在共定位现象,提示C6ORF120分泌过程经过肝细胞内质网,进一步研究表明C6ORF120可能通过诱导内质网应激,参与CD4+T细胞凋亡调控[4]。2018年ZHANG等[5]研究发现C6orf120基因敲除对ConA诱导的免疫性肝损伤有保护作用,其机制可能与抑制肝细胞的凋亡、上调CD4+CD25+FOXP3+Treg细胞表达频数、下调细胞因子分泌有关。2019年该团队又发现C6orf120基因对CCl4诱导的急性肝损伤可能具有一定的保护作用,其机制可能是通过抑制NLRP3-Caspase1-IL-1β和JNK信号通路有关[6]。2020年有学者进一步研究发现C6orf120可能通过调控Th17/Treg平衡参与自身免疫性肝炎的发展[7]。关于C6orf120的研究逐渐引起关注,可能是未来研究肝损伤的潜在分子标志物和治疗靶点,但是具体结构及作用机制尚不清楚,迄今鲜有研究报道C6ORF120蛋白结构及功能相关的生物信息学。本文使用生物信息学分析工具研究C6ORF120蛋白的理化性质、结构及可能功能,为进一步研究C6ORF120蛋白的作用机制及其作为肝损伤治疗潜在靶点提供思路。
1 材料与方法
1.1 材料 在全球蛋白资源数据库UniProt(http://www.uniprot.org/uni-prot)中在线检索C6ORF120,同源序列物种可能有265种,其中有8种存在于高质量的SwissProt数据库中,包括:人类(HUMAN)、大鼠(RAT)、小鼠(MOUSE)、斑马鱼(DANRE)、食蟹猴(MACFA)、牛(BOVIN)、小鸡(CHICK)及热带爪蟾(XENTR),获得相对准确的蛋白序列(FASTA格式)用于后续的生物信息学研究。
1.2 方法 在Genecards数据库中检索C6ORF120蛋白编码基因,并基于THE HUMAN PROTEIN ATLAS数据库对C6orf120基因进行基因分布分析。在UniProt数据库中进行C6ORF120蛋白同源序列物种的检测并绘制系统进化树,运用Prot Param、DNAMAN软件分析C6ORF120蛋白的理化性质、亲水性/疏水性、二级结构,TMHMM软件分析C6ORF120蛋白的跨膜区,Signal P4.0 Server、BLAST工具分别预测其信号肽、结构域,YinOYang 1.2 server、Net Glycate 1.0 server及Net Phos 3.1 Server在线软件分析该蛋白翻译后修饰位点,STRING软件预测与C6ORF120蛋白相互作用的蛋白,并且运用AmiGO2在线软件预测C6ORF120蛋白的可能生物学功能。
2 结果
2.1 C6ORF120蛋白编码基因及表达情况 在Genecards中检索“C6ORF120”,发现人C6ORF120蛋白编码基因C6orf120所在位置如图1所示,主要位于6号染色体长臂2区7带上。
图1 C6ORF120蛋白编码基因位置Fig.1 Gene position of C6ORF120 protein
在THE HUMAN PROTEIN ATLAS数据库中分析发现人类C6orf120基因表达于60种不同组织中,按照由高表达到低表达的顺序排列(图2),可见C6orf120基因在人类肝组织中表达最高,其次分别是大脑皮层、胎盘、肾上腺等组织,对肝脏中不同细胞进行分析,发现C6orf120基因在肝脏细胞中呈现不同表达(图3),主要存在于血液/免疫细胞的T细胞中,其次为上皮细胞、血管细胞、间质细胞,并且发现细胞中C6orf120基因被分泌至细胞外发挥作用和功能(图4)。
图2 不同组织中C6orf120基因的表达Fig.2 Expression of C6orf120 in different tissues
图3 肝脏不同类型细胞中C6orf120基因的表达Fig.3 Expression of C6orf120 gene in different types of liver cells
图4 C6orf120在细胞分泌过程的预测Fig.4 Prediction of C6orf120 secretion in cells
2.2 C6ORF120蛋白同源序列的获取 利用Uni-Prot对C6ORF120蛋白进行各物种蛋白序列进行检索,共检索到265个结果,其中SwissProt数据库有8个物种,分别为人类、大鼠、小鼠、鸡、食蟹猴、牛、斑马鱼、热带爪蟾,其中存在于人类中的C6ORF120蛋白长度为191,与食蟹猴的长度一致,并对不同物种C6ORF120蛋白的FASTA数据进行下载保存,以备后续使用。
2.3 C6ORF120蛋白同源序列比对及进化分析将 人 类(Q7Z4R8)、食 蟹 猴(Q9BGQ6)、小 鼠(Q9DAY5)、大 鼠(Q6AY64)、牛(A2VDZ5)、鸡(Q5ZLK8)、热带爪蟾(Q6DIW0)及斑马鱼(Q6NZZ3)的蛋白FASTA序列输入MEGA软件、DNAMAN软件进行C6ORF120蛋白的多序列对比,提示该蛋白在物种间的一致性为76.8%,提示该蛋白序列呈高度保守,结果如图5所示,图中黄色部分代表完全匹配的序列,可见保守度高且较长的肽段位于第50~63位氨基酸,包含14个氨基酸序列。根据多序列比对结果建立系统进化树,结果如图6所示,发现人与食蟹猴、牛、大鼠、小鼠的保守性较高,达75%以上,其中人与猴间进化具有最高保守性,达到98%,说明C6ORF120蛋白在哺乳动物间具有较高的保守性,可能具有相似功能。
图5 C6ORF120蛋白同源序列的多序列比对Fig.5 Multi-sequence alignment of homologous sequences of C6ORF120
图6 不同物种间C6ORF120蛋白进化树Fig.6 Phylogenetic tree of C6ORF120 protein among different species
2.4 人类C6ORF120蛋白的理化性质及亲水性/疏水性预测的分析 利用Prot Param数据库对人类C6ORF120蛋白进行理化性质预测分析,该蛋白总氨基酸残基数为191个,其中丙氨酸Ala(A)和异亮氨酸Leu(L)占比最高,分别是11.0%和11.5%,天冬酰胺Asn(N)和半胱氨酸Cys(C)占比最低,均为1.0%,带负电荷氨基酸残基(Asp+Glu)和带正电荷氨基酸残基(Arg+Lys)的总数分别为27和12,预测该蛋白PI为4.75,呈中性偏酸。蛋白质总分子式为C932H1431N245O284S5,其原子总数为2 897,分子质量为20 772.39(约20.77 kD),不稳定系数为47.86,属不稳定蛋白质。对C6ORF120蛋白表达的其他物种进行理化特性分析,包括氨基酸残基长度、分子质量、理论等电点、稳定性指数,如表1所示,总体来看,C6ORF120蛋白是一种不稳定的酸性蛋白质,这8个物种的C6ORF120蛋白理化特性差异不大,说明C6ORF120蛋白在不同物种进化间比较保守。
表1 各物种C6ORF120蛋白的理化特性Tab.1 Physicochemical characteristics of C6ORF120 protein from various species
为进一步了解人类C6ORF20蛋白的跨膜区、二级结构,运用ProtScale在线软件进行亲水性/疏水性检测分析,如图7所示,一般认为总分值在(-0.5)~(+0.5)分之间的为两性蛋白质,>(+0.5)为疏水性,<(-0.5)为亲水性,分值越低亲水性越强,分值越高疏水性越强,发现C6ORF120蛋白总平均疏水指数<0,认为CORF120蛋白属于一种亲水性蛋白。
图7 人类C6ORF120蛋白的亲水性、疏水性分析Fig.7 Analysis of hydrophilicity and hydrophobicity of human C6ORF120 protein
2.5 人类C6ORF120蛋白的亚细胞定位分析 在Genecards网站对人类C6ORF120蛋白进行亚细胞定位分析结果,如图8所示,发现该蛋白主要在细胞外和溶酶体分布,其次存在于内质网和线粒体,结果提示C6ORF120蛋白可能是胞内溶酶体相关蛋白也可能是分泌蛋白,主要在细胞外发挥作用,这与C6orf120基因被分泌至细胞外的预测结果一致。
图8 人类C6ORF120蛋白的亚细胞定位分析Fig.8 Subcellular localization analysis of human C6ORF120 protein
2.6 人类C6ORF120蛋白结构分析 使用DNAMAN分析软件预测人类C6ORF120蛋白的二级结构可能性及成分比例,如图9所示,该结果预测准确度约72.38%,其中α螺旋占11.0%,β-折叠占24.1%,无规则卷曲占64.9%。运用SignalP4.0软件检测信号肽位置,采用神经网络算法描述了前70位氨基酸序列(图10),发现在第31位氨基酸位置上C值和Y值最大,说明在第31位氨基酸序列上有1个剪切位点,并且S值在这一段序列出现陡降,说明在31位氨基酸序列位置上存在信号肽,D值结果为YES,说明C6ORF120蛋白是一种分泌蛋白。
图9 人类C6ORF120蛋白的二级结构可能性预测Fig.9 Prediction of secondary structure possibility of human C6ORF120 protein
图10 人类C6ORF120蛋白的信号肽预测Fig.10 Signal peptide prediction of human C6ORF120 protein
运用TMHMM软件对C6ORF120蛋白进行跨膜区的检测(图11),发现C6ORF120蛋白含有191个氨基酸,这与前期结果一致,其中90%的蛋白位于细胞外(紫色线),只有约10%的蛋白位于细胞内(蓝色线),不存在跨膜区,这与DNAMAN软件进行跨膜区检测结果相一致。运用CD-seach和pFam数据库进行蛋白质的保守结构域检测(图12),发现C6ORF120蛋白属于UPF0669/pFam17065家族,保守结构域位点位于7~191位氨基酸序列。
图11 人类C6ORF120蛋白的跨膜区检测Fig.11 Detection of transmembrane region of human C6ORF120 protein
图12 人类C6ORF120蛋白保守结构域检测Fig.12 Detection of conserved domain of human C6ORF120 protein
2.7 C6ORF120蛋白翻译后修饰位点的预测 运用YinOYang 1.2 server、Net Glycate 1.0 server及Net Phos 3.1 Server在线软件对C6ORF120蛋白的O-糖基化、N-糖基化与磷酸化位点进行分析,结果见图13~15。分析结果显示,C6ORF120蛋白在O-糖基化位点有4个,分别位于第12、21、81、105位氨基酸(图13A),N-糖基化位点有1个,位于第53位氨基酸(图13B)。磷酸化位点有16个,分别是第21、25、28、71、83、84、88、96、123、127、168、173位丝氨酸(Serine)位点,第138位苏氨酸(Threonine)位点,第79、92、134位酪氨酸(Tyrosine)位点(图13C)。
图13 C6ORF120蛋白翻译后修饰位点Fig.13 Analysis of post-translational modification sites of C6ORF120 protein
2.8 C6ORF120蛋白互作蛋白的预测 利用STRING构建蛋白相互作用网络,发现与C6ORF120蛋白相互作用的蛋白较多,图14中展示出其中联系密切的10个,分别是多配体聚糖结合蛋白(syndecan binding protein,SDCBP)、核糖核酸酶2(recombinant ribonuclease T2,RNASET2)、岩藻糖苷酶1(alpha-L-fucosidase 1,FUCA1)、肌动蛋白相关蛋白10(actin-related protein10,ACTR10)、转运蛋白颗粒1(transport protein particle1,TRAPPC1)、氨基己糖苷酶B(hexosaminidase B,HEXB)、β-半乳糖苷酶(galactosidase beta 1,GLB1)、人γ谷氨酰水解酶(gamma-glutamyl hydrolase,GGH)、GDP解离抑制因子2(GDPdissociation inhibitor 2,GDI2)、ESCRT-Ⅲ相关分子(ESCRT-Ⅲassociated factor,IST1)。
图14 C6ORF120蛋白互作网络Fig.14 Interaction network of C6ORF120 protein
2.9 C6ORF120蛋白的GO功能分析 使用Ami-GO2软件对人C6ORF120进行基因本体论的分析(图15),显示C6ORF120主要分布在细胞外。在细胞组分方面,C6ORF120蛋白存在嗜蓝粒颗粒腔(azurophil granule lumen)、细胞外区域(extracelluar region)、溶酶体腔(lysosomal lumen)、黑素体(melanosome)、富含ficolin-1的颗粒内腔(ficolin-1-rich granule lumen);在分子功能方面,C6ORF120蛋白具有水解酶活性(hydrolase activity)、水解O-糖基化合物(hydrolyzing O-glycosyl compounds)等功能;从生物学进程上来说,C6ORF120蛋白具有中性粒细胞脱粒(neutrophil degranulation)、糖胺聚糖分解代谢过程(glycosaminoglycan catabolic process)、硫酸角质素分解代谢过程(keratan sulfate catabolic process)、糖脂分解代谢过程(glycolipid catabolic process)、糖脂代谢过程(glycolipid metabolic process)、糖鞘脂代谢过程(glycosphingolipid metabolic process)、碳酸盐分解代谢过程(carbohybrate catabolic process)、高分子代谢过程(macromolecule metabolic process)、己糖代谢过程(hexose metabolic process)、细胞生长的积极调节(positive regulation of cell growth)、高尔基囊泡介导的内质网(endoplasmic reticulum of Golgi vesicle-mediated transport)的功能。
图15 C6ORF120蛋白的GO功能富集分析Fig.15 GO function enrichment analysis of C6ORF120 protein
3 讨论
C6ORF120蛋白是一种由细胞内分泌到细胞外的新型分泌蛋白,有信号肽,但是没有跨膜区,其分泌途径可能经过内质网和溶酶体,主要在细胞外发挥作用,有研究表明其可能参与调节CD4+T细胞凋亡,但不参与CD8+T细胞,因此研究C6orf120基因的免疫功能成为热门。C6orf120基因主要编码C6ORF120蛋白,定位于6q27,其被发现于糖尿病、食管癌、先天性髓样肉瘤、自身免疫性肝病等疾病,但具体功能机制尚不明确[8-10]。UniProt是信息最丰富、资源最广、常用的蛋白质数据库,由SwissProt和TrEMBL两大数据库组成,其中SwissProt为高质量的、手工注释的、非冗余的数据集,在基因组注释中比较常用,而TrEMBL包含未校验的、自动注释的条目,因此本研究选取Uniprot中的SwissProt数据库作为数据来源。本研究运用NCBI数据库检索C6ORF120蛋白,发现C6ORF120蛋白包含191个氨基酸序列,在Uniprot数据库中发现多个物种与人C6ORF120蛋白具有相似的序列,其相似度从高等灵长类动物食蟹猴到哺乳动物牛、从啮齿类动物大鼠、小鼠到低等脊椎动物斑马鱼等依次降低,说明C6orf120基因进化上相对保守,其可能参与基本生物学过程。对C6ORF120蛋白质的二级结构预测发现,其肽链上α螺旋和无规则卷曲水平较高,表明该蛋白具有较好的可塑性。理化性质分析发现,C6ORF120蛋白是不稳定的亲水、酸性蛋白质,可能定位于细胞外(90%),发挥多种生物学作用。
对C6ORF120蛋白进行功能性位点分析发现,其氨基酸序列中存在磷酸化位点、N-糖基化位点及O-糖基化位点。磷酸化位点是信号传导调控中的常见分子结构,在细胞增殖及细胞周期中有着广泛的调节作用,O-糖基化、N-糖基化位点是蛋白质糖基化修饰的识别位点,蛋白质的糖基化修饰是生物体调控蛋白质在组织和细胞中的定位、功能、活性、寿命和多样性的一种普遍翻译后方式,使糖链与糖结合蛋白相互作用,参与许多生理或病理过程,也可以作为微生物和有毒物质的结合位点。由于蛋白质结构特异性识别相关分子是其行使功能的关键,故该蛋白可能通过磷酸化、糖基化而发挥多种重要的生物学作用。
在Genecards、NCBI、pFam数据库中对C6ORF120蛋白分析发现,C6ORF120蛋白属于UPF0669/pFam17065家族,其结构域位置可能在7~191位氨基酸序列,说明该蛋白的功能区可能位于7~191氨基酸序列上。运用STRING数据库对C6ORF120蛋白互作蛋白构建网络,发现C6ORF120蛋白相关的蛋白有SDCBP、RNASET2、FUCA1、ACTR10、TRAPPC1、HEXB、GLB1、GGH、GDI2、IST1,其中SDCBP蛋白发现存在于大肠癌、乳腺癌及Sandhoff中[11-12],RNASET2蛋白编码基因也位于6q27位置,可能是黑色素瘤中的肿瘤抑制基因,FUCA1发现存在于甲状腺癌,被p53基因诱导,HEXB存在于Sandhoff患儿中,GDI2发现与黑色素瘤的预后判断有关,可能通过miR-424-5p/SCAI轴发挥作用[13-16]。可见,与C6ORF120蛋白的作用蛋白多为蛋白酶类,推测其可能通过在不同的氨基酸位点发生磷酸化,从而与多种酶蛋白相互作用发挥其生物学功能。对上述C6ORF120互作蛋白的探索与验证,将有助于揭示以C6ORF120为核心的新型信号传导通路。
可见,人类C6orf120基因可能在体内多种生理、病理过程中发挥作用,有必要对其进行更深入的研究。本文通过生物信息学分析初步揭示了人类自身免疫性肝炎新型基因C6orf120及其编码产物的基本特性,为进一步开展C6orf120基因功能和相关分子机制研究奠定基础。但是,单纯运用生物信息学方法进行分析所得结果尚不够全面,需要进一步的实验结果加以验证以得到更可靠的依据。随着生物信息学相关数据库及分析方法的不断发展,生物信息学将会更广泛应用于多种研究领域,基因编码蛋白相关功能的预测也将更加准确。