人源细胞色素CYP3A4结构与功能生物信息学分析
2021-09-08冯承涛
杨 晴,冯承涛
(安徽理工大学化学工程学院,安徽淮南 233100)
肝脏因具有较多的代谢酶而附有解毒和代谢等功能,是脊椎动物的主要代谢器官,参与物质代谢过程。细胞色素P450 酶(CYP450)存在于肝微粒体中,对体温调节有重要影响,同时在药物代谢的过程中起关键作用。CYP450亚家族种类繁多,CYP3A4
是亚家族种类之一。CYP3A4
是一种含有附带一个铁原子的亚铁血红素基团的蛋白,也是参与黄曲霉毒素代谢的主要I 相代谢酶,在人体肝脏中含量丰富,具有致癌活性的AFB18、9-环氧化合物就是在该酶的作用下由黄曲霉毒素B1(AFB1)活化而成的。Ng等测量了肝癌患者、其他慢性肝病患者和健康对照者的CYP3A4酶活性,以尿中的6β-羟基氢化可的松为研究指标,结果显示:健康对照和其他慢性肝病患者尿中的6β-羟基氢化可的松水平明显低于肝癌患者;肝癌的危险性与CYP3A4酶活性有一定的关系。杨立群等研究表明:相较于正常肝,肝炎后肝硬化患者CYP3A4
的P450 含量几乎没有变化,其微粒蛋白也无明显改变;但其蛋白表达与活性明显下降,基因表达也有所下降。生物信息学是一门集生命科学及相关学科交叉融合的前沿科学,可依托蛋白质和基因组学序列信息分析序列的结构功能。伴随着计算机储存的快速发展,大数据及相关软件和生物信息学数据库在生命科学研究中发挥越来越重要的作用。鉴于此,综合利用生物信息学方法,选用DNASTAR、ProtParam、SignalP5.0、MEGA 等生物信息学平台,进一步探究人源肝脏细胞色素代谢酶CYP3A4
基因的生物学特性,以期为肝癌、肝炎等疾病机制及其药物研发提供参考。1 资料和方法
1.1 资料
在美国国立生物技术信息中心NCBI 基因序列数据库中检索序列信息,下载人源肝脏细胞色素代谢酶CYP3A4
基因的mRNA 序列(登录号:NM_001202855.3)及其编码的蛋白质序列(登录号:NP-001189784.1),备用。1.2 方法
1.2.1 基因编码区碱基序列组成和蛋白理化特性分析
用DNASTAR 系统的EditSeq 模块,以及ExPASy 数据库中的ProtParam(http://www.exPasy.org/tools/protparam)分别对人源CYP3A4
基因编码区碱基序列组成和蛋白理化特性进行分析。1.2.2 蛋白结构分析
用SOPMA 软件分析人源CYP3A4 蛋白二级结构,用SWISS-MODEL(https://swissmodel.expasy.org/)软件构建蛋白三级结构。
1.2.3 蛋白亲/疏水性分析
用Protscale(https://web.expasy.org/protscale)软件预测人源CYP3A4蛋白的亲/疏水性。
1.2.4 蛋白信号肽及跨膜结构分析
分别用SignalP5.0(http://www.cbs.dtu.dk/services/SignalP-5.0)和TMHMM 2.0(http://www.cbs.dtu.dk/services/TMHMM2.0)软件对人源CYP3A4蛋白的信号肽和跨膜结构进行分析。
1.2.5 蛋白N-糖基化位点和磷酸化位点分析
用NetNGlyc 1.0 (http://www.cbs.dtu.dk/services/ NetNGlyc 1.0)和NetPhos 3.1 (http://www.cbs.dtu.dk/services/NetPhos 3.1)分别预测人源CYP3A4蛋白的N-糖基化位点及其磷酸化位点。
1.2.6 B细胞抗原表位分析
用IEDB(http://www.iedb.org/)提供的蛋白质抗原表位在线分析工具预测人源CYP3A4 蛋白的B 细胞抗原表位。
1.2.7 蛋白相互作用关系网络的构建及通路分析
主要通过String 数据库完成有关CYP3A4 蛋白信号通路分析,以排列靠前10 位蛋白交互内为检索条件,构建蛋白相互作用PPI 网络,进行GO 功能注释和KEGG 通路富集分析。选择homo sapiens,将阈值调至高置信度0.700。
1.2.8 蛋白氨基酸序列同源性分析及系统进化树的构建
选用MEGA5.0 软件中的邻接法(Neighbor-Joining)对CYP3A4
氨基酸序列进行同源性分析,构建与之同源性相关联的不同物种的CYP3A4
氨基酸序列的系统进化树,其中自展值(Bootstrap)设为1 000 次。选用DNASTAR 软件中的MegAlign 模块(Jotun Hein 法,PAM 设为250)分析人源CYP3A4
氨基酸序列和其他相关物种与人源CYP3A4
氨基酸序列的同源性差异。2 结果与分析
2.1 CYP3A4基因序列
人源CYP3A4
基因mRNA 序列的编码区长为1 509(位于104~1 612 处),共编码502 个氨基酸。人源CYP3A4
基因编码区的A,G,T,C 体积分数分别为29.16%,21.80%,27.24%,21.80%,其中A+T 体积分数(56.40%)高于C+G体积分数(43.60%)。2.2 CYP3A4蛋白理化性质
经ProtParam软件分析人源CYP3A4蛋白的理化性质,结果显示CYP3A4 蛋白相对分子质量为57 256.10,分子式为CHNOS,理论等电点为8.27,脂肪系数为95.86,平均亲水系数为-0.038(亲水),不稳定系数为41.25,略高于阈值40,CYP3A4 蛋白在体外不稳定。序列N-末端是甲硫氨酸,在酵母和大肠杆菌体内表达半衰期分别为20,10 h,在哺乳动物网状红细胞体外表达的半衰期为30 h。CYP3A4蛋白氨基酸组成如表1。由表1可看出:CYP3A4蛋白氨基酸组成中,色氨酸(Trp)占比最低(占0.8%),亮氨酸(Leu)占比最高(占11.8%);带正电荷的氨基酸(精氨酸(Arg)和赖氨酸(Lys))残基数为60 个,带负电荷的氨基酸(天冬氨酸(Asp)和谷氨酸(Glu))残基数为57个。
表1 CYP3A4蛋白氨基酸组成Tab.1 Amino acid composition of CYP3A4 protein
2.3 CYP3A4蛋白二级结构和三级结构
预测结果显示,人源CYP3A4 蛋白的二级结构包 含223 个α 螺 旋(占44.42%)、27 个β 转 角(占5.38%)、72 个延伸链(占14.34%)和180 个无规卷曲(占35.86%)。经程序分析人源CYP3A4 蛋白的三级结构与二级结构分析结果完全一致。
2.4 CYP3A4蛋白亲/疏水性
人源CYP3A4 蛋白的亲/疏水性结果如图1。由图1 可看出:人源CYP3A4 蛋白疏水性最强位于第18 位点处,得分为3.156;在第420,421 位点处亲水性最强,得分为-2.744。通过比较疏水性和亲水性区域可知,人源CYP3A4蛋白为一种亲水性蛋白质。
图1 CYP3A4蛋白疏水性分析Fig.1 Hydrophobicity analysis of human CYP3A4 protein
2.5 CYP3A4蛋白信号肽和跨膜结构
人源CYP3A4信号肽的酶切位点是根据综合剪切位点分值的最大值来判断的,信号肽分值可用于辨别有无蛋白分泌。预测结果显示:CYP3A4 蛋白信号肽的酶切位点位于第28~29 bp处;CYP3A4蛋白存在2个跨膜结构。
2.6 CYP3A4糖基化和蛋白磷酸化位点
人源CYP3A4 蛋白N-糖基化位点分析结果如图2。由图2 可得,人源CYP3A4 蛋白分别在第360 和461 处含有2 个N-糖基化位点。蛋白磷酸化位点结果显示,人源CYP3A4 蛋白含47 个磷酸化位点,分别为19 个苏氨酸位点(位于27,42,92,103,136,138,166,171,187,207,263,283,309,322,362,408,432,470和 498 处)、22 个丝氨酸位点(位于18,29,119,131,134,139,186,188,251,258,277,280,285,290,311,314,397,419,463,477,494和500处)和6 个酪氨酸位点(位于68,75,346,406,429和431处)。
图2 CYP3A4蛋白N-糖基化位点分析Fig.2 N-glycosylation sites analysis of CYP3A4 protein
2.7 B细胞抗原表位
CYP3A4
基因的B 细胞抗原表位分析结果如图3。由图3 可看出,该基因B细胞抗原表位有20 处,分别位于37~45 位氨基酸(aa),75~84 aa,88~89 aa,106~109 aa,120~126 aa,137~140 aa,162~171 aa,195~205 aa,258~265 aa,278~287 aa,307~309 aa,323~331 aa,337~347 aa,400~402 aa,404~413 aa,418~429 aa,431~440 aa,467~471 aa,482~485 aa和487 aa处。图3 CYP3A4蛋白B细胞抗原表位分析Fig.3 Epitopes analysis CYP3A4 protein B cell antigen
2.8 CYP3A4基因GO富集和KEGG通路
人源CYP3A4 的相关蛋白相互作用PPI 网络如图4。由图4 可得:CYP3A4 蛋白与尿苷二磷酸葡糖醛酸转移酶1A1(UGT1A1)、尿苷二磷酸葡糖醛酸转移酶1A8(UGT1A8)、尿苷二磷酸葡糖醛酸转移酶2B7(UGT2B7)等10 个蛋白构成交互网络;PPI 网络共有11个节点,10条边。经进一步分析可知其平均节点度和聚类P
值分别为4.91和7.76E-06。图4 CYP3A4相互关联蛋白网络Fig.4 CYP3A4 interrelated protein network map
对CYP3A4
生物学过程(biologiccal process,BP)、分子功能(molecular function,MF)、细胞组分(cellular component,CC)及KEGG 通路进行分析,结果见表2。由表2 可看出:CYP3A4 蛋白主要涉及联苯分解、胆红素结合、黄酮代谢、单帖代谢、葡萄糖醛酸基转移酶活性的负调控等系列生物过程,据文献[14-15]可知中药黄酮类成分具有广泛的药理及生物活性,很多中药黄酮提取物及黄酮单体化合物对CYP3A4 酶具有明显的抑制作用或诱导作用;CYP3A4蛋白在咖啡因氧化酶活性、N,N-二甲基苯胺单氧酶活性、葡萄糖醛酸基转移酶活性、类固醇羟化酶活性等方面发挥重要作用;细胞组分主要集中在膜、质膜和细胞体中;蛋白网络主要涉及的KEGG 信号通路包括抗坏血酸和阿尔尿酸代谢、药物代谢-细胞色素P450、戊糖、葡萄糖醛酸转换、视黄醇的新陈代谢和胆汁分泌等。该结果也在一定程度上印证了细胞色素P450体系是药物氧化代谢的核心体系,其中含量最丰富的是CYP3A亚家族,该酶系能催化大多数的处方药、环境致癌物、类固醇激素等的代谢。表2 CYP3A4及相关基因GO功能注释和KEGG通路富集Tab.2 GO functional annotation and KEGG pathway enrichment of CYP3A4 and related genes
续表2
2.9 CYP3A4蛋白系统进化和同源性
构建的不同种属CYP3A4
氨基酸序列进化树如图5。由图5可得,人源CYP3A4蛋白与同属灵长类的Pan troglodytes(黑猩猩)处在同一个分支,其亲缘关系最近,其次是Macaca mulatta (猕猴)、Macaca fascicularis (食蟹猴)、Papio anubis (东非狒狒),与Xenopus tropicalis (热带爪蟾)、Gallus gallus (鸡)的亲缘关系最远,实验结果可信度整体高。图5 CYP3A4蛋白进化树Fig.5 Phylogenetic tree of CYP3A4 protein
由DNASTAR 软件中的MegAlign 模块对选取的9个物种进行氨基酸序列对比分析,结果如图6。
图6 人和其他物种CYP3A4蛋白的氨基酸序列同源性分析Fig.6 Amino acid sequence homology of CYP3A4 protein of homology with other species
由图6 可看出,人源CYP3A4 蛋白(NP_001189784.1) 与猕猴(NP_001035504.1)、食蟹猴(NP_001271463.1)、黑 猩 猩(NP_001116247.1)、东 非 狒 狒(XP_003895805.1)、牛(NP_024840513.1)、狗(XP_038524063.1)、鸡(NP_001316437.1)、热带爪蟾(NP_001015786.1)的氨基酸序列同源性分别为93.4%,93.6%,98.6%,94.4%,76.9%,80.1%,60.0%和60.5%。由此可知:人源CYP3A4 蛋白在不同物种中同源性较高,在进化中则比较保守,该结果由CYP3A4蛋白氨基酸序列得到;人源CYP3A4蛋白氨基酸序列与热带爪蟾和鸡的同源性最低,狗和牛次之,在黑猩猩、东非狒狒、食蟹猴、猕猴中同源性最高,与进化树比对结果一致。
3 结 论
利用生物信息学的方法探究人源CYP3A4
基因的生物学特性,得到如下主要结论:1)人源CYP3A4
基因的编码区长1 509 bp,编码502个氨基酸,CYP3A4蛋白分子式为CHNOS,相对分子质量为57 256.10,脂肪系数为95.86,CYP3A4 蛋白二级结构主要由α 螺旋(44.42%)、β 转角(5.38%)、延伸链(14.34%)和无规卷曲(35.86%)构成,该蛋白存在2个跨膜结构,信号肽位于第28~29 bp处,是亲水性蛋白,有2个N—糖基化位点和47个磷酸化位点,存在20个B细胞抗原表位。2)通过String数据库得到人源CYP3A4蛋白相关功能和通路,CYP3A4蛋白在联苯分解、黄酮代谢、葡萄糖醛酸基转移酶活性的负调控、视黄醇的新陈代谢和胆汁分泌等系列信号通路中发挥重要作用,是药物氧化代谢的核心体系。
3)经同源性分析和进化树显示,黑猩猩、东非狒狒和猕猴与人源CYP3A4 蛋白相似性最高,亲缘关系最近。