葡萄汁酵母NOT5 基因生物信息学分析
2022-09-13丁淑金杨彦萍邓茹友马福仙尹拓张汉尧
丁淑金,杨彦萍,邓茹友,马福仙,尹拓,张汉尧
(西南林业大学林学院,西南地区生物多样性保育国家林业局重点实验室,云南昆明 650224)
葡萄汁酵母(),是酿酒酵母的姊妹种,最初被认为是贝酵母()酵母的同义词,但现在被认为是一个独立的种,随后成为从事应用和基础研究的科学家感兴趣的对象。它与它的姊妹种,包括真贝酵母()、奇异酵母()和酿酒酵母()杂交,形成在啤酒工业中很重要的杂交菌种。葡萄汁酵母是一种耐低温酵母,通常用于寒冷地区的白葡萄酒发酵,也与苹果酒生产和一些传统发酵有关。此外,葡萄汁酵母在较低温度下发酵时具有更平衡的香气特征。然而,对这种酵母的起源和遗传多样性和基因功能等领域的研究还非常少,需要对其进行更多的研究。
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21 世纪自然科学的核心领域之一。生物信息学是涉及多个领域的一门学科,主要是使用生物算法及相关软件工具最终得到生物数据;其研究重点主要在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,即从核酸和蛋白质序列出发,分析序列的生物信息,推测其生物功能。
CCR4-NOT 蛋白复合体是多亚基蛋白复合体,从酵母到人类进化高度保守,酵母中所含有的核心亚基,在人类中都有着相似的同源物。在酵母中,主要有九种核心亚基:CCR4、CAF1、CAF40、CAF130、NOT1、NOT2、NOT3、NOT4、NOT5,至少存在有1 MDa 和 2 MDa 两种不同的组成形式。较小复合体组成形式可能只有核心亚基组成,较大的组成形式可能与其他细胞因子相互作用形成的复合体。NOT蛋白是TATA 框缺失的负调节因子。和最初被认为是基因,即和,在限定温度下,该基因突变能够引起G1 期停滞。在CCR4-NOT 蛋白复合体结构中,NOT1 蛋白作为支架蛋白,可与复合体中其他蛋白亚基结合,形成稳定的复合物。除了复合体中的 CAF40 和CAF130外,其它主要成员均已通过遗传选择得到鉴定。CCR4-NOT 蛋白复合体中的成员CCR4 作为去酰基化酶,可阻遏抑制碳代谢,该基因的突变能使乙醇脱氢酶ADH2 基因的表达逃脱葡萄糖的抑制,与CAF1和NOT1 相互作用,形成一个核酸酶组件,行使功能。是CCR4 蛋白相关因子的基因,起初被鉴定为基因,对葡萄糖的解阻遏是必须的。蛋白质降解的泛素化途径,同样备受近几年的关注。NOT4 蛋白作为锌指结构E3 泛素连接酶,它的C 末端组件与NOT1 结合,N 末端结构与Ubc4 结合,形成一个泛素化组件。
NOT5 蛋白亚基在转录和翻译过程中参与 RNA聚合酶Ⅱ的组装。真核生物RNA 聚合酶II(RNA Pol II)被发现对转录后RNA 处理事件有指导作用。它作为机器部件的着陆平台,涉及基因帽盖、拼接和基因输出。最近,一种更具挑衅性的RNA Pol II 亚单位Rpb4 被认为转录过程中不仅在细胞核中发挥作用而且在细胞质中发挥作用,促进RNA 降解和翻译过程。NOT5 处于转录和翻译双向交流的中心位置。在细胞核和细胞质中,NOT5 对核糖核酸聚合酶II 起着“桥梁”作用。在细胞质中,NOT5与编码RNA 聚合酶II 的mRNA 相互作用,支持共伴侣与新产生的蛋白质的结合,以保持其可溶性和组装能力。在细胞核中,NOT5 与聚合酶的Rpb4 亚单位相互作用,Rpb4 亚单位容易与聚合酶的其余部分解离,Rpb4 在转录完成时与mRNA 结合以促进细胞质中的翻译和mRNA 降解。
已有研究表明,参与广泛细胞过程的全转录调节,但葡萄汁酵母基因的生物信息学分析报道较少,影响了对其功能的全面了解。因此,本文通过多种在线分析工具对基因的结构和功能进行生物信息学分析,为以后研究该基因在细胞转录和翻译中的作用提供参考。
1 实验方法
1.1 葡萄汁酵母NOT5 基因的获取
实验所用数据来自课题组前期的转录组测序所得数据,利用NCBI 的BLAST 工具获取与葡萄汁酵母基因同源性高的EST 序列;再用CAP3在线软件拼接、组装,获得基因序列。首先,从NCBI(https://www.ncbi.nlm.nih.gov/)上获取基因序列,用Nucleotide BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)得到6 个与基因相似性高的同源序列(表1)。序列的比对由ClusterW 程序完成。并用 MEGA7.0 软件找出保守序列,再用保守序列从课题组前期的转录组测序数据中克隆得到葡萄汁酵母基因序列。
表1 物种名称与相关信息表Table 1 Species name and related information table
1.2 葡萄汁酵母NOT5 基因的分析
克隆得到目的基因序列后,借助Open Reading Frame Finder 工具查找目的核苷酸序列中存有的开放阅读框,预测基因的氨基酸序列。利用ExPASy中的ProtParam 预测NOT5 蛋白质的分子式、分子质量和不稳定系数等理化性质。蛋白质的亲水性、信号肽和亚细胞定位情况分别利用ProtScale、SignalP 5.0 server、Targetp 和CELL v2.5 等网站进行预测(表2)。通过TMHMM 在线软件研究蛋白质跨膜区。借助Predict Protein 进行蛋白质的二级结构分析。借助Smart 在线工具对蛋白的结构域进行分析。采用PROSITE 数据库对蛋白质作出Motif查询,并运用MEME 在线工具比较蛋白质的保守元件。蛋白质空间结构模型通过Alpha Fold 网站建立。将所得到的氨基酸序列导入BLAST 中,获得与该氨基酸序列同源性较高的10 条氨基酸序列,建立系统发育树,分析亲缘关系。将这些氨基酸序列导入Mega 7.0 中,对蛋白序列进行多序列比对,然后用邻接法(Neighbour-Joining,NJ)进行建树分析。
表2 NOT5 基因生物信息学分析内容及相关软件、网址Table 2 NOT5 gene bioinformatics analysis content,related software and website
2 结果与分析
2.1 目标序列编码的蛋白
Open Reading Frame Finder 查询结果表明,起始密码子和终止密码子分别是ATG 和TAA,该核苷酸序列的开放阅读框长1446 bp,可编码481 个氨基酸(图1)。
图1 葡萄汁酵母NOT5 基因基因编码出的蛋白质序列Fig.1 Sequence of protein encoded by the NOT5 gene of Saccharomyces uvarum
2.2 NOT5 基因染色体定位
将基因名输入NCBI 功能基因数据库查询,得知其RNA 名称CCR4-NOT core subunit NOT5,外显子数为1,基因组序列是NC_001148.4,基因编号为856186,染色体定位如图2,位于XVI 染色体690107~691789。
图2 NOT5 基因染色体定位图Fig.2 Chromosomal localization map of the NOT5 gene
2.3 NOT5 基因的亲缘关系分析
从图3 可知,葡萄汁酵母基因与NOT5 like protein XP018219088.1的基因亲缘关系最为接近,二者同源性较高,说明此试验得到的基因序列无误,同时也说明该基因与葡萄汁酵母编码的蛋白质功能可能相似。
图3 NOT5 基因编码蛋白系统进化树分析Fig.3 Analysis of genetic relationship of the NOT5 gene encoding protein
2.4 葡萄汁酵母NOT5 基因编码的蛋白质一级结构分析
2.4.1 葡萄汁酵母基因编码蛋白的理化性质分析 蛋白质分子式为CHNOS,分子质量为56311.02,该蛋白质的理论pI 值为4.89。在该条基因上,各氨基酸均有表达,其中谷氨酸(Glu)和赖氨酸(Lys)含量较高,所占比例分别为10%和9.1%。蛋白质不稳定系数为57.62,脂肪系数为64.03,总平均亲水性为−0.929,且N 端氨基酸为蛋氨酸(Met),因此判定其为不稳定蛋白(蛋白质不稳定系数大于40.0)。
2.4.2 亲疏水性分析 据图4 可知,在73、74、75、170、171、244 氨基酸位点附近的分值分别是−3.3、−3.267、−3.267、−3.278、−3.278、−3.033,根据20 种氨基酸的亲疏水性特性,氨基酸的正值越高则疏水性越强,反之疏水性越弱,亲水性越强,由分析结果可知NOT5 蛋白在上述位点处具有较高亲水性,推测此区域可能存在折叠。其最低分和最高分分别为-3.3 和1.667,可能存在跨膜区(Scare>1.5)。从整体分析来看,负值的比例远远大于正值的比例,因此可推测所编码的蛋白为亲水性蛋白,与理化性质分析结果中平均亲水系数为−0.929 相一致。
图4 葡萄汁酵母NOT5 编码蛋白质的亲水性Fig.4 Hydrophilicity of the protein encoded by the NOT5 gene of S.uvarum
2.4.3 信号肽预测 根据2.4.2 亲疏水性分析结果显示,基因编码的蛋白质为水溶性蛋白,推测该蛋白质可能无信号肽。将该氨基酸序列提交到SignalP 5.0 server 中分析,结果如表3 与图5 所示,与前文分析结果一致,该蛋白存在信号肽概率为0%。
图5 NOT5 基因编码蛋白质的信号肽预测Fig.5 Signal peptide prediction of the protein encoded by the NOT5 gene
表3 葡萄汁酵母NOT5 基因编码蛋白质的信号号肽预测Table 3 Signal peptide prediction of protein encoded by the NOT5 gene
2.4.4 亚细胞定位预测 亚细胞定位与蛋白质的功能存在着非常密切的联系。PSORT Ⅱ在线软件预测结果如表4 所示,该蛋白可能位于线粒体中的概率最大,因此该蛋白极有可能位于细胞质中的线粒体上,是参与物质代谢的调控因子。
表4 葡萄汁酵母NOT5 基因编码蛋白质的亚细胞定位预测Table 4 Prediction of subcellular localization of the protein encoded by the NOT5 gene
2.5 葡萄汁酵母NOT5 基因编码蛋白质二级结构预测
2.5.1 Coil 区分析 卷曲螺旋是左手超螺旋结构的总称,由两个或多个缠绕在不同天然蛋白质之间的-螺旋组成。使用COILS 在线分析工具,该工具以Lupas 算法为基础,预测该蛋白质的卷曲螺旋,结果如图6 所示,该蛋白质残基在3 个不同窗口(window14、21、28)均显示有卷曲螺旋区域。
图6 NOT5 基因编码蛋白质的Coil 区分析Fig.6 Analysis of the Coil region of the protein encoded by the NOT5 gene
2.5.2 跨膜结构分析 结果如图7 表明,该蛋白全部位于细胞膜外表面,未发现可能的跨膜区,故该蛋白不跨膜,推测该蛋白是非脂溶性蛋白质,此分析结果与2.4.2 亲疏水性分析结果一致。
图7 NOT5 基因编码蛋白质的跨膜结构分析Fig.7 Analysis of transmembrane structure of the protein encoded by the NOT5 gene
2.5.3 蛋白质二级结构预测 借助网站Predict Protein 进行这组蛋白质的二级结构分析,预测结果如图8 和表5 所示,据图和表可知该蛋白质二级结构中各元件的占比;因此在NOT5 所编码的蛋白质二级结构中,随机卷曲和-螺旋是主要元件。
图8 NOT5 基因编码蛋白质的二级结构预测Fig.8 Secondary structure prediction of protein encoded by the NOT5 gene
表5 二级结构中各元件的比例(%)Table 5 Proportion of components in a secondary structure (%)
2.6 葡萄汁酵母NOT5 基因编码蛋白质结构域
2.6.1 葡萄汁酵母基因编码蛋白质Motif 搜索 将基因编码的氨基酸序列提交到PROSITE 在线分析工具中,对该基因编码的蛋白质进行的Motif 搜索。结果如图9 所示,该蛋白在314~335位存在富含赖氨酸的区域。
图9 NOT5基因编码蛋白质Motif 搜索和结构域分析Fig.9 NOT5 gene encoding protein Motif search analysis
2.6.2 葡萄汁酵母基因编码蛋白质的结构域分析 借助Smart 在线工具对NOT5 蛋白的结构域进行研究图10 和表6,结果如图,该氨基酸序列中,存在Pfam Not3 和Pfam NOT2_3_5 结构域。
表6 NOT5 编码蛋白的结构域预测Table 6 Domain prediction of the NOT5 gene encoded proteins
图10 NOT5 基因编码蛋白质的结构域分析Fig.10 NOT5 gene encoding protein structural domain analysis
2.7 葡萄汁酵母NOT5 基因编码蛋白质的三级结构预测
预测结果显示(图11),以白色念珠菌(strain SC5314/ATCC MYA-2876)(Yeast)为模板构建NOT5蛋白的三级结构,橙色部分(较少)表示孤立的非结构化区域,说明建模质量较好。此图清晰的表明该蛋白主要由卷曲、螺旋和折叠所构成,与二级结构预测相符。
图11 NOT5 基因编码蛋白质的三级结构预测Fig.11 Tertiary structure prediction of protein encoded by the NOT5 gene
3 讨论与结论
NOT1 蛋白一级结构由2108 个氨基酸组成,在其氨基酸序列1009~1058 和1294~1354 中,富含较多的谷氨酰胺;NOT2 蛋白一级结构由191 个氨基酸组成,包含有两个功能域,即C 末端功能域和N 末端功能域;NOT3 蛋白一级结构由836 个氨基酸组成,在氨基酸序列的39~68、120~161、258~290 处有螺旋结构,其氨基酸序列的1~81 为HR1 组件,在信号转导过程中能够结合小G 蛋白;NOT4 蛋白的一级结构由587 个氨基酸组成,在其氨基酸序列的33~77 间有环形的锌指组件。人类NOT4 蛋白CNOT4 的体外泛素化实验证明,NOT4 蛋白是E3 泛素连接酶。它的螺旋卷曲结构和Pham:rrm 基序能够被RNA 结合蛋白识别,而且也能被一些单链的DNA 结合蛋白识别;NOT5 蛋白一级结构中含有560 个氨基酸序列,它的N 末端1~150 位氨基酸序列上与NOT3 蛋白1~148 位有44%的同源性,同NOT3 蛋白一样,在其氨基酸序列的39~66 和126~176 区段,也存在螺旋卷曲基序,NOT3 和NOT5高度相似性,且 NOT5 和NOT3 之间可能存在功能冗余。人类和果蝇只有一个同源域,被称为 CNOT3。在人类细胞中,CNOT3 被可变剪切产生一个长的和短的蛋白,即 CNOT3L 和 CNOT3S。目前,没有数据证明CNOT3 蛋白是酵母NOT3 的蛋白同源物,还是NOT5 蛋白的同源物。而且在酵母中,这两个基因功能并不完全冗余,NOT5 缺失突变的表型比NOT3 的更明显。本研究结果得到的NOT5 基因可编码481 个氨基酸,该蛋白质残基在3 个不同窗口(Window14、21、28)均显示有卷曲螺旋区域;与已报道的文献部分相似,但也不完全一致,这或许是由于研究对象不同所导致。
NOT5 蛋白亚基在转录和翻译过程中参与 RNA聚合酶Ⅱ的组装。在细胞核中,该蛋白复合体主要参与染色质修饰、转录延伸、转录偶联过程中DNA损伤修复等。在细胞质中,该复合物作为重要的去酰基化酶,在mRNA 的衰变、转录抑制和转录后调节过程中的翻译抑制起重要作用。此外,CCR4-NOT 蛋白复合体也具有 E3 泛素连接酶活性,参与蛋白质降解。每个功能的作用机制仍在讨论中。要画出一幅清晰的画面有一定的困难,因为它与许多调节细胞质和细胞核中mRNAs 和蛋白质的过程有关。