绵羊APOA4 基因的生物信息学分析
2022-08-19王国秀陈占玉黄永亮
王国秀,陈占玉,黄永亮,李 冲
(甘肃农业大学动物科学技术学院,甘肃 兰州 730070)
载脂蛋白(Apolipoprotein,APO)是构成血浆脂蛋白的蛋白质组分,基本功能是运载脂类物质及稳定脂蛋白的结构,在血浆脂蛋白的代谢中能促进脂类运输并调节酶活性[1]。其主要在肝脏和小肠中合成,可分为A、B、C、D、E 五类,能够影响血脂代谢和利用,从而引起冠心病、糖尿病等的发生[2]。
载脂蛋白A-IV(Apolipoprotein A-IV,APOA4)是1974 年由Swaney 等人在大鼠的高密度脂蛋白中首次发现的,经过水解后生成酸性糖蛋白,主要存在于乳糜微粒、极低密度脂蛋白和高密度脂蛋白中[3-4]。APOA4 基因与APOA1 和APOC3 基因连锁[5]。众多研究表明,APOA4 基因上的多态现象与血糖、血浆脂蛋白、胆固醇以及甘油三酯等的水平相关,也有研究发现APOA4 基因多态性变异可能会影响胆固醇的吸收和分解[6]。另外,APOA4 基因的缺陷可直接导致血浆中的载脂蛋白A-IV 水平的下降或活性的改变,其他一些脂蛋白和胆固醇的水平相应升高,从而大大提高患高脂蛋白血症和冠心病的风险[2]。近年来,学者研究还发现,除小肠以外脂类的吸收还可以刺激下丘脑合成APOA4[5]。
脂质代谢和能量平衡是羊生长发育的重要限制因素,同时绵羊肌内脂肪的沉积受肌肉组织中代谢酶和功能基因的调控,深入全面地了解绵羊脂肪代谢和肌内脂肪沉积的机制及影响因素,对生产高品质肉产品至关重要[7]。APOA4 基因作为载脂蛋白家族基因成员,有可能对绵羊脂类代谢和能量平衡发挥重要作用。但目前对APOA4 基因的研究大多局限于人类医学,而绵羊APOA4 基因方面的研究和分析较少。有研究通过转录组测序发现热应激条件下湖羊肝脏的差异表达lncRNA Lnc_001782 可能正向影响APOA4 的表达,共同调节肝脏功能[8]。但专门针对绵羊APOA4 基因及其编码产物理化特性和生物功能的研究未见报道。生物信息学是利用数学方法处理和分析生物数据,基于人们现有对分子生物学的认识和构建生物模型,进而分析其生物学特性的方法[9-10]。我们用生物信息学方法对绵羊APOA4 基因及其编码产物的理化性质、序列特征、蛋白质结构以及生物学功能进行分析,以期为进一步探索APOA4 基因及其编码蛋白的生物学功能,以及APOA4 基因和绵羊健康与生长发育的关系提供线索。
1 材料与方法
1.1 序列来源
从美国国立生物技术信息中心(NCBI)GenBank数据库中检索绵羊、山羊、牛、马、猪、鸡、人、猫、狗、小鼠、兔、鸭等12 个物种的APOA4 基因mRNA 序列。物种名称及GenBank 登录号见表1。
表1 12 个物种APOA4 基因的GenBank 登录号
1.2 研究方法
绵羊APOA4 基因开放阅读框(Open reading frame,ORF)采 用ORFfinder 程序预测(https://www.ncbi.nlm.nih.gov/orffinder),APOA4 基因编码产物的理化性质采用Bioedit 程序分析(https://www.expasy.org/resources/protparam),蛋白潜在信号肽剪切位点采用Signalp 3.0 程序分析(http://www.cbs.dtu.dk/services/SignalP-3.0),蛋白跨膜螺旋结构采用TMHMM Server v.2.0 程序分析(http://www.cbs.dtu.dk/services/TMHMM),蛋白保守结构域采用Smart 程序分析(http://smart.embl-heidelberg.de),蛋白亲疏水性采用ProtScale 工具分析(http://ca.expasy.org/tools/protscale.html)。不同物种间多序列比对和同源性分析采用DNAMAN 软件完成。蛋白二级结构采用Jpred 软件分析预测,蛋白三级结构采用Swiss-model 软件分析预测。
2 结果与分析
2.1 绵羊APOA4 基因开放阅读框分析
从ORF 分析结果可以看出(图1),绵羊APOA4基因序列共识别出4 个ORF。其中ORF2 有1 143 bp,起始密码子位于201 bp 处,终止密码子位于1 343 bp 处,推测其编码380 个氨基酸残基。
图1 绵羊APOA4 基因序列的ORF 分析
2.2 APOA4 蛋白基本理化性质分析
蛋白质的基本性质包括其相对分子质量、氨基酸组成、等电点基因编码产物半衰期和不稳定指数等[9]。对绵羊APOA4 蛋白的理化性质进行分析,结果表明绵羊APOA4 蛋白共380 个氨基酸,其分子式为C1881H3051N535O594S5,分子质量为42 825.44 kDa,理论等电点pI 为5.36。其氨基酸组成如表2 所示,其中含量最多的是Leu(亮氨酸),所占比例为13.66%;含量最少的是Cys(胱氨酸),含量为0。负电荷残基总数(Asp+Glu)为59,正电荷残基总数(Arg+Lys)为48。基因编码产物半衰期为30 h,不稳定指数为53.11,不稳定指数为53.11>40.00,属不稳定蛋白。
表2 绵羊APOA4 基因编码蛋白的氨基酸组成
2.3 绵羊APOA4 蛋白亲/疏水性分析
通过ProtScale 工具分析APOA4 基因编码蛋白质的亲疏水性。结果(图2)表明,该基因编码蛋白疏水性最大值为2.978(第9 位),最小值为-2.522(第97位)。多数位点疏水性值为负值,即该基因编码的蛋白属于亲水蛋白。
图2 绵羊APOA4 基因编码蛋白质疏水性/亲水性预测分析
2.4 绵羊APOA4 蛋白潜在信号肽剪切位点预测
信号肽序列是起始密码子后一段编码疏水性氨基酸序列的RNA 区域,负责把蛋白质引导到细胞含不同膜结构的亚细胞器内,或被分泌到细胞外发挥功能[11]。通过Signalp 3.0 程序分析检测绵羊APOA4 蛋白潜在信号肽的存在情况,分析APOA4 基因编码产物是否是分泌蛋白和跨膜蛋白以及跨膜蛋白的基本信息。从绵羊APOA4 基因蛋白潜在信号肽剪切位点分析结果可以看出(图3),该基因编码产物的C 值、Y 值和S 值分别为0.826、0.638 和0.999,绵羊APOA4 蛋白存在信号肽剪切位点,位于第23 和第24 个氨基酸之间(VLA-QVV)。
图3 绵羊APOA4 蛋白潜在信号肽剪切位点分析
2.5 绵羊APOA4 蛋白跨膜螺旋结构预测
从TMHMM 2.0 软件的分析结果可以看出(图4),APOA 蛋白没有跨膜螺旋结构,所有序列均在膜外,该序列编码的是分泌性蛋白。
图4 绵羊APOA4 蛋白跨膜螺旋结构分析结果
2.6 绵羊APOA4 蛋白亚细胞定位预测
从绵羊APOA4 蛋白的亚细胞定位预测结果可以看出(表3),绵羊APOA4 蛋白分布于细胞外的可能性为66.77%,分布于细胞质的可能性为11.1%,分布于内质网的可能性为11.1%,分布于液泡的可能性也为11.1%。由此推断,绵羊APOA4 基因编码蛋白为胞外蛋白,主要在细胞外发挥生物学作用。
表3 绵羊APOA4 蛋白质亚细胞定位预测分析
2.7 绵羊APOA4 蛋白结构域分析
通过Smart 软件分析,绵羊APOA4 蛋白包含3 个结构域(图5)。其中第1 个结构域位于第3~18位,为低复杂性结构域(low-complexity domain);第2 个结构域和第3 个结构域分别位于83~114和237~265 位,为卷曲螺旋结构域(coiled coil)。
图5 绵羊APOA4 蛋白保守结构域分析
2.8 绵羊APOA4 编码产物的同源性分析及系统发育分析
采用DNAMAN 软件对绵羊、山羊、牛、马、猪、鸡、人、猫、狗、家鼠、兔和野鸭APOA4 蛋白进行多序列比对,结果如图6、图7 所示。APOA4 基因在这12 个物种中均有表达,且绵羊与牛和山羊的APOA4 蛋白氨基酸序列同源性较高(图6)。APOA4 编码产物同源树也表明(图7),在分析中选取的12 个物种中,绵羊、山羊和牛的APOA4 蛋白氨基酸序列同源性最高。
图6 12 个物种的APOA4 基因编码序列比对
图7 12 个物种的APOA4 基因编码产物序列的同源树
2.9 绵羊APOA4 蛋白二级结构的预测
二级结构(secondary structure)是蛋白质分子中的局部区域内氨基酸残基的有规则的排列[10]。通过Jpred 软件分析可知(图8),绵羊APOA4 蛋白二级结构α-螺旋(α-helix,Hh)和无规卷曲(random coil,Cc)分别占比98.16%和1.84%,不存在β-折叠。即绵羊APOA4 蛋白的二级结构以α-螺旋为主。
图8 绵羊APOA4 蛋白二级结构预测
2.10 绵羊APOA4 蛋白三级结构预测与分析
三级结构(tertiary structure)是指蛋白质在二级结构基础上的进一步折叠,通过将二级结构元素组装在一起形成每个蛋白质特有的三维构象[12]。由分析结果可知(图9),APOA4 蛋白的三级结构主要由α-卷曲折叠缠绕形成。
图9 APOA4 蛋白的三级结构的分析结果
3 小结与讨论
对绵羊APOA4 基因生物信息学的分析结果表明,绵羊APOA4 基因的ORF 编码380 个氨基酸残基,编码蛋白分子质量为32 825.44 kDa,理论等电点为5.36,为不稳定的亲水蛋白;存在信号肽,不存在跨膜结构,为分泌性蛋白,主要在细胞外发挥生物学作用。二级结构和三级结构都以α-螺旋为主,与山羊和牛的同源性最高。
绵羊作为草食反刍动物,体内能量平衡对于健康和生长发育非常关键,而脂质的吸收、转运和代谢是能量平衡的重要组成部分。APOA4 作为载脂蛋白家族的一员,在人类医学的研究中已发现它具有许多生理功能,包括体外激活卵磷脂-胆固醇酰基转移酶和胆固醇转移蛋白;在小鼠动物模型中发挥食欲和饱足调节作用,在体外和小鼠动物模型中显示抗氧化和抗动脉粥样硬化特性,以及调节肠细胞和肝细胞间脂质转运的效率的作用[13-14]。本研究表明,绵羊APOA4 基因编码蛋白分子质量为32 825.44 kDa,理论等电点为5.36,为酸性亲水性蛋白。载脂蛋白的主要功能是作为脂蛋白的结构成分,赋予脂质以可溶的形式,通过血液和淋巴运输脂质,此外还可作为细胞表面受体的配体和酶的辅助因子[15]。本研究下APOA4蛋白的理化特性和亲疏水性与载脂蛋白的主要功能是一致的,能够实现引导血浆脂蛋白同细胞表面受体结合的基本功能要求。
本研究表明,APOA4 蛋白为不稳定蛋白。蛋白质的稳定性指的是蛋白质抵抗各种因素的影响,保持其生物活力的能力,蛋白质的稳定性通常由蛋白质的空间结构决定。近年来有研究认为,当系统的自由度很低时,蛋白质的功能敏感性和稳定性之间不存在矛盾[16]。蛋白质在发挥功能的时候,常常对于外界的扰动和噪声有高度的敏感性,甚至表现出类似于临界态的高敏感性特征,并能根据外界环境中的扰动做出相应的构象变化[17];与此同时,蛋白质分子在面临着内部的扰动时,常常表现出较高的稳定性。蛋白质的结构相对不稳定,意味着对环境或突变敏感,也意味着随环境变化状态的可塑性,有可能与蛋白质分子的生物学功能有关。本研究下APOA4 蛋白的三级结构主要由α 卷曲折叠缠绕形成,较高的不稳定指数与该蛋白调节脂质代谢效率和能量平衡等生物学功能的关系仍需进一步研究。
本研究表明,APOA4 蛋白存在信号肽及剪切位点,没有跨膜螺旋结构,亚细胞定位预测分析也表明该蛋白主要在细胞外发挥生物学作用。根据以上生物信息学分析结果,推测APOA4 为分泌性蛋白,APOA4 基因在翻译时首先合成的是N 末端带有疏水氨基酸残基的信号肽,被内质网膜上的受体识别并与之相结合,信号肽经由膜中蛋白质形成的孔道到达内质网内腔,随即被位于腔表面的信号肽酶水解;由于信号肽的引导,新生的肽链通过内质网膜进入腔内,加工后成熟的蛋白质再以液泡运至细胞膜,以胞吐的方式运出细胞外,在细胞外发挥生物学功能[18]。结合APOA4的弱酸性和亲水性特征,推测APOA4 分泌到细胞外与脂类结合,其亲水性特征赋予脂类可溶的形式,从而促进脂类的运输,并可能具有引导血浆脂蛋白与细胞表面受体结合的作用。有研究认为猪APOA1 存在跨膜螺旋结构,为跨膜蛋白,且不存在信号肽[19],与本研究结果不一致;但更多的研究表明载脂蛋白主要在肝脏和小肠合成,作为分泌性蛋白进入血液,构成血浆脂蛋白的重要组分,在血浆脂质运输和脂质代谢中发挥重要作用,与本研究预测的绵羊APOA4 蛋白的上述特征相符合。
本研究下绵羊APOA4 基因序列与山羊和牛的同源性较高,这也说明它们在进化过程具有较近的亲缘关系。绵羊、山羊和牛均为反刍动物,脂质代谢方式具有较高的相似性。反刍动物日粮中通常脂质含量较低,脂质在瘤胃中会在微生物作用下被广泛水解为游离脂肪酸和甘油,不饱和脂肪酸会涉及微生物的生物氢化作用,同时小肠内的脂肪酶相对于猪、禽等单胃动物通常活性较低[20]。本研究表明了绵羊APOA4 基因与禽类的同源性较低。不同物种间有可能是脂肪消化代谢的方式导致的自然选择过程中APOA4 基因在进化中出现了变异,但具体的进化机制,以及差异位点对该基因在脂肪代谢中发挥的生物学功能的影响和相关机理仍需进一步研究。
APOA4 基因作为载脂蛋白基因家族的成员,有可能对绵羊脂质代谢和能量平衡具有重要作用。以APOA4 基因作为绵羊抗应激能力的分子标记选育开展分子标记辅助选育,有可能加快绵羊育种进程,改善绵羊饲料利用效率,提高生产性能。然而APOA4 基因编码蛋白的生物学功能、表达调控以及APOA4 基因多态性与绵羊健康与生长发育的关系仍有待进一步的研究。