绵羊RPS20 基因的生物信息学分析
2022-09-16陈倩玲何亚鹏张引弟王雪怡张小雪
陈倩玲,何亚鹏,张引弟,赵 航,王雪怡,张小雪
(甘肃农业大学动物科学技术学院,甘肃 兰州 730070)
核糖体是催化蛋白质合成的细胞器,由1 个小的40S 亚基和1 个大的60S 亚基组成。这些亚基由4 种RNA 和大约80 种结构不同的蛋白质组成,核糖体蛋白(ribosomal protein,RP)即所有核糖体蛋白质组成部分的统称。RPS20基因是一类参与蛋白质生物合成及对细胞增殖、分裂、分化、凋亡具有调控作用的基因[1],RPS20基因编码的核糖体蛋白是40S 亚基的组成部分,该蛋白属于核糖体蛋白的S10P 家族,它位于细胞质中。RPS20基因作为核糖体蛋白编码基因的典型,有多个加工过的假基因分散在基因组中[2]。有研究表明,RPS20基因RNA 干扰序列成功构建包装干扰慢病毒转染后能有效抑制小鼠结肠腺癌细胞(CT26)的生长[3-4]。RPS20基因在猪繁殖与呼吸综合征病毒复制中有一定作用[5]。此外,在筛选与猪脑心肌炎病毒(EMCV)VP1 蛋白相互作用的宿主蛋白时发现,VP1 和RPS20 蛋白之间存在特异性相互作用[6]。对大鼠RPS20基因的体外功能研究结果初步表明,核糖体蛋白基因在脾虚证发生发展过程中可能具有重要作用[7],对慢性浅表性胃炎脾气虚证等患者进行基因表达谱的分析结果表明,脾气虚证具有蛋白质合成相关基因下调的趋势,其中以核糖体蛋白基因下调比较显著,选择重复性表达下调的RPS20 对其进行生物功能鉴定,RPS20 基因RNA 干扰后使得大鼠小肠上皮细胞(IEC-6)的形态结构变化,细胞的增殖、分化能力,DNA 修复功能受到抑制,证明RPS20 基因对大鼠小肠上皮细胞的消化吸收和粘膜损伤修复功能起重要作用[7-11],与脾气虚证患者消化吸收功能下降、黏膜损伤修复能力下降等表现相符合。有关RPS20 基因及其编码产物的研究主要是在人类和小鼠上,而在绵羊上的研究比较少。我们通过检索NCBI 数据库中绵羊的RPS20 基因序列,利用生物信息学的方法研究了绵羊RPS20 基因及其编码产物的序列、基本理化性质、蛋白质结构和生物学功能等,以期为进一步探究该基因的结构和生物学功能提供参考。
1 材料与方法
1.1 序列来源
序列均来源于NCBI 网站GenBank 数据库,包括绵羊(XM_004011685.4,XP_004011734.1)、人(NM_001023.4,NP_001014.1)、兔子(NM_00125 3734.1,NP_001240663.1)、鸡(XM_040664730.2,XP_040520664.1)、牛(NM_001034438.1,NP_0010 29610.1)、猪(NM_001129954.1,NP_001123426.1)、马(XM_005613124.3,XP_005613181.1)、鹌鹑(XM_015855656.1,XP_015711142.1)、黑猩猩(XM_016959501.1,XP_016814990.1)、狮子(XM_042924174.1,XP_042780108.1)、野生双峰驼(XM_032470290.1,XP_032326181.1)11 个物种的mRNA 序列和氨基酸序列,括号内为GenBank 的登录号。
1.2 方法
绵羊RPS20 基因开放阅读框(Open reading frame,ORF)分析采用NCBI 的ORF Finder 程序,基本理化性质分析采用Bioedit 分析软件。绵羊RPS20 蛋白亚细胞定位采用PSORTⅡ软件,蛋白潜在信号肽剪切位点预测采用SignalP 3.0 软件,蛋白跨膜螺旋区域预测采用TMHMM 程序,蛋白保守结构域分析采用Smart 软件,蛋白亲疏水性分析采用Prot Scale 软件。蛋白二级结构预测采用Jpred 软件,蛋白三级结构预测采用Swiss-model软件。多序列比对及同源性分析采用DNAMAN 软件。
2 结果与分析
2.1 绵羊RPS20 基因开放阅读框分析
开放阅读框(Open Reading Frame,ORF)是mRNA 上的一段碱基序列,起始于起始密码子,结束于终止密码子,1 个ORF 对应1 个蛋白质[12],通过ORF 分析可以证明新的DNA 序列是否能够为特定的蛋白质编码基因。根据图1 可知,该序列最大的开放阅读框长度为360 bp(起始密码子位于121 bp 处,终止密码子位于480 bp 处),编码了119 个氨基酸残基。
图1 绵羊RPS20 基因序列的ORF 分析
2.2 绵羊RPS20 蛋白理化性质分析
蛋白质的基本性质包括相对分子质量、等电点pI、氨基酸组成、基因编码产物的不稳定指数和半衰期等[13]。利用Prot Param 在线工具和Bioedit 软件对绵羊RPS20 基因编码产物的理化性质进行分析,表明其编码产物的分子式为C587H995N173O171S5,共含有1 931 个原子。该编码产物有119 个氨基酸残基数,分子质量为13.372 71 KDa,理论等电点pI 为9.95,可知绵羊RPS20 蛋白呈碱性。由图2 可以看出绵羊RPS20 基因编码的蛋白氨基酸组成。绵羊RPS20 基因编码的蛋白中所含氨基酸种类丰富,其中含量最多的是Lys(赖氨酸),所占比例为10.92%;Ile(异亮氨酸)、Thr(苏氨酸)含量较高,均为10.08%。绵羊RPS20基因编码产物中不含Tyr(酪氨酸),负电荷残基总数(Asp+Glu)为14,正电荷残基总数(Arg+Lys)为23。所编码产物在哺乳动物体外的半衰期为30 h、不稳定指数为32.28。根据不稳定指数指标(>40为不稳定;<40 为稳定),由于32.28<40.00 可以确定该蛋白属于稳定蛋白。
图2 绵羊RPS20 基因编码的蛋白氨基酸组成
2.3 绵羊RPS20 蛋白亚细胞定位
从绵羊RPS20 基因蛋白亚细胞定位结果可知,绵羊RPS20 蛋白分布在细胞质的可能性最大,为65.2%;分布在线粒体的可能性次之,为17.4%;分布在细胞核的可能性居第3 位,为13.0%;分布在过氧化物酶体的可能性最小,仅为4.3%。由此可以推断,绵羊RPS20 基因编码的产物主要是在细胞质中发挥生物学作用。
2.4 不同物种RPS20 蛋白的同源性分析
采用DNAMAN 软件将绵羊RPS20 蛋白序列与其他一些已发表的动物如人、绵羊、兔子、鸡、牛、鹌鹑、黑猩猩、狮子、马、猪和野生双峰驼11种动物的氨基酸序列进行多序列比对的结果(图3、图4)表明,RPS20 氨基酸序列同源性均为100%。由于RPS20基因的氨基酸序列较短,绵羊与人、牛、黑猩猩、野生双峰驼等哺乳动物的相似性较高。
图3 11 个物种的RPS20 基因编码产物序列的同源性分析
图4 11 个物种的RPS20 基因编码产物序列的同源树
2.5 绵羊RPS20 蛋白潜在信号肽剪切位点预测
信号肽序列本质上是蛋白质序列中起始于N端的1 段特定氨基酸序列,在引导和转运跨膜蛋白和分泌蛋白方面发挥着重要作用。核糖体是蛋白质合成的场所,信号肽在此合成过程中发挥重要作用[14-18]。从对绵羊RPS20 蛋白潜在信号肽剪切位点的预测可知,此基因编码的产物是否在引导和转运跨膜蛋白和分泌蛋白方面发挥一定作用。从图5 可以看出,绵羊RPS20 基因编码产物的C值为0.084、Y 值为0.064、S 值为0.128。由此可知,RPS20 基因的编码产物无跨膜区,也不存在信号肽序列,即该蛋白不是分泌性蛋白,也不是跨膜蛋白,主要位于细胞质内。
图5 绵羊RPS20 基因蛋白潜在信号肽剪切位点分析
2.6 绵羊RPS20 蛋白跨膜螺旋结构预测
采用TMHMM 在线软件对于绵羊RPS20 蛋白跨膜螺旋结构进行分析预测,结果表明绵羊RPS20 基因编码的蛋白质是非跨膜蛋白,即无跨膜结构(图6)。
图6 绵羊RPS20 基因蛋白跨膜螺旋结构分析
2.7 绵羊RPS20 蛋白保守结构域分析
结构域是蛋白质中具有独立三级结构的部分,具有特定功能,因此也是蛋白质功能单元。保守结构域具有重要的功能,不能被改变,是基因的核心。由绵羊RPS20 蛋白潜在信号肽剪切位点预测可知,绵羊RPS20 基因编码的蛋白是非跨膜蛋白。进而通过Smart 软件分析,如图7 所示,绵羊RPS20 蛋白家族包括原核生物中的小核糖体亚基S10 和真核生物中的小核糖体亚基S20,由于序列较短,没有跨膜结构,也没有复杂的跨膜区域。
图7 绵羊RPS20 蛋白保守结构域分析
2.8 绵羊RPS20 蛋白亲疏水性分析
利用Prot Scale 软件对绵羊RPS20 蛋白亲疏水性分析,结果(图8)显示,该基因编码蛋白疏水性的最大值为1.200,位于第113 位;最小值为-2.067,位于第75 位。该基因编码的绵羊RPS20 蛋白属于亲水蛋白。
图8 绵羊RPS20 基因编码蛋白质的疏水性/亲水性预测分析
2.9 绵羊RPS20 蛋白二级结构预测
蛋白质的高级结构,特别是二、三级结构决定其生物学功能,其二级结构(secondary structure)指的是在它的多肽链中具有规则重复的构象[19],二级结构是指蛋白质第1 个水平的折叠,即部分蛋白质链折叠形成一些通用结构,这些通用结构在所有蛋白质中都能找到[13]。通过Jpred 软件分析可知(图9),绵羊RPS20 蛋白二级结构主要由无规卷曲结构、α 螺旋和β 折叠三部分构成,三者所占比例分别为44.54%、22.69%和32.77%。
图9 绵羊RPS20 基因编码蛋白质二级结构预测
2.10 绵羊RPS20 蛋白三级结构预测与分析
三级结构(tertiary structure)是指蛋白质的多肽链在二级结构甚至结构域基础上的进一步盘绕、折叠,依靠次级键的维系固定形成的特定空间结构[15,20]。通过Swiss-model 在线工具得到的空间构象(图10)可以看出,绵羊RPS20基因编码蛋白的三级结构主要由无规卷曲、α 螺旋和β 折叠盘曲折叠缠绕形成,与二级结构的预测结果相符。
图10 绵羊RPS20 基因编码蛋白的三级结构的分析结果
3 小结
绵羊RPS20基因的最长ORF 长度是360 bp,编码的氨基酸残基数为119。必需氨基酸种类丰富,赖氨酸所占比例最多16.67%;相对分子质量为13.372 71 KDa,理论等电点(pI)为9.95。RPS20基因编码的产物是稳定性强、富含亲水氨基酸的非分泌蛋白,也是非跨膜蛋白,无跨膜区且不存在信号肽序列。亚细胞定位的结果显示,绵羊RPS20 蛋白在细胞质中发挥生物学作用的可能性最大,为65.2%;其次是在线粒体中,为17.4%。绵羊RPS20 蛋白在多种物种中氨基酸序列高度相似。绵羊RPS20基因编码产物的二级结构由无规卷曲、α 螺旋和β 折叠三部分组成,三级结构亦由此三部分盘曲折叠缠绕形成。