芸薹属AC亚基因组中P5CR基因家族鉴定与生物信息学分析
2022-04-25贺乔乔周希希郑世茂张晓娟
贺乔乔, 周希希, 郑世茂, 张晓娟, 张 羽
(陕西理工大学 生物科学与工程学院, 陕西 汉中 723000)
芸薹属植物的3个基本二倍体组物种包括白菜Brassicarapa(AA,X=10,2n=20)、黑芥菜B.nigra(BB,X=8,2n=16)和甘蓝B.Oleracea(CC,X=9,2n=18),其中白菜组在演化过程中最原始,芥菜组较进化,甘蓝组为最近分化出来的物种,进化程度相对最高。甘蓝型油菜大约在7500年前由白菜和甘蓝自然杂交形成,是非常“年轻”的多倍体植物,其基因组为AACC(2n=38)。菌核病是甘蓝型油菜三大病害(菌核病、霜霉病、病毒病)之首,是由真菌核盘菌(Sclerotiniasclerotiorum(Lib.)de Bary)侵染引起的一种严重危害油菜产量和品质的广谱性病害,抗菌核病油菜育种是油菜育种的重要目标,抗源筛选对抗病育种非常重要。研究表明,甘蓝型油菜比白菜型油菜对菌核病的抗性强[1]。目前,抗菌核病油菜分子标记辅助育种还未在实践中应用,在大豆中首次报道P5CR(pyrroline-5-carboxylate reductase,吡咯林-5-羧酸还原酶)基因与菌核病抗性强关联[2],在油菜中关于P5CR基因方面的研究还未见报道。P5CR是真核生物中存在的一种重要管家蛋白,催化鸟氨酸、精氨酸和谷氨酸途径的中间代谢产物P5C(Δ1-pyrroline-5-carboxylate,吡咯啉-5-羧酸)成为脯氨酸,是脯氨酸生物合成的最后一个酶。植物中,脯氨酸参与了蛋白质与细胞壁的合成,在植物抗渗透胁迫调节中起着非常重要的作用。大量研究表明,在高盐和干旱胁迫下,植物体内脯氨酸积累较多,同时涉及脯氨酸生物合成的相关基因表达变化较明显[3-9]。P5C能够产生活性氧而导致或促进细胞凋亡,研究表明如果把拟南芥中的P5CR基因敲除会导致植株胚胎死亡[10],而脯氨酸恰好相反,是生物体内一种重要的非酶类抗氧化剂,对抗细胞凋亡起着重要的作用,并且对细胞内的氧化还原电位也有一定的影响,这种氧化还原悖论与动物的能量代谢及人类许多疾病也有关[11-15]。研究发现,当使用杀虫剂三唑磷对雌性褐飞虱用药第3天后,雌性褐飞虱转录水平上调的6个候选基因中包括P5CR[16],说明P5CR在动物中与抗逆性也相关。通过已经报道的在植物中克隆的P5CR基因分析表明,不同物种中的P5CR基因结构有较大区别[17]。随着全基因组分析技术的发展和芸薹属基因组数据的公布,研究发现同一属内某个基因家族中的每个基因也可能各自具有不同的表达调控模式[18],对某个基因家族内每个基因的生物信息学分析比较,可以为家族内具体基因的深入研究提供选择参考。
1 方法
1.1 芸薹属AC亚基因组中P5CR基因家族鉴定
为了准确而全面地鉴定到芸薹属3个基本物种的P5CR基因,使用:(1)利用拟南芥(http://www.arabidopsis.org/)P5CR基因(AT5G14800.1)的CDS编码序列(Coding sequence)作为种子序列,在芸薹属数据库(https://brassicadb.org/)对白菜、甘蓝和甘蓝型油菜基因组CDS序列进行Blastn同源比对(Evalue=0);(2)用拟南芥的P5CR蛋白序列作为种子序列在Pfam数据库(http://pfam.xfam.org/)中获得P5CR结构特征域的HMM profile文件,对白菜、甘蓝和甘蓝型油菜基因组的蛋白序列进行Blastp同源搜索(Evalue=10-37)。用以上两种方法获得的同源序列再使用SMART软件(http://smart.emblheidelberg.de/)进一步鉴定芸薹属AC亚基因组中的P5CR候选基因。
1.2 P5CR基因家族启动子区域顺式作用元件分析
为了进一步研究芸薹属AC亚基因组中P5CR基因家族功能,综合分析后决定从芸薹属基因组数据文件中提取P5CR基因上游2000 bp区域作为启动子序列[19],利用在线软件Plant CARE(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)[20]分析胁迫响应、激素响应、光响应和植物生长发育等顺式作用元件,并用R语言中ggplot2作图。
1.3 P5CR基因家族的理化性质分析
采用在线软件ProtParam(https://web.expasy.org/protparam/)[21]预测P5CR基因家族蛋白质的理论分子量(molecular weight,Mw)、等电点(theoretical,pI)、GRAVY(grand average of hydropathy)等。NetPhos3.1(http://www.cbs.dtu.dk/services/NetPhos/)[22]分析蛋白质磷酸化。
1.4 P5CR基因家族的系统发育与同线性分析
用MEGA11(https://www.megasoftware.net/index.php)[23]进行UPGMA法构建CesA蛋白进化树,Bootstrap检验(重复次数500)。利用在线软件Syntenic(http://brassicadb.org/brad/searchSynteny.php)进行P5CR基因家族同线性分析,基因密度大的为LF,次之的为MF1,最小的为MF2。
1.5 P5CR基因家族二级结构预测与磷酸化位点分析
使用在线软件Swiss_Model(https://www.expasy.org/structural_bioinformatics)[24]分析P5CR二级结构。
通过Pfam分析,将候选基因匹配的P5CR结构域区段提取出来。利用Clustal Omega进行序列比对,并利用在线工具WebLogo3(http://weblogo.threeplusone.com/create.cgi)[25]绘制出结构域logo图,调查结构域序列特征及其保守氨基酸出现情况。
采用在线软件MEME(http://meme.nbcr.net/meme/cgi-bin/meme.cgi)[26]分析P5CR基因家族蛋白质序列中特征性motif,并利用Weblogo3绘制出logo图。
2 结果与分析
2.1 芸薹属P5CR基因鉴定
芸薹属AC亚基因组P5CR基因家族鉴定结果(见表1)表明,在白菜基因组中获得两条序列,位于A03和A10染色体上,分别命名为Bra006270和Bra008735;在甘蓝基因组中获得两条序列,位于C03和C09染色体上,分别命名为Bol034305和Bol030409。在甘蓝型油菜A亚基因组中获得两条序列,位于A03和A10染色体上,分别命名为GSBRNA2T00130008001和GSBRNA2T00135564001;C亚基因组中获得两条序列,位于C03和C09染色体上,分别命名为GSBRNA2T00140419001和GSBRNA2T00031643001。芸薹属AC亚基因组中P5CR基因的CDS序列除Bra006270(1323 bp)外都为831 bp,且都有7个外显子。
表1 芸薹属AC亚基因组中P5CR基因家族的基因信息
2.2 P5CR基因家族启动子区域顺式作用元件分析
顺式作用元件分析如图1所示,结果显示除了甘蓝型油菜A亚基因组上的P5CR基因(GSBRNA2T00135564001)没有预测到核心启动子/转录因子结合位点外,其余P5CR基因都预测到顺式作用元件,在所有预测到顺式作用元件的P5CR基因家族启动子序列中都发现了光响应(CACGTT、GGTTAAT、ATTAAT)和茉莉酸甲酯的顺式作用元件(CGTCA、TGACG)。其次为脱落酸(ACGTG)和缺氧响应元件(AAACCA)。再次为赤霉素反应元件(TCTGTTG、CCTTTTG、TATCCCA),另外还有生长素(TGTCTC、TGACG)的顺式作用元件、干旱响应元件(CAACTG)、防御与应激相关顺式作用元件(如GAAAAA、GTTTTCTTAC、GTTAGTT和ATTCTCTAAC)和胚乳表达顺式作用元件(TGAGTCA)。仅在Bol030409中发现参与低温响应元件(CCGAAA)。仅在GSBRNA2T00130008001中发现参与水杨酸元件(TCAGAAGAGG)。仅在Bra008735中发现参与玉米醇溶蛋白代谢调节元件GATGA(C/T)(A/G)TG(A/G)、GTTGACGTGA。仅在Bra006270中发现参与调控种子发育的作用元件CATGCATG。说明芸薹属AC亚基因组P5CR基因家族除参与光调控通路外,主要参与宿主的防御和逆境胁迫。
图1 芸薹属AC亚基因组P5CR基因上游2000 bp启动子元件
2.3 芸薹属AC亚基因组P5CR基因家族的系统发育与同线性分析
为进一步探究芸薹属AC亚基因组P5CR基因家族成员在基因组间和基因组内的进化关系,构建拟南芥、白菜、甘蓝及甘蓝型油菜P5CR蛋白的系统发育树(图2),结果显示P5CR基因家族共形成3个分支。第I类有4个基因,包括Bol034305、GSBRNA2T00140419001、Bra006270和GSBRNA2T00130008001;第II类有2个基因,为Bra008735和GSBRNA2T00135564001;第III类有2个基因,为Bol030409和GSBRNA2T00031643001。亲缘关系最近的为甘蓝C亚基因组的Bol034305(Chr.03)与甘蓝型油菜C亚基因组的GSBRNA2T00140419001(Chr.03),为同一个基因,说明其在进化过程中没发生蛋白序列的改变。其次为白菜A亚基因组的Bra006270(Chr.A03)和甘蓝型油菜A亚基因组的GSBRNA2T00130008001(Chr.A03),白菜A亚基因组的Bra008735(Chr.A10)和甘蓝型油菜A亚基因组的GSBRNA2T00135564001(A10),甘蓝C亚基因组的Bol030409(Chr.C09)和甘蓝型油菜C亚基因组的GSBRNA2T00031643001(Chr.C09)。关系最远的为Bra006270和AT5G14800.1,说明拟南芥的P5CR基因最先和白菜组P5CR基因分开。
图2 P5CR蛋白序列系统进化树
由于芸薹属的3个二倍体基因组和拟南芥基因组来源于相同的二倍体原始基因组,通过对拟南芥、白菜、甘蓝和甘蓝型油菜的同线性分析(见表2),结果表明,拟南芥P5CR(AT5G14800.1)在芸薹属白菜中有2个同源基因,甘蓝中有2个同源基因,在甘蓝型油菜中有4个,A、C亚基因组上各有2个,这些同源基因位于LF区或MF区。
表2 拟南芥P5CR基因在白菜、甘蓝和甘蓝型油菜共线性区的同源基因
2.4 P5CR家族基因蛋白理化性质分析
利用在线软件Plant-mPLoc(http://www.csbio.sjtu.edu.cn/bioinf/plant-multi/)对芸薹属AC亚基因组中鉴定的P5CR蛋白进行亚细胞定位分析,发现该蛋白均定位于细胞质。使用ProtParam在线分析工具对P5CR蛋白进行理化性质分析(见表3),结果表明,芸薹属AC亚基因组中的白菜组P5CR蛋白均包含20种常见氨基酸。蛋白序列长度最长的为440个氨基酸(Bra006270);其次为326个(Bol030409),剩余全为276个。分子量最大的为47233.01(Bra006270),最小为28624.09(Bra008735);等电点(pI)最高为9.02(Bol030409),最低为6.00(Bol034305、GSBRNA2T00140419001);不稳定性系数最大为37.77(Bra006270),最小为34.58(Bol034305、GSBRNA2T00140419001),8个P5CR均为稳定蛋白(<40);脂肪族氨基酸系数最大为98.59(AT5G14800.1),最小为84.43(Bra006270);带负电荷氨基酸残基数(Asp/Glu)最大值为43(Bra006270),最小值为28(GSBRNA2T00031643001),带正电荷氨基酸残基数(Arg/Lys)最大值为43(Bra006270),最小值为26(Bol034305、GSBRNA2T00140419001)。亲疏水性分析发现肽链总体均表现为疏水性(正值),疏水性系数最大为0.180(Bra008735),最小为0.021(Bra006270),可见这些P5CR蛋白虽然均表现为疏水性,但疏水性强弱差异较大。
表3 芸薹属AC亚基因组P5CR蛋白的理化性质
从芸薹属AC亚基因组P5CR蛋白氨基酸组成(见图3)可以看出,P5CR蛋白在氨基酸组成上差异很小,各种氨基酸的含量在P5CR蛋白之间的变化不大。Ala含量最高,其次为Val,表明P5CR蛋白由大量疏水性氨基酸残基组成,使其表现出较强的疏水性。Cys在白菜组中含量很低,甘蓝组和油菜组中不含半胱氨酸(Cys)。均不含有稀有氨基酸吡咯赖氨酸(Pyl)和硒代半胱氨酸(Sec)。
图3 芸薹属AC亚基因组P5CR蛋白氨基酸组成
2.5 二级结构预测与磷酸化位点分析
蛋白质的二级结构是连接一级和高级结构的重要纽带和桥梁,它为高级结构分析奠定了基础。对P5CR蛋白的二级结构进行分析(见表4),发现P5CR蛋白主要由α-螺旋、无规则卷曲、β-折叠和β-转角4种结构组成,α-螺旋和无规则卷曲为主要二级结构元件,分别平均占46.13%和38.21%,β-折叠所占比例较少(平均值15.67%),与人源P5CR蛋白的二级结构比例相似。
表4 P5CR蛋白二级结构预测
蛋白质磷酸化是生物体内普遍存在的一种重要活性调节机制。使用NetPhos 3.1软件对芸薹属AC
表5 P5CR蛋白的磷酸化位点分析
亚基因组中P5CR蛋白的磷酸化位点进行分析(见表5),结果发现白菜、甘蓝和甘蓝型油菜的P5CR均具有多种不同的磷酸化位点。其中,丝氨酸磷酸化位点(Ser)最多为38个(Bra006270),最少为15个(Bol034305、GSBRNA2T00140419001);苏氨酸磷酸化位点(Thr)最多为16个(Bra006270),最少为7个(Bra008735、GSBRNA2T00130008001);酪氨酸磷酸化位点(Tyr)变化较小,只有Bra006270具有2个,其余都为1个。说明P5CR蛋白的磷酸化主要以丝氨酸和苏氨酸磷酸化为主。
通过Pfam提取P5CR基因结构域区段,得到每个基因的特征结构域范围(见表1)。利用Clustal Omega进行序列比对后,发现其保守结构域区段长度约为105个氨基酸。采用WebLogo3绘制出的结构域logo图(见图4),P5CR-Dimer Motif为高度保守motif,只在3个位点有多态性(18位、41位和100位)。
同时通过MEME进行全蛋白的motif分析,基于最大期望值(EM)算法识别motif(见图5)。按P<0.01标准,在P5CR基因内共找到8个motif区段,motif 1—motif 4具有50个氨基酸残基,位于81~130个氨基酸之间,Bra006270从第245个氨基酸开始。Motif 5具有21个氨基酸残基,位于133~153个氨基酸之间,Bra006270从第297个氨基酸开始。Motif 6和Motif 7为15个氨基酸残基,位于66~80个氨基酸之间,Bra006270从第230个氨基酸开始。Motif 8为11个氨基酸残基,位于1~11个氨基酸之间,Bra006270从第165个氨基酸开始。8个P5CR基因都含有motif 1—motif 8。
图4 P5CR-dimer结构域
图5 各蛋白质motif序列和分布
3 讨论
植物基因家族扩张主要通过全基因组加倍和基因串联重复两种方式,P5CR基因在不同植物中的拷贝数差异较大,但在不同植物中非常保守[17,27],本研究也表明芸薹属AC亚基因组在演化过程中,P5CR基因数目及其特征稳定,可能在不同植物中P5CR具有相同的基因功能。
对芸薹属AC亚基因组上的P5CR基因启动子区的预测表明,该基因除含有转录增强因子外,还含有与诱导表达相关的顺式作用元件,如光响应、激素响应、胁迫响应和植物生长发育等顺式作用元件。在植物防御反应中,有大量转录因子的参与,而茉莉酸甲酯在大部分情况下诱导这些转录因子转录,这与本研究鉴定到的8个P5CR基因都预测到茉莉酸甲酯、胁迫应激等反应顺式元件相互印证,也与前人报道的该基因为转录水平调控吻合。
研究显示来源于进化程度更高的C亚基因组上的P5CR基因启动子区域具有干旱、低温等应答应激的顺式元件,而A亚基因组上的P5CR基因启动子区域没有。系统发育树表明,同为十字花科的拟南芥中的P5CR基因最先和白菜型油菜中的P5CR基因分开,也验证了A亚基因组在芸薹属演化过程中为最原始。
P5CR基因参与植物渗透胁迫的报道很多,但与植物病原菌胁迫关联的报道只出现在大豆中[28]。大豆中与菌核病抗性强关联的P5CR基因(Glyma-03gl29100)同源比对到甘蓝型油菜中的A10和C09染色体上,而A10染色体上的P5CR基因2000 bp启动子区域没有预测到顺式作用元件,可能A10上的P5CR基因为一个假基因,而C09上的P5CR预测出启动子区含有HNF-1、INF.1、TCR-beta_decamer、c-fos_US5、beta-pol_CS、EivF/CREB、EivF、ATF、CREB、GCF、TFIID、TATA等元件。其中ATF(活化转录因子)以3次且权重最高被预测到;CREB被3次预测到,它能刺激基因转录,被称为转录增强因子。综上,本研究通过对芸薹属AC亚基因组P5CR基因家族的生物信息学分析,可以为深入研究该属植物P5CR基因家族的功能和调控机制提供基础数据。