甘薯MAPK基因家族的鉴定及生物信息学分析
2021-12-09周桦楠刘冠求潘家荃刘振雷
周桦楠,于 涛,刘冠求,潘家荃,万 博,刘振雷
(辽宁省农业科学院a.作物研究所,b.人事教育部,沈阳110161)
丝裂原活化蛋白激酶(MAPK)级联反应在植物中是一种比较保守的信号转导途径,可以将从细胞外受到的环境刺激转化为细胞内信号,在植物生长发育及响应逆境胁迫等过程中扮演着重要角色[1]。典型的MAPK级联途径由三个特定的激酶组成,分别是MAPK、MAPK激酶(MAPKK)和MAPKK激酶(MAPKKK),MAPKKK位于上游,MAPKK位于中间,MAPK位于下游,在特定的激活位点被磷酸化后依次被激活,这条信号传导途径可以将植物感受到的环境信号放大并传递,从而激活下游的酶及转录因子,最终激活靶基因表达,对外界信号作出应答[2]。MAPK作为这条级联途径中最下游的成员,直接作用于靶基因,因此发挥至关重要的作用。植物MAPK是一类保守的丝氨酸/苏氨酸(Ser/Thr)类蛋白激酶,通常包含11个保守性高的亚结构域,在Ⅶ和Ⅷ亚结构域之间含有一个TXY三肽基序(T代表苏氨酸;Y代表酪氨酸;X代表谷氨酸或天冬氨酸)作为ATP磷酸化位点,位于该激酶催化结构域的活化环(T-loop)中,是决定植物MAPK活性的关键[3]。在植物MAPK的N端区域和C端区域同样存在一些特定的保守基序,依据三肽基序及N、C端保守基序的不同,MAPK家族成员被分为不同的亚组。
目前在多种植物中都发现了MAPK基因家族成员,拟南芥基因组中有20个MAPK[1],水稻中有17个[4],棉花中有28个[5]。研究发现,MAP K家族成员在植物植物的生长发育、抵御非生物胁迫和生物胁迫中都发挥了重要作用。水稻的Os MAPK2在3个月大的植株圆锥花序形成时表达量增强,表明了它与花粉发育相关[6]。拟南芥AtM PK6的敲除会延缓叶片衰老[7]。盐胁迫能诱导拟南芥中At M P K3、AtMP K4和AtMPK6基因的表达[8-9],Os-MAP K5基因能被干旱诱导[10],冷胁迫能激活玉米ZmM P K3的表达[11]。西瓜被枯萎菌侵染后,Cl M P K7的表达量明显升高[12]。
甘薯(Ipomoea batatas)是一种一年生或多年生草本植物,具有极高的经济价值,作为世界第七大作物,同时也是我国重要的粮食作物、饲料作物和新型能源植物[13]。甘薯栽培品种是一个具有90条染色体的六倍体,由于其基因组较大,遗传异质性高,整个基因组的测序、组装以及其他相关基因组学研究都非常复杂[14]。而甘薯近缘野生种Ipomoea trifidaG.Don(2n=2x=30)被认为是六倍体栽培甘薯(Ipomoea batatas)的祖先,由于Ipomoea trifida的基因组较小,倍性低,染色体数目少,遗传分析简单,成为了研究甘薯遗传定位、物理定位、甘薯育种、甘薯转基因系统构建和全基因组测序的理想模式种[15]。本研究利用生物信息学技术,对Ipomoea trifida(2n=2x=30)进行全基因组分析和鉴定,获得了18个甘薯MAPK基因,这些基因的发掘为进一步分析鉴定其功能和甘薯抗逆基因工程提供了参考依据。
1 材料与方法
1.1 甘薯MAPK基因家族成员鉴定
根据MAPK基因特征,从拟南芥基因组数据库TAIR网站(https://www.arabidopsis.org/)下载拟南芥中20个MAP K基因的蛋白质序列,从水稻基因组数据库(http://rice.plantbiology.msu.edu/)下载17个水稻MAPK基因的蛋白质序列,将这37条MAPK基因蛋白质序列作为查询序列,对二倍体甘薯(Ipomoea tri fid a)的基因组(http://sweetpotato.plantbiology.msu.edu/)进行BLASTP搜索,阈值设置为E>10-30。利用HMMER 3.0程序中hmmbuild命令构建拟南芥和水稻MAPK基因多重比对序列隐马尔可夫模型(HMMER:http://hmmer.janelia.org/),根据hmmsearch搜寻二倍体甘薯基因组中与所构建HMM模型相匹配的序列。将BLASTP和HMMER筛选出的序列提交至PfamScan网站(https://www.ebi.ac.uk/Tools/pfa/pfamscan/)进一步分析,确定其蛋白质结构域,去除没有保守结构域的基因,最终确定二倍体甘薯的MAPK家族基因。
1.2 甘薯MAPK基因家族蛋白的理化性质和染色体位置分析
通过在线软件ExPASy(https://web.expasy.org/protparam/)对筛选出的甘薯MAPK基因的编码蛋白质氨基酸数目、相对分子量、等电点、不稳定系数、脂肪系数和平均疏水指数进行预测。使用ProtComp(http://www.softberry.com/berry.phtml?topic=index&group=programs&subgroup=proloc)进行亚细胞位置的预测。
根据二倍体甘薯(Ipomoea trifida)基因组注释(gff3文件),获取基因CDS长度及基因在染色体的位置等信息。利用MG2C(http://mg2c.iask.in/mg2c_v2.1/)软件,绘制基因在染色体上的位置图。
1.3 多重序列比对与进化树构建
使用软件MEGA7.0中的Muscle对甘薯MAPK家族蛋白序列进行比对,分析其保守基序。对拟南芥、水稻及甘薯的MAPK家族蛋白序列进行比对,采用邻接法(Neighbor-Joining)构建MAP K家族蛋白的系统进化树,BootStrap参数设置为1000。
1.4 甘薯MAPK蛋白保守结构域及基因结构分析
利用在线软件MEME(http://meme-suite.org/)分析甘薯MAPK基因家族保守结构域,设置保守结构域查找数量为15个,利用TBtools软件对motif位置及数量进行可视化。使用TBtools软件进行基因结构特征的可视化,整理甘薯MAPK基因在基因组中的注释信息,绘制出外显子和内含子的组成和位置图。
1.5 蛋白质互作分析
应用String网站(https://string-db.org/)和Cytoscape软件(https://cytoscape.org/download.html)分析家族成员间潜在的相互作用关系。
1.6 甘薯MAPK家族基因表达模式分析
根据(http://sweetpotato.plantbiology.msu.edu/)数据库中二倍体甘薯(Ipomoea trifida)的MAPK家族基因表达数据(FPKM值),利用MeV 4.9.0软件绘制甘薯MAPK基因家族各成员在不同组织器官及不同胁迫条件下的表达热图。
2 结果与分析
2.1 甘薯MAPK基因家族成员的鉴定及理化性质分析
利用BLASTP程序搜索二倍体甘薯Ipomoea trifida基因组,筛选出163个候选基因,利用hmmsearch搜索出128个候选基因,取交集后提交至Pfam网站进行蛋白质结构域的分析,最终筛选出18条含有MAP K家族保守结构域的序列。依据这18条序列在染色体的位置命名为ItfMAPK1~I t fMA P K18,甘薯18个MAP K家族基因的理化性质分析结果表明(表1),二倍体甘薯MAPK基因所编码的氨基酸数量为365~629aa;理论等电点5.39~9.41,72.2%的成员等电点小于7,大部分属于酸性蛋白;ItfMAPK2蛋白质分子量最大,为71 329.98kD,Itf-MAPK17的分子量最小,为41 755.84 kD;不稳定系数小于40的家族成员有4个,大部分为不稳定蛋白;疏水指数均为负数,说明18个MAPK蛋白质均为亲水蛋白。亚细胞定位预测结果表明,ItfMAPK7、ItfMAPK9和Itf-MAPK15三个蛋白位于细胞质中,其余均位于细胞核。
表1 二倍体甘薯基因组中的MAPK基因家族Table 1 The MAPK family Genes in Ipomoea trifid a genome
2.2 甘薯MAPK基因家族的染色体定位分析
从二倍体甘薯Ipomoea trifi da基因组gff3文件中可以提取18个I tfMAPK基因的注释信息,通过分析可以发现,18个It fMA P K基因在甘薯染色体上的分布并不均匀,4号染色体上存在4个MAPK基因,数量最多,1号和11号染色体上分别存在3个MAP K基因,7号和14号染色体上分别存在2个,3号、6号、8号和10号染色体上各存在1个MAPK基因,然而2号、5号、9号、12号、13号及15号染色体上并没有分布(图1)。
图1 二倍体甘薯MAPK家族基因染色体定位Figure 1 Chromosomal localization of I tf MAPK gene family
2.3 甘薯MAPK家族蛋白结构域基序保守性及进化树分析
对18个ItfMAPK蛋白的氨基酸序列进行多重比较可知(图2),所有甘薯MAPK家族成员均含有TXY这个高度保守的三肽基序,其中ItfMAPK1、ItfMAPK2、ItfMAPK7、ItfMAPK10、ItfMAPK15和ItfMAPK16含有TDY,其他成员包含TEY。在所有序列的N端和C端都分别存在一个包含3个氨基酸的保守基序,这也是MAPK基因家族成员分属于不同组的依据之一。其中,ItfMAPK11、ItfMAPK12和ItfMAPK18的N端保守基序为A组常见的AKY,C端保守基序为A组以及B组成员中常见的SDY和SEY;ItfMAPK5、Itf MAPK 8、ItfMAPK 13、ItfMAPK 14和Itf MAPK 17的N端保守基序为B组常见的SKY和RKY,C端保守基序为A组以及B组成员中常见的SDY和SEY;Itf MAPK3、ItfMAPK 4、ItfMAPK 6、ItfMAPK 9的N端保守基序为C组成员的TKY,ItfMAPK3、ItfMAPK 4和ItfMAPK 6 C端保守基序为C组的DNY,而ItfMAPK 9的C端保守基序是并不常见的DRY;ItfMAPK1、ItfMAPK 2、ItfMAPK 7、ItfMAPK 10、ItfMAPK 15和ItfMAPK 16的N端保守基序为D组成员的SQY、NRY和SRY,C端保守基序为该组成员常见的SKY。在A组和B组的ItfMAPK的末端延伸区包含一个进化上保守的CD结构域LH(D/E)XX(D/E)EPXC,这个结构域在C组和D组的成员中被相对修饰。
图2 二倍体甘薯MAPK家族所编码的氨基酸序列比对Figure 2 Multiple sequence alignment of proteins in the MAPK gene family in Ipomoea trifida
将二倍体甘薯18个MAPK基因的蛋白序列与17个水稻OsMPK和20个拟南芥AtM PK的蛋白序列进行多序列比对并构建系统进化树(图3),18个甘薯ItfMAPK蛋白被分成了4个组,A、B和C组的家族成员均包含TEY基序,D组的家族成员包含TDY基序。A组成员有ItfMAPK8、ItfMAPK11、ItfMAPK12和ItfMAPK17,同样包括拟南芥的AtMPK3、AtMPK6、AtMPK10和水稻的OsMPK1、OsMPK5。B组成员有甘薯Itf MAPK5、ItfMAPK13、Itf-MAPK14、ItfMAPK18,拟南芥的AtMPK4、AtMPK5、At-MPK11、AtMPK12、AtMPK13,水稻的OsMPK2、OsMPK6。C组 成 员 包 括ItfMAPK3、ItfMAPK4、ItfMAPK6、Itf-MAPK9、AtMPK1、AtMPK2、AtMPK7、AtMPK14、OsMPK3和OsMPK4。D组成员数量最多,包括Itf MAPK1、Itf-MAPK2、ItfMAPK7、Itf MAPK10、ItfMAPK15、1ItfMAPK6、AtMPK8、AtMPK9、AtMPK15、AtMPK16、AtMPK17、At-MPK18、AtMPK19、AtMPK20、OsMPK7、OsMPK8、OsMPK9、OsMPK10、OsMPK11、OsMPK12、OsMPK13、OsMPK14、OsMPK15、OsMPK16和OsMPK17。甘 薯的MAP K基因家族成员与拟南芥及水稻的M PK家族成员间的相似程度较高,尤其与拟南芥的亲缘关系更近。
图3 二倍体甘薯与其他植物MAPK蛋白的系统进化分析Figure 3 Phylogentic analysis of MAPK proteins in Ipomoea trifida and other plants
2.4 甘薯MAPK家族蛋白结构域及基因结构分析
利用在线程序MEME进行蛋白结构域的分析,选择15个motif作为查询的上限,得到所有成员的蛋白质结构域信息(图4和图5)。分析结果可以发现,所有的家族成员均含有motif1~9,这其中最为关键的TEY/TDY基序包含在motif6中,A、B、C 3个组的成员都含有motif10,但是A组和B组成员中均含有motif14和motif13(除A组ItfMAPK17),而C组成员含有特有的motif15,D组成员则含有特有的motif11和motif12。这表明在蛋白结构域高度保守的同时,不同的组别之间存在各自的差异。
图4 二倍体甘薯MAPK基因家族保守结构域分析Figure 4 Analysis of conservative domain of MAPK gene family in diploid sweet potato
图5 二倍体甘薯MAPK家族motif碱基分布频率Figure 5 Base frequency distribution of MAPK family motif in diploid sweet potato
对18个I tfMAP K基因进行外显子/内含子分析(图6),发现不同的分组之间I tfMAP K基因的外显子/内含子结构存在显著的差异,但组内基因结构却十分相似。A组和B组的所有成员外显子数量均为6~7个,C组的成员外显子个数仅为2~3个,D组成员的外显子数量为10~11个。
图6 二倍体甘薯MAPK家族基因结构Figure 6 The gene structure of MAPK family in diploid sweet potato
2.5 甘薯MAPK蛋白互作分析
利用String网站搜索与甘薯MAPK蛋白相似的拟南芥MPK蛋白,构建IftMAPK蛋白之间互作网络图,应用Cytoscape软件对获得的网络图进行绘制(图7)。结果可以看出,ItfMAPK蛋白之间有明显的互作关系。A、B、C 3组成员之间两两互作,D组成员之间两两互作,但D组所有成员与其他3个组成员之间并没有互作关系,这可能与D组成员中区别于其他3组成员的TDY关键基序有关。其中C组中的IftMAPK9与A组的IftMAPK8、IftMAPK11、IftMAPK12之间的互作关系最强,这表明IftMAPK9可能是MAPK级联途径中的一个关键蛋白。D组中的Ift MAPK1与IftMAPK7、Ift MAPK16的互作关系较强,IftMAPK2与IftMAPK15的互作关系较强。A、B、C 3组家族成员蛋白之间互作关系整体强于D组成员之间的互作关系,说明A、B、C 3组之间更容易发生蛋白间的相互作用。
图7 二倍体甘薯MAPK蛋白互作网络图Figure 7 Interaction network of MAPK protein in diploid sweet potato
2.6 甘薯MAPK基因表达量分析
利用7种组织(花愈伤组织、茎愈伤组织、花、花芽、叶、根和茎)的RNA-seq数据研究了MAPK基因在不同组织中的表达模式。将18个It f MAPK基因家族成员在甘薯7个不同组织中的FPKM值进行标准化,利用MeV 4.9.0软件绘制表达热图(图8)。结果显示,I tfMAP K1、ItfMAPK2、ItfMAPK3、Itf MAPK 4、ItfMAPK 5、Itf MAPK 8、ItfMAPK9、I t fMA P K11、ItfMAPK14、It f-MAP K15和ItfMAPK16这11个MAPK基因在各个组织中的表达模式几乎一致,均表现为高表达;ItfMAPK7、ItfMAPK 13、I tfMAPK 17和I tfMAP K 18这4个基因在花和花芽组织中的表达量稍低,而在其他组织中的表达量较高;ItfMAPK6和It fMAPK12除了在花中的表达量稍高,在其余6个组织中的表达量均较低;I tfMAPK10表现为在茎愈伤组织和根中的表达量很低。
图8 I tfMAPK基因在不同组织中的相对表达水平Figure 8 Relative expression levels of I tfMAPK genes across various tissues
MAPK基因家族成员在抵御非生物胁迫中发挥着重要的作用,因此根据18个ItfMAPK基因在冷、热、干旱和盐胁迫下的表达数据(FPKM值)绘制热图(图9)。分析结果发现,I tfMAP K1、ItfMAPK2、I t fMAP K3、ItfMAPK5、I tfMAP K 7、ItfMAPK8、Itf MAPK 9、ItfMAPK11、I tfMAP K 13、ItfMAPK14、ItfMAPK15、ItfMAPK16和Itf MAPK18这13个家族成员在4种胁迫下,表达量均较高;ItfMAPK4、ItfMAPK6和I t fMAP K10在冷胁迫和热胁迫下的表达量较低,而在干旱胁迫和盐胁迫下的表达量较前2种胁迫稍高;I t fMAP K17只在热胁迫下表达量低,而在其他3种胁迫下表达量较高;It fMAPK12在4种胁迫下的表达量均为负值。
图9 I tf MAPK基因在非生物胁迫下的表达模式Figure 9 Expression pattern of Itf MAPK genes under abiotic stress
3 讨论与结论
甘薯在生长过程中,经常会遭受病虫害、干旱、低温等诸多生物胁迫及非生物胁迫,利用分子手段研究如何提升甘薯的抗逆性,是提高甘薯产量及改良甘薯品质的重要方法之一。目前拟南芥[7]、水稻[4]、棉花[5]、玉米[11]等多种植物对MAPK基因生物胁迫、非生物胁迫和激素信号转导的响应过程进行了较为深入的研究[16-17],但该家族基因在甘薯中的研究尚未开展。
本研究通过生物信息学方法对二倍体甘薯基因组进行分析,鉴定得到18个甘薯It fMAPK基因家族成员,通过蛋白质理化性质预测、基因结构及染色体位置分析、进化关系、蛋白质互作关系分析、表达模式分析等深入研究了MAPK基因家族在甘薯基因组中的分布及结构特征。依据进化关系及结构域中的保守基序,18个Itf-MAPK蛋白被分为了4个亚组,A组中包含4个家族成员,B组中4个,C组中4个,D组中包含成员数量为6个。A、B和C 3个亚组成员中均含有特征三肽基序TEY,D组成员的则为TDY。不同物种的基因系统进化结果表明,甘薯I tfMAPK家族与拟南芥MA P K家族成员的亲缘关系更近,并且亚组的划分也较一致[18],这可能表明甘薯MAP K家族基因同拟南芥MAP K家族基因有着相似的功能。18个Itf MAPK家族成员均含有9个相同的motif,不同的组别之间包含1~2个特有的motif,这说明甘薯MAPK基因家族中不同亚组的成员之间有着相似性,但是又有各自不同的结构域,这有可能导致不同的亚组成员在响应胁迫时有不同的分工[7]。甘薯MAPK家族基因结构中内含子和外显子的分布也呈现出规律性,不同亚组的家族基因外显子的数量并不相同,最少的C组成员外显子数量仅为2~3个,然而D组成员外显子数量大多达到10个,但是亚组内成员之间的外显子数量几乎一致,这与其他植物的MAPK家族基因有着相同之处[5,19],这表明不同的物种间MAPK基因有较高的保守性。甘薯ItfMAPK基因家族成员在染色体上的分布并不均匀,在1号、4号、7号、11号和14号染色体上存在多个拷贝,而2号、5号、9号、12号、13号及15号染色体上并没有该家族基因的分布。对18个I tfMAP K基因进行共线性分析,发现二倍体甘薯MAP K家族基因没有通过共线性发生加倍。搜索ItfMAPK蛋白的互作关系,揭示了不同甘薯MAPK蛋白间的互作关系,发现A、B、C 3组内的成员之间存在两两互作的关系,D组成员之间也存在两两互作的关系,但是D组成员与其他3个组成员之间并没有互作关系,这可能是由于D组成员在MAPK级联途径中的应答机制略有不同。研究者在拟南芥中通过实验发现,低温胁迫下AtMPK3和AtMPK6能够通过磷酸化ICE1负调控拟南芥对低温的耐受能力[20]。西瓜15个MAPK基因在干旱、高温、低温和高盐等非生物胁迫下的表达模式也各不相同[12]。分析甘薯MAPK家族基因成员的表达模式发现,大多数I tfMAP K家族基因在不同组织中的表达量都较高,而It fMAPK6和ItfMAPK12在各个组织中的表达量很低,It f MAPK10则是在茎愈伤组织和根中的表达量低。进一步分析MA P K家族基因在4种非生物胁迫下的表达数据发现,I tfMAP K6、ItfMAPK10和ItfMAPK12的表达量同样很低,这说明甘薯中不同MAPK基因家族成员可能参与调控不同的逆境响应途径。
本研究对二倍体甘薯MAPK家族基因进行了鉴定和初步的功能预测,为探求甘薯应对生物胁迫和非生物胁迫及提高甘薯产量、改良甘薯品质提供了理论参考。但其在甘薯逆境胁迫下的具体功能以及该家族是否存在于六倍体普通甘薯中等问题还需深入研究。