谷子CDPK基因家族全基因组序列鉴定及进化分析
2021-03-01魏萌涵宋慧王素英刘海萍邢璐解慧芳王淑君刘金荣
魏萌涵 宋慧 王素英 刘海萍 邢璐 解慧芳 王淑君 刘金荣
摘要 钙依赖蛋白激酶(CDPK)是一类主要的钙信号感受器,对钙信号的感知和解码起重要调控作用。为揭示CDPK在谷子生长发育和抗逆防御机制中的作用,该研究利用生物信息学的方法,从谷子基因组中鉴定出28个SiCPKs基因,对这些家族成员的基因结构、系统进化、染色体定位、基因复制及其所编码蛋白的理化性质进行系统生物信息学分析。结果表明,该研究鉴定出的28个SiCPKs基因所编码的氨基酸长度为51.82~68.32 kD,等电点为4.97~9.01,氨基酸序列绝大多数含有4个EF-Hand功能域且高度保守;基因结构预测结果表明,大多数SiCPK基因均含有6~8个外显子,染色体定位结果表明,28个SiCPKs基因分别定位在8条染色体上,其中9号染色体上最多(6个),4号染色体上没有;为了进一步分析谷子和其他物种的同源进化关系,构建了谷子与拟南芥、水稻、莱茵衣藻、小立碗藓的CDPK进化树,发现莱茵衣藻与小立碗藓单独聚类,谷子与水稻的亲缘关系比拟南芥近;共线性分析表明,谷子与水稻基因间存在串联重复和片段重复,它们是谷子CDPK家族成员扩张的主要动力。综上所述,谷子28个CDPK基因在进化上分为4个亚家族,基因结构的复杂程度与进化树聚类存在联系,串联复制是基因家族成员扩增的进化途径之一。
关键词 CDPK基因;基因鉴定;系统进化;谷子;生物信息学
中图分类号 S188 文献标识码 A
文章编号 0517-6611(2021)01-0083-05
doi:10.3969/j.issn.0517-6611.2021.01.022
Abstract As one of the Ca2+ sensors,calcium-dependent protein kinase (CDPK) plays vital roles in Ca2+ signal perception and decoding.A genome-wide analysis of SiCPK genes was performed in this study.Twenty-eight SiCPK genes were identified to analyze the properties,gene structure,chromosomal location,system evolution,and the expression of these genes.As the results indicate,the molecular weight was 51.82-68.32 kD,the isoelectric point was 4.97-9.01.Most SiCPK protein contains four EF-Hand functional domains and highly conservative.Gene structure analysis indicated that most of these SiCPK genes share a similar intron-exon structure (6-8 exons).The SiCPK genes were found to be unevenly distributed on chromosomes.For instance,6 SiCPK genes were found on chromosome 9,while none were found on chromosomes 4.In order to further analyze the homologous evolution relationship of Setaria italica and other species,the evolutionary tree was built.The result showed that Chlamydomonas reinhartii and Physcomitrella patens were separately clustered,CDPK in millet (Setaria italic) and relative rice were clustered together.Collinearity analysis showed that tandem duplication and segmental duplication existed in millet and rice CDPK genes,which caused genetic expansion.In conclusion,the twenty-eight SiCPK genes were clustered 4 subgroups,the complexity of the genetic structure and the evolutionary tree had a relationship,and the family members were recruited by chromosome replication.
Key words CDPK;Gene identification;Systematic evolution;Setaria italic;Bioinformatics
植物在適应各种环境条件的过程中,形成了复杂的网络信号通路,Ca2+作为胞内第二信使在信号转导通路中起着重要的作用[1]。当植物受到外界刺激时,胞质中Ca2+浓度变化产生钙信号,钙信号的再次传递需要经Ca2+结合蛋白才能完成。在植物中已经鉴定出四类钙传感/绑定蛋白,它们是钙调蛋白(CaM)、类钙调蛋白(CaML)、类钙调磷酸酶B类蛋白(CBL)和钙依赖蛋白激酶(CDPK)[2-3],但是CaM、CaML、CBL由于缺少效应区,只能作为Ca2+感应器传递钙信号,通过与其他靶蛋白的结合来调节其活性[4];而CDPK含有与Ca2+结合的功能结构域,因此除了具有Ca2+感应器的功能,还具有效应器的功能,通过改变其自抑制区的构象而改变其活性[5]。钙依赖蛋白激酶是植物和原生生物所独有的一类丝氨酸/苏氨酸型蛋白激酶,是到目前为止研究最为普遍的Ca2+传感器之一[6]。在不同植物研究中发现,CDPK可响应外界不同刺激,在植物的抗逆胁迫反应中起重要的调控作用[7-9]。谷子是一种古老的抗旱耐瘠作物,具有很强的抗逆性。早在2012年,谷子全基因组序列已经公布[10],作物中关于CDPK基因家族的研究主要集中在水稻、玉米、小麦中,而在谷子中鲜见报道。该研究通过对谷子全基因组数据库的搜索,筛选出CDPK基因家族成员,通过构建系统进化树、染色体定位、基因组比较等生物信息学方法,分析CDPK基因的进化关系,为进一步研究SiCPK基因家族功能提供依据。
1 材料与方法
1.1 谷子CDPK家族蛋白序列的获得及理化性质分析
从Phytozome 11 (https://phytozome.jgi.doe.gov/pz/portal.html#!info?alias=Org_Sitalica)中下载最新的谷子全基因组注释序列,根据已报道的谷子SiCDPK1蛋白序列[11],以及已公布的拟南芥CDPK家族基因的蛋白序列进行本地Blast比对,E-value值为le-5,输出最优比对结果,根据比对长度(>400 aa)和相似度(>40% )筛选谷子候选CDPK 基因。在Pfam (http://pfam.sanger.ac.uk/)和SMART (http://smart.embl-heidelberg.de/)网站上对初步获得的基因做进一步鉴定。利用ExPASy (http://expasy.org/)在线工具进行氨基酸理化性质的分析,包括等电点、分子量、N-末端豆蔻酰化及糖基化位点等。
1.2 多序列比对和系统发育树的构建
利用MEGA5.0软件对该研究鉴定的基因家族的蛋白序列与拟南芥 (Arabidopsis thaliana)、水稻(Oryza sativa)、莱茵衣藻(Chlamydomonas reintmrdtii)、小立碗藓(Physcomitrella patens)等各个物种基因组数据库中已收录的这些基因家族的序列进行同源性分析,利用邻接算法(Neighbor-Joining)构建系统进化树,参数设置如下:进化树构建方法p-distance,测试方法Bootstrap,重復数1 000。
1.3 基因结构鉴定 在Phytozome11数据库中可以找到每个基因相应的结构信息,包括外显子、内含子、上下游非编码区序列,将这些信息进行整理,在GSDS (http://gsds.cbi.pku.edu.cn/)网站进行在线分析,绘制基因结构图[12]。
1.4 染色体定位和基因复制
根据Phytozome数据库上基因注释信息,获取SiCPK基因家族染色体位置,利用Mapinspector软件进行染色体定位作图。在同一个进化树组内,在100 kb基因组窗口中同时出现的2个或2个以上基因被称为串联复制。
2 结果与分析
2.1 谷子CDPK基因家族成员理化性质分析
通过对谷子基因组数据库的搜索,并利用Pfam和SMART进一步分析,最终确定28个CDPK基因,并对其进行命名。通过对CDPK基因所编码的蛋白质结构进行分析,发现均含有EF-hand手型特征结构域,大多数CDPK含有4个EF-hand结构,只有少数含有2~3个(SiCPK22、SiCPK23)(表1),而且EF-hand 功能域之间的距离非常恒定,且高度保守。通过ExPASy工具,对谷子CDPK基因进行了分子量、等电点、豆蔻酰化及糖基化位点等理化性质分析,发现SiCPK家族基因的分子量为51.82(SiCPK12)~68.32 kD(SiCPK10)、氨基酸长度为457(SiCPK12)~618 aa(SiCPK10)、核苷酸长度为1 374(SiCPK12)~1 857 kb(SiCPK10),其所编码蛋白的等电点在4.97(SiCPK23)~9.01(SiCPK28)变化,且酸性蛋白居多,第Ⅰ和Ⅱ亚家族蛋白的等电点均小于7,第Ⅲ亚家族只有少数蛋白的等电点大于7,而Ⅳ亚家族的等电点均大于7(表1)。通过对CDPK基因家族蛋白翻译后修饰的分析,发现大多数蛋白会发生翻译后N末端豆蔻酰化和糖基化修饰(表1),在蛋白行使功能上起着重要作用。
2.2 进化树与基因结构分析
对谷子CDPK家族基因的基因结构和进化树分析,有助于进一步了解谷子CDPK基因进化关系。从进化树中可以看出(图1左侧),28个SiCPKs被聚类为4个亚家族,根据拟南芥的研究结果,将这4个亚家族命名为Group Ⅰ~Ⅳ,其中第三亚家族又被分为两部分。从进化树中可以看出,28个SiCPK基因形成了12个旁系同源基因对,它们的基因步长值(bootstrap values)均高于89。通过对其家族成员的基因结构进行分析(图1右侧),发现Group Ⅰ家族基因的外显子个数比较恒定,主要为7(除了SiCPK2和SiCPK10分别为1个和6个);Group Ⅱ家族基因的外显子个数为6~8;Group Ⅲ家族基因的外显子个数为7~8;Group Ⅳ家族基因的外显子个数均为12。从图1可以看出,同一亚家族或相邻亚家族之间的基因有相似的基因结构。
2.3 染色体定位与共线性分析
为了解谷子CDPK家族基因的组织形式,绘制了其染色体定位图(图2)。28个CDPK基因分别定位在谷子的8条染色体上。其中9号染色体上包含的基因数量最多,含有6个基因家族成员,8号染色体上未见有基因定位。12对旁系同源基因中的11对(SiCPK5/SiCPK25、SiCPK10/SiCPK24、SiCPK20/SiCPK22、SiCPK1/SiCPK19、SiCPK11/SiCPK16、SiCPK3/SiCPK4、SiCPK6/SiCPK21、SiCPK8/SiCPK18、SiCPK7/SiCPK27、SiCPK12/SiCPK15、SiCPK9/SiCPK17)被定位在不同的染色体上,形成片段重复。结果表明,片段重复和串联复制导致了谷子CDPK基因家族的扩张。
2.4 系统进化分析及功能预测
为了进一步分析CDPK基因在不同物种中的进化情况,将谷子与拟南芥、水稻、小立碗藓、莱茵衣藻等物种的蛋白质序列构建进化树,进行系统进化分析。从图3可以看出,由莱茵衣藻、小立碗藓为代表的低等植物形成一个外群体,同时单子叶植物和双子叶植物也分别单独聚类,同是单子叶植物的水稻和谷子在进化树上的亲缘关系比双子叶植物拟南芥更近。从表2可以看出,CDPK各亚家族的分化发生在单细胞植物衣藻之后,小立碗藓之前。莱茵衣藻作为最简单的单细胞藻类,其11个CDPK基因均被聚类在第四亚家族,而小立碗藓及较高等植物的CDPK基因被聚类为4个亚组,且第四亚家族的基因分布最少。推测在基因复杂的复制过程中可能发生了基因丢失或基因转换事件。
由圖3可知,几乎每个谷子CDPK家族成员都与水稻存在同源对关系,在该研究中对水稻CDPK基因的功能进行分析,为以后研究谷子CDPK基因功能奠定基础。
3 讨论
钙依赖蛋白激酶(CDPK)基因家族是钙调蛋白激酶的第三家族[13],它在胞内钙信号的级联放大及传递过程中起着重要作用。通过对CDPK基因家族成员的理化性质、基因结构、翻译后修饰位点、染色体定位、进化关系等方面的研究,我们对CDPK家族有了更深入的了解,为以后进一步了解其在干旱方面的作用奠定了基础。
该研究共鉴定出28个SiCPKs基因,其理化性质分析结果表明,谷子CDPK家族基因的理化性质与其他物种的相似,部分CDPK成员N末端存在与膜定位相关的豆蔻酰化和十六烷酰化所需的保守序列MGXXC(S/Q)XXT 位点,推测这些结构可能在参与蛋白质与质膜的可逆结合或蛋白间相互作用过程中起重要调控作用。
系统进化树的构建有助于分析基因之间的起源关系,预测基因功能。根据聚类分析,SiCPK基因家族可以分为4个亚家族(Group Ⅰ、Group Ⅱ、Group Ⅲ 和Group Ⅳ),与其他物种上的CDPK基因家族相似[14-15]。将拟南芥、水稻、小立碗藓和苹果的同源基因共同构建进化树分析发现,谷子CDPK基因的数量与拟南芥、水稻相近,但各亚家族所含成员的数量在这3个物种中有所区别,在谷子和水稻中,第一亚家族所含的数量最多,但在拟南芥中,第二亚家族所含的数量最多,且谷子和拟南芥的成员趋向于分开聚类,暗示这些分组在单子叶植物与双子叶植物分化前就已存在;此外,还发现由莱茵衣藻的9个CDPK基因被单独聚类,且均分布于Group IV,而小立碗藓的CDPK基因被聚类为4个亚家族,暗示在苔藓类和陆生植物分化前CDPK家族基因就已被分为4 类的假设[16]。尽管植物CDPK基因由同一个祖先进化而来,但在进化过程中它们经历了不同的分化模式,最终形成不同的物种。进化树中聚类关系越近,说明其功能类似的可能性越大,在该研究中发现,谷子CDPK基因几乎均与水稻存在同源基因,这也为研究谷子CDPK家族基因的功能提供了基础。谷子CDPK基因结构较为复杂,外显子数目为6~12(除SiCPK2有1个外显子),复杂的基因结构可能会导致基因结构不稳定,且复制时易产生可变剪切。植物种属的CDPK可能来自于蛋白激酶和CaM基因的融合[17],因此,谷子CDPK家族基因的结构差异可能与蛋白激酶或CaM序列的差异有关。
基因复制在生物体进化过程中起着重要作用,包括串联复制、局部复制和整个基因组复制[18]。谷子的基因组测序结果表明,谷子的2号和9号染色体分别由水稻的7号和9号、3号和10号染色体融合而成,并且研究发现,谷子独立分化出来之后又发生了一次特异性染色体融合事件,即谷子的3号染色体是由水稻的5号和12号染色体或高粱的8号和9号染色体融合而成。谷子和水稻大约在5 000万年前(50 Mya)开始分化,二者分化之后的基因组结构仍存在明显的共线性[10]。在该研究中发现,谷子的12对旁系同源基因中有11对旁系同源基因位于染色体复制产生的重复片段内,因而可能起源于片段复制事件,说明片段复制也是谷子CDPK基因家族扩增的一个主要原因。基因的染色体定位是片段重复和串联重复共同作用的结果,对基因家族扩展具有重要的推动作用。
目前,对植物CDPK的研究主要集中在模式植物及豆科植物上,谷子CDPK家族基因的生物信息学研究鲜有深入报道。该研究以谷子全基因组序列为背景,完成了28个SiCPK家族基因的生物信息学分析,也为进一步鉴定其功能奠定了基础。随着分子生物学和基因工程技术的不断发展,谷子CDPK基因如何响应外界刺激、参与抗逆反应信号转导等都将成为日后研究的重要方向。
参考文献
[1]TREWAVAS A J,MALH R.Ca2+ signalling in plant cells:The big network![J].Current opinion in plant biology,1998,1(5):428-433.
[2]MCCORMACK E,BRAAM J.Calmodulins and related potential calcium sensors of Arabidopsis[J].New phytologist,2003,159(3):585-598.
[3]KOLUKISAOGLU ,WEINL S,BLAZEVIC D,et al.Calcium sensors and their interacting protein kinases:Genomics of the Arabidopsis and rice CBL-CIPK signaling networks[J].Plant physiology,2004,134(1):43-58.
[4]LUAN S,KUDLA J,RODRIGUEZ-CONCEPCION M,et al.Calmodulins and calcineurin B-like proteins:Calcium sensors for specific signal response coupling in plants[J].The plant cell online,2002,14(S1):S389-S400.
[5]HRABAK E M,CHAN C W,GRIBSKOV M,et al.The Arabidopsis CDPK-SnRK superfamily of protein kinases[J].Plant physiology,2003,132(2):666-680.
[6]HARPER J F,HARMON A.Plants,symbiosis and parasites:A calcium signalling connection[J].Nature reviews molecular cell biology,2005,6(7):555-566.
[7]LUDWIG A A,ROMEIS T,JONES J D G.CDPK-mediated signalling pathways:Specificity and cross-talk[J].Journal of experimental botany,2003,55(395):181-188.
[8]LI A L,WANG X,LESEBERG C H,et al.Biotic and abiotic stress responses through calcium-dependent protein kinase (CDPK) signaling in wheat (Triticum aestivum L.)[J].Plant signaling & behavior,2008,3(9):654-656.
[9]ASANO T,HAYASHI N,KIKUCHI S,et al.CDPK-mediated abiotic stress signaling[J].Plant signaling & behavior,2012,7(7):817-821.
[10]ZHANG G Y,LIU X,QUAN Z W,et al.Genome sequence of foxtail millet (Setaria italica) provides insights into grass evolution and biofuel potential[J].Nature biotechnology,2012,30(6):549-554.
[11]余琴鴦,尹恒,安利佳,等.谷子逆境应答相关的钙依赖蛋白激酶基因SiCDPK1的克隆与表达[J].作物学报,2014,40(9):1531-1539.
[12]GUO A Y,ZHU Q H,CHEN X,et al.GSDS:A gene structure display server[J].Hereditas (Beijing),2007,29(8):1023-1026.
[13]倪天华,魏幼璋.钙依赖型蛋白激酶(CDPKs)在植物中的生理功能[J].西北农林科技大学学报(自然科学版),2002,30(6):241-246.
[14]LIU W,LI W,HE Q L,et al.Genome-wide survey and expression analysis of calcium-dependent protein kinase in Gossypium raimondii[J].PLoS One,2014,9(6):1-11.
[15]MA P D,LIU J Y,YANG X D,et al.Genome-wide identification of the maize calcium-dependent protein kinase gene family[J].Applied biochemistry and biotechnology,2013,169(7):2111-2125.
[16]CHEN F,FASOLI M,TORNIELLI G B,et al.The evolutionary history and diverse physiological roles of the grapevine calcium-dependent protein kinase gene family[J].PLoS One,2013,8(12):1-11.
[17]ZHANG X S,CHOI J H.Molecular evolution of calmodulin-like domain protein kinases (CDPKs) in plants and protists[J].Journal of molecular evolution,2001,53(3):214-224.
[18]XU G,GUO C,SHAN H,et al.Divergence of duplicate genes in exon-intron structure[J].Proceedings of the national academy of sciences,2012,109(4):1187-1192.