野生种花生GLP家族基因的鉴定与特征分析
2020-10-10刘汝莹韩守萍潘丽娟陈明娜迟晓元
刘汝莹,王 冕,韩守萍,陈 娜,潘丽娟,陈明娜,许 静,迟晓元*,王 通*
(1.山东省花生研究所/农业部花生生物学与遗传育种重点实验室,山东 青岛266100;2.中南林业科技大学食品科学与工程学院,湖南 长沙410004;3.青岛市黄岛区农业农村局,山东 青岛266400)
萌发素(germins)是从小麦和大麦萌发胚中鉴定出的一类具有草酸氧化酶(oxalate oxidase,OXO)活性的植物早期发育标记蛋白[1],特异存在于单子叶植物中[2],氨基酸序列同源性在90%以上。而类萌发素(germin-like proteins,GLPs)是一类与germin同源性在30%~70%之间的多家族糖基化蛋白,广泛存在于各类陆生植物,包括裸子植物和苔藓中[3]。尽管GLPs与germins的保守结构域特性高度相似,但GLPs均无OXO活性[4-5]。GLPs的平均氨基酸长度约220 aa,分子量平均约23.0k Da。GLPs的多聚体结构可显著增强其对蛋白酶、高温、SDS和p H等变性剂的稳定性[4]。
根据序列进化关系,GLPs可分为6个亚家族,各亚家族均表现出一致的酶活性特性[6],其中真germin亚家族均具有OXO活性,其主要参与植物组织发育和植物的不同生理过程(如木质化、感知环境、体细胞与合子胚胎发生等)的调节[4,7]。 其他GLPs主要以酶、结构蛋白质和受体的形式存在于植物体内,参与调控植物的逆境胁迫(干旱、盐害和重金属等)反应[8-10],并提高植物的广谱性防卫反应[3-4,6]。大量研究表明,GLPs主要通过OXO、SOD和H2O2活性促发氧化反应进而引起植物对生物和非生物胁迫的防卫作用。
对NCBI数据库中GLPs基因序列统计发现,60多个双子叶植物和近10个单子叶植物已有相关序列报道,其中GLPs基因序列较多的植物主要有双子叶植物拟南芥118个[11]、大豆55个[12]、苜蓿44个[13]、向日葵54个[14],单子叶植物水稻152个[15]、大麦47个[5]、小麦27个[1]、玉米18个[16]。而花生中仅有11个GLPs家族基因已有报道,显著低于同为蝶形花科的大豆中GLP数量。这些花生GLPs基因均是通过转录组测序和同源克隆获得基因序列[17-18]。虽然各植物种间GLP家族基因数量不尽相同,由于前期实验设计和技术的局限性,已报道的花生GLPs家族基因数量存在一定差异,使得全面研究花生GLPs家族基因的功能进展缓慢,因此有必要对其进行重新鉴定和分析。
现代生物信息学分析技术的不断成熟和花生全基因组测序的完成[19-20]将加快从全基因组水平认知花生基因的生物学功能、解析其复杂生物学现象,改变花生分子生物学研究相对滞后的局面。本研究在全基因组水平上对花生GLP基因进行全基因组挖掘和分析,全面、系统地解析花生GLP家族基因的基本信息、保守域结构、进化关系、基因结构、染色体定位和组织时空表达分析等信息,为花生GLP基因的克隆和功能解析提供一定的理论、信息基础。
1 材料与方法
1.1 花生GLP家族基因的鉴定与结构特性分析
利用已报道的栽培种花生和其他植物中的GLP蛋白质序列[17,21],通过BLASTP分别对Arachis duranensis的AA基因组和Arachis ipaensis的BB基因组(http://www.peanutbase.org/)进行同源搜索。然后,利用SMART(http://smart.embl-heidelberg.de/)检测候选蛋白质序列,剔除不含cupin基序的蛋白序列,最后得到野生种花生中编码GLP蛋白的基因序列。利用在线工具GSDS(http://gsds.cbi.pku.edu.cn/index.php)分析目的基因的内含子、外显子等结构信息。通过MEME(http://meme-suite.org/tools/meme)等工具对已报道和候选花生GLP成员进行氨基酸序列结构分析,MEME的参数设置fd为:①基序重复的数量为“any”;②基序的长度为6~200;③预测基序的数量为20。
1.2 理化性质预测、二级结构分析与亚细胞定位
用在线工具Protparam(https://web.expasy.org/protparam/)对野生种花生GLPs蛋白质序列进行等电点和分子量预测。用ProtComp(http://www.softberry.com/berry.phtml?topic=protcomppl&group=programs&subgroup=proloc)对GLPs蛋白质进行亚细胞定位预测分析,用SignaIP分析GLPs蛋白质是否具有信号肽序列。
1.3 GLP基因家族的系统进化
利用MEGA7(http://www.megasoftware.net)软件对花生GLP家族成员的蛋白质序列进行多重比对,采用邻接法(Neighbor-Joining,NJ)构建同系进化树,执行参数Poission correction、pairwise deletion和bootstrap,重复1000次,其他参数为默认。
1.4 花生GLP基因家族的基因组定位
在花生基因组数据库(https://www.peanutbase.org)中下载花生GLP家族各基因在染色体组中的位置信息,用chromPlot(R语言包)软件生成每个花生GLP基序基因在染色体组上的位置,得到各GLP基序基因在基因组中的分布状况图。
1.5 花生GLP家族基因表达分析
根据PeanutBase数据库Gene Expression Resources Available for Peanut中公布的野生种花生转录组数据,利用其pfkm(Reads of kilobase per million mapped)值[22]分析野生种花生GLPs家族基因的组织表达情况,以pfkm值大于2为筛选阈值,使用heatmap2(R3.5.1软件包)对GLP基序基因在花生不同组织器官的表达模式聚类,并绘制热图。
表1 花生中GLP基因家族基本信息Table 1 The information of GLP family genes in peanut
2 结果与分析
2.1 花生GLP家族基因的鉴定和理化特性
利用已知GLP典型保守序列,通过同源搜索和生物信息学分析,从野生种花生的AA和BB基因组中分别鉴定出22条和16条GLP家族基因序列(图1,表1)。对花生GLP家族基因的氨基酸编码区、分子量及等电点等生化属性分析表明,花生GLP家族基因编码的氨基酸长度在184氨基酸(HF645、VA8CB和RTN15)至512氨基酸(KQ845)之间,分子量在18.07 kD(QIV9F)至55.78 kD(F3HB9)之间,等电点范围从4.66(F1HJA)到10.06(WB5CY)(表1),其中有4个GLP成员(013F5、UNX5Q、J6PP8和F3HB9)的N-端第一个氨基酸不是Met。
通过SignaIP对野生种花生38个GLPs蛋白分别进行N-端信号肽序列分析,仅24个GLP家族成员的N-端有信号肽序列。利用ProtComp进行亚细胞定位分析发现,GLP家族成员均定位在Extracellular(细胞外基质),推测野生种花生GLP蛋白质N-端均有帮助蛋白质跨膜的信号肽(表1)。
2.2 花生GLP家族基因的染色体分布
如图1所示,38条花生野生种GLP家族基因分布在17个染色体上,呈不均匀分布,且大多位于染色体的两端。其中染色体A06上分布最多,为9个基因,其次是染色体B06有6个基因,这两个染色体上的GLP基因大部分属于Subfamly I,呈现基因簇分布。A01含有4个GLP基因,A02、A08、B03、B08和 B10各含有2个GLP基因,染色体 A03、A04、A05、A09、A10、B01、B02、B04和B10各含有1个GLP基因。而染色体B05、A07和B07上无GLP基因分布。
2.3 野生种花生GLP的系统进化与结构分析
利用鉴定的38个野生种GLP基因序列,结合已报道的栽培种花生和其他模式植物GLP家族基因序列构建系统进化树。结果表明,野生种花生中该家族基因分为3个亚家族:Subfamily I、Subfamily II和Gymosperm subfamily,分别含有20、10和8个成员。这与栽培种花生GLP基因主要分布于Subfamily1、2、3和 Gymosperm subfamily亚家族的特点不同(图2和图3A)。
利用MEME在线软件分析野生种花生38个GLP蛋白保守基序(Motif),预测出5个保守基序(图2B)。其中motif 1存在于所有基因中,属GLP家族典型保守结构域。36个基因含有motif 2,33个基因含有motif 3,28个基因含有motif 4,27个基因含有motif 5。在Subfamily I和II中,3SF2D无motif 5,F1HJA和MA69I无motif 4和motif 5,而其余27个GLP基因均含有一致的motif数量和顺序。然而Gymosperm subfamily的8个基因中,B1NGL、Q61XZ和QK4SE只含有mitif 1、motif 2和motif 3,且motif顺序与野生花生其他GLP基因不同;RTN15、HF645和VA 8C8只含有motif 1和motif 2;QIV9F和19KPD仅含有motif 1。
图1 花生GLP家族基因在野生种花生AA(a)和BB(b)染色体上的定位情况Fig.1 Distribution of peanut GLP family genes on chromosome AA(a)and BB(b)
图2 花生GLP家族基因蛋白保守区分析Fig.2 The conserved motif logo statistic of 52 peanut GLPs
图3 花生GLP基因家族进化树和基因结构Fig.3 The phylogenetic tree and gene structures of peanut GLP gene family
图3C显示,Subfamily I中各成员外显子/内含子结构较为相似,除KQ845有2个内含子,其余成员仅有1个内含子,所有内含子长度均小于1 kb。Subfamily II各基因的内含子数量差异最大,其中R9ZWQ无内含子,F3HB9有5个内含子,79I5D的内含子最长(约3.5 kb)。Gymosperm subfamily各基因的内含子长度差异最大,RTN15、HF645、VA8CB和19KPD无内含子,QIV9F有1个内含子,B1NGL、Q61XZ和QK4SE有2个内含子,且内含子较长,其中QK4SE的内含子最长(达6.3 kb)。
综上,推测基因内含子—外显子结构关系以及蛋白质保守基序的数量、排列等在花生GLP家族的系统进化中起到重要作用。
2.4 GLP家族基因表达
对不同组织中GLP家族基因的时空表达进行分析,结果显示,仅8个基因在22个组织中呈现差异表达模式,其中6个基因属于subfamily I,2个基因(79I5D和J6PP8)属于subfamily II。subfamily I中的0HB4B和WB5CY有相似的表达模式,仅在Vegetative Shoot Tip(营养茎尖)、Reproductive Shoot Tip(生殖茎尖)和Roots(根)中有相对较高的表达。subfamily I中B0Q1D、UJ97I、K66PA和W274M呈现较一致的表达模式,其在Roots(根)、Nodule Roots(结瘤根)、Stamens(雌蕊)、AerialGyn-Tip(悬空果针尖)、SubGyn Tip(入土果针尖)、PodPt1(果 1)、StalkPt1(茎1)、PodPt3(果 3)和PericarpPt5(果皮5)中有较高表达。subfamily II中的79I5D和J6PP8主要在Roots(根)、AerialGyn Tip(悬空果针尖)、SubGyn Tip(入土果针尖)、PodPt3(果3)、PericarpPt5(果皮5)和Pericarp_Pattee6(果皮6)中有较高表达。而野生种其他GLP基因在22个组织中无表达(图4)。
图4 花生GLP家族基因的组织表达模式Fig.4 Tissues expression profiles of peanut GLP family genes
3 讨 论
大量研究表明,GLP基因家族参与调控植物的多重生理过程,模式植物拟南芥、大豆、小麦和水稻GLP家族基因的相关特征和生物学功能已得到广泛的挖掘和鉴定[17,21]。随着一些植物基因组测序的完成,已经在70多种植物中鉴定出GLP基因家族。本研究利用花生全基因组鉴定出38个野生种花生GLP基因,其数量接近大豆的GLP数,明显多于前期通过同源克隆和转录组测序鉴定得到的8个GLP基因数[17]。除少数花生GLP基因序列不完整导致个别基因结构域缺失,总体上花生GLP家族基因核心结构域是高度保守的。根据系统进化分析,38个花生GLPs分为subfamily I、subfamily II和Gymosperm subfamily等3个亚类,这与已报道的大豆、拟南芥、苜蓿、茶树和向日葵等双子叶植物GLP分类关系一致[21],与单子叶植物中GLP家族的3~5个亚家族分类关系存在较大差异[2,10]。说明花生GLP家族与其他双子叶植物一样具有相同的进化模式和特点。然而,栽培种花生GLP家族基因的3个亚家族分别是subfamily I、II和III,无Gymosperm subfamily,这与野生种花生GLP明显不同,推测野生种和栽培种花生间GLP家族在系统进化过程中出现分离。
在基因的系统进化中,同一亚家族中各基因的保守性基序、内含子、外显子等的结构和顺序都相似,因此这些基因可能也具有类似的功能活性[23]。本研究中,处在相同亚家族的花生GLP基因大部分具有相似的内含子—外显子结构,其中subfamily II的内含子数量差异最显著,最多可达5个内含子,Gymosperm subfamily的内含子长度差异最大,而subfamily I各成员的内含子在数量和长度上无明显差异(图3)。这是首次发现花生GLP基因家族成员编码的GLP外显子呈现此规律,对于研究花生及其他植物中GLP基因家族进化过程提供了重要信息。
基因复制包括串联复制、片段复制和全基因组复制等形式,其在基因组扩张基因功能多样化和基因家族成员的增加等过程中都起到重要作用[24]。比如苹果WRKY基因家族[23]、大豆Abhydrolase3基因家族[25]以及中苜蓿SBP-box基因家族[23]等,均在基因组进化过程中通过基因复制来增加家族基因数量。通过对花生GLPs家族基因的染色体定位分析表明(图3),在A01/06/08和B06/08中可能分别发生过串联复制和片段复制事件,从而增加subfamily I和Gymosperm
subfamily的成员,并在A06、B06、A09和B09上形成基因簇,而花生其他A/B染色体上的GLP高度同源基因可能主要通过片段复制产生。
以往对栽培种花生8个GLP基因组织表达研究表明[17-18],其表达模式与本研究中野生种花生GLP的表达结果不同,栽培种花生GLP基因在根中均有较高表达,而野生种GLP在不同组织中具有显著差异表达的基因仅有8个(图4),在根部表达量较高的仅有subfamily II的4个基因(B0Q1D、UJ97I、K66PA和W274M)。 同时这4个基因在野生种花生各组织中的总表达量最高,且在Pericarp_Pattee6(果皮6)中的表达显著高于其他组织。而Subfamily I成员在野生种花生各组织中均无表达。以上说明野生种花生GLP和栽培种花生GLP在不同组织中的表达功能存在较大差异,这可能与其系统进化差异有关。总之,对花生GLP家族基因表达模式的分析表明,花生GLP家族基因的组织表达模式与其系统进化发生具有一定的关联性,这为探索基因家族的分子进化机制提供了一定的参考。
本研究通过生物信息学技术方式对花生GLP基因家族进行全基因组鉴定,获得38个家族基因,分为3个不同的亚家族,分布于17条不同的染色体上,基因的进化关系与其结构变化可能有一定关系,这种关系又决定了基因表达的一定组织特异性。