豆科MIKC型MADS-box基因家族生物信息学分析
2022-09-03张月王佳琪于子建许强张岚潘玉欣
张月,王佳琪,于子建,许强,张岚,潘玉欣
(华北理工大学生命科学学院,河北 唐山,063210)
MADS-box基因家族是一类生物功能丰富,在植物中广泛存在的序列特殊的同源异型基因。酿酒酵母的MCMI、拟南芥的AGAMOUS、金鱼草的DEFICIENS和人类的SRF4四种基因的首字母构成MADS-box基因的名称。MADS-box基因的蛋白中都含有1 个由约58 个氨基酸组成的保守结构域,即MADS 盒[1]。根据不同的分类标准,MADS-box基因可分为Ⅰ型和Ⅱ型(MIKC 型),也可以分成5 个小类:Mα、Mβ、Mγ、MIKCc、MIKC*,其中Mα、Mβ、Mγ属于Ⅰ型,MIKCc、MIKC*属于Ⅱ型。Ⅰ型植物的MADS-box基因只有1~2 个外显子,编码蛋白缺少K(Keratin-like)-box 域,含有1 个高度保守的MADS域。MIKC 型MADS-box基因在植物基因组结构和功能的研究方面较为清楚,一般含有6个内含子和7个外显子[2]。这类型基因通常含有MADS、K-box、I(Intervening)和C(C-terminal)4 个结构域,MADS 域非常保守,在所有基因中均存在,K-box 域半保守,在大部分基因中存在,I结构域和C结构域的保守性很低。
分布于植物中的MADS-box基因功能丰富,参与了植物生长发育的各个时期,包括调控花器官、根的生长发育以及雌雄配子、胚胎、种子、果实的发育等,也参与调控光合作用、营养代谢、多种胁迫响应等途径[3~5]。MIKC 型MADS-box基因在花发育的各个时期具有重要调控作用,大部分MIKC 型MADS-box基因都是花器官决定基因[6]。MIKCC型包括14 个亚类AP1、AP3、PISTILLATA(PI)、AGAMOUS(AG)/SEEDSTICK(STK) 、AGAMOUS-LIKE6(AGL6)、AGL12、AGL15、AGL17、BSISTER(BS)、SUPPRESSOR OF OVEREXPRESSION OF CONSTANS1(SOC1)、SHORT VEGETATIVE PHASE(SVP)、FLOWERING LOCUS C(FLC) 、SEPALLATA1(SEP1)[5,7]。MIKCC型基因亚类的功能各有不同,如SOC1、FLC、SVP等亚类调控开花的时间,SEP1、AP3、PI和AG亚类决定花器官的特异性,AP1亚类决定花器官和分生组织的特异性[8,9]。有关花器官发育的特异性基因主要源于拟南芥花分化ABCDE模型。参与花器官形态建成的MIKC 型MADS-box基因AP1属于A 类基因,PI、AP3属于B 类基因,AG属于C 类基因,STK/AGL11和SHP属于D 类基因,SEP1、SEP2、SEP3、SEP4属于E类基因[6]。
MADS-box基因家族的结构和功能在小麦[5]、拟南芥[10]、陆地棉[11]、莴苣[12]和甘蓝型油菜[13]等多种植物中均有研究。拟南芥中共鉴定出107 条MADSbox基因,且根据进化关系将MADS-box基因划分为Mα、Mβ、Mγ、MIKCc和MIKC*五类[10]。利用已知序列MADS 结构域的多序列比对以及系统发育树分析,小麦201 条MIKC 型MADS-box基因分为15个亚类,家族基因重复多存在于远端端粒区,亚家族内基因表达模式较相似[5]。MADS-box基因表达模式的不同揭示其进化过程出现了功能分化[11,12]。
多倍化在植物进化和物种形成中起着十分重要的作用,丰富了物种基因功能的多样性,增强了物种的适应性[14]。豆科是第三大植物科,是动物和人类营养物质的重要来源。研究表明,约1.3~1.5亿年前豆科与其它双子叶植物共有祖先发生了一次全基因组三倍化事件,约5900万年前豆科植物共同经历了一次全基因组二倍化事件,大豆在与其它豆科植物分化后约1300 万年前又发生了一次特异性的全基因组二倍化事件[15]。在大豆基因组中鉴定了57 个MIKC 型基因,均具有保守的MADS 和Kbox基序,AP1,AG,AP3,PI,SVP和SOC1基因均存在多拷贝现象[8]。全基因组复制事件对MIKC 类基因的扩张起重要作用,导致MIKC 类基因在进化过程中被选择性保留[13],但多倍化对MIKC 型MADS-box基因扩张的影响缺乏深入分析。
本研究基于更新的豆科植物数据库,对大豆(Glycine max)、蒺藜苜蓿(Medicago truncatula)MIKC型MADS-box基因家族的基因结构、蛋白质理化性质、保守结构域、系统发育关系、共线性与进化速率、基因表达模式、蛋白互作等进行分析,为揭示MADS-box家族的生物学功能奠定基础。
1 材料与方法
1.1 大豆、蒺藜苜蓿、葡萄MIKC型MADS-box基因家族成员的鉴定
从TAIR(http://www. arabidopsis. org/. Araport11)下载拟南芥MADS-box基因家族的蛋白序列,从PeanutBase(https://www. peanutbase. org)数据库下载大豆、蒺藜苜蓿的全基因组数据,从JGI(https://genome. jgi. doe. gov. v2.1)数据库下载葡萄全基因组数据。利用HMMER[16]软件(E 值≤0.05),根据文献报道的107 个拟南芥MADS-box蛋白序列[9]构建HMM 模型,在大豆、蒺藜苜蓿和葡萄全基因组数据中筛选候选基因,通过CDD(https://www. ncbi. nlm. nih. gov)、PFAM(http://pfam.xfam. org)、SMART(http://smart. embl-heidelberg.de/)预测候选蛋白结构域,去除冗余蛋白序列,最终确定含MADS 结构域的蛋白序列为MADS-box家族成员。
提取大豆、蒺藜苜蓿与葡萄的MADS 结构域蛋白序列,用MAFFT[17,18]对大豆、蒺藜苜蓿、葡萄和拟南芥包含MADS 结构域的蛋白序列进行多序列比对,根据序列比对结果利用IQ-TREE[19]软件和ModelFinder[20]构建系统发育树,初步确定其分类;利用BLAST+[21]将得到的大豆、蒺藜苜蓿和葡萄的MADS-box 蛋白序列与拟南芥的MADS-box 进行序列比对,按照拟南芥的功能分类[10],对系统发育树的分类进行验证,最终确定MADS-box基因的I 型和II型分类。
1.2 豆科MIKC 型MADS-box 基因家族系统进化分析
将MIKC 型蛋白序列进行MAFFT 比对,利用IQ-TREE 软件和MODELFINDER(最佳拟合模型:JTT+R7)构建系统发育树。参照拟南芥的MIKC 型基因功能分类和系统发育树[10],将大豆、蒺藜苜蓿和葡萄的MIKC 型MADS-box基因分类,并进行系统发育分析。
利用NOTUNG[22]软件的Rooting Mode 功能将MADS-box基因树与物种树作比较,推断基因的复制与丢失事件。
1.3 豆科MIKC型MADS-box蛋白基本理化性质及亚细胞定位分析
利 用ExPASy-ProtParam(https://web. expasy.org/protparam/)[23]在线工具预测大豆、蒺藜苜蓿MIKC 型MADS-box 蛋白质的基本理化性质,包括氨基酸长度、分子质量、等电点、不稳定指数等。利用亚细胞定位工具WolF PSORT(https://wolfpsort.hgc.jp/)[24]预测MADS-box基因细胞内定位情况。
1.4 豆科MIKC 型MADS-box 基因结构分析和蛋白质保守基序分析
利用基因结构显示软件GSDS[25](http://gsds.cbi.pku.edu.cn/)分析MIKC 型基因结构;利用序列分析工具MEME[26](http://meme-suite.org/)分析各基因组中MIKC 型MADS-box 蛋白序列保守基序(motif),其中,基序最大发现数目为20,基序最大长度为50;利用数据处理工具包TBtools[27]将结果进行可视化。
1.5 豆科MIKC型MADS-box基因共线性与KS值分析
利用MCScanX[28]预测大豆、蒺藜苜蓿和葡萄MIKC 型MADS-box基因的复制类型,并对其基因组内和基因组间的共线性进行分析;利用Python 语言编写程序,计算该基因家族成员共线性基因对间的同义替换率KS值;利用Circos 软件[29]绘制与多倍化事件相关的同源关系图。
1.6 大豆MIKC型MADS-box基因表达模式分析
在NCBI 的GEO 数据库下载大豆转录组数据(https://www. ncbi. nlm. nih. gov/geo/query/acc. cgi?acc=GSE99571)[30],包 括 大 豆 子 叶 期 胚 胎(COT.EP)、大豆早熟期胚胎(EM. EP)、大豆中熟期胚胎(MM.EP)、大豆晚熟期胚胎(AA1.EP)、大豆干种子期(Dry)和大豆幼苗期(SDLG. COT)6 个组织,计算三次重复实验数据,取其平均值,并使用软件TBtools绘制聚类热图。
1.7 大豆MIKC型MADS-box蛋白互作网络分析
利用STRING[31](https://stringdb. org/)数据库预测可能与大豆MIKC 型MADS-box 蛋白相互作用的蛋白质。
2 结果与分析
2.1 大豆、蒺藜苜蓿、葡萄MIKC 型MADS-box 基因家族成员的鉴定
通过多序列比对和系统发育树分析,4 个物种共鉴定出232 个MIKC 型MADS-box基因,包括拟南芥45 个、大 豆92 个、蒺 藜 苜 蓿45 个、葡 萄50个(图1)。
图1 4个物种MIKC型MADS-box基因在不同亚类中的数量分布Fig.1 Quantity distribution of MIKC-type MADS-box genes in different subfamilies of each species
2.2 豆科MIKC 型MADS-box 基因家族系统进化分析
根据拟南芥MIKC 型基因的功能分类和系统发育树[10],将大豆、蒺藜苜蓿、葡萄和拟南芥MIKC 型基因分为MIKCC和MIKC*两类,其中MIKCC包括除MIKC*型之外的14个亚类(图2)。从系统发育树看出,除SVP、SOC1、AGL15亚类外其余亚类树形分布基本符合各物种基因组的多倍化过程,大豆与蒺藜苜蓿亲缘关系较近。SVP、SOC1、AGL15亚类个别基因不符合基因组的多倍化过程,而且存在部分基因丢失情况。FLC亚类基因在拟南芥发育过程中调控春化开花,基因数量热图显示大豆仅有2 个FLC类基因,蒺藜苜蓿缺少FLC类基因。大豆和蒺藜苜蓿AG、AP1和SEP1亚类基因数量相对较多,基因功能较丰富[32]。
图2 拟南芥、葡萄、大豆和蒺藜苜蓿MIKC型MADS-box基因家族系统发育树Fig.2 Phylogenetic tree of MIKC-type MADS-box gene family in Arabidopsis,grape,soybean and Medicago
利用NOTUNG 分析MIKC 型MADS-box基因在物种树各进化节点上的基因扩增与丢失情况(图3)。4 个物种的祖先节点有64 个基因发生了复制,大豆和蒺藜苜蓿的共同祖先节点,18 个基因被复制,17 个基因发生了丢失,基因整体的数目没有发生较大的变化。大豆家族基因复制的数目(+41)比蒺藜苜蓿(+2)的多,而蒺藜苜蓿家族基因丢失的数目(-17)比大豆(-9)多,可以得出大豆MADS-box基因发生了扩增,而蒺藜苜蓿的家族基因发生了丢失。整体来看,4 个物种有152 个MADS-box基因复制,107个MADS-box基因丢失。
图3 拟南芥、葡萄、大豆和蒺藜苜蓿MIKC型MADS-box基因的复制和丢失Fig.3 Duplication and loss of MIKC-type MADS-box genes in Arabidopsis,grape,soybean and Medicago
2.3 豆科MIKC型MADS-box蛋白基本理化性质分析和亚细胞定位分析
编码大豆MIKC 型MADS-box 蛋白的氨基酸长度范围从126 到354,分子量范围从10915.86 到40409.85kD,等电点范围从5.30 到10.11(只有极少数蛋白等电点小于7,MIKC*和BS 亚类蛋白等电点小于7)(表1)。编码蒺藜苜蓿MIKC 型MADSbox蛋白的氨基酸长度范围从50到402,分子量范围从13023.95 到7054.27kD,等电点范围从5.22 到10.65(只有极少数蛋白等电点小于7)(表2)。
理化性质分析结果显示大豆和蒺藜苜蓿MIKC型MADS-box基因所编码蛋白质等电点80%大于7,属于碱性蛋白。蛋白的不稳定系数大于30,属于不稳定蛋白。
亚细胞定位结果(表1 和表2)表明89%以上的MADS-box基因均定位在细胞核(nucleus),大豆和蒺藜苜蓿均只有7 个基因位于其他部位,其余基因均位于细胞核,符合转录因子的特征。
表1 大豆MIKC型MADS-box蛋白的理化性质及亚细胞定位Table 1 Physicochemical properties and subcellular localization of soybean MIKC-type MADS-box proteins
表2 蒺藜苜蓿MIKC型MADS-box蛋白的理化性质及亚细胞定位Table 2 Physicochemical properties and subcellular localization of Medicago MIKC-type MADS-box proteins
2.4 豆科MIKC 型MADS-box 基因结构分析和蛋白质保守基序分析
基因结构分析表明MIKC 型MADS-box基因结构比较保守,MIKC*型大部分基因含9~11 个左右的外显子,只有两条含2~3 个外显子;其他14 个亚类大部分均有7~8个左右的外显子,只有约8%基因含有2~3 个外显子,大豆和蒺藜苜蓿均含有较长的内含子。
蛋白质基序分析结果(图4)表明MIKC 型MADS-box 蛋白均含有MADS 结构域,大部分含有K-box 结构域,但MADS-box 蛋白序列间I 结构域和C 结构域的保守性较低,缺乏共有基序。MADS 结构域由motif1、motif3、motif5 构成,所有蛋白中至少含有其中一个motif,所有的大豆和蒺藜苜蓿蛋白均含有motif1。K-box 结构域由motif2、motif4、motif6、motif7、motif12、motif17 构成,不同亚家族K-box 结构域包含的基序略有不同。例如在PI、AP3 亚类中K-box 结构域由motif2、motif12 构成,在AG/STK,AGL17 亚类中K-box 结构域由motif2、motif4、motif6构成。MIKC*亚类只有一个基因含有K-box 结构域。总体来看,motif1、motif2、motif3、motif4 所在蛋白序列数均占全部家族蛋白80%以上。
图4 MIKC型MADS-box蛋白基序分析及基因结构分析Fig.4 Protein conserved motif analysis and gene structure analysis in MIKC-type MADS-box genes
2.5 豆科MIKC型MADS-box基因共线性与KS值分析
基因组复制是基因家族扩张的重要来源。通过检查5种类型的基因复制,即单基因复制、分散基因复制、近端基因复制、串联基因复制和全基因组复制或片段复制,发现83.61%的大豆基因和80%的蒺藜苜蓿基因来自全基因组复制或片段复制。
共线性分析发现,大豆基因组内MIKC 型MADS-box共线基因对318对、蒺藜苜蓿31对、葡萄62对;大豆和蒺藜苜蓿基因组间MIKC 型MADS-box共线性基因对87 对、大豆和葡萄109 对、蒺藜苜蓿和葡萄50对(图5)。大豆基因组内共线性基因对明显多于其他两个物种,蒺藜苜蓿的家族基因共线性基因对最少,与葡萄也仅共有50对基因对。
图5 大豆、蒺藜苜蓿、葡萄MIKC型MADS-box基因共线性分析Fig.5 Collinearity analysis of MIKC-type MADS-box genes in soybean,Medicago and grape
同义置换率KS,反映物种之间的分歧时间和种内的加倍事件。已有研究表明,约1.3~1.5 亿年前豆科与其它双子叶植物共有祖先发生了一次全基因组三倍化事件(KS≈1.31),随后约在5900 万年前豆科植物发生了一次共有的全基因组二倍化事件(KS≈0.627),约1300 万年前大豆又发生了一次特异性 的 二 倍 化 事 件(Ks≈0.164)[15]。大 豆MIKC 型MADS-box基因KS统计结果显示,1%的共线性基因对(3 对)处于0~0.164,2.8%的基因对(9 对)处于0.164~0.627,5.7%的基因对(18 对)处于0.627~1.310,90.5% 的基因对(287 对)大于1.310(图6A)。蒺藜苜蓿MIKC 型MADS-box基因KS统计结果显示,3.2%的基因对(1 对)小于0.627,9.7%的基因对(3 对)处于0.627~1.310,87.1%的基因对(27 对)大于1.310(图6B)。结果表明,大豆和蒺藜苜蓿分别有96.3%和96.8% MIKC 型MADS-box基因对与双子叶植物共有的三倍化事件以及更古老的加倍事件相关。
图6 大豆和蒺藜苜蓿MIKC型MADS-box基因Ks值分析Fig.6 Analysis of KS value of MIKC-type MADS-box genes in soybean and Medicago
2.6 大豆MIKC型MADS-box基因表达模式分析
大豆MIKC 型各亚类基因在大豆不同发育时期的表达模式和表达量有明显的区别(图7)。大豆发育时期分析显示:AGL12、SVP、MIKC*亚类表达量较低,SEP1亚类在各时期表达量分布均匀,BS、AGL6亚类表达量相对较高。在大豆子叶期胚胎(COT.EP)时期,AP1亚类表达量较高;在大豆早熟期胚胎(EM. EP)时期,AG/STK和AP3亚类表达量较高;在大豆中熟期胚胎(MM.EP)时期,MIKC*和BS亚类表达量较高;在大豆晚熟期胚胎(AA1. EP)时期,AGL17亚类表达量相对较高,其他14 亚类表达量均较低;在大豆干种子期(Dry),各亚类表达量均较低,几乎不表达;在大豆幼苗期(SDLG.COT),AP3、PI、FLC、SVP、AGL12亚类表达量较高,其中AGL12基因全部高表达。AGL15亚类中只有gm206s2g01178在大豆子叶期胚胎(COT.EP)时期高表达,这与AGL15亚类功能相关,AGL15亚类基因在在幼胚中高表达,在根、茎、叶和花中不表达,在幼胚形成过程中具有重要意义,在大豆种子发育过程中起重要调控作用[33,34]。综上,大豆幼苗期表达量高于其他时期,说明MIKC 类MADS-box基因在植物幼苗发育过程中起调控作用。
图7 大豆MIKC型MADS-box基因不同发育时期的表达量Fig.7 Expression of MIKC-type MADS-box gene family in soybean at different developmental stages
2.7 大豆MIKC型MADS-box蛋白互作网络分析
蛋白质相互作用是调控生物生命活动的重要形式。MIKC 型MADS-box 家族蛋白参与多种生物途径。在线工具STRING 结果显示大豆MADS-box家族SVP 和LFY 间存在相互作用。除此二者还分别与调控植物春化的MAF,光周期的CO 以及开花途径FRI,TSF,TFL,GI,FT,LATE 等10 个蛋白存在相互作用[34~36](图8)。
图8 大豆MIKC型MADS-box蛋白与其它蛋白相互作用网络图Fig.8 Protein interaction network between Glycine max MIKC-type MADS-box proteins and other proteins
3 讨论与结论
MIKC 型MADS-box基因在植物发育过程中起核心作用。本研究鉴定出MIKC 型MADS-box基因共232 个,其中,大豆92 个、蒺藜苜蓿45 个、葡萄50个、拟南芥45 个。根据系统发育关系,4 个物种MIKC 型基因分为MIKCC和MIKC*两类。MIKCC可进一步分为14 个亚类。大豆有2 个FLC类基因,蒺藜苜蓿缺少FLC类基因,其原因可能与大豆和蒺藜苜蓿在开花过程中不需要春化有关,导致FLC亚类基因在进化过程中丢失[8]
MADS-box基因都是在进化过程中通过基因重复事件产生的[8,37]。4 个物种共同祖先节点有64 个基因发生复制,推测双子叶植物共有的三倍化事件和更古老的加倍事件对该基因家族的扩增产生了积极影响。总体上4 个物种MADS-box基因复制数目多于基因丢失数目,说明了4 个物种MIKC 型MADS-box基因在进化的过程中发生了一定程度基因扩增。大豆和蒺藜苜蓿共同祖先节点基因复制与丢失数目基本平衡,说明豆科共有的二倍化事件对该基因家族未产生明显影响;二者MADS-box基因数目相比,大豆复制基因数目较多,丢失较少,推测其原因与1300 万年前大豆特异性发生的一次全基因组二倍化事件相关,共线性分析结果也印证了该结论。
理化性质分析揭示大豆和蒺藜苜蓿MADS-box蛋白多为性质稳定的碱性蛋白,主要定位在细胞核,在细胞核中发挥转录调控作用。MADS-box不同亚类间基因结构较为保守,所含motif 相似,揭示亚类功能的保守性[13]。基因复制类型推测、共线性以及Ks分析结果显示,大豆和蒺藜苜蓿中该基因家族的扩张主要是全基因组复制或片段重复的作用,而且多数基因来源于双子叶植物的三倍化或更古老的事件,再次说明全基因组复制对MADS-box基因有积极影响[13]。
MIKC 型MADS-box基因同时对植物生长发育起调控作用。MADS-box不同亚类基因表达模式不同[10,38,39],在陆地棉中MIKC型MADS-box基因调控胚胎发育,控制开花时间等[11]。在高粱中MIKC 型MADS-box基因同样在花发育和胚胎发育过程中表达[2]。MIKC 型各亚类基因在大豆不同发育时期表达模式也呈现明显的不同,各类基因在不同发育阶段具有不同的功能。本研究结果表明大豆幼苗期总体表达量高于其他时期,其中SVP、SOC1、AGL12亚类表达量较高。SVP、SOC1、AGL12亚类在调控幼苗发育过程中确实起到重大作用,与文献研究结果相符[7]。蛋白互作分析结果表明大豆MIKC 型MADS-box 家族蛋白SVP 与CO、FT 和TFL1 蛋白相互作用,这与文献中蛋白相互作用的实验结果相一致[40]。SVP、LFY、CO、FT和TFL1这些基因相互作用一起调控植物开花发育。
本研究采用生物信息学方法对大豆和蒺藜苜蓿MIKC 型MADS-box基因家族的基因结构、功能、共线性和进化过程进行分析,为豆科植物及其他物种MADS-box基因的研究提供重要参考。