杨梅全基因组的GATA转录因子鉴定、功能及进化分析
2022-10-08易雨憧廖文海朱哲宁曹世江
易雨憧, 廖文海,2, 孙 进, 朱哲宁, 程 焱, 曹世江,2
(1.福建农林大学林学院; 2.林木逆境生理生态及分子生物学福建省高校重点实验室;3.福建农林大学农学院;4.福建农林大学植物保护学院,福建 福州 350002)
转录因子又称为反式作用因子,能够在细胞核内与靶基因的顺式作用因子特异性结合,从而激活或者抑制下游基因的表达调控,在转录起始环节至关重要.植物生长过程中基因表达调控可影响植物的细胞分化和生长发育过程,因此,转录因子在植物生理代谢中发挥重要的作用[1].GATA转录因子在植物的光形态建成、叶绿素合成、种子萌芽、开花以及碳、氮代谢等生物学过程中发挥关键作用[2],因其能与靶基因启动子上的W-GATA-R(W=T/A, R=G/A)序列结合而得名,其DNA结构域由1个Ⅳ类锌指结构(C-X2-C-X17-20-C-X2-C)和其后的基本区域组成[3].
Evans et al[4]首次发现并报道GATA转录因子结合在鸡的珠蛋白基因启动子上,并且参与了鸡的造血过程[5].随后的研究表明,动物中的GATA转录因子参与了发育、分化和细胞增殖过程,包含2个C-X2-C-X17-20-C-X2-C锌指结构域[6],其中只有C端的锌指结构与DNA结合,N端锌指结构可以调节C端锌指与DNA特异性结合[7-8].真菌中的GATA转录因子大部分只含有1个锌指结构域,分为两类:C-X2-C-X17-C-X2-C或C-X2-C-X18-C-X2-C结构域[9-10],在光形态建成、昼夜节律、结合型转换和氮循环等多种生物学过程中发挥关键作用[11].植物中首个GATA转录因子NTL1[12]是在烟草中鉴定出来的,与氮循环相关,随后GATA转录因子在多种植物中都有深入研究,如水稻(Oryzasativa)[13]、番茄(Lycopersiconesculentum)[14]、大豆(Glycinemax)[15]、葡萄(Vitisvinifera)[16]、毛果杨(Populustrichocarpa)[17].
GATA转录因子家族参与植物生长发育的多种过程,并且在多个物种中已经被验证.例如,拟南芥(Arabidopsisthaliana)中的GATA转录因子BME3 (Blue Micropylar End 3)能够对种子萌芽起正调控作用[18],GATA2可以通过直接调节光响应基因与油菜素内酯响应基因的表达,调控植物幼苗的生长发育过程[19].GATA家族成员可以参与调控植物的开花过程[20-21],并且还可以调控植物形态建成.光照条件下,过表达不同的GATA转录因子会影响拟南芥和水稻下胚轴延伸[22-23]、增加主花序和侧花序之间的开度[24].光照和细胞分裂素对叶绿体发育及叶绿素合成的调控作用受到了GNC和GNL基因的影响[25-26].除此之外,GATA转录因子还能响应植物对生境中的干旱、高盐、温度等各种非生物胁迫.例如,沙冬青(Ammopiptanthusmongolicus)AmZFPG基因的表达与其抵抗低温和干旱胁迫有关[27],拟南芥的GNC和GNL基因过表达株系均显著提高了幼苗在低温胁迫下的成活率[28].
杨梅(Myricarubra)是杨梅科(Myricaceae)杨梅属的植物,原产地中国, 品种多样,种植历史悠久,已有2000多年.杨梅适宜生长在酸性土壤中,是我国南方重要的经济种植水果,杨梅的繁殖周期较长,在种植过程中发生很多病虫害.因此,本研究以杨梅基因组序列为参考[29],对MrGATA转录因子家族进行了全基因组范围的系统性鉴定和分析,并预测分析其理化特性、系统发育关系、染色体定位、基因结构、蛋白保守基序列以及顺式作用元件.此外,还进一步研究了MrGATA基因与其他物种间的共线性关系,研究结果为进一步研究该GATA转录因子的功能、分子育种及增强植株抗病性等方面提供依据.
1 材料与方法
1.1 杨梅GATA转录因子家族成员的鉴定与染色体定位分析
从NCBI数据库中下载杨梅的全基因组序列和注释文件,在数据库TAIR(http://www.arabiopsis.org/)中下载拟南芥GATA蛋白序列.利用Pfam网站获得MrGATA结构域(PF00320),并使用HMMER软件(http://hmmer.org/)对所有杨梅蛋白质序列进行保守序列筛选(e<10-5),然后使用NCBI—CDD(https://www.ncbi.nlm.nih.gov/cdd)和SMART在线软件(http://smart.embl heidelberg.de/)将得到的所有蛋白质序列进行整合,通过人工去除错误序列,最终筛选出26条包含GATA结构域的序列.
使用Protparam在线软件(https://web.expasy.org/protparam)预测分析了MrGATA转录因子的等电点、分子质量和不稳定指数等基本理化特性.使用Psort在线软件(https://wolfpsort.hgc.jp/)进行MrGATA转录因子的亚细胞定位预测分析.使用TBtools[30]软件分析杨梅26个GATA转录因子在染色体上的位置信息.
1.2 杨梅GATA转录因子基因结构、保守基序分析和顺式作用元件预测
使用MrGATA基因的GFF注释文件,根据网站的默认外显子—内含子结构参数将注释信息上传至GSDS.使用GSDS网站(http://gsds.cbi.pku.edu.cn/)可视化GATA基因的结构信息,了解外显子和内含子的数量和分布.利用MEME(http://meme-suite.org/)[31]预测分析MrGATA转录因子的蛋白质序列的保守基序.基于杨梅全基因组序列,利用TBtools获得MrGATA启动子上游的2 000 bp序列,再运用PlantCare (http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)在线软件对相关的顺式作用元件进行预测和筛选.
1.3 杨梅GATA转录因子家族的蛋白保守结构域及三级结构
使用Cluster 和Jalview软件对杨梅的保守GATA锌指结构域及GATA蛋白保守序列进行鉴定分析.
1.4 杨梅GATA转录因子的表达模式及功能分析
从EBI上(https://www.ebi.ac.uk/ena/browser/view/PRJNA398601)下载杨梅“Y2012-145”品种在5个不同组织及果实3个发育时期的转录组原始数据,并进行RNA-seq数据分析,研究26个MrGATA基因的差异表达情况.并利用TBtools软件将FPKM值进行log2转变后生成热图.
1.5 植物GATA转录因子家族的系统发育进化关系
利用MUSCLE v3.8.31软件对杨梅、拟南芥和苹果GATA转录因子的蛋白序列进行多序列比对,并根据MEGA7.0软件的相邻连接法构建杨梅、拟南芥和苹果的系统发育树,参数设定为Poission correction、pairwise deletion和bootstrap 1 000次重复,再通过ITOLs进行美化.从NCBI数据库下载拟南芥、番茄、苹果、毛果杨和大豆的基因注释文件和全基因组序列,利用TBtools软件构建杨梅与其他6个物种GATA基因组间的共线性关系.
2 结果与分析
2.1 杨梅MrGATA转录因子的鉴定与染色体定位
在杨梅全基因组中共鉴定出26个GATA转录因子家族成员.为了方便后续的研究与分析,按照基因在杨梅8条染色体上的分布情况,将其命名为MrGATA1~MrGATA26.分析MrGATA的基本理化特性(表1):26个GATA蛋白质的序列长度在80~618个氨基酸之间,且每条蛋白序列的长度差异较大,分子质量为68.121 39~90.436 20 ku.除了MrGATA24外,其余25个均为不稳定蛋白质(不稳定指数>40).MrGATA的亚细胞定位预测结果显示有20个MrGATA转录因子位于细胞核中,3个位于叶绿体,2个位于线粒体,剩余1个MrGATA转录因子定位于细胞质中.染色体定位表明26个MrGATA不均匀地分布在杨梅的8条染色体上.除了“CM025852.3”号染色体,其余每条染色体上均有第Ⅰ亚族基因的分布;第Ⅳ亚族的成员全分布于“CM025855.1”号染色体上,且该染色体上的MrGATA基因密度最高,共包含了来自Ⅰ、Ⅱ、Ⅲ、Ⅳ亚家族的8个基因.
表1 MrGATA转录因子家族信息
2.2 杨梅MrGATA转录因子的结构域比对及分类
为了进一步揭示MrGATA转录因子的基序组成,利用MEME鉴定MrGATA转录因子的保守基序(图1),所有的MrGATA转录因子都存在motif1基序,即GATA结构域.并且各基序在4类亚族之间的分布存在着一定的规律.如第I亚族含有特定的motif 2、motif 5、motif 7、motif 8、motif 10,并且MrGATA5、MrGATA13、MrGATA14之间高度相似;第Ⅱ亚族中只存在motif 1基序;第Ⅲ亚族包含特定的motif 4和motif 6基序;第Ⅳ亚族中除了motif 1基序外,还存在motif 9基序.造成不同亚族所具有的特定功能原因可能是各类基序在不同亚族之中的差异分布,同一亚族之中相同的保守基序也暗示着基因功能的相似性.并且通过对MrGATA转录因子进行保守功能结构域分析,第Ⅲ亚族除了GATA保守功能结构域,所有成员都存在着特异功能的CCT结构域和Tify结构域,证明杨梅第Ⅲ亚族的成员也具有相同的功能.
图1 MrGATA家族的系统发育关系、保守基序组成、结构域以及外显子—内含子基因结构
基因结构的多样性可能是促进多基因家族进化的一种驱动机制.MrGATA转录因子家族成员的基因结构如图1所示,MrGATA基因结构相对简单,各亚家族成员之间基因结构具有明显差异,但家族内部成员之间差异较小.第Ⅰ亚族存在2~5个外显子,只有MrGATA26和MrGATA7存在内含子;第Ⅱ亚族含有2~5个外显子,只有MrGATA9不存在内含子;第Ⅲ亚族包含6~13个外显子,且各成员均包含内含子;第Ⅳ亚族的3个成员包含3~4个外显子,所有成员均不包含内含子.
顺式作用元件能够反映基因功能和潜在的转录调控模式[32].MrGATA启动子区域包含大量具有特定功能的顺式作用元件,其功能与光响应、激素以及胁迫相关(图2).在所有MrGATA启动子序列中发现了19个光响应顺式元件,其中G-Box元件出现频率最高,存在于25个基因的启动子序列中,其次出现频率较高的是Box4和TCT-motif,分别出现在21和15个基因的启动子序列中.并且之前有研究表明G-Box元件参与了拟南芥叶绿素合成的调控[33].在本研究中,MrGATA最主要的是能够识别ABA的ABRE激素相应元件,存在于25个MrGATA中.其次是能够识别MeJA相关的激素相应元件,在22个MrGATA启动子序列中发现了该类元件.与此同时,在26个MrGATA启动子区域中发现与胁迫相关的顺式元件有ARE、GC-motif、LTR、MBS、TC-rich repeats和WUN-motif等.并且有研究表明[34-35],ARE为厌氧诱导元件,GC-motif为增强诱发厌氧反应的顺式作用元件,MBS、LTR、TC-rich repeats以及WUN-motif都参与了植物中许多基因的干旱响应转录调控.综上所述,MrGATA转录因子可能参与了杨梅生长发育过程中与胁迫、光和激素相关的调节.
图2 MrGATA启动子区域发生应激、激素和光响应顺式元件的富集分析
2.3 杨梅MrGATA转录因子的蛋白保守序列分析
为了进一步探究MrGATA转录因子的功能,对26个MrGATA转录因子的蛋白质序列进行了保守结构域序列分析(图3),并鉴定出锌指结构域的二级结构,包括4个β折叠和1个α螺旋,与拟南芥中报道的锌指结构一致.其中亚族Ⅰ和亚族Ⅱ存在完整的Ⅳ类锌指结构,为C-X2-C-X18-C-X2-C,亚族Ⅲ成员的C-X2-C-X18-C-X2-C锌指结构均不完整,缺少了X2-C;亚族Ⅳ不存在C-X2-C-X18-C-X2-C,缺失了保守结构域,可能该亚族的基因在进化过程中发生了改变.除此之外,杨梅大多数GATA氨基酸位点的锌指结构域存在着一定的保守性,如Cys-10、Cys-13、Thr-18、Pro-19、Gly-24、Pro-25和第2个半胱氨酸对(LCNACG)的侧翼序列.
图3 MrGATA转录因子家族保守结构域蛋白序列比对
2.4 杨梅MrGATA转录因子的表达模式及功能分析
根据杨梅“Y2012-145”品种在5个不同组织和果实4个发育时期的原始转录组测序数据(PRJNA398601),绘制表达热图,分析26个MrGATA的特异性表达情况(图4).表达值由蓝色到红色从低到高表示,26个MrGATA在不同组织和果实发育期中的表达模式存在显著差异,其中MrGATA5、MrGATA13、MrGATA25、MrGATA16、MrGATA20基因在已报道的转录组中没有其相应的表达量数据.在第Ⅰ亚族中,MrGATA1和MrGATA10在芽和小果实中具有高表达,表明其主要在芽和果实中发挥作用;MrGATA7虽然在小果实中具有较高表达量,FPKM值接近20,但在其余4个组织中表达量较低.第Ⅱ亚族中大多数成员的表达量差异不显著,MrGATA11在各组织中均具有较高的表达量.第Ⅲ亚族中,MrGATA18在各组织中具有1
图4 MrGATA在5个不同组织和果实4个发育时期的表达模式
2.5 植物GATA基因的进化发育关系
构建系统发育树有利于更深入地了解MrGATA转录因子基因家族各成员的生物学功能和亲缘关系.利用MEGA7.0软件,将鉴定出的26条MrGATA转录因子的蛋白质序列与30条拟南芥、35条苹果的蛋白质序列构建系统发育树(图5).MrGATA基因家族成员的聚类结果与拟南芥和苹果一致,同样分为4个亚家族,其中第Ⅰ亚族的成员最多,从中推测MrGATA具有相对保守的进化,杨梅基因组在长期的进化过程中保留着较为完整的GATA基因.并且进化关系的相似反映了基因在结构和功能上具有相似性,因此可以推断杨梅各亚族GATA转录因子的生物学功能.
目前GATA在番茄、拟南芥、葡萄、毛果杨、苹果和大豆中都有深入研究.为了更加深入地探究MrGATA转录因子家族的系统发育机制,比较了杨梅与上述6个物种之间的共线性关系(图6).杨梅中共有32个GATA基因与大豆同源,与番茄、拟南芥、葡萄、毛果杨、以及苹果之间的同源基因数量分别为19、11、18、27、26个.并且部分MrGATA存在着多对同源基因相关性,特别是在杨梅和毛果杨之间存在着5对同源基因相关联,例如MrGATA11,此类基因可能是GATA基因家族进化过程中的重要驱动力.杨梅与6个物种间存在着固定的且高度保守的共长块上的GATA共线基因对,推测可能在祖先分化之前已经存在这些同源配对.
灰色表示杨梅与其他物种所有基因共线块,红色表示GATA基因的共线关系.
3 讨论
随着如今测序技术的进步,生物信息学的发展日益加快,这有利于研究特定的转录因子在基因表达调控过程中所发挥的作用,从而在植物自身生长发育和栽培育种过程中更好地发挥其功能,提高植物的抗性和生态幅.杨梅作为我国南方重要的果树,功能基因在其生长发育过程中发挥至关重要的作用.本研究在杨梅全基因组中共鉴定出26个MrGATA转录因子,并利用生物信息学知识进行基本特征、顺式作用元件和进化关系的预测分析.
系统发育树的聚类结果表明,MrGATA基因与拟南芥、苹果中的相似,并且蛋白序列具有较高的同源性,功能的一致性与蛋白质的相似性和序列的同源性相关,可推断MrGATA蛋白与拟南芥、苹果中的GATA蛋白具有相似的功能.顺式作用元件的富集分析表明,MrGATA成员具有的潜在功能,其功能与非生物胁迫、光响应以及激素相关联.此外26个MrGATA启动子区域内存在多种参与基因干旱相应转录调控的顺式作用元件,如MBS、LTR、TC-rich repeats以及WUN-motif,这与杨梅自身抗干旱的特性相符合.杨梅自身以及杨梅与其他6个物种间的共线性分析结果表明,基因复制和片段性的重复事件可能是部分MrGATA演变的主要驱动力,并且杨梅与其他物种间的同源基因对可能在物种分化之前就形成了.
MrGATA基因各亚族在各组织中和不同果实发育时期的表达情况均具有显著差异,即使是同一亚族内的成员,表达情况也具有差异,这说明了各基因具有不同的功能.有3个基因(MrGATA11,MrGATA17,MrGATA24)在各组织中均具有高表达,尤其是在芽和叶,FPKM>20,并且其在果实3个发育时期也具有较高的表达量.其中MrGATA17和MrGATA24属于第Ⅲ亚族,该亚家族还具有特殊功能结构域CTT和Tify,结合之前拟南芥中的报道,可以推测该亚族成员参与了杨梅的光合作用、开花、根和下胚轴发育过程,并且在果实成熟过程中发挥着重要的作用.
然而,GATA转录因子家族在单子叶植物中的研究结果与双子叶植物的研究结果存在着显著区别.例如GATA转录因子家族在水稻中聚类成6个亚家族,并且各亚家族的内含子和外显子的分布与数量等基因结构特征以及保守结构域存在着明显区别,例如第Ⅴ亚族中存在1个FAR1结构域和ZnFPMZ结构域,而在第Ⅵ亚族的成员中存在着2个GATA结构域.保守结构域以及基因结构的差异表明了GATA家族在单子叶植物和双子叶植物之间存在着不同的功能和特性,并且GATA亚家族Ⅴ和Ⅳ可能是在双子叶植物与单子叶植物发生分化后出现的,但此结论还需要进一步的研究.
GATA转录因子在植物的种子萌发、激素响应、光形态建成以及开花过程都充当着重要的角色.本研究中对杨梅GATA转录因子家族进行了全面的鉴定,并且各亚家族内成员基因和蛋白质结构具有较高的相似性和保守性.虽然杨梅的26个GATA转录因子在染色体上分布不均匀,但是其进化相对保守,并且串联重复事件的发生可能是GATA基因功能的巨大驱动力.此外,系统发育树以及物种间共线性分析揭示了MrGATA基因的进化情况.这些数据为探究杨梅MrGATA基因的功能以及分子育种提供了依据.