玉米GATA基因家族的全基因组鉴定及热胁迫下的表达分析
2020-11-18王延召韩小花鲁晓民程军玲王淑凤聂利红
王延召,周 波,韩小花,黄 保,鲁晓民,程军玲,王淑凤,聂利红
(1.河南省农业科学院 粮食作物研究所,河南 郑州 450002; 2.禹州市农业农村局,河南 禹州451670; 3河南省农业科学院 经济作物研究所,河南 郑州 450002)
GATA转录因子是真核生物中一类重要的转录因子,是含有高度保守的Ⅳ锌指结构域的反式作用因子,他们可以特异性结合含有GATA的DNA序列WGATAR(W为T或者 A,R为G 或者 A),从而调控下游基因的表达,所以被称为GATA转录因子[1]。植物中的大多数GATA转录因子包括1个或2个锌指结构域,其共有序列为CX2CX18—20CX2C[2-3]。EVANS等[4]于1988 年发现6个GATA转录因子可以与鸡珠蛋白基因启动子的(T/A)GATA(A/G)序列结合。1993年,在烟草中鉴定出了第一个植物GATA转录因子NTL1,具有CX2CX18CX2C氨基酸序列[5]。REYES 等[2]2004年在拟南芥基因组中鉴定到30个GATA基因,根据氨基酸序列的相似性分成4组。伴随着许多植物基因组参考序列的公开发表,近几年,在大豆[3]、葡萄[6]、棉花[7]中分别鉴定到64、19 、179 个GATA基因,为全基因组范围内深入研究这些作物中GATA转录因子的具体功能奠定了基础。
研究表明,许多GATA转录因子在植物抵御非生物胁迫过程中具有重要作用[8-10]。MUKHOPADHYAY等[8]发现,在烟草中过表达水稻GATA基因OsISAP1(Oryzasativasubsp.indicastress-associated protein 1),提高了转基因植株对低温、脱水和盐胁迫的耐受性。BHARDWAJ等[9]通过RNA-Seq在芥菜型油菜中筛选出29个应答高温和干旱胁迫的GATA基因。KANG等[10]研究发现,过表达GATA基因OsZFP350的转基因水稻植株的主根长度、不定根和侧根数量显著增加,非生物胁迫条件下种子的发芽率显著提高,转基因植株对热、盐和干旱胁迫的耐受性提高。
玉米是世界上重要的粮食作物,其生长过程中受到许多非生物胁迫的危害,严重影响其产量。近年来,由于气候变化,全球温度升高,极端天气频发,导致许多农作物遭受着日益严重的热胁迫。目前,玉米中关于GATA转录因子全因组鉴定及其应答热胁迫的研究尚未见报道。为此,对玉米GATA基因家族成员进行鉴定,并对其理化特征、染色体分布、保守基序和应答热胁迫的表达水平进行分析,为进一步研究GATA转录因子功能奠定基础。
1 材料和方法
1.1 数据来源
玉米参考基因组序列、基因结构信息及蛋白质序列文件下载自Ensembl Plants数据库(ftp://ftp.ensemblgenomes.org/pub/plants/release-46)。
1.2 玉米基因家族成员的鉴定及生物信息学分析
GATA家族成员结构域隐马尔科夫模型(PF00320)下载自Pfam数据库(http://pfam.xfam.org/)。首先,利用HMMER 3.1软件[11]结合GATA家族成员结构域隐马尔科夫模型搜索玉米基因组功能蛋白质序列数据库,E值设置为 1E-10。其次,如果同一个基因对应的多个蛋白质序列被鉴定到,只保留氨基酸长度最长的蛋白质序列作为被鉴定到的GATA基因家族成员。为确认所预测基因为GATA基因家族成员的可靠性,利用SMART(http://smart.embl.de/)进一步验证GATA保守结构域的完整性。利用ProtParam tool(https://web.expasy.org/protparam/)来预测玉米GATA家族蛋白的理化特性。
1.3 玉米GATA基因家族系统进化树的构建及染色体分布
通过MEGA 7.0软件[12]包中的MUSCLE 软件对鉴定到的玉米GATA基因家族成员氨基酸序列进行多重序列比对,然后采用NJ(Neighbor joining)法构建系统进化树,Bootstrap值设置为1 000。提取玉米已知基因位置坐标信息并用MapInspect软件绘制GATA基因家族成员染色体分布图。
1.4 玉米GATA家族基因结构和保守结构域分析
从数据库中提取鉴定到的GATA基因结构注释信息,然后将其提交GSDS网站(http://gsds.cbi.pku.edu.cn)绘制基因结构图[13]。用MEME软件(http://meme-suite.org/tools/meme)预测GATA基因家族成员的保守结构域[14]。
1.5 玉米GATA基因家族的表达分析
玉米转录组测序数据下载自NCBI的SRA数据库,登录号为SRX5057980—SRX5057997。采用HISAT 2.0.1软件[15]与玉米参考基因组序列进行比对,运用HTSeq 0.6.1软件[16]统计每个转录单元的reads数,每个基因相对表达水平通过FPKM值来表示。
2 结果与分析
2.1 玉米GATA基因家族成员的鉴定及染色体分布
通过对已公布玉米全基因组数据库进行搜索以及SMART 在线数据库验证,在玉米基因组中共鉴定到37个GATA 基因家族成员(表1)。玉米GATA基因编码的氨基酸数在139~760个;编码蛋白质分子质量为14 865.88~86 748.42 u;等电点为4.61~10.23,其中12个为酸性蛋白质(等电点<7.0),25个为碱性蛋白质(等电点>7.0);不稳定指数介于45.52~77.46,均为不稳定蛋白质(不稳定指数大于40);亲水性平均系数均为负数,表明玉米GATA 蛋白均为亲水性蛋白。
表1 玉米GATA基因家族成员理化性质Tab.1 The physicochemical properties of GATA gene family in maize
由图1可知,37个玉米GATA基因在10条染色体上不均匀分布,8号染色体上最多,含有6个基因;其次是1号、4号和5号染色体,均含有5个基因;6号和10号染色体分别含有4个基因;9号染色体上含有3个基因;2号和3号染色体分别含有2个基因;7号染色体上最少,只鉴定到1个基因。其中,4号染色体上的4个基因(Zm00001d052412和Zm00001d052413,Zm00001d052430和Zm00001d052431)分布在同一染色体上相邻的位置,说明可能有串联重复产生。
图1 玉米GATA 基因的染色体分布Fig.1 Chromosomal distribution of GATA genes in maize
2.2 玉米GATA基因家族成员进化分析
本研究将鉴定到的玉米GATA基因家族成员氨基酸序列与已知拟南芥GATA基因家族成员氨基酸序列进行比对,根据已知拟南芥GATA基因家族成员进化分类信息对玉米GATA基因家族进行分类(图2),玉米GATA基因家族可以分为4组(A、B、C、D),其中A组包含21个家族成员,占玉米GATA基因家族总数的1/2以上;B、 C、D组分别含有10、4、2个家族成员。
图2 玉米GATA基因的系统进化树Fig.2 Phylogenetic tree of GATA genes in maize
2.3 玉米GATA基因家族成员基因结构和保守域分析
由图3可知,玉米GATA家族基因含有1~8个外显子,其中,A组含有1~3个外显子;B组的4个基因含有2个外显子,6个基因含有3个外显子;C组的4个基因(Zm00001d033523、Zm00001d013331、Zm00001d036494和Zm00001d014656)含有7~8个外显子,说明同一组的基因家族成员的基因结构具有很强的一致性。另外,对37个玉米GATA基因家族成员保守基序分析表明,它们均含有1个CX2CX18CX2C保守基序(图4)。
图3 玉米GATA基因家族成员基因结构Fig.3 Gene strutures of GATA gene family in maize
图4 玉米GATA基因家族保守基序Fig.4 Conserved motif of GATA gene family in maize
2.4 玉米GATA基因家族成员应答热胁迫的表达分析
对玉米3个品系的转录组数据进行分析(图5)发现,玉米GATA家族37个基因中有20个基因在3个样品中均有表达,包括A组10个、B组6个、C组3个、D组1个。其中,特异应答热胁迫的GATA家族基因有11个,表达上调的基因有9个,包含A组5个(Zm00001d010785、Zm00001d023539、Zm00001d041883、Zm00001d025953和Zm00001d031135),B组2个(Zm00001d011771和Zm00001d034751),C组2个(Zm00001d036494和Zm00001d014656);表达下调的基因有2个,都归属于B组(Zm00001d016361和Zm00001d009193)。综上所述,在热胁迫处理后,玉米GATA基因家族不同亚组中的不同成员的表达是有差异的,这说明GATA基因家族在长期进化过程中不同成员的功能是有差异的。
CF、CM、CQ表示对照样品,F、M、Q分别表示CF、CM、CQ对应的热胁迫后样品CF,CM,andCQ represent three genotypes under control conditions,respectively; F,M and Q represent the corresponding genotypes under heat treatment.
3 结论与讨论
研究表明,GATA 转录因子在植物生长发育、氮素代谢、抗逆及真菌次生代谢等方面发挥重要的作用[17-20]。本研究首次从玉米基因组中鉴定到37个GATA基因,编码的蛋白质均为亲水性蛋白,在10条染色体上呈现不均匀分布。聚类分析表明,玉米GATA基因家族可以分为4组(A、B、C、D),同一组内的基因具有相似的基因结构。他们均含有一个CX2CX18CX2C保守基序,这与拟南芥中报道结果一致[2]。RNA-Seq分析结果表明,有11个GATA基因在应答热胁迫处理后表达水平发生了变化,其中表达上调的基因有9个,包含A组5个(Zm00001d010785、Zm00001d023539、Zm00001d041883、Zm00001d025953、Zm00001d031135),B组2个(Zm00001d011771、Zm00001d034751),C组2个(Zm00001d036494、Zm00001d014656);下调的基因有2个,属于B组(Zm00001d016361、Zm00001d009193),说明上调表达的这9个GATA基因在应答热胁迫过程中可能发挥重要作用。