谷子HSF转录因子基因鉴定与生物信息学分析
2019-06-24李雪垠武懿茂张凤洁韩渊怀王兴春
李雪垠,武懿茂,张凤洁,韩渊怀*,王兴春*
(1.山西农业大学 生命科学学院,山西 太谷 030801;2.山西农业大学 农学院,山西 太谷 030801)
谷子(Setariaitalica)俗称“小米”,是二倍体(2n=18)禾本科狗尾草属粮食作物,基因组大约500 M。谷子起源于中国,具有耐旱、耐贫瘠的特性,是我国北方重要的抗旱杂粮作物[1,2]。小米营养价值很高,富含维生素和其他微量元素,是孕产妇和婴幼儿的传统营养食品,即可食用,又具药用功能[3],越来越受到人们的重视。
谷子通常生长于夏季的北方地区,生长周期内经常面临干旱、干热风以及土壤贫瘠等情况。植物有别于动物,不能通过逃避等行为避免如干旱、盐碱、低温、干热风等自然灾害,而且个别地区自然灾害频发、持续时间较长,如何保证粮食作物在不确定的逆境下高产、稳产是研究者普遍关注的问题。
转录因子是动植物中一类重要的调控蛋白,能对下游基因的时空特异性表达进行精确调节,是控制植物生物发育过程和逆境胁迫应答反应的关键因子[4]。热激转录因子(heat shock transcription factor, HSF)在植物热激反应中扮演重要角色,精确调控植物的热激反应和植物对热胁迫的耐受性。HSF的特征是具有5个功能结构域,分别是N端的DNA结合域、寡聚化结构域、核定位信号、核输出信号和C端的转录激活结构域[5,6]。
HSF家族成员的鉴定是挖掘植物中热激响应相关基因、研究植物热激响应机制的基础。目前多种植物的全基因组测序已完成,植物中越来越多的HSF基因家族成员已经被鉴定和分析,如通过全基因鉴定发现拟南芥、水稻、番茄、玉米、杨树和苜蓿等物种中分别含有21、25、18、25、28、16个HSF转录因子基因家族成员[7]。谷子全基因测序于2012年完成[8],然而谷子HSF转录因子家族成员仍未进行系统鉴定。本研究在全基因组水平上鉴定了谷子HSF转录因子基因家族成员,并对其进行了系统的生物信息学分析,即系统进化、基因结构、蛋白模体、启动子顺式作用元件分析等,对其中的热激响应顺式作用元件进行了重点分析和研究,并对不同植物组织和不同生长环境下谷子HSF转录因子基因的表达情况进行深入分析,旨在为进一步鉴定和克隆谷子耐热基因、挖掘相关耐热基因资源奠定理论基础。
1 材料和方法
1.1 谷子HSF转录因子家族成员全基因组鉴定和蛋白质基本理化性质分析
基于PlantTFDB数据库(V4.0, http://planttfdb.cbi.pku.edu.cn/index.php)[9]鉴定谷子HSF转录因子家族成员,并根据其在染色体上的分布,分别给谷子HSF基因命名。谷子HSF基因的编码区序列(coding sequence, CDS)、氨基酸序列以及染色体定位、基因组位置等信息来源于Phytozome数据库(V12, https://phytozome.jgi.doe.gov/pz/portal.html)。利用在线工具ExPASy-Compute pI/Mw(http://web.expasy.org/compute_pi/)计算相应HSF蛋白质的理论等电点和分子量。
1.2 谷子HSF转录因子家族成员系统发育和基因结构分析
利用Clustal X2[10]对谷子HSF基因的氨基酸序列进行多重序列比对,并用MEGA5.0[11]以Neighbor-Joining算法构建系统发育树,参数No. of Bootstrap replications设置为1 000。利用GSDS在线工具(Gene Structure Display Server 2.0, http://gsds.cbi.pku.edu.cn/)[12]分析谷子HSF基因的外显子-内含子结构。
1.3 谷子HSF转录因子家族成员蛋白质模体和启动子顺式作用元件分析
利用MEME在线工具(Multiple Em for Motif Elicitation, V5.0.3, http://meme-suite.org/tools/meme)[13]分析谷子HSF转录因子的蛋白模体。从Phytozome数据库中下载谷子HSF基因5’UTR上游的1.5 kb序列作为其启动子序列,并利用PlantCARE数据库(Plant Cis-Acting Regulatory Element, http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)[14]分析启动子序列上的顺式作用元件。
1.4 谷子HSF转录因子家族基因组织特异性和环境诱导表达分析
谷子HSF转录因子基因在不同组织中和不同环境诱导条件下的表达数据来源于Phytozome数据库,利用R语言及pheatmap程序包分析这些HSF基因的表达数据并制作基因表达热图。
2 结果与分析
2.1 谷子HSF转录因子家族成员全基因组鉴定及其蛋白质基本理化性质
利用PlantTFDB数据库在谷子全基因组水平共鉴定谷子HSF转录因子基因27个,根据在谷子9条染色体上的分布情况,依次将其命名为SiHSF1-27(表1)。从表1可以看出,谷子HSF基因在染色体上的分布很不均匀,在1~9号染色体上分别有4、5、1、3、4、1、1和8个HSF基因。谷子HSF蛋白质的理论等电点和分子量如表1所示。SiHSF2和SiHSF16的等电点偏高(分别为11.49和9.27),等电点偏高与蛋白质中碱性氨基酸(精氨酸、赖氨酸、组氨酸)含量较高密切相关。SiHSF2和SiHSF16蛋白质分别含有48和42个碱性氨基酸,较其他HSF蛋白质含有更多的碱性氨基酸,这与它们等电点偏高的预测是相符的。
表1 谷子HSF基因基本信息及其蛋白质基本理化性质Table 1 Basic information of foxtail millet HSF genes and basic physicochemical properties of the proteins
2.2 谷子HSF转录因子家族成员系统进化关系和基因结构
对27个谷子HSF基因的氨基酸序列进行多重序列比对并构建系统发育树(图1)。从图1可看出,27个谷子HSF基因亲缘关系较为相近,比如SiHSF1/SiHSF11/SiHSF15/SiHSF16、SiHSF12/SiHSF13/SiHSF14/SiHSF23、SiHSF5/SiHSF21、SiHSF24/SiHSF27、SiHSF3/SiHSF10/SiHSF17、SiHSF8/SiHSF18/SiHSF19、SiHSF6/SiHSF9/SiHSF25很可能是旁系同源基因,很可能产生于同一个HSF祖先基因的基因复制事件。
谷子HSF基因的外显子-内含子结构分析结果如图1(右)所示,大部分(23个)HSF基因只含有2个外显子,剩下的4个HSF基因有3个外显子。从图1(右)可以看出,亲缘关系较近的HSF基因的基因结构也较为相似,如SiHSF1/SiHSF11/SiHSF15/SiHSF16、SiHSF5/SiHSF21、SiHSF3/SiHSF10/SiHSF17每组都具有相似的基因结构,说明亲缘关系较近的HSF基因的基因结构具有较强的保守性。还可以看出,谷子HSF基因的绝大多数内含子的相位是0,只有少数内含子的相位是1或2。
图1 谷子HSF转录因子系统进化树(左)与基因结构(右)Fig.1 Phylogenetic tree (Left) and gene structures (Right) of HSF transcription factors in foxtail millet
2.3 谷子HSF转录因子家族成员蛋白质模体
采用MEME在线工具,分析谷子HSF基因的蛋白质模体,结果如图2所示。亲缘关系较近的HSF基因的蛋白质模体较相似,如SiHSF14/SiHSF23、SiHSF5/SiHSF21、SiHSF10/SiHSF17、SiHSF8/SiHSF18、SiHSF9/SiHSF25每组基因亲缘关系较近(图1左),它们的蛋白质氨基酸序列(基序)也相似(图2)。从图2可以看出,27个HSF蛋白质序列都含有motif1、motif2和motif3,说明motif1、motif2和motif3在谷子HSF蛋白质序列中的分布最为广泛,具有最强的保守性。motif1、motif2和motif3长度分别为33、38和21个氨基酸,motif2最长,motif3最短;motif1的前4个氨基酸(FVVW)和后16个氨基酸(FKHNNFSSFYRQLNTY)较为保守,motif1富含苯丙氨酸(F);而在motif2中,前13个氨基酸(GFRKYDPDRWEFA)较为保守。此外,这27个HSF蛋白质中有25个序列含有motif4,说明motif4在谷子HSF蛋白质序列中的保守性也较强。上述蛋白质基序中的保守氨基酸很可能与HSF蛋白质的功能密切相关。
2.4 谷子HSF转录因子基因启动子顺式作用元件
利用PlantCARE在线工具分析27个谷子HSF基因的启动子顺式作用元件,结果如表2所示,每类顺式作用元件的核心序列和功能如表3所示。
SiHSF20基因启动子区域含有2个ABRE元件、1个MBS元件和1个TC-rich repeats元件。ABRE元件的核心序列为ACGTG,功能涉及植物ABA响应,研究表明植物的耐热反应与ABA信号通路密切相关[5,7];MBS元件的核心序列为CAACTG,功能涉及植物干旱诱导,高温、干热风等热胁迫往往伴随着干旱;TC-rich repeats元件的核心序列为GTTTTCTTAC,功能涉及植物胁迫响应,可能参与植物的热激应答。
图2 谷子HSF转录因子蛋白质模体Fig.2 Protein motifs of HSF transcription factors of foxtail millet
基因GeneABRECAAT-boxCGTCA-motifG-boxGT1-motifMBSLTRTATA-boxTCA-elementTGA-elementTGACG-motifAuxRR-coreP-boxSp1TC-rich repeatsSiHSF112413101171010000SiHSF251834000141030010SiHSF33206411052060000SiHSF401621031171020041SiHSF502601120151201101SiHSF642334100210030031SiHSF71184200000040210SiHSF8575400120050090SiHSF932113000270010001SiHSF10797701051170400SiHSF118635011120130000SiHSF1232124000241120000SiHSF1342924000160020020SiHSF146200600090001001SiHSF15372221071020240SiHSF167212523012002010SiHSF1751315100190010210SiHSF1831422012130020010SiHSF1921433021141030030SiHSF2022910010141210001SiHSF211214022290241000SiHSF22637500010070030SiHSF2321643100181040020SiHSF2432223110100221110SiHSF252012001210010000SiHSF264164300060140000SiHSF271200101210000000
表3 谷子HSF基因启动子顺式作用元件核心序列与功能Table 3 Core sequences and functions of cis-acting elements in the promoters of foxtail millet HSF genes
SiHSF4基因启动子区域含有3个MBS元件和1个TC-rich repeats元件,SiHSF16基因启动子区域含有7个ABRE元件和3个MBS元件,SiHSF19基因启动子区域含有2个ABRE元件和2个MBS元件,SiHSF11基因启动子区域含有8个ABRE元件和1个MBS元件,SiHSF10基因启动子区域含有7个ABRE元件和1个MBS元件,SiHSF14基因启动子区域含有6个ABRE元件和1个TC-rich repeats元件。上述基因(SiHSF4、SiHSF10、SiHSF11、SiHSF14、SiHSF16、SiHSF19、SiHSF20)启动子区域内富含热激相关顺式作用元件,所以它们可能与谷子的热激应答密切相关。
2.5 谷子HSF转录因子基因的组织表达特异性和环境诱导表达情况
利用R语言及pheatmap程序包分析谷子HSF基因在不同组织中和不同环境诱导条件下的表达数据(图3)。在图3中,具有相似表达情况的基因聚类在一起,如SiHSF6、SiHSF9、SiHSF13、SiHSF15和SiHSF18在黄化的幼苗(Etiolated_seedling)中表达量较高,在其他组织中的表达量较低,所以它们聚类在同一分支。SiHSF1、SiHSF2和SiHSF3在干旱处理的根组织(Root_drought)中表达量都较高,在其他组织中表达量较低,它们也聚类在同一分支中。
SiHSF10、SiHSF19和SiHSF24三个基因在远红光处理的地上部分(Total_aerial_far_red_light)表达量较高,说明远红光能够诱导这3个HSF基因的表达。
3 讨论与结论
谷子具有耐旱、耐贫瘠的特性,对生长环境要求不高,是典型“环境友好型”作物,由于谷子耐逆境胁迫能力较其它作物更强,所以对谷子的基础研究也逐渐引起植物科学家的关注,谷子中的抗逆基因资源的挖掘更是成为一个新的研究热点。植物的抗逆境胁迫反应机制较为复杂,往往涉及很多转录因子的调控,比如bZIP、MYB、NAC、WRKY、DREB、HSF等转录因子[15~24]。研究表明,HSF转录因子广泛参与植物热激响应和抗逆反应[5],HSF基因家族的鉴定是研究植物热激反应机理和植物耐热、耐旱特性的基础,目前谷子HSF转录因子的鉴定和系统分析尚未见报道,本研究从全基因组水平上对谷子HSF基因家族进行鉴定,并进行了一系列生物信息学分析。
图3 谷子HSF基因在不同组织和不同环境诱导条件下的基因表达Fig.3 Expressions of foxtail millet HSF genes in different tissues and under different conditions
谷子中亲缘关系较近的HSF基因一般具有相似的基因结构和蛋白质模体,如SiHSF5/SiHSF21、SiHSF10/SiHSF17每对HSF基因的亲缘关系都很近,其基因结构和蛋白质模体也很相似,推测每对HSF基因很有可能来源于同一祖先基因,是基因复制的结果,很有可能是旁系同源基因。由于SiHSF5位于2号染色体上,SiHSF21位于9号染色体上,所以旁系同源基因SiHSF5/SiHSF21很可能来源于并联基因复制事件;SiHSF10位于3号染色体,SiHSF17位于5号染色体上,所以旁系同源基因SiHSF10/SiHSF17也很可能来源于并联基因复制事件。
植物对热胁迫等逆境的响应很可能和ABA信号通路密切相关[7],而自然条件下的干热风等热胁迫往往伴随干旱。SiHSF20基因启动子区域同时包含ABRE、MBS和TC-rich repeats元件,说明SiHSF20基因作为热激转录因子家族成员,很有可能参与植物热激响应。SiHSF4等基因的启动子区域都含有ABRE、MBS和TC-rich repeats元件中的两种,而且元件数量也较多,说明这些热激转录因子基因也有可能参与谷子对热胁迫的应答。
值得一提的是,谷子SiHSF6和SiHSF9基因在系统发育树中亲缘关系较近,而基因表达分析显示SiHSF6和SiHSF9基因都在黄化的幼苗(Etiolated_seedling)中表达量较高,在其他组织中的表达量较低,说明亲缘关系较近的HSF基因有可能具有相似的表达特性;然而,还有很多同源基因的表达量差异很大。由于顺式作用元件能够显著影响基因表达的时空特性,这些同源基因的表达量差异可能与它们启动子区域的顺式作用元件的种类和数量变异密切相关。
本研究基因表达分析显示,干旱处理条件下SiHSF1、SiHSF2和SiHSF3基因的表达量较高,说明干旱可以诱导SiHSF1、SiHSF2和SiHSF3基因的表达,自然条件下干热风等热胁迫往往伴随着干旱,所以热激转录因子基因SiHSF1、SiHSF2和SiHSF3很可能与植物热激响应密切相关,它们可能在谷子逆境胁迫和热激应答中扮演着重要角色。谷子HSF基因的表达分析有助于进一步鉴定热激应答相关基因,为挖掘植物耐热基因资源提供理论依据,为后续分子育种奠定基础。