高粱Hsf 基因家族鉴定及表达分析
2021-04-26梁月秀郭志强冯凡张春来
梁月秀,郭志强,冯凡,张春来
(山西农业大学 农学院,山西 太谷030801)
高粱(Sorghum bicolor)属单子叶植物纲,是二倍体(2n=20)禾本科高粱属作物。高粱原产于热带,抗逆性强[1],是节水减肥的理想作物且具有一定的药用和经济价值,因此越来越受到重视。
热激转录因子(Heat shock transcription factor,Hsf)是植物热激反应中重要的调控因子[2],具有5 个功能结构域,分别是N 端的DNA 结合域、C端的转录激活结构域、核定位、核输出信号及寡聚化结构域[3,4],能够响应植物的逆境胁迫。目前多种植物的Hsf基因已被鉴定和分析,如在拟南芥、水稻、谷子、番茄、杨树和玉米等植物中分别鉴定出21、25、27、18、28 和25 个Hsf基因[5~7]。高粱全基因组测序于2009 年完成,林勇翔等[8]基于全基因组水平对豆科及禾本科植物的Hsf 家族进行了比较基因组学分析,但其研究的侧重点在于不同物种间的比较,并未对高粱这一物种的Hsf 转录因子进行系统研究。本研究对高粱Hsf基因进行一系列的生物信息学分析,并通过17 份转录组数据筛选出与高粱耐热相关的Hsf基因,为高粱抗逆育种奠定理论基础。
1 材料与方法
1.1 高粱Hsf 基因鉴定及理化性质分析
利用PlantTFDB 数据库[9](http://planttfdb.gao-lab.org/)获取高粱Hsf 转录因子,去除重复序列最终得到高粱Hsf 转录因子家族成员,将其蛋白质序列提交至Pfam 数据库进行结构域验证。基于NCBI 数据库模式植物的已有基因名对高粱Hsf 家族进行命名。利用在线网站ExPASy-Compute pI/Mw(http://web.expasy.org/compute_pi/)计算高粱Hsf 蛋白质的分子量和理论等电点。
1.2 高粱Hsf 基因二级结构、信号肽预测与亚细胞定位
利 用SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)、SignalP-5.0 Server(www.cbs.dtu.dk/services/SignalP/)和ProtComp 9.0(http://linux1.softberry.com/berry.phtml? topic=protcomppl&group=programs&subgroup=proloc)对Hsf 蛋白质二级结构、信号肽及亚细胞定位进行预测分析。
1.3 高粱Hsf 系统进化与基因结构分析
利 用Clustal X2[10]对高粱Hsf基因的 蛋白序列进 行 比 对,通 过MEGA 5.0[11]以 最 大 似然 法 构 建进化树,参数设置如下:Test of Phylogeny 为Bootstrap method,No of Bootstrap replications 为1 000,Model/Method 为Poisson model,其余默认。利用TBtools[12]分析高 粱Hsf基因的结 构。
1.4 高粱Hsf 保守基序分析
利用在线工具MEME[13](http://meme-suite.org/tools/meme)分析高粱Hsf 转录因子的保守基序,其中设置motif 数目为8,其余参数均默认。利用TBtools 绘制有关的motif 示意图,并分析其保守性。
1.5 高粱Hsf 启动子分析
将高粱Hsf 起始密码子上游1 500 bp 序列上传 至PlantCARE 数据库(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)[14],进 行启动子顺式作用元件分析。
1.6 高粱、水稻及拟南芥Hsf 基因系统发育分析
利用Clustal X2 对3 个物种的Hsf基因序列进行比对,利用MEGA 5.0 软件以最大似然法构建进化树,相关参数设置同1.3 所述。
1.7 高粱Hsf 基因共线性及选择压力分析
利用TBtools 工具对高粱、水稻和拟南芥Hsf基因进行共线性分析,而后对其进行Ka、Ks 以及Ka/Ks 的计算。
1.8 高粱Hsf 基因表达分析
下 载Davidson[15]等发表的包括高粱叶片(Leaves)、花序(Inflorescences)、原生花序(Primodial inflorescences)、雌蕊(Pistil)、花药(Anther)、种子(Seed)、胚(Embryo)和胚乳(Endosperm)共8 个组织以及Dugas DV[16]等发表的登录号为GSE30249 包括不同浓度ABA 和PEG 处理条件下茎(stem)和根(Root)的多份转录组数据。下载以上共17 份SRA 数据对其进行质控处理去除杂质数据,最终得到clean reads 数据进行后续分析。Trimmomatic[17]软件进行数据过滤。HISAT2[18]软件将clean reads 与高粱参考基因组进行序列比对。SAMtools[19]进行sam/bam 文件处理及使用其flagstat 参数对bam 文件的Mapping 情况进行统计分析。featureCounts[20]用于定量及程序统计读段,在其生成的文件中提取出高粱Hsf基因的表达量值。利用TBtools 软件中Heatmap 工具绘制高粱Hsf基因表达热图。
图1 高粱Hsf 基因的染色体定位Fig.1 Chromosome location of Hsf genes in S.bicolor
2 结果与分析
2.1 高粱Hsf 基本信息及染色体定位
通过结构域验证最终获取24 个Hsf基因。染色体定位发现Hsf基因分布在高粱的8 条染色体上,其中1 号染色体上分布的基因数目最多,6、7、9号染色体上分布的基因最少(图1)。对Hsf基因的理化性质进行统计,结果如表1 所示。Hsf基因长度在1 249~10 049 bp 之间,其中SbHsfA1的CDS序列最长(1 584 bp),SbHsfC1b的CDS 序列最短(783 bp);氨基酸序列的平均长度为379.75 aa;蛋白质等电点介于4.7(SbHsfA2b)和9.41(SbHsfB1)之间;蛋白质的相对分子质量为28 676.95~56 989.71 Da,平均值约为41.50 kDa。
表1 高粱Hsf 转录因子信息Table 1 The information of Hsf transcription factor in S.bicolor
2.2 高粱Hsf 家族二级结构、信号肽预测与亚细胞定位
高粱Hsf 家族的二级结构主要由α-螺旋、无规则卷曲构成(二者在蛋白质中所占氨基酸数量的比例大于75%),而延伸链(延伸链是β-折叠的组成结构)、β-转角比例较低(表2)。由此可推测,α-螺旋和无规则卷曲是高粱Hsf 蛋白的大量结构元件,而延伸链和β-转角则散布于整个蛋白质中。对蛋白序列进行信号肽和亚细胞定位分析表明:24 个编码蛋白基因均未发现信号肽序列,这表明高粱Hsf 蛋白不属于分泌蛋白;除SbHsfA3定位到细胞外其余23 个定位到细胞核上(表3)。
2.3 高粱Hsf 系统进化与基因结构分析
利用高粱Hsf基因的氨基酸序列构建系统发育树。从图2 左可看出,24 个高粱Hsf基因可以分为3 个亚家族,同一亚家族的亲缘关系较为相近。例如SbHsfC1a/SbHsfC1b、SbHsfC2a/SbHsfC2b、SbHsfA2b/SbHsfA2e 、SbHsfA2c/SbHsfA2d 、SbHsfB4b/SbHsfB4d、SbHsfB2b/SbHsfB2c,推测这些基因可能为旁系同源基因,由同一个Hsf 祖先发生基因复制而来。
表2 高粱Hsf 二级结构分析Table 2 The secondary structure analysis of Hsf in S.bicolor 单位:%
高粱Hsf基因的外显子-内含子结构分析表明(图2 右):24 个Hsf基因均只含有2 个外显子。亲缘关系较近的基因结构很相似,如SbHsfC1a/SbHsfC1b、SbHsfC2a/SbHsfC2b、SbHsfB2c/SbHsfB2b,说明亲缘关系较近的基因其结构具有较强的保守性。
2.4 高粱Hsf 保守基序分析
对高粱Hsf基因的氨基酸序列进行基序分析(图3),发现:高粱Hsf 相关转录因子共包含8 种保守基序,将其命名为motif1~motif8(图4);motif1和motif3 均为50 个氨基酸,motif1 和motif2 均存在于24 个Hsf 蛋白序列中,分布最广且具有很强的保 守性;motif5 存在 于21 个Hsf 蛋白序列中,说明motif5 在高粱Hsf 蛋白质序列中也较为保守。
表3 高粱Hsf 蛋白亚细胞定位预测Table3 The subcellular localization prediction of Hsf protein in S.bicolor
图2 高粱Hsf 进化树(左)与基因结构(右)Fig.2 Phylogenetic tree(left)and gene structure(right)of Hsf in S.bicolor
图3 高粱Hsf 转录因子氨基酸序列保守基序Fig.3 Protein motifs of Hsf transcription factors in S.bicolor
2.5 高粱Hsf 基因的启动子顺式作用元件
分析高粱Hsf基因启动子顺式作用元件,结果见表4。由表4 可以看出,SbHsfA2c、SbHsfA2a和SbHsfB4d等多个基因启动子区域包含MBS 和ABRE 元件,其中MBS 元件与植物的高温、干热风胁迫有密切关系;ABRE 元件与植物耐热反应有关。这些基因可能参与高粱热激应答过程。
表4 高粱Hsf 启动子顺式作用元件种类及数量Table 4 Types and numbers of cis-acting elements in the promoters of Hsf in S.bicolor
2.6 高粱Hsf 系统进化树及共线性分析
图4 高粱Hsf 基因各保守基序序列分析Fig.4 Sequence analysis of each conserved motif of Hsf genes in S.bicolor
对高粱、拟南芥和水稻Hsf 家族进行聚类分析(图5),不同颜色代表不同亚族,由图可以看出Hsf分为4 大类,其中第4 类又分为5 个亚族。几乎每个高粱的Hsf基因可与水稻的一个Hsf基因聚类在一起,说明高粱与水稻的Hsf 亲缘关系很近。构建的高粱与拟南芥、水稻的共线性图谱(图6)表明,高粱与拟南芥的Hsf基因存在5 条共线性关系,高粱与水稻的Hsf基因存在30 条共线性关系,进一步验证高粱与水稻的Hsf 家族同源性更高。
图5 高粱、水稻和拟南芥Hsf 系统进化树分析Fig.5 Phylogenetic analysis of Hsf including S.bicolor,O.sativa and A.thaliana
2.7 高粱Hsf 转录因子基因进化选择分析
遗传上使用非同义突变率(Ka)与同义突变率(Ks)的比值(Ka/Ks)来判断此蛋白编码的基因是否有选择压力。如果Ka/Ks>1,通常认为有正选择效应;如果Ka/Ks=1,则认为存在中性选择;如果Ka/Ks<1,则认为有纯化选择作用。如表5 所示,高粱Hsf 转录因子编码区基因的Ka/Ks 远小于1,说明高粱Hsf 蛋白编码的基因进化具有纯化选择作用。
2.8 高粱Hsf 基因的组织表达
RNA-seq 数据的SRA 编号如表6 所示。高粱Hsf基因表达分析结果(图7)表明,SbHsfA2d在各组织中未检测到表达,SbHsfA2a、SbHsfA4d、SbHsfB2a和SbHsfB4d等基因被聚类到一个分支上且表达量较低。SbHsfB4c和SbHsfA6a1在花序早期的表达量高于出现花序。SbHsfA1在各组织中均有表达,在雌蕊中优势表达。ABA 主要调控植物对干旱、低温等逆境胁迫的响应[21],SbHsfC2a、SbHsfC1b、SbHsfC2b在ABA 处理的高粱根部表达量较高,推测这3 个基因可能参与ABA 依赖性的逆境响应。
3 讨论
高粱具有抗旱、耐盐、耐贫瘠等重要特征,是全球第五大禾谷类作物。在植物所有反应机制中,抗逆境胁迫反应比较复杂,涉及多种转录因子,如Hsf、WRKY 及MYB 等[22~27]。
高粱的基因组大小约为730 Mb,约为谷子基因组(490 Mb)的1.5 倍,但高粱Hsf 家族的数量仅为谷子Hsf 家族的89%,这可能是由于高粱在进化过程中部分Hsf基因丢失导致。林勇翔等[8]使用v1.0 release DOE-JGI Community Sequencing Program(CSP)http://www.phytozome.net/sorghum.php 数据库鉴定出23 个高粱Hsf 转录因子,本研究使用植物Phytozome 数据库鉴定出24 个,转录因子数量上的差异可能是由于使用的高粱数据库不同导致。von Koskull-Döring 等[28]指出植物Hsf 在结构、功能上具有较大的多样性。本研究高粱Hsf基因结构的种类丰富,与前人结果一致。保守基序分析表明,2 个motif 在高粱所有Hsf 中最为保守。MBS 元件主要调控植物耐干热风胁迫,HsfA2e在ABA 与PEG 诱导时表达上调,推测可能与其MBS 元件数量最多有关。共线性分析及系统进化树分析显示,高粱Hsf家族与水稻亲缘关系更近。进化选择结果表明高粱Hsf基因可能受到纯化选择。基因表达分析表明,高粱部分Hsf基因受ABA 诱导表达上调,如SbHsfC2a、SbHsfC1b、SbHsfC2b;植物对热胁迫及干旱等环境的响应很大程度上与ABA 信号通路密切相关[29],因此这些基因可能参与高粱对热胁迫的响应。SbHsfB4c和SbHsfA6a1在早期花序中表达量高于出现花序,这2 个基因可能参与花序原基的形成,促进高粱从营养生长转变为生殖生长。
图6 高粱Hsf 基因与水稻、拟南芥的共线性分析Fig.6 The collinear analysis of Hsf genes in S.bicolor,O.and A.thaliana
表5 Hsf 基因进化选择压力分析Table 5 Analysis of evolutionary selection pressure of Hsf genes
图7 Hsf 在不同组织和不同环境诱导条件下的基因表达Fig.7 Gene Expression of Hsf in different tissues and different environment induced conditions
表6 17 份转录组数据信息统计Table 6 Statistics of 17 transcriptome data information
4 结论
通过对24 个高粱Hsf 转录因子家族成员进行分析,最终鉴定筛选出SbHsfC2a、SbHsfC1b、SbHsfC2b很可能与植物热激应答密切相关,可作为研究高粱耐热机制的候选基因。本研究对热激应答相关基因具有一定的参考价值,也可为高粱遗传改良提供新思路。