玉米组蛋白编码基因鉴定与表达分析
2022-04-26马宇馨李永国张玮煜朱倩洁邢继红董金皋
马宇馨,李永国,张玮煜,朱倩洁,周 帆,邢继红,张 康,董金皋
(1. 华北作物改良与调控国家重点实验室/河北省植物生理与分子病理学重点实验室,河北农业大学,河北 保定 071000;2. 河北农业大学 教学实验农场,河北 保定 071000)
组蛋白是染色体基本结构蛋白,因富含碱性氨基酸Arg 和lys 而呈碱性,可与酸性的DNA 紧密结合。组蛋白包含5 个组分,按照分子量由大到小分别称为H1、H3、H2A、H2B 和H4。在生物体中,H3 和H4 先结合形成四聚体,之后结合H2A 和H2B 形成八聚体,最后结合上H1,形成完整的组蛋白,其中H1 起到了稳定染色质的作用[1-2]。组蛋白进行α 螺旋、β 折叠、β 转角和无规则卷曲慢慢变成发挥功能的蛋白质[3]。组蛋白在物种中是高度保守的,这种稳定性让遗传物质稳定的遗传下去。当进行DNA 修复、重组和转录时,组蛋白和DNA 之间的静电相互作用会被暂时破坏,核小体暂时分解,组蛋白以H2A-H2B 的形式从八聚体形式中出来,这时仍有核小体组装蛋白(NAP)、核质蛋白(NPM)、酸性核磷蛋白(Anp32e)等组蛋白伴侣保护H2AH2B 的稳定性[4]。但是根据一系列的组蛋白变体的研究发现组蛋白在某些基因区域的沉积不依赖于DNA 的复制,但它同样影响着基因的表达[5]。这使分析组蛋白及其变体的功能成为一项重要的工作。
组蛋白变体是常规组蛋白的变异体,具有与常规组蛋白不同的编码基因,它们的氨基酸序列及大小亦有别于常规组蛋白[6],目前的报道多集中于H2A 的变异体,包括H2A.Z、H2A.X 和H2A.W[7]。H2A.Z 与H2A 主要在C 末端结构存在差异,H2A.Z 的C 末端尾部短于H2A,且其40%的氨基酸序列不同于H2A[8]。H2A.Z 在核小体中的装载主要由SWR1 (SWi2 / snf2-related 1)蛋白复合物负责,该复合物成员主要包括ARP6 (actin-related protein 6)、PIE1 (photoperiodindependent early flowering 1)、SEF (serrated leaves and early flowering)、SWC4(SWR complex subunit 4)、MBD9 (methyl-CpGbinding domain 9)、ATPase 亚基和YAF9 (yeast all1-fused gene from chromosome 9)[9-13]。H3K4me3 和H3K27me3 是常见的组蛋白甲基化修饰标记,在转录激活和转录抑制中作用[14-16]。H2A.Z 能够促进基因启动子区H3K4me3 的富集,诱导基因表达;同时可以通过促进H3K27me3 富集并抑制H3K4me3来抑制增强子活性,进而影响基因表达[17]。组蛋白变体H2A.Z 参还与了许多重要的生命活动,例如开花时间、胁迫应答、细胞周期和磷饥饿响应等[18]。组蛋白变体H2A.X 是H2A 发生磷酸化修饰形成的组蛋白变体,其C-末端含有保守的SQEF 基序[21]。组蛋白变体H2A.X 在核小体中的组装,需要组蛋白伴侣FACT (Facilitates chromatin transcription)等的帮助,与DNA 损伤修复等生物学过程具有重要联系[19]。组蛋白变体H2A.W 蛋白的C 末端尾部长于H2A,且含有特异的KSPKK 基序,KSPKK 基序特别影响染色质的组成,因此H2A.W 有促进染色质凝聚的功能[20]。
目前,除了H2A 的变体,其他组蛋白也存在一些变体,比如H3.1 和H3.3,H3.1 在基因组的沉默区域富集,包括H3K27 甲基化和H3K9 甲基化等一些重要的染色质修饰。相比之下,H3.3 在基因组的转录活跃区域富集,尤其是在基因的N 末端达到峰值,并与基因激活相关的组蛋白修饰相关,例如H3K4 甲基化和H2B 泛素化等[21]。H4 的变异体在植物中研究较少,在癌症中研究较多,比如H4G,它通过在乳腺癌细胞中形成不稳定的核小体来松弛核仁染色质并增强rRNA 转录[22]。组蛋白在植物生长发育、胁迫响应等生命活动中发挥着重要的作用。但是,玉米中还未见关于组蛋白编码基因的系统性报道。因此,本研究从基因组范围对玉米组蛋白编码基因进行鉴定与表达分析,明确玉米组蛋白编码基因,对其理化性质和不同条件下的表达规律进行分析,将对玉米组蛋白的功能研究奠定了重要的理论基础。
1 材料和方法
1.1 试验材料
供试玉米自交系为B73,来源于河北农业大学真菌毒素与植物分子病理学实验室。
1.2 玉米组蛋白编码基因的筛选和鉴定
在玉米基因组数据库MaizeGDB(https://www.maizegdb.org,基因组版本:Zm-B73-REFERENCEGRAMENE-4.0)下载玉米(Zea mays)完整的蛋白质序列数据信息,从拟南芥信息资源数据库TAIR(www.arabidopsis.org)和水稻基因组注释计划数据库RGAP(http://rice.plantbiology.msu.edu/)获得拟南芥及水稻HATs 家族成员的蛋白质序列信息。以玉米所有蛋白序列为库,利用BLAST 软件对拟南芥和水稻种的HATs 家族成员进行分析,鉴定玉米组蛋白成员,另外利用Pfam(http://pfam.xfam.org/)和Ensemble(http://plants.ensembl.org/index.html)找出玉米组蛋白成员。综合这3 种方法,最终确定H1、H2A、H2B、H3 和H4 家族成员。
1.3 组蛋白多序列比对和系统发育分析
通过ClustalX 软件对拟南芥、水稻和玉米的组蛋白成员的蛋白质序列进行多重序列比对,利用MEGA7.0 中的临近法构建系统发育树,bootstrap 值设置为1 000。利用玉米蛋白质数据通过在线网站SMART(http://smart.embl-heidelberg.de/)和Pfam(http://pfam.xfam.org)共同确定玉米组蛋白的结构域,并利用IBS1.0.3 工具绘制基因的保守结构域。
1.4 玉米组蛋白编码基因的表达规律分析
利用从NCBI(https://www.ncbi.nlm.nih.gov/)中的SRA 数据库下载的数据,使用具有默认参数的Hisat2 将转录组数据集比对到下载的玉米的参考基?因组上。Cufflinks 软件通过基因长度和读取数量标准化参数计算基因表达值,以 FPKM(每百万映射读取每千碱基转录物的片段)代表基因表达水平。利用Heml 软件绘制玉米组蛋白成员在不同组织以及生物和非生物胁迫下的表达热图,挖掘玉米组蛋白编码基因表达规律。
2 结果与分析
2.1 玉米组蛋白编码基因的筛选和鉴定
从玉米基因组数据库MaizeGDB 获得玉米组蛋白成员的位置信息、序列长度及其编码蛋白的氨基酸;利用在线服务器ExPASy(http://web.expasy.org/protparam) 中的生物信息学软件ExPASy-ProtParam tool 对玉米组蛋白成员所编码的蛋白质的分子质量和等电点等理化性质进行分析。结果发现,玉米组蛋白编码基因共有54 个,其中H2A 家族16个,H2B 家族13 个,H3 家族12 个,H4 家族9 个,H1 家族4 个。理化性质分析结果表明,组蛋白等电点都呈碱性且分子量比较相近,这可能与其在染色质中的功能相关(见表1)。
表1 玉米组蛋白编码基因信息Table 1 List of maize histone coding genes
续表:
2.2 玉米组蛋白家族成员的多序列比对和系统发育分析
为了明确玉米组蛋白成员之间的系统发育关系,将拟南芥、水稻中已经鉴定的组蛋白成员与玉米中组蛋白的蛋白质序列进行多序列比对,并以水稻组蛋白亚分类为标准,利用MEGA7.0 软件,选取临近法构建系统发育树(见图1)。结果表明,组蛋白在植物进化过程中非常保守,说明其在功能上可能也十分相近。
为了进一步研究组蛋白H2A 的进化关系,对H2A 及其变体进行分析发现H2A 又可以被分为4 个亚组,其中经典H2A、H2A.Z、H2A.X、H2A.W 在不同物种中均有分布(见图1),表明玉米组蛋白H2A 及其变体在协同发挥作用的同时,又具有明显的分工。对H2B 亚家族单独构建系统发育树并分析,发现H2B 能够进一步分成两组,且相同物种的H2B在两组中均有分布。由此推断,玉米H2A、H2B 及其变体在不同物种之间进化有差异,在相同物种之间进化关系更为紧密。
图1 拟南芥、水稻和玉米组蛋白系统发育树Fig.1 Phylogenetic tree analysis of histone in Arabidopsis,rice and maize
目前发现组蛋白H3 上能发生的组蛋白修饰类型最多,功能最全面。对玉米组蛋白H3 亚家族进行分析,发现H3 中存在组蛋白变体,例如H3.3 等。相较于拟南芥,玉米的H3 组蛋白编码基因更多一些,可能是由于基因组扩张导致H3 组蛋白编码基因增加(图1)。此外,组蛋白H4 可以与H3 形成二聚体并参与到核小体的组装过程中,对玉米、水稻和拟南芥H4 亚家族进行分析,发现组蛋白H4 是以上几种中结构变体最少,保守性最强的一个亚家族(图1)。玉米组蛋白H4 基本都分在一组中且进化关系紧密,且没有在玉米基因组中找到组蛋白变体H4 Variant。
通过SMART(http://smart.embl heidelberg.de)和Pfam(http://pfam.xfam.org)数据库对玉米组蛋白保守结构域进行分析,然后利用IBS1.0.3 工具对蛋白质保守结构域进行绘制。结果显示,玉米组蛋白保守结构域主要分为5 组,分别为H2A、H2B、H3、H4 和H1(图2)。组蛋白H2A、H2B、H3 和H4 的重要组蛋白代表性结构域的位置和长度均相似,这证明H2A、H2B、H3、H4 的保守性极强(见图2)。组蛋白H1 虽然在长度上有着差异,但是仍然具有特异的保守结构域。
图2 玉米组蛋白成员的保守结构域分析Fig.2 Conserve domain analysis of histone proteins in maize
2.3 玉米组蛋白编码基因组织表达特异性分析
对公共数据平台SRA 数据库中的玉米不同组织的转录组数据进行分析,发现玉米组蛋白基因普遍在玉米发育阶段表达量高,比如在胚中Zm00001d020580、Zm00001d002546、Zm00001d002543等都表现出较高的水平,在玉米生长和成熟阶段稍有降低,比如在种子发芽后,以上3 个基因表达量均下调,且在衰老的玉米组织中表达量呈最低水平(见图3)。
图3 玉米组蛋白基因在不同组织中的表达谱Fig.3 The expression pattern of maize histone genes in maize different tissues
这些结果说明,玉米中组蛋白编码基因虽然具有多个拷贝,但不同组蛋白编码基因在不同组织中表达水平具有一定差异,暗示同一种组蛋白的不同编码基因可能在不同组织中分别发挥重要的作用。
2.4 玉米组蛋白编码基因在生物和非生物胁迫下表达规律分析
对玉米高温、低温、盐、紫外线和干旱胁迫下的转录组数据进行分析,发现玉米组蛋白基因在不同非生物胁迫下呈现出不同的表达规律。结果表明,部分基因在冷胁迫和紫外线胁迫下表达水平升高,但在盐胁迫、干旱胁迫和热胁迫下表达量较低,其中还有一些基因在这些胁迫中均保持较低的表达量(见图4)。
图4 玉米组蛋白基因在热、冷、盐、紫外线和干旱胁迫下的表达模式Fig.4 The expression pattern of histone genes under heat,cold, salt, UV and drought stress
例如,Zm00001d006547在冷胁迫和紫外胁迫下表达量升高,Zm00001d021706、Zm00001d026015、Zm00001d013300在冷胁迫下表达量均有明显升高,Zm00001d039790、Zm00001d036250、Zm00001d009769等盐胁迫、干旱胁迫和热胁迫下表达量明显下降。此外,H2A 和H2B 亚家族的一些组蛋白编码基因在非生物胁迫中均保持较低表达水平,例如Zm00001d050100和Zm00001d012837。
对玉米组蛋白编码基因在禾谷镰孢侵染过程中的表达规律进行分析,发现随着病菌侵染时间增长,一些玉米组蛋白编码基因表达水平逐渐升高,例如Zm00001d013067、Zm00001d047787、Zm00001d051478、Zm00001d032070、Zm00001d026015(见图5)。结果说明,这些组蛋白编码基因可能在抵抗禾谷镰孢侵染的过程中发挥着重要的作用。但是,也有一些基因保持着较低的表达量,例如组蛋白H2A 和H2B 的编码基因Zm00001d009769、Zm00001d035619、Zm00001d005322。
图5 玉米组蛋白基因在禾谷镰孢菌侵染玉米茎后的表达模式Fig.5 The expression pattern of histone genes with Fusarium graminearum infection in maize stem
3 讨论与结论
在真核生物中,核小体是染色质的最基本单位,它是由约147 bp 的DNA 缠绕在核心组蛋白H2A、H2B、H3 和H4 构成的组蛋白八聚体周围共同组成,每2 个核小体之间还包含了另外一种连接性组蛋白H1。这些构成八聚体的组蛋白在进化中是十分保守的,但是它们在每一个生物体中并不是静态存在的。组蛋白是最高度保守的蛋白质之一,它们与基因表达和基因组的稳定性密切相关,在生长发育和对环境胁迫的响应过程中发挥着关键的作用[4]。组蛋白上的氨基酸残基可以发生多种修饰,例如甲基化、乙酰化、泛素化、糖基化以及近些年发现的巴豆酰化,丁酰化等等[18]。拟南芥、水稻组蛋白基因的研究较为深入。在拟南芥和水稻中,相对于H2A 和H2B,H3 和H4 更保守,H3 的氨基酸序列与H4 的氨基酸序列几乎没有差异。一组组蛋白在幼小组织或分裂细胞中表现出相似的表达模式,具有相对较高的表达水平。一些组蛋白基因在响应各种胁迫时被下调,相对于H3 和H4,H2A 和H2B 在应急反应中表现更为突出[8,21]。但是,玉米组蛋白编码基因的系统性研究至今尚未见报道。
本研究对玉米基因组进行了系统的分析,鉴定出54 个玉米组蛋白编码基因,其中16 个H2A,13个H2B,12 个H3,9 个H4 和4 个H1。进一步对组蛋白H2A、H2B、H3、H4 分析,发现玉米组与拟南芥和水稻在各个亚家族分布类似,且玉米组蛋白的保守结构域的数量和排列在同一亚族中相对保守。本研究表明,玉米组蛋白编码基因在不同组织和响应生物和非生物胁迫过程中的表达水平呈现出明显的差异。在热和盐胁迫下,大多数组蛋白编码基因表现为下调,在干旱、冷和紫外胁迫下,部分组蛋白编码基因表达上调,说明在不同的非生物胁迫下,不同的组蛋白编码基因发挥不同的功能。在受到禾谷镰孢侵染时,组蛋白编码基因在侵染后期表达水平显著上升,表明这些基因在相应生物胁迫的过程中发挥重要作用。此外,为什么在不同条件下组蛋白编码基因表达水平具有明显差异,其调控机制还需要深入探索。本研究表明,组蛋白编码基因在玉米生长发育以及响应生物和非生物胁迫过程发挥重要的作用,并且在抵抗生物胁迫中发挥更重要的功能,为阐明玉米组蛋白编码基因的功能及其调控机制奠定了重要的理论基础。