水稻ECT基因家族的全基因组研究
2022-09-07宁德正庄可卿张巧玲张婉桐张桁源胡颂平卫海滨
宁德正, 庄可卿, 张巧玲, 李 华, 张婉桐 ,张桁源 , 胡颂平, 3)*, 卫海滨
(1)上海市农业生物基因中心, 上海 201106;2)江西农业大学 生物科学与生物工程学院植物功能基因与组织培养技术研究中心,南昌 330045;3)江西农业大学 作物生理生态与江西农业大学遗传育种教育部重点实验室, 南昌 330045)
RNA修饰是一种全新的转录后基因表达调控方式[1],已成为表观遗传学领域继DNA甲基化和组蛋白修饰后的一个研究热点。m6A是位于第6号位N上发生甲基化的腺苷,是真核生物mRNA最常见的一种分子修饰[2],具有可逆性和动态性的特点。通过Writers、Erasers和Readers形成m6A甲基化酶复合体,实现甲基化或去甲基化修饰过程。阅读器蛋白Readers作为m6A结合蛋白,特异性识别并结合RNA上的m6A位点,进而参与各种生物学功能,包括mRNA前剪接、mRNA降解、翻译效率和翻译起始模式等[3]。m6A Readers蛋白首先在哺乳动物细胞被发现,大多数包含1个YTH (YT521-B homology) 结构域[4],在人类中分别命名为:YTHDC1、YTHDC2、YTHDF1、YTHDF2和YTHDF3[5]。YTH家族成员高度保守,包含1个芳香族氨基酸残基形成的笼袋,用于识别m6A修饰的碱基,这些蛋白质广泛存在动植物中,植物中尤为丰富[6]。植物拟南芥的YTH结构域通常被命名为ECT结构域 (evolutionarily conserved C-terminal region)[7],拟南芥ECT蛋白基本归属YTHDF亚家族,只有AtCPSF30、AtECT12被认为是YTHDC亚家族[3, 8, 9]。ECT2为拟南芥中首个实验鉴定的ECT蛋白,可调控mRNA稳定性,调控拟南芥表皮毛发育[10];而在热胁迫下,ECT2参与抑制mRNA翻译起始,重新定位至应激颗粒,表明ECT2能控制被结合的mRNA在细胞质中的状态,从而响应逆境胁迫[11]。ECT2、ECT3和ECT4研究中发现,这些ECT蛋白可以调控拟南芥叶片发育起始时间和形状[3]。ECT家族蛋白的功能研究对于探索m6A甲基化修饰的分子调控机制至关重要,但水稻ECT蛋白的研究较少。ECT基因家族可能在单、双子叶植物演化中经历的基因组事件不同,因此,水稻ECT基因家族的全基因组研究有待深入分析。
水稻作为世界重要的粮食作物之一,其生产却受到各种非生物胁迫的影响。缺水灌溉,土壤贫瘠,旱灾频繁,限制了水稻产量的突破。培育高效优质、资源节约、环境友好型的节水抗旱稻是解决水稻种植困境的有效途径。抗旱的分子机制较为复杂,涉及转录、翻译和修饰等多个层面。转录后m6A甲基化修饰参与各种非生物和生物胁迫响应,ECT蛋白特异性识别胁迫响应基因,ECT基因家族的全基因组分析将为水稻的抗旱分子调控机制提供新的理论支持。
随着各个植物全基因组测序相继完成,为进一步分析ECT基因提供了有利条件。本研究通过对水稻基因组中ECT基因的鉴定,并分析基序组成、染色体分布、保守基序、系统发育、基因组共线性和表达模式等,为水稻ECT基因家族的特征及功能研究提供相关的理论基础。
1 材料与方法
1.1 水稻ECT基因家族成员鉴定
首先获取ECT基因家族共有的YTH结构域在Pfam数据库 (http://pfam.xfam.org) 中的索取号(PF04146) ,下载隐马尔科夫模型文件。然后,使用HMMER3.0对水稻日本晴参考基因组的蛋白质序列进行ECT蛋白预测。过滤去除E-value小于0.05且序列长度小于200个氨基酸的蛋白质。进一步利用SMART[12, 13](http://smart.embl-heidelberg.de/) 检测YTH结构域的存在。最后,获得12个水稻ETC基因,并利用国家水稻数据库网站 (http://www.ricedata.cn/gene/) ,获取蛋白质分子量与等电点等信息。
1.2 水稻ECT基因结构分析与进化树构建
利用NCBI网站的CDD (The Conserved Domain Database) 数据库,获取ECT蛋白结构域信息,并使用Tbtools[14](https://github.com/CJ-Chen/TBtools) 软件进行基因保守结构域和结构示意图绘制。利用水稻ETC基因家族的氨基酸序列,使用ClustalW默认参数进行多序列比对。比对结果文件导入MEGA-X软件,使用邻接法 (neighbor joining,NJ) 对ECT蛋白构建系统发育树,重复抽样检验参数Bootstrap值设置为1 000,其他参数使用默认值。使用在线工具iTOL (https://itol.embl.de/) 对进化树进行美化。
1.3 水稻ECT基因重复及共线性分析
使用MCScanX软件默认参数分析水稻ECT基因的复制事件,并分析水稻与拟南芥及玉米之间的基因同源性。利用TBtools软件绘制水稻基因组内和物种间共线性比较关系图谱。使用整合工具ParaAT[15],提取多个ECT基因CDS序列,利用KaKs_Calculator2.0[16]计算其非同义 (Ka) 和同义 (Ks) 替换。
1.4 水稻ECT基因家族的表达分析
水稻基因表达谱数据来源于公共数据库MBKbase (http://www.mbkbase.org/) ,查询该库1 750多份RNA-Seq数据,挑选根、芽、叶3个组织2个时间点 (7 d和14 d) 的表达数据进行分析。干旱胁迫的RNA-Seq数据来自本实验室的旱优73 (HY73) 桶栽实验,水稻生长至30 d时进行苗期干旱胁迫7 d。使用htseq-count软件[17]获取每个样本中比对到ECT基因上的reads数,根据FPKM计算公式计算基因的FPKM值。
2 结果
2.1 水稻ECT基因的鉴定和理化性质分析
通过HMMER软件对水稻日本晴参考基因组的全蛋白质序列搜索,鉴定ECT基因的YTH蛋白核心结构域,筛选过滤冗余序列和无完整读码框序列,最终获得12个水稻ECT基因 (Table 1) 。根据在染色体上的位置以及蛋白质结构,将其命名为OsECTa-OsECTl。并分析水稻OsECT基因理化性质,包括蛋白质长度、染色体位置、蛋白质分子量和等电点等基因特征 (Table 1) 。其氨基酸序列的长度较为接近,OsECT-j是最短的OsECT蛋白 (578个氨基酸) ,而最长的是OsECT-d蛋白 (710个氨基酸) 。该类蛋白质分子量范围为63 792.73 (OsECT-g) ~ 78 204.96 (OsECT-a) 。OsECT蛋白理论等电点pI范围为4.93 (OsECT-k) ~ 8.69 (OsECT-a) 。
Table 1 Physical and chemical characteristics of the ECT gene family in Oryza sativa
2.2 水稻ECT基因家族结构及进化树分析
利用水稻和拟南芥的ECT蛋白序列进行多序列比对,分析基因结构和保守结构域,结果如Fig.1A所示。YTH结构域位于肽段C-端,在2个物种中均高度保守。但拟南芥AtCPSF30和水稻OsECT-l另含有1个YTH1超家族结构域,水稻OsECT-c另含有1个PHA02732超家族结构域,目前功能未知。水稻OsECT-l 另含有1个Cytadhesin P30超家族结构域,未发现与RNA修饰相关 (Fig.1B) 。这表明,在水稻和拟南芥的ECT蛋白形成过程中可能发生过不同的进化事件。
Fig.1 Multiple sequence alignment and protein motif compositions of the ECT gene family in Oryza sativa and Arabidopsis thaliana (A) The amino acid sequence alignment results of 25 ECT proteins in Oryza sativa and Arabidopsis thaliana,and the amino acid sequence of the C-terminal ECT domain was selected for display. The red box indicates the YTH domain. (B) Visualization of the conserved domains of 25 ECT proteins in Oryza sativa and Arabidopsis thaliana. The conserved domain was annotated from NCBI’s CDD (the Conserved Domain Database) and visualized in TBtools
系统进化分析结果表明,ECT蛋白家族可以分为5组,水稻ECT成员在5组中均有分布 (Fig.2)。根据哺乳动物中的划分,将YTH家族成员分为YTHDF亚家族和YTHDC亚家族,其中YTHDC亚家族含有1个水稻ECT蛋白 (OsECT-l) 和2个拟南芥ECT蛋白 (AtECT12和AtCPSF30) 。而AtCPSF30与OsECT-l亲缘关系接近,且均具有YTH1超家族结构域,推测它们功能相近。YTHDF亚家族则包含其它4个进化分支的ECT蛋白,包括 (OsECTa ~ k) 。哺乳动物中YTHDF均定位于细胞质,功能存在冗余[18]。同样,在拟南芥中也发现YTHDF家族之间功能冗余,例如AtECT2、AtECT3、AtECT4共同调控叶片发育。本文的结果中,OsECT-c、OsECT-e、OsECT-i与已报道最多的拟南芥AtECT2亲缘关系最接近,推测它们同样具有调控叶片发育的功能。
Fig.2 Phylogenetic analysis of the ECT gene family in Oryza sativa and Arabidopsis thaliana The phylogenetic tree of ECT proteins was constructed by the neighbor-joining method using the Mega-X program. The nodes are labeled in black squares and red triangles to represent the source of ECT genes from Arabidopsis thaliana and Oryza sativa. The ECT protein family was divided into five groups and displayed by the online tool iTOL
2.3 水稻ECT基因重复事件和共线性分析
水稻12个OsECT基因不均匀分布在7条染色体中,且多分布于染色体两端 (Fig.3) 。其中,5、6、7号染色体均含1个OsECT基因,1、4、8号染色体均含2个OsECT基因,3号染色体含3个OsECT基因。物种内共线性分析发现,3号染色体上存在1个片段重复事件 (segmental duplication event) ,基因OsECT-c和OsECT-e为1对片段重复基因,可能是一个祖先基因复制后重组于同一条染色体内。
Fig.3 The chromosome distribution and synteny analysis of ECT genes in Oryza sativa The modes of ECT gene duplication were detected in rice genome using MCScanX. Grey lines represent all collinear modules in the rice genome,and red lines represent duplicate ECT gene pairs. The chromosome number is shown in the middle of each chromosome
为了进一步推断水稻ECT家族的系统发育机制,构建了水稻与双子叶拟南芥、水稻与单子叶玉米的基因共线性比较图谱 (Fig.4) 。在拟南芥中,并未发现水稻OsECT基因的共线性直系同源基因。这与前人文献中小麦与拟南芥的研究结果类似[8]。在玉米中发现8个水稻基因的共线性关系,包括OsECT-b、OsECT-c、OsECT-e、OsECT-g、OsECT-i、OsECT-j、OsECT-k和OsECT-l。其中,OsECT-e(LOC_Os03g53670)、OsECT-g(LOC_Os04g51940 ) 与3个玉米ECT基因形成同源基因对,推测这些基因在水稻ECT家族进化过程中发挥了重要作用。OsECT仅与玉米形成直系同源基因对,表明ECT基因可能在单、双子叶植物分化后形成。
Fig.4 Synteny analysis of ECT genes between Oryza sativa and Arabidopsis thaliana, Zea mays Grey lines in the background represent collinear modules in rice and other plant genomes,while orange lines highlight the syntenic ECT gene pairs
为了判断ECT基因家族受到的选择压力,本文计算了水稻OsECT片段重复基因对和玉米直系同源ECT基因对的Ka/Ks值,观察到所有ECT基因对Ka/Ks均小于1 (OsECT-c与OsECT-e基因对的Ka/Ks值为0.108116,玉米直系同源ECT基因对Ka/Ks平均值为0.202268) 。这表明,水稻ECT基因家族在进化过程中可能经历了较强的纯化选择压力。
2.4 水稻ECT基因表达模式
来源于MBKbase数据库的3个水稻组织 (根、芽、叶) 正常条件和本实验室干旱胁迫的RNA-Seq数据,调查水稻ECT基因的表达模式 (Fig.5) 。至少有9个OsECT基因高度表达。其中,OsECT-b、OsECT-c、OsECT-e、OsECT-j在3个组织中表达量一直保持较高的趋势。表明这几个基因在植物生长发育过程中可能发挥重要的作用。OsECT-c(LOC_Os03g06240 ) 在12个基因中表达量最高;OsECT-e(LOC_Os03g53670 ) 随着植物的生长在叶片组织中表达上调程度最大,表明OsECT-e基因在叶片早期发育中可能有着重要作用;OsECT-i(LOC_Os07g07490 ) 在3个水稻组织中,随着植物的生长,表达量均明显上调,表明OsECT-i基因在植物组织特定的生长阶段发挥作用。干旱胁迫处理后,OsECT-g(LOC_Os04g51940 ) 转录水平显著性下调 (log2FC = -1.00,FC = Fold Change) ,表明OsECT-g基因响应干旱胁迫,在水稻抗旱过程中可能发挥重要作用。
Fig.5 Expression profiles of ECT genes in Oryza sativa The quantity of gene expression were from multiple RNA-seq datasets in MBKbase and our laboratory. Blue and red colors indicate low and high expression,respectively,while black cells indicate much higher expression. The OsECT-b,OsECT-c,OsECT-e,OsECT-g,OsECT-i,and OsECT-j showed high expression in the root,shoot and leaf,under normal and drought conditions. HY73-leaf-WW and HY73-leaf-DT represent leaf tissues of Hanyou 73 under the well-watered and drought-treatment conditions, respectively
3 讨论
RNA甲基化作为近年的研究热点,为生物学问题提供了新的观察角度。ECT蛋白已被证明在模式植物拟南芥m6A甲基化的特异识别结合mRNA过程中发挥重要作用。然而,水稻ECT基因家族结构和进化还缺乏研究。本研究通过鉴定和分析获得了初步研究结果。
水稻基因组共鉴定出12个不均匀分布于7条染色体内的OsECT基因。保守结构域普遍位于C-端,而此结果与人类m6A结合蛋白YTHDF2特性一致[19],表明水稻OsECT基因具有类似结合m6A并影响mRNA稳定性的功能。拟南芥AtECT2也被证实在维持mRNA稳定上发挥重要作用。系统进化分析表明,水稻和拟南芥的全部ECT蛋白可被分为5组,每组都含有AtECT和OsECT,表明ECT蛋白具有高度保守的特点。玉米与水稻形成多个直系同源基因对,而拟南芥未见与水稻形成直系同源基因对,这表明水稻ECT与玉米可能具有更近的亲缘关系。水稻和玉米同为单子叶植物,而拟南芥为双子叶植物,推测拟南芥ECT基因在进化过程中经历的选择不同。水稻基因组内ECT基因有一组基因对,这可能是由于基因复制产生的。因为两基因相隔大于200 kb,所以不属于串联重复事件[20],而片段重复事件可能是OsECT进化主要驱动力之一。全基因组复制事件在植物进化过程中很常见,是一种同源基因扩张的主要原因[21]。目前,在拟南芥中被报道功能最多的属AtECT2基因。在系统发育树中,与AtECT2蛋白亲缘关系最紧密的为OsECT-c、OsECT-e、OsECT-i,而编码它们的基因在水稻组织中的平均表达水平较高。这些OsECT基因可能在水稻早期发育中发挥着类似AtECT2的功能,同样可能影响mRNA稳定性来调节生命活动。此外,OsECT-g在干旱胁迫的叶片中表达量显著下降。推测这些基因可能参与到在水稻生长发育和逆境应答过程。
综上所述,通过对水稻ECT基因家族的鉴定和综合分析,为后期基因功能研究提供了有价值的线索。OsECT基因家族的系统进化和表达模式分析,有助于揭示水稻ECT基因家族的进化特征和基因功能。OsECT基因的组织表达特异性和干旱胁迫响应,表明在生长发育和逆境胁迫中可能发挥着重要作用。其研究结果为挖掘OsECT家族参与m6A甲基化过程的生物学功能和应用潜力奠定了基础。