APP下载

蓖麻RcWD40家族鉴定与表达分析

2022-05-13苟亚夫唐杰松于耸郑志民

中国油料作物学报 2022年2期
关键词:蓖麻拟南芥结构域

苟亚夫,唐杰松,于耸,,郑志民*

(1.东北林业大学生命科学学院,东北 盐碱植被恢复与重建教育部重点实验室,黑龙 江哈尔滨, 150040;2.东北林业大学林学院,林木 遗传育种国家重点实验室,黑龙 江哈尔滨, 150040)

WD40 蛋白家族特有的WD40 结构域是真核生物基因组中最丰富的结构域之一[1],在原生生物和原核生物中鲜见报道[2]。WD40 结构域具有约40 个保守氨基酸残基,C 末端通常以色氨酸-天冬氨酸(Trp-Asp,WD)结 尾,也 称WD40 重 复 蛋 白[3,4]。WD40 重复序列通常折叠成典型的七叶β 螺旋桨结构,它们围绕在中央腔周围,每个叶片由一个四股反平行β-链组成[5]。WD40 结构域本身无催化活性,但这一螺旋桨结构决定了它在蛋白-蛋白或蛋白-DNA互作中将充当“脚手架”或“适配器”功能[6]。

在植物中,WD40 重复蛋白广泛参与信号转导、细胞壁形成、染色体重塑与组蛋白修饰、蛋白酶体降解、微管组织组装等多种细胞过程[7]。在非生物胁迫应答方面,拟南芥WD40 蛋白HOS15 通过组蛋白去乙酰化来抑制低温胁迫耐受基因[8];盐生植物藜麦REBC基因参与表皮囊状细胞的形成,使茎尖免受高盐度胁迫损伤[9]。在植物生长发育调控上,水稻7-WD40 基序蛋白GORI 通过调节胞吞胞吐复合物形成来介导花粉管生长[10];拟南芥ABT 蛋白可与PYR1/PYL/RCAR 和PP2C 结合,通过终止ABA 信号来调控种子萌发和幼苗建立[11]。

拟南芥中的植物特异性调节因子AtTTG1 是WD40 家族的一个重要代表[12],它可结合包括R2R3-MYB 和bHLH 在内的转录因子形成多元调节复合物,从而调节表皮细胞分化(毛状体和根毛的形成)和次生代谢(类黄酮和种皮粘液的合成),并间接负调控种子发育过程中脂肪酸等贮藏物质的积累[13,14]。在油料作物中,TTG1 同源物在油菜中有相似的功能[15],大豆中也鉴定并克隆到了GmTTG1和GmTTG1-like基因[16,17]。

蓖麻(Ricinus communisL.)生长在温带或寒带,多为一年生草本,生长在热带或亚热带则多为灌木或小乔木,是世界上重要的能源与油料作物,也是具有生态修复价值的耐逆植物[18]。蓖麻油中的蓖麻油酸组分得益于其极高的纯度及羟基化赋予的独特性质,轻重工业上均备受青睐[19]。蓖麻中油脂合成正向调控因子如WRI1[20]、LEC2[21]等备受关注,而负调节物则鲜见报道。因此全面梳理蓖麻WD40家族基因,探究其对于耐逆和脂肪酸积累方面的潜在功能尤为重要。本研究利用生物信息学方法鉴定蓖麻WD40家族基因及其成员RcTTG1基因,建立系统发育关系,进行亚家族分类,并在4个组织及不同发育时期种子中进行表达分析。这为深入研究WD40 家族在蓖麻中的生物学功能及挖掘育种靶点基因提供了数据。

1 材料与方法

1.1 蓖麻WD40蛋白家族鉴定与生理特性分析

从Pfam(http://pfam. xfam. org/)数 据 库 下 载WD40 结构域(PF00400.32)的隐马尔可夫模型(HMM),并使用HMMER 程序(v3.0)对本实验室构建的蓖麻基因组组装(未发表)进行WD40家族基因的综合鉴定,阈值为e 值<10-5。利用CD-HIT Suite(http://weizhong-lab. ucsd. edu/cdhit_suite/cgi-bin/index. cgi)在线工具去除冗余序列。提交序列至SMART(http://smart. embl. de/smart/batch. pl)和NCBI-CDD(https://www. ncbi. nlm. nih. gov/Structure/cdd/wrpsb.cgi)数据库确认,删除不包含WD40 保守域的短序列。下载蓖麻基因组组装(TIGR_castorWGS_release_0.1)的蛋白注释文件(http://castorbean.jcvi. org/downloads. php),使 用 Protein-Protein BLAST(v2.5.0)获得WD40 家族蛋白序列对应的基因模型ID。应用在线程序Expasy(https://web. expasy.org/compute_pi/)预测蛋白的分子质量(Mw)和理论等电点(pI)。

1.2 系统发育分析

从文献中获得237 个拟南芥WD40基因的基因号[22],并在TAIR 数据库(https://www.arabidopsis.org/index. jsp)和NCBI 数据库(https://www. ncbi. nlm.nih. gov/)中下载235 个相应蛋白质序列(根据基因号无法查询到AT1G19760 和AT1G27830 的相应蛋白序列)。将235个拟南芥WD40蛋白序列与182个蓖麻WD40 蛋白组合,使用ClustalW 工具进行多序列比对,采用FastTree 软件中的LG 模型构建了一个系统发育树[23]。

1.3 保守结构域分析和亚家族分类

除了WD40 结构域外,还鉴定了这些基因中的其他保守基序。保守域的组成和所在位置由Pfam(http://pfam. xfam. org/)和SMART(http://smart. embl.de/smart/batch.pl)共同确定,并根据每个基因的蛋白质序列的保守域组成对蓖麻WD40基因进行亚家族划分。每个亚家族中选择一个代表性序列由Illustrator for Biological Sequences(IBS)可视化。

1.4 同源基因的鉴定

拟 南 芥(AT5G24520) 、水 稻(OSNPB_020682500)、玉米(NP_001310302)、杨树(Potri.012 G006100)、木薯(Manes. 10G055500,Manes. 08G081 700)、大豆(GLYMA_04G228000)、棉花(AF530907,AF530911)、番茄(Solyc03g081210)中的TTG1 蛋白序列从NCBI 数据库(https://blast. ncbi. nlm. nih.gov/)和Phytozome 数据库(https://phytozome.jgi.doe.gov/pz/portal. html)中获得。利用Protein-Protein BLAST(v2.5.0)将上述序列比对至蓖麻基因组组装的蛋白注释文件,选取结果中序列相似度最高的蛋白所对应的基因作为蓖麻中TTG1的同源物。通过NCBI BLASTp(https://blast. ncbi. nlm. nih. gov/Blast.cgiNCBI-BLASTp)获得表达谱Group I 中32 个Rc⁃WD40的拟南芥同源基因。

1.5 启动子顺式调控元件分析

从蓖麻基因组序列中提取基因转录起始位点上游1.5 kb 区域序列,提交至在线分析网站JASPAR(http://jaspar.genereg.net/),选择拟南芥转录因子数据库,预测B3 和Myb/SANT 结构域的结合位点。

1.6 基因表达分析

使用本实验室转录组RNA-seq 数据(未发表),分析蓖麻栽培品系4 个组织和4 个发育时期种子WD40家族基因的表达模式。植物组织样品采集方法如下:3 周龄蓖麻幼苗的叶、茎、根收集自本实验室温室栽培植株,盛开的雌雄花、发育早期(S1)、中期(S2)、中后期(S3)以及完全成熟的种子收集自通辽市农科院大田栽培植株。同一类组织样品均收集或收获自同期种植且长势一致的3 株植物,以满足生物学重复。使用具有默认参数的Burrows-Wheeler Aligner(BWA)程序[24]将过滤后的读长映射至WD40基因,用于计算FPKM 平均值。对处理后的FPKM 进行log2转化,通过TBtools 软件[25]生成热图并进行层次聚类分析。

2 结果与分析

2.1 蓖麻基因组中包含182个WD40蛋白家族成员

基于WD40 结构域(PF00400.32)的序列相似性,经Hmmer 搜索和保守结构域确认,在蓖麻基因组中鉴定得到182 个WD40 蛋白,并根据基因在蓖麻染色体上的位置(数据未发表)顺序命名为Rc⁃WD40-1至RcWD40-182(附表1,详见首页OSID码)。为方便查找与分享,我们通过BLASTp 获得了这些序列与蓖麻基因组草图蛋白注释中的基因对应关系,蛋白的基因ID、特征和分类列于附表1(扫描首页OSID 码)中。其中RcWD40-24(evm.model.scaffold8.6)未查找到对应基因,为新的RcWD40家族基因。

与其功能多样的性质相一致,RcWD40 蛋白的保守结构域、氨基酸序列长度、分子量大小和其理化性质差异很大。ExPASy 分析表明,182 个蓖麻WD40 蛋白的长度为74 个至3591 个氨基酸不等,平均长度为691 个氨基酸,平均分子量为76.58 kDa,理论等电点(pI)值在4.19~9.61 之间。WD40 结构域的数量在1~11 之间变化。RcWD40 蛋白具有许多非典型的WD40 结构域,例如ANAPC4_WD40(PF12894.7)和Ge1_WD40(PF16529.5),这些结构域多与典型的WD40结构域存在重叠。

2.2 RcWD40蛋白的系统发育分析和亚家族分类

系统发育树清晰地显示了蓖麻和拟南芥WD40蛋白之间的进化关系:182 个蓖麻WD40 蛋白与235个拟南芥WD40蛋白整齐地聚集在一起(图1),这使得蓖麻WD40蛋白的系统分类更为容易。根据系统发育树的聚类结构,将182 个蓖麻WD40 分为8 个cluster(Cluster I 至Cluster VIII),每个cluster 分别包含13,20,46,24,21,21,14和23种蛋白质(附表1详见首页OSID 码,图1)。在每个cluster 中,蓖麻和拟南芥的WD40 家族成员均有序分布,这说明相较于拟南芥而言,蓖麻中的WD40基因在进化过程中未发生丢失。

图1 蓖麻和拟南芥中WD40蛋白的系统发育聚类Fig.1 Phylogenetic clustering of WD40s from castor and Arabidopsis

根据其结构域组成,将182 个RcWD40 分为28个亚家族(附表1,详见首页OSID 码)。120 个仅包含WD40 结构域的RcWD40 蛋白被划分为亚家族WD,6 个除WD40 结构域外还包含其他多个功能不明结构域的RcWD40 蛋白被划分为亚家族WO,其余56 个包含其他功能结构域的RcWD40 蛋白被归类为亚家族A~Z,图2 展示了各亚家族的代表序列和结构域组成。亚家族A~Z 中,仅包含1个成员的亚家族有16 个,包含2 个成员的亚家族有2 个(B,R),包含3 个成员的有2 个(H,Z),包含4 个成员的有2 个(C,M),包含5 个成员的有2 个(G,P),包含6个成员的有2个(L,Y)。

图2 RcWD40蛋白的亚家族分类及其代表性蛋白质结构Fig.2 Subfamily classification of RcWD40s and their representative protein domain structures

多样而分散的结构域决定着RcWD40蛋白广泛的功能。LisH 基序有助于微管二聚化,从而有助于调节微管动力学[26];Sof1结构域是核仁rRNA 加工机器的组分,参与细胞生长[27];U-box 结构域和RING结构域与E2 依赖性泛素化相关;DENN 结构域参与调控丝裂原活化蛋白激酶信号通路[28];BROMO 结构域具有结合乙酰化组蛋白的能力[29]。这些结构域在拟南芥和水稻WD40蛋白家族中也被发现[22,30]。

2.3 RcTTG1基因的鉴定及转录因子结合位点分析

TTG1基因在胚后发育和种子发育中起多种作用,特别是在受碳源分配影响的关键种子发育性状中发挥作用。基于同拟南芥、杨树、大豆、木薯等物种TTG1基因的序列相似性和系统发育关系,我们在蓖麻中鉴定得到了TTG1基因的同源物RcWD40-181(29428.m000322),将其重新命名为RcTTG1(图3A)。Phytozome数据库比对显示,RcTTG1与拟南芥中的AtTTG1(AT5G24520)为Malvidae基因家族中的一对直系同源物。SMART 数据库中,RcTTG1 的氨基酸序列除包含4 个重复的WD40 结构域外,不含其他结构域(图3C),被归类于系统发育Cluster IV和WD亚家族。

基因模型注释显示,RcTTG1仅含有1 个外显子,且伴有176 bp的5’-UTR和227 bp的3’-UTR区域(图3B)。基于TTG1基因在转录调控中的重要性及其在拟南芥中报道的互作关系,我们分别鉴定了转录起始位点(TSS)上游1.5 kb 序列中的B3 和MYB转录因子结合位点(TFBS),分别取得分排名前五展示于图3B中。可见RcTTG1启动子位点具有与不同B3 转录因子(FUS3 和ARF2)和MYB 转录因子结合的潜力。

图3 蓖麻RcTTG1基因的鉴定及其启动子、蛋白质序列分析Fig.3 Identification of the RcTTG1 gene and analysis of its promoter and protein sequence

2.4 RcWD40基因表达具有时空特异性

WD40蛋白功能多样,植物各组织或生长发育各阶段的基因表达模式分析可为揭示这些潜在功能提供有利依据。利用实验室测序后的RNA-seq数据分析蓖麻中RcWD40的空间和时间表达模式,样品涵盖了蓖麻4个组织(盛开的雌雄花、3周龄叶、3周龄根、3 周龄茎)以及4 个发育阶段的种子(早期S1、中期S2、中后期S3、成熟种子)。通过计算182个RcWD40的每千碱基转录每百万映射读长的片段(FPKM)值的log2构建了分层聚类热图。结果表明RcWD40基因在各组织中均有所表达,基于表达特征,RcWD40的表达谱聚类为5组(Group I~V)(图4)。

Group I(32 个基因)是大多数分析组织中表达最高的组,Group II(22 个基因)显示为最低的表达,Group III(51 个基因)、Group IV(42 个基因)和Group V(35个基因)分别显示出从高到低的表达。Group I中的RcWD40-99和RcWD40-2基因在所有组织中的平均表达水平最高。RcWD40-99编码真核翻译起始因子eIF-5a 结构域,可能具有持家功能;Rc⁃WD40-2在拟南芥中的同源基因为RACK1C,是ABA反应的负调节因子,参与多种发育和环境胁迫途径。 有 趣 的 是,报 道 显 示RACK1A、RACK1B、RACK1C存在功能冗余[31],而在蓖麻中则表现为组成型表达。我们进一步检查了Group I 其余30 个成员,又发现一些胁迫相关基因:RcWD40-10和Rc⁃WD40-74同 源 物 调 节 耐 寒 性[32],RcWD40-19和Rc⁃WD40-37同源物参与植物免疫。

Group III 的RcWD40-25、RcWD40-62基因在根茎叶中高表达,这表明它们可能在这些组织的发育中起重要作用。相反,同属Group III 的RcWD40-154在根茎叶中低表达,而在花和种子发育前中期较高表达。与之相符合,RcWD40-25的拟南芥同源物SPA4主要调节幼苗的光形态发生和成株的伸长[33];RcWD40-62编码G 蛋白β 亚基,拟南芥中编码这类蛋白的ABG1基因突变体表现出茎略短、花梗略长、叶片更圆的表型;而RcWD40-154的同源物JINGUBANG/REN4则参与花粉中JA(茉莉酸)合成调节复合物的形成并通过内吞机制协调花粉管生长方向[34]。

由图4 中涉及种子发育的右侧4 列可见,RcTTG1(RcWD40-181)的表达水平在种子发育的中期稍有增加,并随着种子成熟而迅速下降,这与拟南芥中AtTTG1的表达模式相似,可能起到防止脂肪酸过早积累的时控开关作用[14]。与它同属Group V的11 个RcWD40(RcWD40-8、RcWD40-61、RcWD40-71、RcWD40-85、RcWD40-89、RcWD40-125、Rc⁃WD40-126、RcWD40-127、RcWD40-157、RcWD40-160、RcWD40-172)在种子发育期至成熟期具有相同的表达模式。然而,这些基因分散分布在7 个不同亚家族和除Cluster VII 外的7 个不同系统发育类群中,说明它们在功能上存在冗余的可能性不大。

图4 RcWD40基因在不同组织和种子发育过程中的表达模式Fig.4 Expression profiles of RcWD40 genes in different tissues and during seed development

此 外,RcWD40-33、RcWD40-57、RcWD40-81、RcWD40-104、RcWD40-124、RcWD40-142和Rc⁃WD40-145在蓖麻种子发育到成熟期间的表达从相对较高的表达水平持续下降,仅1 个基因RcWD40-91表现为持续上升的趋势,其余大多基因的表达水平存在波动,无明显的表达趋势。成熟的干种子中大多数RcWD40的表达水平均低于3 个发育时期种子中的表达水平,这可能与RNA 活跃程度降低有关。

3 讨论与结论

自2010年蓖麻基因组草图发布以来,蓖麻转录因子家族屡见报道[35],但WD40 蛋白家族尚未得以鉴定。WD40 蛋白功能多样,涉及广泛的生化机制和细胞过程,在不同的生命王国中扮演着举足轻重的角色[7]。在蓖麻中,WD40与耐逆和油脂性状相关的功能应受到更多关注。因此本研究在全基因组水平上蓖麻WD40家族基因进行了鉴定和表征。

蓖麻中WD40家族成员数量与基因组复制情况相一致。蓖麻中鉴定得到了182 个WD40 家族成员,黄瓜[36]和桃[37]与之相似,分别为191 个和219 个,而在大豆[38]中,WD40 总数达到471 个,陆地棉[39]中更是多达579 个。在进化演变过程中,蓖麻黄瓜和桃基因组除经历了双子叶植物共有的三倍化(γ)事件后,均未发生新的复制事件[40],而大豆基因组在此之后又经历了两次二倍化,棉花经历了五倍化[41]。

WD40 结构域无自身催化活性,因此WD40 蛋白通常通过其他结构域来募集不同蛋白因子形成蛋白-蛋白复合物,进而间接调控基因表达[7],低序列保守性和高功能多样性是该家族的特征[30]。本研究中,蓖麻WD40 蛋白被划分为28 个亚家族,其数量多于已报道的小麦(11个)[42]、谷子(12个)[43]、中国月季(15 个)[44]等物种,这意味着WD40 蛋白在蓖麻中的功能更为分散。与已报道物种的WD40蛋白比较 可 知,Cellulose_synt、Alliinase_C/EGF_alliinase、DEAD/H helicase 是蓖麻WD40 家族中特有的结构域。Cellulose_synt 是纤维素合成结构域,纤维素含量可影响内果皮厚度[45]和茎秆机械强度[46];Alliinase指大蒜素,报道认为其参与植物化学防御系统[47];DEAD-box解旋酶则参与RNA代谢的全过程。

WD40 在维持蓖麻的耐逆特性中扮演着重要角色。在蓖麻各组织和各发育时期种子的基因表达谱中,表达量相对最高的Cluster I 中的3个基因(Rc⁃WD40-2、RcWD40-10和RcWD40-74)在拟南芥中的同源物与非生物胁迫相关,2个基因(RcWD40-19和RcWD40-37)的同源物与生物胁迫相关。在耐逆植物中,一些参与胁迫响应的基因(或miRNA)常以串联重复的形式进行拷贝数扩增[48],或是在非应激条件下表现出组成型表达[49],抑或是在胁迫诱导时,一些转录因子表现出迅速而强烈的响应[50,51],这些机制在一定程度上赋予了植物体对于逆境的适应性和反应力。

RcTTG1基因(29428. m000322)编码4 个WD40功能域,系统发育分析将它与AtTTG1(AT5G24520)聚类在相同的进化枝上。应当指出,RcTTG1启动子区域存在RY 基序(CATGTG),这是B3 转录因子识别结合所必需的。拟南芥中的B3转录因子FUS3对于种子脂肪酸合成积极作用的发挥,很大程度上依赖下调TTG1基因[13]。因此RcTTG1有可能作为Rc-FUS3(30131.m006860)的潜在靶标,在脂肪酸调节中行使相似的功能。在籽粒灌浆或种子成熟过程中,转录因子在协调营养成分的积累和运输等方面发挥关键作用。拟南芥中的LAFL(LEC1,ABI3,FUS3和LEC2)转录调控网络直接或间接诱导油脂和贮藏蛋白积累,并抑制种子萌发和营养生长[52];水稻中的NAC 转录因子则参与籽粒灌浆过程和热胁迫响应[53]。然而目前对于贮藏物质积累负调节物的研究仍较为有限[54],TTG1 的研究将为之提供新思路。

在种子发育中后期,RcTTG1的表达下调,而在这一时期,负责磷脂酰胆碱(PC)上油酸到蓖麻油酸转化的羟化酶基因RcFAH12的表达量与蓖麻油酸的积累量几乎同时攀升[55],这暗示该基因与蓖麻油酸的积累可能存在潜在的负向调节关系。在拟南芥种子发育中,TTG1对于脂肪酸合成的抑制效应主要通过促进种皮粘液和类黄酮的产生,以调控碳分配的方式来间接发挥[14],与蓖麻同属金虎尾目的亚麻便具有产粘液的能力[56]。然而未见蓖麻种子发育中粘液形成和类黄酮积累的报道,因此TTG1 在蓖麻中的功能发挥机制还需进一步研究。

猜你喜欢

蓖麻拟南芥结构域
细菌四类胞外感觉结构域的概述
拟南芥START 结构域亚家族生物信息学分析及功能
拟南芥栽培关键技术研究
UBR5突变与淋巴瘤B细胞成熟
母校那棵蓖麻树
星空 (外一首)
拟南芥
巧嘴绕口令
口水暴露了身份
DEP结构域的功能研究进展