桑树SPL转录因子家族全基因组鉴定及特征分析
2020-09-24韩利红赵明玉胡丽娟胡玉霜
韩利红,刘 潮,赵明玉,胡丽娟,胡玉霜
(曲靖师范学院 生物资源与食品工程学院/云南高原生物资源保护与利用研究中心/云南省高校云贵高原动植物多样性及生态适应性进化重点实验室,云南 曲靖 655011)
转录因子(Transcription factors,TFs)在植物基因表达调控中起着重要作用。多个转录因子家族参与植物的生长发育和胁迫响应,拟南芥(Arabidopsisthaliana)转录因子家族构建了高度复杂的调控网络[1]。SQUAMOSA启动子结合类蛋白(SQUAMOSA promoter binding protein-like,SPL)为重要的植物特异性转录因子,具有76个氨基酸组成的SQUAMOSA启动子结合功能域(SQUAMOSA promoter binding protein,SBP),包含2个高度保守的锌指结合功能域(Zinc fingers,Zn,Cys-Cys-Cys-His和Cys-Cys-His-Cys)和1个核定位信号区(Nuclear localization signal,NLS)[2],陆生植物SPL基因在植物生长发育过程中发挥着重要作用,参与植物从幼年期到成年期以及营养期到生殖期转变中的毛状体发育、顶端优势、花序分枝、果实成熟和花粉囊发育等过程[3],在植物生长发育和环境应激过程中发挥着重要的调控功能[4]。AtSPL3、AtSPL4和AtSPL5通过响应发育时期、光周期和赤霉素等信号,促进了花的形成,在植物生长发育和生殖中存在功能冗余[2,5-6]。
miRNA是一类小分子的非编码RNA,通过介导靶基因mRNA的降解或翻译抑制实现基因的转录后调控[7]。研究表明,miR156/157/529可调控SPL基因的表达[8-10]。拟南芥16个SPL基因中10个为miR156/157的靶基因。AtSPL3基因3′端存在miR156的靶位点序列,其表达受miR156的翻译抑制或转录裂解调控,短日照条件下,3个SPL基因受miR156负调控[8]。过表达缺乏miR156结合位点的AtSPL3加速了植株的发育进程,导致提早开花但不影响叶片的发育[8,11]。miR156调控多个SPL基因的沉默,延迟细胞发育进程,但维持顶端优势[11]。水稻(Oryzasativa)OsSPL14受OsmiR156调控,其高表达增加分蘖数并提高茎秆机械强度,提高水稻产量和抗倒伏能力[12-13]。TaSPL3/17在小麦多个组织中均有表达,受miRNA156靶向调控,在独脚金内酯信号通路中发挥作用[14],主要参与小麦分蘖和穗发育[15]。miR156/529具有14~16 nt的同源序列,在植物中也可调控SPL基因表达[9]。8个丹参(Salviamiltiorrhiza)SPL基因表达量与其预测调控miR156/157的表达量存在负相关关系,显示其可能受miR156/157调控[10]。
桑树属于桑科桑属落叶乔木,在我国各地均有栽培,桑叶可作为蚕桑饲料,桑树皮可做造纸原料,果实可供食用,叶、果和根均可入药,具有重要的经济价值。目前,关于桑树SPL基因及其蛋白质的研究鲜见报道。鉴于川桑(Morusnotabilis)基因组数据已公布[16],利用生物信息学方法分析川桑基因组中SPL转录因子家族的基因结构、系统进化、氨基酸保守基序,同时,对SPL的同源基因及其调控miRNA进行预测,并分析基因的组织表达情况,为进一步揭示SPL转录因子的生物学功能、克隆桑树SPL转录因子基因和培育优质桑树品种提供借鉴。
1 材料和方法
1.1 桑树SPL基因序列的获取与鉴定
以拟南芥和水稻SPL蛋白序列[8,12]为检索序列,在桑树基因组数据库(https://morus.swu.edu.cn/morusdb/)中使用默认参数搜索并下载桑树SPL基因及蛋白序列。使用SMART数据库(http://smart.embl-heidelberg.de/)和GenBank数据库在线工具CDD(https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)对候选蛋白的功能域进行确认。使用Expasy数据库对蛋白质的氨基酸数量、分子质量、等电点、总平均疏水指数等生理生化特征进行预测。
1.2 桑树SPL基因的结构与进化分析
从桑树基因组数据库下载SPL基因和编码序列。使用GSDS 2.0(http://gsds.cbi.pku.edu.cn/index.php)进行基因结构示意图绘制。使用MEME在线工具(http://meme-suite.org/tools/meme)预测桑树SPL转录因子的保守基序(Motif),基序搜索数目为10。使用Clustal Ⅹ对SPL蛋白的氨基酸序列进行比对,应用MEGA 7.0软件使用邻接法构建系统发育树,采用泊松校验法计算距离,步长值为1 000。
1.3 桑树SPL基因直系和旁系同源基因鉴定
使用BLASTn对所有MnSPL、AtSPL和OsSPL基因的cDNA序列进行对比,筛选相似性≥40%且比对长度≥300 bp的序列作为候选同源基因,同时进化树中分布在同一聚类组且支持系数≥80,被认定为同源基因[17]。
1.4 miRNA靶标SPL基因的预测
根据序列互补原则对SPL基因的调控miRNA进行预测。使用psRNATarget在线软件(http://plantgrn.noble.org/psRNATarget/)对文献[18-19]中桑树miRNA的靶标SPL基因进行预测。
1.5 桑树SPL基因的组织表达分析
桑树SPL基因转录组数据由桑树基因组数据库(https://morus.swu.edu.cn/)下载,基因组织特异性表达取样部位分别为根、树皮、冬芽、雄花和叶。使用HemI 1.0软件绘制SPL基因表达热图。
2 结果与分析
2.1 桑树SPL家族成员的鉴定
使用拟南芥和水稻SPL蛋白序列搜索桑树基因组蛋白数据库,发现15个桑树SPL基因编码的蛋白质存在SBP功能域,根据相似度和比对得分依次命名为MnSPL1—MnSPL15(表1)。桑树SPL转录因子氨基酸数量介于159~1 042个,蛋白质分子质量介于17.5~115.1 ku,蛋白质等电点介于5.81~9.44,总平均疏水指数均为负值,表明桑树SPL转录因子均为亲水性蛋白质。
表1 桑树SPL基因家族成员信息Tab.1 Information of SPL gene family in M.notabilis
2.2 桑树SPL的系统进化及基因结构分析
蛋白质序列比对显示,植物SPL家族具有高度保守的SBP功能域(图1)。所有15个MnSPL均具有完整的SBP功能域,包含Zn1(Cys-Cys-Cys-His)、Zn2(Cys-Cys-His-Cys)和NLS(Lys-Lys)(图1)。MnSPL4和MnSPL11在Zn1的保守氨基酸分别为Cys-Cys-Cys-Cys和Cys-Gly-Cys-His,MnSPL4在NLS的保守氨基酸为Arg-Arg(图1)。结果与拟南芥和水稻SPL家族相似。
图1 桑树、拟南芥、水稻SPLs的SBP功能域序列比对Fig.1 SBP-domain alignment of the SPLs in M.notabilis,Arabidopsis and O.sativa
为了解植物SPL家族的聚类特征,使用MEGA 7.0软件对分别来自桑树、拟南芥、水稻的15、17、19条SPL蛋白序列构建系统进化树(图2)。3种植物的SPL蛋白聚为8组,每组均包含至少1个MnSPL成员。聚类组Ⅰ和Ⅶ均含有的MnSPL成员数目最多,均为3个,且这2组均含有拟南芥和水稻中2~4个SPL成员。
图2 桑树、拟南芥、水稻SPL家族的聚类、基因结构和氨基酸保守基序分析Fig.2 Comparative analysis of the phylogenetics,exon-intron structure,and conserved motifs of SPL family in M.notabilis,Arabidopsis and O.sativa
使用GSDS 2.0软件对SPL的基因结构进行分析,发现该家族基因结构复杂多变,内含子数为1~11不等,同一聚类组中的内含子数和相位(Intron phase)高度一致。聚类组Ⅰ、Ⅱ、Ⅳ、Ⅴ多数成员均包含2个内含子,相位类型为2-1型;聚类组Ⅲ多数均包含3个内含子,相位类型为2-1-1型;聚类组Ⅵ均包含1个内含子,相位类型为2型;聚类组Ⅶ多数均包含9个内含子,相位类型为2-1-0-0-0-1-2-0-0型。
使用MEME在线软件分析发现,SPL蛋白含有10个保守性较强的氨基酸基序(图2)。其中,基序1、2、4、6构成了SBP功能域,存在于桑树、拟南芥、水稻3种植物所有的SPL蛋白中。其他基序主要存在于聚类组Ⅶ和Ⅷ中,与聚类组Ⅶ和Ⅷ复杂的基因结构一致,说明聚类组Ⅶ和Ⅷ中的成员可能具有更多样的功能。
在比较基因组学中,系统发育和序列相似性比对通常被用来确定可能的直系或旁系同源基因对[17]。为了解植物SPL家族基因来源及复制情况,对桑树、拟南芥、水稻SPL家族的直系同源和旁系同源关系进行分析。结果(表2)发现,桑树MnSPL1—MnSPL9在拟南芥中均存在直系同源基因,而仅有MnSPL1—MnSPL4、MnSPL8在水稻中存在直系同源基因,说明MnSPL与AtSPL存在更近的聚类关系。桑树中仅有MnSPL2/MnSPL3一对旁系同源基因,拟南芥中有AtSPL1/AtSPL12、AtSPL9/AtSPL15、AtSPL13A/AtSPL13B、AtSPL14/AtSPL16等4对旁系同源基因,水稻中存在OsSPL1/OsSPL6、OsSPL14/OsSPL17旁系同源基因。
表2 桑树、拟南芥和水稻中SPL家族直系和旁系同源基因分析Tab.2 Orthologous and paralogous SPL gene pairs in M.notabilis,A.thaliana and O.sativa
2.3 miRNA对桑树SPL家族基因的调控分析
为了解miRNA对MnSPL基因的调控作用,使用psRNATarget在线软件对桑树SPL的调控miRNA进行了预测分析。共预测到38个miRNA与14个SPL存在调控关系,期望值≤3的部分展示在筛选表3。miR156a、miR156b、miR156c、miR157均能调控基因MnSPL6、MnSPL7、MnSPL8、MnSPL9、MnSPL10、MnSPL12、MnSPL15的表达(图3),除miR156b对MnSPL7和MnSPL12的调控为转录抑制调控外,其他调控均属于裂解抑制(表3)。除了miR156和miR157家族外,miR529家族的部分成员也能通过裂解抑制方式调控桑树MnSPL基因的表达。
图3 miR156/157及其靶基因MnSPL的互补序列比对Fig.3 The complementary sequence alignment of miR156/157 and its target MnSPL gene
2.4 桑树SPL家族基因的组织表达分析
SPL在拟南芥多个发育进程中发挥重要作用。为了解SPL家族基因在桑树生长发育过程中的作用,通过桑树基因组数据库下载桑树根、树皮、冬芽、雄花和叶组织的转录组数据,对桑树SPL家族基因的组织表达进行分析,发现15个MnSPLs基因在不同组织中均有表达(图4)。其中,MnSPL1、MnSPL2、MnSPL4、MnSPL6、MnSPL12、MnSPL13在所有5个组织中均有较高表达,MnSPL8、MnSPL14和MnSPL15在冬芽中有较高表达,MnSPL5和MnSPL9在冬芽、雄花组织中均有较高表达。这些特征表明,桑树SPL家族基因存在功能冗余,不同的SPL基因在不同组织或发育阶段起作用的强度不同,在植物生长发育中可能发挥重要作用。
表3 部分miRNAs靶位点的生物信息学分析Tab.3 Bioinformatic prediction of partial miRNAs target sites in MnSPL genes
续表3 部分miRNAs靶位点的生物信息学分析Tab.3(Continued) Bioinformatic prediction of partial miRNAs target sites in MnSPL genes by psRNATarget
续表3 部分miRNAs靶位点的生物信息学分析Tab.3(Continued) Bioinformatic prediction of partial miRNAs target sites in MnSPL genes by psRNATarget
图4 桑树SPL家族基因组织表达特征Fig.4 Expression profiles of MnSPL genes in different tissues of M.notabilis
3 结论与讨论
自首次从金鱼草(Antirrhinummajus)中鉴定SPL基因squa以来[20],发现SPL转录因子家族存在于所有绿色植物物种中,如拟南芥、水稻、丹参、棉花(Gossypiumraimondii)、番茄(Solanumlycopersicum)、小麦(Triticumaestivum)中分别包含17、19、15、17、15、56个成员[8,10,21-24]。不同物种中SPL基因的数量差异可能与基因重复有关[23]。本研究发现,桑树基因组中含有15个SPL家族基因,与除小麦外的其他物种SPL基因数量类似,说明桑树与大多数植物物种发生的基因复制事件类似,而小麦中较多的SPL成员与其基因组中多次基因复制事件有关[23]。桑树SPL转录因子氨基酸长度变化范围较大,这可能与该家族成员功能的多样性有关。桑树SPL均具有完整的SBP功能域,包含2个锌指结合区和1个核定位信号区。这些SPL转录因子在调节植物花和果实发育[24-25]、植物形态变异[26]、赤霉素信号转导[5]、非生物胁迫响应[8,27]以及植物对铜及真菌毒素的反应[28-29]中起着关键作用。
进化过程中的基因复制事件所产生的同源基因对物种进化及其快速扩张具有至关重要的作用[30]。对8种代表性陆生植物SPL基因的研究发现,串联复制可能是SPL祖先基因扩张的主要机制,而片段复制可能是开花植物在进化过程中扩张的主要机制,这种片段复制可能在开花植物的器官结构、形态多样性及发育过程中起作用[31]。在以往的研究中,使用SBP-box序列构建系统发育树,将植物SPL家族归为2组或3组,再进一步细分为8个或9个亚组,同一聚类组中基因结构相似,植物SPL家族基因结构和功能高度保守[8,21,32]。本研究以拟南芥、水稻和桑树SPL转录因子全序列构建系统发育树,发现SPL转录因子归为8个聚类组,3个物种SPL转录因子并未以物种特有的方式聚集在一起,而是分散在多个聚类组中,除聚类组Ⅱ和聚类组Ⅵ缺少拟南芥或(和)水稻成员外,其他6个聚类组中均包含3个物种的成员。同一聚类组成员具有相似的基因结构和氨基酸基序,表明这些基因可能来源于共同的祖先基因,并在植物生长发育中发挥相似的功能。桑树与拟南芥、水稻分别有12、6个直系同源基因,显示桑树与拟南芥有更多的共同祖先基因,桑树与拟南芥的亲缘关系比与水稻更密切,桑树中仅有1对SPL旁系同源基因,拟南芥和水稻中则分别有4对和2对旁系同源基因,表明拟南芥中该家族基因可能发生了较多的串联复制。这些同源基因分散在不同的聚类组中,说明这些基因可能在物种分化之前已经存在于祖先物种中。
植物SPL家族基因受miRNA的调控作用。拟南芥中AtSPL6、AtSPL9、AtSPL15等10个SPL基因受miR156/157的调控,其在植物形态发育中发挥了多种功能[11],AtSPL6可作为正向调节因子在TIR-NB-LRR受体介导的植物先天免疫中发挥作用[31],AtSPL9和AtSPL15调控了芽的成熟[32]。本研究预测分析显示,AtSPL6、AtSPL9、AtSPL15在桑树中的同源基因MnSPL8和MnSPL9也受miR156/157的调控,说明这些基因可能有类似的功能。以前聚类分析显示,miR156/529的靶基因聚类在同一进化亚组中,表明这些基因来源于同一祖先基因[33]。本研究中,miR156/529的靶基因MnSPL7、MnSPL8、MnSPL9、MnSPL10、MnSPL12、MnSPL15归在聚类组Ⅰ—Ⅳ中,与以往研究结果一致。然而,这些靶基因的组织表达并不一致,miR156/529结合位点的差异影响了基因的表达[33],基因复制如何影响miR156/529的调控作用及其调控模式有待进一步研究。
不同组织中SPL基因表达谱分析有助于了解桑树基因表达的动态。桑树部分SPL基因在所有组织中均有表达,这些特异性表达基因可能与植物的生长发育有关。植物SPL基因能响应多种生物或非生物胁迫,可能参与植物对高温、干旱等胁迫的防御过程[34]。拟南芥AtSPL7能直接结合到铜响应元件(CuREs)上,通过调控多个基因表达间接调控铜离子内稳态平衡[28],AtSPL7的同源基因MnSPL4在桑树多个组织中均有较高表达,AtSPL8能调节小孢子囊发育、大孢子发生、萼片上的毛状体形成、雄蕊丝伸长等[35],其同源基因MnSPL5主要在冬芽和雄花中有较高表达。过表达基因AtSPL1和AtSPL12通过调节ABA信号网络增强了拟南芥和烟草(Nicotianatabacum)生殖期的耐热性[36],AtSPL1/AtSPL12的直系同源基因MnSPL2/MnSPL3在桑树多个组织中有较高的表达。同源基因在基因结构和氨基酸基序上都表现了高度的相似性,其在植物中可能发挥相似的功能,这些基因在桑树中的作用机制有待进一步研究。