多刺绿绒蒿WD40基因家族的鉴定及生物信息学分析
2022-10-14任玉玲赵成周
任玉玲, 赵 艳, 赵成周, 李 萍*
( 1. 青海大学 生态环境工程学院, 西宁 810016; 2. 青海大学 藏医学院/青海大学藏医药研究中心, 西宁 810016 )
WD40(WD40 domain-containing proteins)蛋白又被称作为WD-repeat蛋白,此类蛋白的WD基序含有40~60个氨基酸残基,一般由4~10个高度保守的串联重复的WD组成,其N端是甘氨酸组氨酸二肽(Gly-His,GH),C端是色氨酸天冬氨酸二肽(Trp-Asp,WD),广泛存在于真核生物中(Gachomo et al., 2014)。WD40家族蛋白可以参与调节众多生物学过程,如细胞分裂、凋亡、分生组织、花的发育、细胞骨架组装、蛋白质转运、染色体修饰和光的信号传导等(Stirnimann et al., 2010; Mishra et al., 2014; Zhang & Zhang, 2015)。WD40蛋白的一个共同特征是作为支架蛋白介导蛋白质-蛋白质及蛋白质-DNA的相互作用,形成动态复合物(Xu & Min, 2011),如在拟南芥()中发现WD40家族成员TTG1(transparent testa glabra1)可结合R2R3-MYB和bHLH转录因子,形成MYB-bHLH-WD40(MBW)复合物,进一步影响下游基因的表达,从而调节毛状体的起始、根毛的形成、类黄酮的生物合成等过程;此外,也可形成TTG1-TT2-GL2三元复合物对种子发育过程中脂肪酸、蛋白质等贮藏物质的积累起到负调作用(Zhang et al., 2003; Tsuchiya et al., 2004; Chen et al., 2015; Wei et al., 2019; Yang et al., 2021)。此前,已经对拟南芥、棉花()、水稻()、小麦()、桃子()等多个物种的WD40蛋白家族进行了全基因组的鉴定(Nocker & Ludwig, 2003; Ouyang et al., 2012; Hu et al., 2018; Salih et al., 2018; Feng et al., 2019),但多刺绿绒蒿40基因家族还未被鉴定。
多刺绿绒蒿()属于罂粟科,为一年生草本植物,分布于西藏、青海、甘肃等地。其花鲜艳,有较高的观赏价值(杨永昌,1991)。此外,多刺绿绒蒿作为传统藏药材全草入药,具有清热、止痛、活血化瘀的功效,藏医用于治疗头伤、骨折、胸背疼痛等(帝玛尔·丹增彭措,2012)。现代药理学研究主要集中于抗癌、抗病毒、心脏保护等方面(郭志琴,2014)。植物的次生代谢物是抵抗外界不利环境的重要物质,也是药用活性成分的主要来源,因此,次生代谢物的积累与其生长环境条件紧密相关。青藏高原极其特殊的生长环境,包括高海拔、空气稀薄、昼夜温差大、紫外线强烈等导致多刺绿绒蒿富含生物碱、黄酮、萜类等次生代谢物,其中生物碱是其特征性成分(赵凤等,2017)。虽然已有研究表明WD40转录因子可以调节花青素、黄酮、丹参酮等次生代谢物的积累(Broun, 2005; Ramsay & Glover, 2005; Gutierrez & Torres, 2019; Li et al., 2019; 马文,2019; Meng et al., 2019; Shan et al., 2019),但是WD40转录因子在生物碱积累中的作用及其详细机制还未见相关报道,因此,本研究对多刺绿绒蒿40基因家族进行全长转录组鉴定,并进行了相关生物信息学分析,以期为多刺绿绒蒿40基因家族在其响应逆境胁迫和其次生代谢物积累等方面的功能研究提供重要理论基础。
1 材料与方法
1.1 转录组测序
本实验中所用开花期的多刺绿绒蒿整株样品采摘于青海省湟中县群加乡(101°18′19.1″ E,36°11′4.89″ N,海拔4 553.3 m),由青海大学赵成周副教授鉴定为多刺绿绒蒿,样品用液氮保存送至上海欧易生物医学科技有限公司进行全长转录组测序,后续分析基于此测序结果数据。
1.2 WD40蛋白序列的获取与鉴定
从多刺绿绒蒿转录组测序数据中筛选出含有40基因的数据,利用在线预测网站ORF Finder (http://www.ncbi.nlm.nih.gov/gorf/orfig.cgi)搜索获取具有完整CDS的WD40转录因子序列。通过本地BLAST比对剔除无WD40结构域的蛋白序列。
1.3 多刺绿绒蒿WD40转录因子蛋白特征分析
利用ExPASy protparam tool分析WD40蛋白理化性质,包括氨基酸数目、蛋白分子量、理论等电点、不稳定系数、亲水性平均系数;利用wolf-psort (https://www.genscript.com/wolf-psort.html)预测蛋白亚细胞定位;利用Prabi预测蛋白的二级结构,包括α-螺旋、β-转角、延伸链和无规则卷曲。
1.4 多刺绿绒蒿WD40蛋白家族成员的基序分布及基因结构
通过在线程序SMART对WD40蛋白结构域进行分析筛选;利用MEME对19个WD40蛋白保守结构域进行预测,保守性基序的数目限制选择10,其他参数均采用默认值。
1.5 多刺绿绒蒿WD40蛋白的系统发育分析
在NCBI中下载罂粟()、博落回()、唐松草()、青蒿()、银杏()、大豆()的WD40蛋白质序列,利用MEGA 7软件中的邻接法(neighbor joining)构建系统进化树。其中,bootstrap设置参数1 000次重复,得到的系统发育进化树数据在iTOL(https://itol.embl.de/)网站进行可视化展示。
1.6 WD40基因启动子顺式作用元件分析
从40基因家族的全长序列中提取ATG上游1 000 bp的一段序列作为启动子区域进行汇总,利用PlantCARE (http://bioinformatics.psb. ugent.be/webtools/plantcare/html/)对启动子顺式作用元件进行在线分析,通过TBtools软件进行可视化展示。
1.7 WD40蛋白三级结构预测
将鉴定出的多刺绿绒蒿WD40蛋白序列上传到SWISS-MODEL在线网站(https://swissmodel.ex-pasy.org/interactive)预测蛋白三级结构。
1.8 WD40蛋白互作网络分析
将多刺绿绒蒿WD40蛋白质序列添加至STRING数据库并指定与拟南芥同源蛋白进行比较,利用最高相似分数的一组蛋白构建蛋白互作网络。
2 结果与分析
2.1 多刺绿绒蒿WD40蛋白基本信息及理化性质分析
从多刺绿绒蒿转录组数据中得到24个候选WD40蛋白序列,经过BLAST比对及SMART结构域预测软件共筛选出19条候选WD40序列。利用ExPASy protparam tool分析多刺绿绒蒿WD40蛋白的基本性质,预测结果(表1)显示:多刺绿绒蒿19个40基因编码的蛋白氨基酸数目为109~758 aa,19个WD40蛋白的分子量介于11 830~84 130 Da之间;19个WD40蛋白中理论等电点(PI)最大值为9.56 (Mh_transcript_33640),最小值为4.37 (Mh_transcript_11768),平均PI为6.46。其中14个蛋白的PI小于7,说明多数多刺绿绒蒿WD40蛋白表现为酸性;亚细胞定位发现大多数(13个)WD40蛋白定位于细胞核中,其余定位于细胞质、细胞骨架及过氧化物酶体中,而Mh_transcript_12870蛋白是在细胞核和细胞质中共定位的;蛋白的亲、疏水性分析发现,19个WD40蛋白的脂肪系数均小于100,为亲水性蛋白;多刺绿绒蒿WD40转录因子家族中有15个WD40蛋白的不稳定系数大于40,表明多刺绿绒蒿WD40转录因子家族大多为不稳定蛋白;预测蛋白的二级结构,α-螺旋占比20.03%,β-转角占比7.56%,无规则卷曲和延伸链分别占比45.10%和27.32%,从结果来看,多刺绿绒蒿WD40蛋白以无规则卷曲和延伸链为主要结构,α-螺旋及β-转角为次要结构。
表 1 WD40蛋白理化性质分析Table 1 Analysis of the physicochemical characteristics of WD40 protein
2.2 多刺绿绒蒿WD40转录因子保守结构域鉴定及基序分析
通过在线程序SMART对多刺绿绒蒿WD40转录因子进行结构域分析对比,结果如图1所示,19个多刺绿绒蒿WD40蛋白具有共同的保守结构域WD40, 且数量在1~7之间分布。此外,Mh_transcript_12870和Mh_transcript_16028转录因子还含有LisH结构域和CTLH结构域。
深绿色三角代表WD40保守结构域,褐色菱形代表LisH结构域,浅绿色方块代表CTLH结构域。The dark green triangle represents the conserved WD40 domain, the brown diamond represents the LisH domain, and the light green square represents the CTLH domain.图 1 WD40蛋白家族结构域预测Fig. 1 WD40 protein family domain prediction
为确定WD40蛋白的功能特征,利用在线软件MEME (http://meme-suite.org/)搜索19个多刺绿绒蒿WD40蛋白共有的保守基序,共得到10个保守元件(图2:A),记作motif1~motif10;其中motif2存在于所有多刺绿绒蒿WD40蛋白中,是这10个基序中最保守的基序,其次是motif1。此外,通过分析10个基序分布规律发现转录因子Mh_transcript_19179所含的motif数量最多(8个),而最少的只含有1个motif (Mh_transcript_16028)(图2:B)。
A. 保守元件; B. 基因结构。A. Conserved element; B. Gene structure.图 2 多刺绿绒蒿WD40基因家族保守元件和基因结构分析Fig. 2 Analysis of conserved elements and gene structures of Meconopsis horridula WD40 gene family
2.3 多刺绿绒蒿WD40蛋白的系统发育分析
在NCBI中通过BLAST比对查找罂粟、博落回、唐松草、青蒿、银杏、大豆6个物种的WD40蛋白序列,利用MEGA 7构建系统发育树,结果如图3所示,根据氨基酸序列相似性,进化树分析将WD40蛋白聚为I~X个分支,而多刺绿绒蒿WD40蛋白主要分布在分支I、II、III、IV中,并且与罂粟和博落回的亲缘关系更近。
Mh. 多刺绿绒蒿; Ps. 罂粟; Mc. 博落回; Tt. 唐松草; Aa. 青蒿; Gb. 银杏; Gm. 大豆。Mh. Meconopsis horridula; Ps. Papaver somniferum; Mc. Macleaya cordata; Tt. Thalictrum thalictroides; Aa. Artemisia annua; Gb. Ginkgo biloba; Gm. Glycine max.图 3 WD40系统进化关系Fig. 3 Phylogenetic relationship of WD40
2.4 多刺绿绒蒿WD40启动子顺式作用元件
为明确40基因家族可能的生物学功能和响应特性,利用PlantCARE对家族各成员启动子序列中包含的顺式作用元件进行了分析。由图4可知,该基因家族含有多种胁迫及植物激素相关的顺式作用元件,主要包括应激响应元件、光响应元件、干旱诱导响应元件、厌氧诱导响应元件、生长素响应元件、茉莉酸响应元件、赤霉素响应元件。不同成员所含元件的种类与数量存在差异,例如Mh_transcript_31169共含有10个作用元件,其中有5个是光响应元件,而最少的只含有1个作用元件。
上方比例尺表示基因启动子长度,左侧是基因名称,右侧是相关的作用元件。 The top scale represents the length of the gene promoter, the left is the gene name, and the right is the associated action element.图 4 WD40家族启动子顺式调控元件分析Fig. 4 Analysis of WD40 family promoter cis regulatory elements
2.5 多刺绿绒蒿WD40蛋白三级结构预测
运用SWISS-MODEL在线网站对多刺绿绒蒿WD40蛋白家族三级结构进行预测,由图5可知,多刺绿绒蒿WD40蛋白包含α-螺旋、β-转角、无规则卷曲及延伸链等空间构象。
A. Mh_transcript_12870; B. Mh_transcript_16028; C. Mh_transcript_24103; D. Mh_transcript_31169; E. Mh_transcript_5116; F. Mh_transcript_11768; G. Mh_transcript_12787; H. Mh_transcript_18983; I. Mh_transcript_10891; J. Mh_transcript_12816; K. Mh_transcript_7218; L. Mh_transcript_33640; M. Mh_transcript_18156; N. Mh_transcript_18539; O. Mh_transcript_19179; P. Mh_transcript_27212; Q. Mh_transcript_7031; R. Mh_transcript_27838; S. Mh_transcript_4112.图 5 WD40家族蛋白三级结构预测Fig. 5 Prediction of tertiary structure of WD40 family proteins
2.6 多刺绿绒蒿WD40蛋白互作网络分析
蛋白之间的互作对转录因子的活性及作用机制十分重要,本研究通过STRING在线网站,基于拟南芥同源蛋白互作数据构建了多刺绿绒蒿WD40蛋白的互作网络,以便系统分析WD40的作用机制。本研究预测发现与多刺绿绒蒿WD40蛋白相互作用的蛋白有ASG2、SMU1、ATAN11、PWP2、RRP4等(图6),蛋白AT4G28450可能作为其互作的中心。
图中彩色圆球分别表示不同的蛋白,彩色圆球内部是该蛋白所对应的三级结构。不同蛋白之间的连线所代表的含义具体如下: 天蓝色线. 从精选数据库获得; 紫色线. 实验确定; 绿色线. 基因邻域; 深蓝色线. 基因共现; 鹅黄色线. 文本数据挖掘; 黑色线. 共表达; 浅蓝色线. 蛋白同源。The colored sphere in the figure represents different proteins, and inside the colored sphere is the tertiary structure corresponding to the protein. The connecting wires between different proteins represent specifically as follows: Sky blue wire. From curated databases; Purple wire. Experimentally determined; Green wire. Gene neighborhood; Dark blue wire. Gene co-occurrence; Light yellow wire. Text mining; Black wire. Co-expression; Light blue wire. Protein homology.图 6 WD40家族蛋白互作网络Fig. 6 The WD40 family protein-protein interaction (PPI) network
3 讨论与结论
WD40蛋白家族能够参与植物多个特定生物学过程,比如细胞骨架动态、配子发生、色素积累、毛状体和根毛形成以及种子发育(Zeng et al., 2009; Gao et al., 2012; Zhao et al., 2013; Gachomo et al., 2014; Pattanaik et al., 2014)。此外,这些蛋白通常也响应植物激素途径和不同的环境胁迫(Zhu et al., 2008; Shi et al., 2011; Jiang et al., 2012)。因此,对该蛋白家族的鉴定可为后续深入研究这些蛋白在多刺绿绒蒿适应极端环境、刺的形成和特色成分异喹啉生物碱积累等方面提供前期基础,这些系列研究进一步拓展WD40蛋白功能,并进一步揭示其发挥特定生物学功能的复杂网络调控机制,从而广泛理解WD40蛋白家族在植物生长、发育以及环境适应等方面的生物学功能。
本研究共鉴定到多刺绿绒蒿19个40基因,与红花()(40个)(王刚等,2020)、黑果枸杞()(38个)、蓖麻()(182个)、桃(219个)、大豆(471个)等物种中鉴定的40基因数差异较大,这可能是由于多刺绿绒蒿属于罂粟科植物,与上述植物分类上距离较远,特定的生长环境、次生代谢物和不同的形态特征都显示多刺绿绒蒿和这些植物在进化上发生了较大差异,而这些蛋白随着植物的长期进化也发生了不同程度的改变(Bian et al., 2017; Feng et al., 2019; 严莉等,2019; 苟亚夫等,2022)。而且发现多刺绿绒蒿WD40蛋白的氨基酸数量、等电点以及蛋白的高级结构均存在差异,这与在许多植物中鉴定到的WD40蛋白一样。由于WD40蛋白的功能涉及生长发育、次生代谢物积累和环境适应等多种生物学过程,而且不同的生物学过程可能相互作用的蛋白也不相同,因此,多刺绿绒蒿不同的WD40蛋白可能是为执行不同的生物学功能进化形成的(卢成达等,2021)。不同WD40蛋白质所含WD40基序数目也不同,而且部分蛋白质同时含有其他的重要结构域,这种现象在谷子WD40蛋白中也有发现,225个谷子WD40蛋白中有79个蛋白包含其他结构域(Mishra et al., 2014),这些其他结构域的存在使WD40蛋白质结构和功能更加多样化,从而适应更多的生物学过程或对某一生物学过程进行更加精准的调节。亚细胞定位结果表明多刺绿绒蒿WD40蛋白质主要分布于细胞核中,这可能是核定位信号将其定位于细胞核中,从而对某些靶基因的转录起到激活或抑制作用。系统进化分析发现,多刺绿绒蒿WD40与大豆、银杏、青蒿、唐松草等的WD40的亲缘关系较远,而和同是罂粟科的罂粟、博落回相似度更高,这可能与进化关系相近的植物存在相似的功能有关系,有研究表明罂粟、博落回和多刺绿绒蒿三种植物都具有特征性次生代谢物异喹啉生物碱(Fan et al., 2015; Guo et al., 2016; 赵凤等,2017),这些相关性以及这些植物是否还存在其他相近的功能还需要进一步的实验探索。
启动子响应元件预测分析可以初步了解特定基因对许多因素的响应机制,是研究植物基因功能的最主要手段之一。启动子顺式调控元件分析表明多刺绿绒蒿40基因家族可以响应应激、厌氧、干旱、光等非生物胁迫以及生长素、赤霉素、茉莉酸等激素信号。海南龙血树(,Dc)40-1基因的启动子区域具有典型真核生物启动子结构特征,包含多个能够响应激素和胁迫的作用元件,如CMRs、ABRE、TGA-box、TCA-element、ARE、HSE和LTR等,表达分析发现40-1的表达受到茉莉酸甲酯、细胞分裂素、油菜素内酯和UV-B的显著影响(朱家红等,2020)。此外,WD40蛋白通过复杂的调节网络广泛参与植物次生代谢调控、形态发育等过程(Feyissa et al., 2019; Meng et al., 2019; 王刚等,2019; Yuan et al., 2019)。如在黄酮及类黄酮化合物的生物合成过程中WD40转录因子与MYB和bHLH互作后起调控作用(Broun, 2005; Ramsay & Glover, 2005; Shan et al., 2019);miR156/SPL13和WD40-1相互作用调节紫花苜蓿()的耐旱性(Feyissa et al., 2019);MtWD40-1和WHITEPETAL1、MtTT8结合可以对类胡萝卜素衍生以及花色素积累过程进行调控(Meng et al., 2019);丹参40-170基因可以调节丹参中迷迭香酸、丹酚酸B、丹参酮IIA和隐丹参酮的含量(马文,2019)。
总之,多刺绿绒蒿其生长环境特殊,外形有肉眼可见的毛状刺,以及含有特征性成分异喹啉生物碱,这些生物学过程通常是由植物激素、转录调节因子等因素形成复杂的调控网络而决定最终的发生。对多刺绿绒蒿40基因家族的鉴定可为以后详细研究这些基因在上述生物学过程中的作用及其详细调控网络提供前期基础和后续研究方向。