桃YABBY 转录因子家族的生物信息学分析
2021-01-11韩继红刘金凤刘慧敏
韩继红,刘金凤,刘慧敏*
1.濮阳市市容环境卫生管理处,河南 濮阳457000
2.中国林业科学研究院经济林研究开发中心,国家林业和草原局泡桐研究开发中心,经济林种质创新与利用国家林业和草原局重点实验室,河南 郑州450003
YABBY 是种子植物特有的一个小基因家族[1],该基因家族编码的转录因子包括两个保守的结构域:N 末端一个锌指结构和C 末端一个YABBY 结构(螺旋-环-螺旋)[2,3]。目前在所有被子植物中鉴别到的YABBY家族可分为5 个亚家族,分别为CRABS CLAW(CRC)、FILAMENTOUS FLOWER(FIL)/YABBY3(YAB3),INNER NO OUTER(INO),YABBY2(YAB2)和YABBY5(YAB5)[4,5],每个亚家族都包括一个早期分化的ANA 被子植物序列,表明现存开花植物最后的共同祖先中至少有5 个YABBY基因。YABBY基因在植物中参与多种生物过程,在叶片和叶片衍生器官的发育中起关键作用,例如子叶、花器官、外胚珠外皮发育、维持细胞极性、叶边缘建成和叶片生长[6-9]。拟南芥中,YABBY在营养器官中主要是在侧向器官的背面表达,并且在叶片和抑制茎尖分生组织过程中有重复的功能[7,10-12]。越来越多的证据表明,不管是核心双子叶植物还是单子叶植物,YABBY在营养器官中有相似的功能[13-15]。
桃是一种重要的落叶果树,通常认为是5000 多年前在中国长江或珠江中下游驯化而来的,现已在世界各地得到广泛种植[16]。由于桃果实色泽艳丽、风味佳美、营养丰富,深受各国消费者的喜爱。由于桃树二倍体(2n=16),且基因组较小(约220 M),使得桃成为研究果树比较基因组学和功能基因组学的模式物种。桃基因组测序的完成为从基因组层面全面鉴定及研究该物种中的基因家族提供了基础[17]。本研究基于桃基因组最新组装及注释版本,系统鉴定了桃中YABBY基因家族成员,并做了初步分析,为深入研究该基因家族在桃中的功能提供了理论依据。
1 材料与方法
1.1 数据来源
桃基因组数据(v2.1)来源于Phytozome 植物基因组比较数据库(https://phytozome.jgi.doe.gov/pz/portal.html),桃、拟南芥、水稻和无油樟YABBY 转录因子蛋白序列来源于PlantTFDB 植物转录因子数据库(http://planttfdb.cbi.pku.edu.cn/)。
1.2 桃YABBY 基因的鉴定及分析
在Pfam 数据库(http://pfam.xfam.org/)下载YABBY家族的隐马尔科夫模型(PF04690),并使用HMMER 在桃蛋白序列数据库中进行检索,参数设置cut--ga。将检索到的基因与2.1 中下载的YABBY基因进行比较,发现数据一致,提交到在线软件SMART(smart.embl-heidelberg.de/)预测蛋白结构域,发现鉴别到的基因均含有YABBY 保守结构域,说明鉴定数据可靠,可进行下一步分析。
桃YABBY基因推导蛋白序列特征分析使用在线软件(https://web.expasy.org/compute_pi/),基因结构特征及在染色体上的分布使用TBtools 软件可视化[18]。
进化树构建的主要步骤为:(1)使用MAFFT 对蛋白序列进行对比分析(默认参数);(2)将序列比较结果导入FastTree 构建进化树(默认参数);(3)使用MEGA 7 对构建好的进化树进行可视化。
桃YABBY基因蛋白序列保守结构域的多重比较使用MAFFT(默认参数),比较结果使用在线软件ESPript 3(http://espript.ibcp.fr/ESPript/ESPript/index.php)进行可视化。
桃YABBY基因启动子(上游2000 bp)顺式作用元件的预测使用在线软件PlantCARE(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/),使用TBtools 进行可视化[18]。
2 结果与分析
2.1 桃YABBY 家族成员的鉴定及蛋白特征
通过在植物转录因子数据库中搜索和使用YABBY 的隐马尔科夫模型(PF04690)在桃基因组中进行比对,发现两种方法鉴别到的桃YABBY基因一致,均为6 个基因,表明本次数据鉴定结果准确。
对鉴别到的6 个桃YABBY基因的推导蛋白序列进行分析,发现桃中YABBY基因可转录成15 个转录本,编码15 个蛋白序列。对这15 个推导蛋白序列进行在线分析,发现其序列长度从136 到232个氨基酸不等,分子量变化范围为:15.6~25.9 kDa,等电点范围:5.29~9.30,且均含有YABBY 保守结构域(表1)。
表1 桃YABBY 家族基因基本信息统计Table 1 Basic information statistics of YABBY gene family in Prunus persica
2.2 桃YABBY 家族基因结构分析
图1 桃YABBY 家族基因结构Fig.1 Gene strusture of YABBY in Prunus persica
真核生物的基因通常为不连续基因,即编码区的序列(外显子)是不连续的,会被非编码序列(内含子)隔开。基因起始和终止密码子两侧的序列即侧翼序列,为非编码序列,通常包括能够调控基因表达的元件。通过对桃YABBY基因的结构进行分析,发现YABBY基因的内含子数量较多(4-6个),结构较为复杂(图1)。由于可变剪切,同一个基因存在多个转录本的情况较多,仅Prupe.1G250500和Prupe.5G075800 只有一个转录本;Prupe.1G290100 有3 个转录本,均含有6 个内含子;Prupe.2G140400 有4 个转录本,其中转录本1 和2 含有6 个内含子,转录本3 和4 含有5 个内含子;Prupe.6G147600 有4 个转录本,其中转录本1 和2 含有5 个内含子,转录本3 和4 含有4 个内含子;Prupe.7G245200 有2 个转录本,分别含有6 个和5 个内含子(图1)。
2.3 桃YABBY 基因家族的系统进化特征
系统进化树主要基于序列的相似性进行构建,可反应基因之间的相似程度,进而推测基因的功能。本研究基于桃、拟南芥、水稻和无油樟基因组中YABBY的蛋白序列,采用最大似然法构建了YABBY家族的系统进化树,发现YABBY基因家族可明显分为5 类,且每一类别中均有桃YABBY基因,说明桃基因组中含有植物YABBY基因家族的全部类别(图2)。
图2 桃、拟南芥、水稻和无油樟YABBY 家族进化树Fig.2 YABBY family evolutionary tree of Prunus persica,Arabidopsis,rice and Amborella trichopoda
将桃YABBY基因家族的保守序列进行多序列比较,发现桃中6 个YABBY 家族成员均含有C2C2锌指结构和YABBY(螺旋-环-螺旋)保守结构(图3),Prupe.6G147600 的第4 条转录本和Prupe.7G242500的第2条转录本的锌指结构不完整,Prupe.2G140400的第3和第4条转录本的YABBY结构不完整。锌指结构中的sheet3 较sheet1 和sheet2 更为保守,coil3 和coil4 的差异大于coil1 和coil2;YABBY 结构域中的coil1 和coil2 的保守性高于coil3,helix1、helix2 和sheet 部分序列保守性均较高。
图3 桃YABBY 基因家族保守结构域Fig.3 Conserved domains of YABBY gene family in Prunus persica
2.4 桃YABBY 基因在染色体上的分布特征
基于桃基因组的组装和注释结构,将桃YABBY基因在染色体上的分布进行可视化。发现桃YABBY基因分布在5 条染色体上(图4),分别为1、2、5、6、7 号染色体,其中Prupe.1G250500(INO 类)和Prupe.1G290100(CRC 类)均分布在1 号染色体上,FIL/YAB3 类Prupe.2G140400 和Prupe.5G075800分别分布在2 号和5 号染色体上;Prupe.6G147600(YAB2 类)和Prupe.7G245200(YAB5 类)分别分布在6 号和7 号染色体上。
图4 桃YABBY 家族基因在染色体上的分布Fig.4 YABBY gene distribution on the chrosomes of Prunus persica
2.5 桃YABBY 基因启动子顺势作用元件预测
启动子一般是位于转录起始位点上游的非编码区列,除含有转录起始的核心元件,通常还含有多种诱导元件,例如激素响应元件、干旱诱导元件、光应答元件等。本研究对YABBY基因家族成员转录起始位点上游2000 bp 的启动子区域进行顺式作用元件预测,发现YABBY基因的启动子区域含有大量诱导元件,包括光应答、茉莉酸甲酯响应、脱落酸响应等元件。其中,Prupe.1G250500 特异性含有干旱诱导元件,Prupe.7G245200.1 特异含有种子调控元件(图5)。
图5 桃YABBY 基因启动子中鉴别到的顺式作用元件Fig.5 Cis-element identified in gene promoters of YABBYs in Prunus persica
3 讨论
YABBY 是种子植物特有的一类转录因子,被子植物的中的YABBY家族成员在叶片以及叶片的衍生器官发育中发挥关键作用[4,7,10,19]。本研究基于桃最新基因组组装及注释结果,在桃中鉴定到6个YABBY基因,总共15 个转录本,可翻译成15 个的蛋白质,蛋白质的长度范围为136~232 个氨基酸,序列较短,与前人研究发现YABBY 蛋白较小的结果一致[19]。
内含子是真核生物特有的序列,一般在会转录在前体mRNA中,然后经过剪切产生成熟的mRNA,不同的剪切方式能产生不同的转录本,从而翻译为不同的蛋白质,在基因的可变剪切中发挥重要作用[20]。对YABBY基因结构进行分析,发现该家族基因的内含子较多(4~6 个),结构较为复杂,与桃中该基因家族有较多的转录本(15 个)的结果一致。
系统进化树不仅能揭示物种亲缘关系的远近,也能反映基因序列的相似程度,从而推测基因的功能。通过构建桃、拟南芥、水稻和无油樟YABBY基因的系统进化树,发现桃中含有植物YABBY家族的所有类别。Prupe.1G290100 属于CRC 类,该类基因在被子植物的心皮和核心双子叶植物的蜜腺发育中起调节作用[21-24]。Prupe.6147600 属于YAB2 类,拟南芥中该类基因参与外侧器官远轴端细胞分化的方向[7]。Prupe.7G245200 属于YAB5 类,植物中该类基因主要在子叶、叶片和花器官中表达[13,25]。Prupe.1G250500 属于INO 类,该基因在胚珠外膜的形成和不对称生长中必不可少[26]。Prupe.2G140400 和Prupe.5G075800 属于FIL/YAB3,拟南芥中该类基因参与花和果实的发育[7]。
YABBY基因编码的蛋白通常在N 末端有一个锌指结构,在C 末端有一个螺旋-环-螺旋结构,即YABBY 结构域[18]。多序列比对结果显示6 个基因编码的YABBY 蛋白均含有上述两个保守结构域,其中4 条转录本的锌指结构或YABBY 结构不完整,这些转录本编码大蛋白是否能行使YABBY 转录因子的功能,需要进一步验证。
启动子区域的顺式作用元件对于基因的表达有重要影响,本研究发现桃YABBY基因的启动子区域包含光应答、茉莉酸甲酯响应和脱落酸响应等多种顺式元件,表明该基因的表达可能会受到环境、激素等的影响。Prupe.7G245200.1(YAB5 类)特异含有种子调控元件,可能与该类基因参与子叶的发育有关[7]。