甜瓜Trihelix转录因子的鉴定与生物信息学分析
2022-08-26李梦丹
郑 玲, 李梦丹
(洛阳师范学院生命科学学院,河南洛阳 471934)
转录因子是一类DNA蛋白复合体,其可与目的基因启动子部位的元件产生特异性联合,进而调节目的基因的表达。Trihelix是植物特有的一种转录因子,因其含Trihelix结构域而获名,参与光响应、环境调节和植株生长发育等一系列生命活动,Trihelix也被称为GT家族。
Trihelix含有3个保守域,分别是Trihelix保守结构域、第四α螺旋和卷曲螺旋结构域。Trihelix保守结构域的3个串联的α-螺旋能形成螺旋-环-螺旋-环-螺旋构象,该结构和MYB家族3个α螺旋构成的螺旋-转角-螺旋结构相似,所以通常认为Trihelix家族源于一个MYB-like基因。Trihelix家族根据其功能结构域的氨基酸不同被分为GT-1、GT-2、GTγ、SH4和SIP1等5个亚族。此家族每个亚族的结构域都十分保守,每个α螺旋均有1个保守的色氨酸。每个亚族间却不同,GT-2亚族的N、C端分别有1个Trihelix保守结构域,GT-2C、SH4及GT-1亚族中的Trihelix结构域内部疏水区都有1个色氨酸残基。GTγ亚族中有1个第四α螺旋和N端Trihelix结构域,SH4亚族无前者,即(F/Y)-(F/Y)-X-X-(L/I/M)-X-X-(L/I/M)保守序列,其余Trihelix亚家族均含有此结构域。异亮氨酸存在于SIP1亚族Trihelix结构域的第3个疏水区。Trihelix家族C端的卷曲螺旋结构域,亚族间区别较大,但亚族内部保守,一般与二聚化或多聚化有关。
关于Trihelix家族的研究表明,拟南芥()有34个Trihelix家族成员,而水稻()有41个、番茄()有36个、谷子()有34个、苹果(Mill.)有39个、辣椒()有28个、葡萄()有27个等。
甜瓜()为葫芦科甜瓜属,是主要的园艺作物之一,具有十分重要的经济价值。甜瓜全基因组测序的完成为对甜瓜功能基因组进行深入研究提供了数据支持。但目前还没有关于甜瓜Trihelix家族的研究报道。本研究以甜瓜的基因组数据为基础,结合生物信息学技术对其Trihelix家族进行鉴定,分析该家族的基本信息、进化关系、位置信息、表达模式和顺式元件等,为进一步探究该家族的基因功能提供了理论基础。
1 材料与方法
1.1 甜瓜Trihelix家族的鉴定
本试验的研究对象是甜瓜,于2020年3—6月在洛阳师范学院生命科学学院生物信息学实验室(214室)计算机上进行软件操作和信息处理:在植物转录因子数据PlantTFDB(http://planttfdb.gao-lab.org/)中分别获取甜瓜及拟南芥(34个)Trihelix家族的氨基酸序列;在葫芦科基因组数据库网站ICuGI(http://cucurbitgenomics.org/)中获取甜瓜基因组数据信息,并利用甜瓜Trihelix家族序列对其基因组数据库进行Blast比对,得到候选蛋白序列,以PF13837为探针进行搜索鉴定;随后利用InterPro在线程序软件对下载的甜瓜Trihelix序列进行验证,确认其是否含有Trihelix结构域,最终得到26个含有完整结构域的候选Trihelix序列;利用ExPASy数据库中的ProtParam工具(https://web.expasy.org/protparam/)分析甜瓜每个候选Trihelix家族成员蛋白质序列的长度、理论等电点、分子量等基本信息,利用Plant-PLoc网站(http://www.csbio.sjtu.edu.cn/bioinf/plan-t/?tdsourcetag=s_pcqq_aiomsg)进行亚细胞定位预测。
1.2 甜瓜Trihelix基因家族在染色体上的定位
将甜瓜Trihelix家族基因的蛋白质序列在Melonet DB(https://melonet-db.dna.affrc.go.jp/ap/top)中进行检索,得到基因在染色体上的位置信息,再利用MapInspect软件将基因位置信息在染色体上进行定位,并绘制物理图谱。
1.3 甜瓜Trihelix家族进化树构建
利用 MEGA 6.0软件里的Clustal W工具对拟南芥、甜瓜共计60个Trihelix氨基酸序列进行多序列比对,利用 MEGA 6.0 软件 Neighbor-Joining 算法构建系统进化树。
1.4 甜瓜Trihelix家族的基因结构分析
在葫芦科基因组数据库中获得甜瓜基因组信息,依次检索出相对应的CDS序列和GENE序列,利用GSDS 2.0(http://gsds.gao-lab.org/index.php)网站进行分析,生成甜瓜Trihelix家族基因的外显子-内含子图像。甜瓜Trihelix家族基因的保守基序采用在线工具MEME(http://meme-suite.org/tools/meme)进行预测,保守基序数目设置为10。将下载的结果利用TBtools软件的Redraw Motif Pattern工具进行分析,生成图像。
1.5 甜瓜Trihelix基因家族的启动子分析
从甜瓜基因数据库中下载Trihelix家族基因启动子序列(起始密码子上游2 000 bp),采用PlantCARE(http://bioinformatics.psb.ugent.be/webtool-s/plantcare/html/)进行分析,得出其中的顺式作用元件相关数据。利用GSDS2.0网站(http://gsds.gao-lab.org/index.php)对数据进行分析,最终得到顺式作用元件图谱。
1.6 甜瓜Trihelix基因家族的表达模式分析
在Melonet DB(https://melonet-db.dna.affrc.go.jp/ap/top)根据基因登录号检索出每个CDS序列编码出的蛋白质在植株各部位及相同部位各生长时段的表达数据,利用TBtools软件制作热图。
2 结果与分析
2.1 甜瓜Trihelix家族的鉴定
本研究共鉴定到26个甜瓜Trihelix家族成员,在ProtParam和Plant-PLoc网站分别检索出CmGT基因家族蛋白质序列的长度、分子量、理论等电点和亚细胞定位等信息。26个甜瓜Trihelix家族基因按照下载的蛋白质原始序列顺序,依次命名为~,蛋白质长度介于279aa()~927aa()之间;分子量范围为 33 225.58()~102 712.52();等电点范围4.81()~9.80(),其中17个小于7,富含酸性氨基酸,其余9个大于7,富含碱性氨基酸;亚细胞定位发现定位于线粒体和细胞核,定位于线粒体和叶绿体,仅定位于叶绿体,、、、和仅定位于细胞核,其余18个都定位于线粒体。
2.2 甜瓜Trihelix基因家族的染色体定位
由图1可知,甜瓜26个Trihelix基因不均匀地分布于12条染色体上;每条染色体上的基因数为 1~5个,其中Chr4上基因数目最多(5个),其次是Chr1与Chr3(4个),Chr10上含有3个基因,Chr2和Chr11上仅含有2个基因,其余染色体上均含有1个基因;另外Chr4上出现了基因簇现象。
2.3 甜瓜Trihelix家族的基因结构和系统进化树分析
2.3.1 甜瓜与拟南芥Trihelix系统进化树 根据拟南芥Trihelix家族的分类标准,将甜瓜Trihelix家族也分为5个亚族(图2),依次为GT-2亚族、GT-1亚族、SH4亚族、GTγ亚族和SIP1亚族,分别包括7、5、3、3、8个基因。基于系统进化树,确定了12对姐妹基因,分别是SIP1亚家族中的6对;SH4亚家族中的2对;GT-1亚家族中的2对;GTγ亚家族中的1对;GT-2亚家族中的3对。还可看出甜瓜Trihelix家族存在1对同源旁系基因和。
2.3.2 甜瓜Trihelix家族的基因结构分析 由图 3-B 可知,在26个甜瓜Trihelix家族基因中,GT-2亚族除外均有1个内含子;GT-1亚族中,有17个内含子,有4个内含子,其他基因皆仅有1个内含子;GTγ亚族和SIP1亚族中、、和均无内含子,SH4亚族内含子数量为2~3个不等,SIP1亚族中为0~6个。
2.3.3 甜瓜Trihelix基因家族的的保守基序分析 26个甜瓜Trihelix序列中保守基序的数量和种类差异较大(图3-C)。所有的序列都含有Motif1。除、、外所有的序列都含有Motif2。Motif4及Motif5仅出现在GT-2亚族中。Motif6存在于除、外的所有序列中。Motif7及Motif3仅在GT-2和GT-1亚族的部分成员中出现。SH4亚族无Motif8,GT-1及 GT-2 亚族中均无Motif9,GTγ、SH4及SIP1亚族中均未出现Motif10。GT-2亚族中出现较多种类的Motif基序。、及具有相同种类的Motif基序。仅有Motif10、Motif6、Motif1、Motif8 4种基序,和其他序列差别较大。
2.4 甜瓜Trihelix基因家族的启动子元件分析
在甜瓜Trihelix家族中鉴定到多种响应激素和环境信号的顺式作用元件(图4)。光响应元件(G-box和G-Box)、脱落酸信号响应元件(ABRE)、乙烯响应元件(ERE)、茉莉酸响应元件(TGACG-motif)在各亚族中均有分布;GT-2、GT-1 和SIP1亚族里的9个基因中均出现了低温响应元件(LTR);MBS为干旱响应元件,主要出现于SIP1、GTγ及GT-2亚家族;在13个基因中出现了生长素响应元件(TCA-element);20个基因中发现了缺氧信号响应元件(ARE);、、、和、中皆发现了茉莉酸、光、脱落酸信号、乙烯4种响应元件。
2.5 甜瓜Trihelix基因家族的表达模式分析
热图(图5)显示,种子经过吸水后,的表达量明显下调,、、、、和则呈现不同程度上调,推测这些基因可能与早期种子的萌发有关。和在果实发育的过程中表达量明显上调,推测其与果实的发育有关。SH4亚族的在采摘1~4周后的果实和外果皮中显著表达,SIP1亚族的绝大多数成员(除和)在果实成熟过程中均呈现较高表达量,推测这些成员与乙烯、脱落酸(果实成熟相关的激素)的合成相关,与之相似的还有GTγ亚族的和,GT-1亚族的。GT-2亚家族中的、和基因在雌花的幼根、花药和雌花中表达水平较高,推测该亚族在调节花和根的成长方面占据重要地位。SIP1亚族中大多数成员(除和)在几乎所有的组织中都呈现较高的表达水平,推测该亚族的大多数基因在幼苗、根、茎、叶、花、果实等生长发育的各个时期均具有重要的作用。
3 讨论与结论
本研究对甜瓜的Trihelix家族进行了生物信息学分析,共鉴定了26个Trihelix家族成员。这些基因多数定位于线粒体中,不均匀地分布于12条染色体上,Chr4上出现基因簇现象。此家族被分为 GT-2、GT-1、GTγ、SH4、SIP1 5个亚族,确定了12对姐妹基因,1对同源旁系基因。拟南芥与甜瓜Trihelix家族共同构建的进化树中,和位于同一分支,参与干旱和寒冷等逆境胁迫应答,可推测也具有此功能;和位于同一分支,(ASIL2)作用于营养器官的各部分,在种子中作用效果更为明显,推测也可能参与了营养器官和种子的生长发育过程。
本研究在甜瓜Trihelix家族成员中发现大量与光响应有关的顺式元件(G-box和G-Box),推测甜瓜Trihelix家族与光响应调节密切相关。这与Park等、Nagano等与Wang等的相关研究一致。当受到冷害、盐以及ABA胁迫时,拟南芥基因在植物体内呈现上调表达趋势。谷子Trihelix家族可能参与了调节各种非生物胁迫和激素的处理。黄礼鸿等的研究表明,番茄Solyc09g015150和Solyc12g05651受多种非生物胁迫和激素的调控。棉花Trihelix家族SH4亚族调控基因表达响应了干旱、低温、高盐和ABA处理。葡萄Trihelix家族的GT-2亚族与干旱胁迫有密切关系。水稻中OsGTγ-1过量表达对其提高盐胁迫抗性具有明显作用。甜瓜Trihelix家族的SIP1和GT-2亚族中出现大量干旱、低温和缺氧信号等响应元件,推测SIP1和GT-2亚族在植株应对缺氧、低温和干旱等逆境环境的调节方面起到十分关键的影响。另外此家族启动子区域的顺式元件还包括脱落酸信号、乙烯、生长素和茉莉酸等响应元件。脱落酸和茉莉酸可以诱导植株抗旱性、抗寒性、抗病性和耐盐性的产生,乙烯会促进果实成熟,生长素则可以促进植株成长。故推测Trihelix家族在植物逆境胁迫调节和生长发育等方面起到十分关键的作用。
拟南芥中基因属于GT-2亚家族,通常表达于花萼原基发生时期,在囊胚发育中也起着重要作用。同为GT-2亚家族的()可以抑制拟南芥腺毛状体发育过程中倍性细胞的增长。相似的,本研究发现甜瓜Trihelix家族中的GT-2亚族在调节根和花的生长发育方面占据重要地位。表达模式分析结果显示,SIP1亚族的大部分成员在甜瓜营养生长和生殖发育过程都发挥着重要的调控作用,这与“SIP1亚族的参与植株早期胚胎发育”的推测一致。顺式作用元件分析中,SH4亚族的和SIP1亚族的绝大多数成员与乙烯、脱落酸等相关激素的合成有关,而表达模式分析也表明,这些基因在果实成熟的过程中发挥着重要的作用。综上所述,Trihelix家族普遍参与植株成长的各个过程,在营养生长和生殖生长过程中都可能具有关键的调节作用。