黄瓜AQP基因家族的鉴定与生物信息学分析
2022-04-08赖梦霞杜长霞樊怀福
赖梦霞,杜长霞,樊怀福
(浙江农林大学 园艺科学学院, 浙江 杭州 311300)
植物常遭受由生物或非生物环境因子所带来的伤害。胁迫因子在抑制植物生长发育的同时,亦触发其系统性防御反应。例如,为适应干旱胁迫,植物在漫长的进化过程中演化出一系列调控水分吸收、关闭气孔降低水分散失量等机制。深入了解植物对外界的防御反应,对提高植物抗性和农业生产具有十分重要的意义。目前,研究者已在不同植物中发现多个响应外界环境胁迫的基因家族,如荔枝Litchi chinensis Dof基因家族[1]、黄瓜Cucumis sativus DnaJ基因家族[2]、水稻Oryza sativa ABC1基因家族[3]及MIP基因家族等。其中MIP家族的各种蛋白质成员具有独特和特定的运输功能,是近年来的研究热点。水通道蛋白(AQP)家族属于跨膜通道蛋白MIP超家族[4]。大量研究表明:AQP参与水分子跨膜、调节植物细胞渗透势及响应多种逆境胁迫。AQP已知分类主要为PIPs (plasma membrane intrinsic proteins)、TIPs (tonoplast intrinsic proteins)、NIPs (noduLin 26-like intrinsic proteins)、SIPs (small and basic intrinsic proteins)、 XIPs (uncharacterized intrinsic proteins)以 及 HIPs (hybrid intrinsic proteins)、GIPs(glycerolfacilitato)[5]。 POU等[6]研究发现:拟南芥Arabidopsis thaliana中ATPIP2;7在盐胁迫后,表达丰度降低;烟草Nicotiana tabacum中NtPIP1;1和NtPIP2;1在植株根系的水分运输中起重要作用[7]; 拟南芥ATPIP2;1在胁迫条件下,其胞吞作用受到不同程度的影响[8];烟草NtAQP1参与二氧化碳的渗透[9];拟南芥[10]、玉米Zea mays[11]等植物的TIP亚家族参与植物跨细胞长距离运输水分的过程。随着越来越多物种的测序的完成,在拟南芥、水稻等模式植物上的AQP基因家族信息已比较明确,在番茄Lycopersicon esculentum[12]、龙眼Ferocactus viridescens[13]等植物中也识别出许多AQP基因家族。黄瓜是世界性的重要蔬菜作物,但因其根系分布较浅,因此对水分、盐渍化等胁迫敏感。本研究采用生物信息学方法得到33个CsAQP基因家族的氨基酸序列,在染色体上定位了CsAQP基因家族,对编码的蛋白质理化性质、结构特点等进行分析比较,并建立系统进化树,为CsAQP基因功能研究和响应逆境机制提供理论基础和参考。
1 材料与方法
1.1 数据来源
所用各物种AQP基因家族数据及黄瓜基因组数据集均来源于美国国家生物信息中心 (https://www.ncbi.nlm.nih.gov/),并从Pfam数据库中下载种子文件PF00230,于BIO-Linux系统中使用hmmsearch扫描黄瓜蛋白数据库,得到含MIP蛋白保守结构域的基因[14]。运用Perl程序对其进一步筛选(e值为1E-20),利用hmmbuild构建蛋白质特异保守结构域的隐马可夫模型。基于新隐马可夫模型,使用hmmsearch再次扫描黄瓜蛋白数据库,保留结果。同时,以拟南芥AQP基因家族序列及番茄、马铃薯Solanum tuberosumXIPs序列为检索靶标,BLAST搜索黄瓜基因组数据库(e值为1E-10)。两方面匹配所得的序列取并集(同一基因的不同转录本,仅择其一)当作CsAQP候选。所有候选AQP分别被提交至Interpro数据库及美国国家生物信息中心CDD数据库进行验证,剔除冗余和不匹配的氨基酸序列,最终获得CsAQP基因家族成员。
1.2 CsAQP基因家族系统进化分析
通过ClustalW对黄瓜、模式植物拟南芥和水稻的AQP家族成员以及番茄、马铃薯XIPs序列进行比对[15],采用 MEGA-7 的最大似然法 (maximum likelihood, ML),将自展法系数 (Booststrap)设置为 1 000次,进行重复实验,构建进化树。结合基因注释信息及物种进化结果,参考其他植物水通道蛋白命名法对CsAQP基因家族成员系统命名。
1.3 CsAQP家族成员的定位及基本性质分析
通过筛选到的CsAQP基因的序列信息,利用MG2C软件将其定位于染色体上。采用ExPASy-ProtParam在线预测CsAQP蛋白的分子量、电荷残基数、分子式、理论等电点、不稳定指数及脂肪系数;利用ExPASy-ProtScale在线分析其亲/疏水性;使用Plant-mPLoc 2.0预测亚细胞定位;使用SignalP-5.0预测其信号肽;采用TMHMM-2.0预测分析其跨膜结构。
1.4 CsAQP 蛋白的二、三级结构预测
使用SOPMA对其二级结构进行预测分析,并基于SWISS-MODEL进行蛋白质三维结构建模。
1.5 CsAQP家族成员的基因结构及基序分析
通过GSDS 2.0可视化CsAQP基因家族成员的内含子-外显子的分布,并利用MEME 5.3.3在线工具对CsAQP家族蛋白的保守基序进行分析,限值为15。采用TBtools绘制示意图。
1.6 CsAQP 的保守序列频率分析
利用DNAMAN对CsAQP蛋白成员进行多序列比对,并使用weblogo在线软件绘制seqlogo图,其特征高度反映相对的变化频率。
1.7 CsAQP基因家族上游的顺式元件预测
从黄瓜基因组中提取CsAQP家族成员起始密码子上游1 500 bp的序列,利用Plant CARE数据库分析启动子顺式作用元件;利用TBtools对其结果可视化。
1.8 CsAQP家族成员的重复及选择压力分析
提取转录本的CDS序列,建立目标序列数据库,多序列比对,构建索引,运行Perl程序,进一步筛选比对结果(筛选标准:序列两两之间的相似性大于75%,且2条序列比对上的长度大于较长序列的75%[16]),最终获得串联重复基因对。采用ClustalW对各对串联重复基因进行全序列比对,并使用KaKs_Calculator 2.0计算其同义替换和非同义替换间的比率。
1.9 CsAQP 蛋白成员的互作预测
使用STRING对黄瓜AQP蛋白成员进行互作预测,选取模式植物拟南芥作为参考,探究CsAQP蛋白之间的作用关系。
2 结果与分析
2.1 CsAQP家族的全基因组鉴定及多物种进化分析
通过黄瓜完备基因集与参考基因集BLAST比对,并利用Domain HMM模型进行HMMRER搜索,两者取并集[15]。筛选鉴定其含有特定结构域的序列,最终获得33个CsAQP基因家族成员。通过ClustalW对黄瓜、拟南芥和水稻的AQP家族成员以及番茄、马铃薯XIPs序列进行比对并构建系统进化树,结果显示:CsAQP基因家族成员被分成5个亚家族,分别为PIP、NIP、TIP、SIP、XIP。其中,PIP亚族的CsAQP基因家族成员数量最多,有14个成员;NIP与TIP亚族的CsAQP基因家族成员数量等同,均为8个;SIP亚族有2个成员;XIP亚族的数量最少,仅1个成员。黄瓜水通道蛋白的系统进化聚类模式与参考植物相似,大部分CsAQP基因家族成员呈现出与同一亚家族中的其他成员聚集的趋势。根据多物种进化结果和黄瓜单物种进化结果,结合已有的同源基因对CsAQP基因家族成员命名。具体结果见表1。
表1 CsAQP基因家族的命名及理化性质分析Table 1 Nomenclature and physicochemical properties analysis of CsAQP gene family
2.2 CsAQP基因家族的理化性质分析
理化性质分析(表1和表2)发现:CsAQP家族成员编码191~319个氨基酸,分子量为20.26~34.47 kDa,仅CsNIP亚族的氨基酸数目与分子量呈正相关;其电荷残基数差异较大,理论等电点为5.30~10.00,多数CsAQP家族成员富含碱性氨基酸。除CsXIP1;1外,其余CsAQP家族成员蛋白质不稳定指数为23.72~39.31,小于40.00,为稳定蛋白。所有成员具有相对较高的脂肪系数,有利于其在应对环境变化中正常发挥功能。CsAQP家族成员含4~7个跨膜域,多数成员含6个。Plant-mPLoc 2.0预测结果显示:大部分成员主要定位于细胞膜,少数位于液泡,个别为两者皆有。SignalP-5.0和ExPASy-ProtScale在线预测结果表明:上述33个CsAQP家族基因均无信号肽,具疏水性。
表2 CsAQP基因家族的亚细胞定位及跨膜结构预测Table 2 Subcellular localization and transmembrane structure prediction of CsAQP gene family
2.3 蛋白质二级、三级结构的预测
蛋白质的二级结构是有规则重复的构象,预测所得结构单元有4种(图1),分别为α-螺旋、延伸链、β-转角、无规则卷曲。结果发现:33条氨基酸序列中,CsNIP4;1、CsPIP2;5、CsSIP1;1、CsSIP2;1、CsXIP1;1以α-螺旋为主要组成部分,其余28个成员则以无规则卷曲为主要组成部分,β-转角结构散布于CsAQP蛋白序列中。
图1 CsAQP 的二级结构单元分布Figure 1 Secondary structure unit distribution of CsAQP
蛋白质三维结构模型由软件SWISS-MODEL建立。通过SWISS-MODEL对黄瓜的33条氨基酸序列进行同源建模。结果表明:绝大多数CsAQP蛋白序列具有十分相似的三维结构,其结构模型如图2所示,各亚家族内成员的相似度较亚家族之间更高。
图2 CsAQP 家族蛋白质的三级结构预测Figure 2 Prediction of tertiary structure of CsAQP family proteins
2.4 CsAQP基因家族的定位分析
由图3可知:CsAQP基因家族成员映射于1~7号染色体,其中1号染色体上仅含CsTIP3;1;2号、4号、7号染色体各有2个水通道蛋白家族成员;5号染色体所含数量最多,定位到10个CsAQP基因家族成员;6号染色体次之,分布9个CsAQP家族基因。另外,5号染色体上的CsPIP1;1、CsPIP1;2和CsPIP1;4,6号染色体上的CsPIP2;1、CsPIP2;2、CsPIP2;3、CsPIP2;6和CsPIP2;9在各自染色体上形成基因簇,且这些基因之间的同源性较高,推测其功能相对保守。
图3 CsAQP 基因家族成员的染色体位置分布Figure 3 Chromosomal location distribution of CsAQP gene family members
2.5 CsAQP家族基因结构及保守基序分析
为深入探究黄瓜AQP基因结构功能特征及其氨基酸序列的保守基序,对其33个家族成员进行内含子、外显子数目和位置及保守基序进行分析。结果如图4A所示:成员外显子数目为2~5:NIP亚家族中,除了CsNIP3;1和CsNIP5;1外显子数目为4个之外,其余外显子数目均为5个;PIP亚家族成员含3~4个外显子及2~4个内含子;SIP亚家族成员的外显子与内含子数目均为3个,表现出高度的一致性;TIP亚家族中,CsTIP1;1和CsTIP1;2的基因结构呈现“1个外显子+1个内含子+1个外显子”的模式,两者归属于同一亚家族的次级分组,推测这2个成员在功能及进化上有一定的相似性,其余6个亚家族成员均含有3个外显子;CsXIP1;1的基因结构与CsTIP1;1、CsTIP1;2类似。基因结构在不同亚家族之间存在明显差异,同一亚家族内的差异相对较小,反映出不同亚家族具有不同功能。
图4 CsAQP家族成员的基因结构(A)及保守基序预测分析(B)Figure 4 Gene structure (A) and conserved motif prediction (B) of CSAQP family members
利用MEME 5.3.3对CsAQP基因家族进行保守基序分析,可视化结果如图4B,相关基序序列如表3。结果表明:Motif 4的保守序最强;除CsSIP亚族无Motif 1,其余成员均有Motif 1分布。有些Motifs为个别亚家族所特有,如Motif 3、Motif 5、Motif 10只分布于CsPIP亚族中,Motif 9仅为CsPIP亚族的分组1所特有;Motif 13仅存在于在CsTIP亚族中。上述结果表明:同一进化分支上的成员间保守结构域相似性更高。这些CsAQP基因家族成员间具有相同或特有的Motif,导致了它们之间相似或具备其特有的功能分化。
表3 MEME 程序识别 CsAQP 相关基序信息Table 3 MEME program recognizes CSAQP related base sequence information
2.6 CsAQP基因家族共有性序列分析
利用DNAMAN对黄瓜水通道蛋白的氨基酸序列进行多序列比对,对其一致性分析,所有CsAQP成员序列、CsNIP序列、CsPIP序列、CsTIP序列、CsSIP序列一致性分别为35.04%、47.66%、73.38%、58.36%、29.27%。CsAQP蛋白具保守性,且有多个保守位点,总体而言其序列保留相对变异性。CsNIP中序列N-端保留变异性,而近C-端具有高度保守性。CsPIP序列的保守频率高于其他几个亚家族。CsTIP序列的N、C两端均具保守性,但近N-端有部分序列保留变异性。
2.7 CsAQP基因家族顺式作用元件分析
为了进一步研究CsAQP基因启动子区的顺式作用元件,本研究使用PlantCARE在线工具分析了CsAQP基因家族转录起始位点的上游1 500 bp区域。鉴定出的元件与激素、光响应及抗逆性相关,大部分CsAQP基因家族含WUN-motif作用元件,且所有成员的转录起始位点上游均含TATA盒以及CAAT-box。其中,BOX 4、G-Box、GT1-motif、LAMP-element、ACE、GATA-motif、I-box、AE-box、TCCC-motif、chs-CMA1a、3-AF1 binding site、sp1、Box Ⅱ、CAG-motif、ACA-motif、GA-motif、L-box、MRE(与光反应相关的MYB结合位点)元件功能涉及调控植物光反应;ABRE为脱落酸应答元件;MBSI为MYB结合位点,参与植物体中类黄酮生物的合成;AUXRE(生长素相关)、AUXRR-CORE(生长素相关)、TGA-element(生长素相关)、GARE-motif(赤霉素相关)、P-box(赤霉素相关)、ERE(乙烯应答相关)、CGTCA(茉莉酸甲酯相关)、TCA-element(水杨酸反应相关)元件功能涉及植物激素调控;TC-rich repeats(参与防御和应激反应)、LTR(响应低温)、MBS(MYB结合位点,与干旱相关)、circadian(参与昼夜节律控制)、MSA-like(参与细胞周期调节)、HD-ZIP Ⅰ(参与栅栏叶肉组织的分化)、CAT-box(与分生组织表达有关)、motif I(调节根特异性)、RY-element(种子特异性调控相关)元件功能涉及植物的应激反应以及生长发育。
从元件类型来看,光响应元件种类最多,于各CsAQP基因启动子区域均有分布。从单个元件的具体分布来看,91%家族成员启动子区分布BOX 4;61%成员启动子区含ABRE元件。从单个基因家族成员来看,CsXIP1;1作为新成员,其基因启动子富含激素调控相关元件,例如ERE、P-box、TGACG元件,且含与胚乳表达相关的GCN4-motif元件;CsNIP2;1、CsNIP5;1、CsNIP6;1、CsNIP7;1、CsPIP1;2、CsPIP1;3、CsPIP2;7、CsPIP2;8、CsSIP1;1、CsTIP3;1 含 1~3 个 TC-rich repeats元件,涉及植物防御及应激;CsNIP1;1、CsNIP2;2、CsNIP3;1、CsNIP7;1、CsPIP1;3、CsPIP1;4、CsPIP2;1、CsPIP2;2、CsPIP2;3、CsPIP2;8、CsPIP2;9、CsTIP1;2、CsTIP1;3、CsTIP2;1基因启动子区域都含有MBS元件,表明这些基因有可能与MYB转录因子结合,参与响应干旱胁迫的调控。CsAQP基因启动子区的部分元件展示如图5。
图5 CsAQP 基因家族成员上游顺式元件预测Figure 5 Prediction of upstream cis elements of CsAQP gene family members
2.8 CsAQP基因家族串联重复的筛选及其 Ka/Ks分析
已有文献表明:串联重复偏向于扩增膜蛋白功能基因以及与生物和非生物胁迫紧密相关的基因[17]。为探究黄瓜AQP基因家族在进化过程中因串联复制之后基因的偏向性保留和选择压力的形式,对33个家族成员进行分析。分析结果显示:黄瓜33个CsAQP基因家族成员之间,5号、6号这2条染色体上共有5对基因具有串联复制关系,分别为CsPIP1;2&CsPIP1;1、CsPIP1;2&CsPIP1;4、CsPIP1;1&CsPIP1;4、CsPIP2;6&CsPIP2;3、CsPIP2;2&CsPIP2;3。Ka/Ks分析(表4)发现:5个基因对的Ka/Ks均小于1,表明这些重复基因对经历纯化选择,消灭群体有害突变,且在进化中较为保守,结构较为稳定,功能具有一致性。
表4 CsAQP基因扩增关系及 Ka/Ks 比率Table 4 Amplification relationship and Ka/Ks ratio of CsAQP gene in Cucumber
2.9 CsAQP 家族成员的互作预测
为进一步了解CsAQP成员蛋白的互作关系,对33个成员的氨基酸序列进行蛋白质互作预测。结果如图6所示:CsPIP1;1、CsPIP1;2、CsPIP1;3、CsPIP1;4、CsTIP2;2均与CsNIP1;1存在互作关系,且关联性较强。另外,CsSIP2;1与CsTIP、CsPIP、CsNIP亚家族间也有一定的互作关系。上述结果表明:部分成员间存在互作关联性,但各成员间的具体网络机制并不清晰,仍需进一步研究。
图6 CsAQP 家族成员蛋白的互作预测Figure 6 Prediction of interaction of CsAQP family protein
3 讨论
本研究鉴定了黄瓜基因组中的33个CsAQP基因,CsAQP基因的数量与水稻及模式植物拟南芥的数量相似。这表明CsAQP基因在植物中有形成多基因家族的可能。基因进化的主要驱动力来源于基因扩增,而串联复制是基因扩增的方式之一。有研究表明:响应多种逆境胁迫的基因扩增与串联复制密切相关[17]。这类基因通常是剂量不敏感基因或位于代谢途径两端。方璐等[18]在白菜Brassica rapa中研究发现:与膜蛋白功能相关以及抗逆相关、新陈代谢相关的基因都发生了串联复制,这些相关基因在诱导防御反应机制中发挥作用。本研究发现:在黄瓜5号和6号染色体中共发现5对串联重复基因,这表明串联复制参与黄瓜CsAQP基因的扩增。
系统进化分析表明:CsAQP基因可以清晰地分为5个亚家族,相对于拟南芥、水稻,多1个新成员(CsXIP1;1)。有研究表明:植物中XIPs序列的分析及其功能方面的鉴定有助于更好地探究AQPs进化过程的分类[19]。同时,外显子与内含子结构的分析也有益于探究植物基因家族内的进化关系[20]。从预测结果中可以看出:基因间结构差别明显,但聚类较近的CsAQP基因其结构存在相似。CsNIP亚家族含有的外显子数量相对多于其他4个亚家族,这与JOHANSON等[21]在拟南芥上的发现一致。基因家族成员在编码氨基酸数量、分子量、理论等电点等生理生化性质也随CsAQP基因编码序列的长短及碱基比例的不同而表现出一定差异。
MEME (multiple EM for motif elicitation)分析发现:基序组成总体保守,例如所有的CsAQP基因都有一个共同的保守基序(KAWDDHWIYWVGPFIGAAJAALYYQFILR),但不同的亚家族之间也有其独特的保守基序,这为CsAQP基因家族的细分提供一定的依据。分别以限值10、15、20为条件,再次预测CsAQP基因家族的保守基序,在几个重复对之间均能发现某些Motif的得失,与ZHOU等[22]在ClDof基因家族所得出的结论相似。初步分析这些Motif可能与CsAQP基因的功能分化相关。此外,CsAQP基因家族成员基因启动子的顺式调控元件种类丰富,包括黄瓜抗逆相关的元件以及黄瓜生长发育相关的作用元件,如所有CsAQP基因家族成员基因启动子区都含有多种与光响应相关的元件。因此,这33个基因可能参与黄瓜光反应调控。CsPIP1;2、CsNIP2;2、CsNIP3;1、CsTIP2;1、CsTIP3;1中含有HD-ZIP I元件,可能参与叶肉组织分化。
水通道蛋白在低等植物和高等植物中均有所研究[23],其中高等植物水通道蛋白研究相对较多。拟南芥作为模式植物,其AQP在低温、干旱等逆境下的相关研究已被陆续报道。许多植物AQP成员间的互作关联性也得到了验证,如番茄[24]、水稻和玉米[25]。与这些植物AQP相比,CsAQP基因功能的研究相对缓慢但却取得了一定进展。已有研究显示:CsAQP在胁迫反应中可能发挥重要作用。陈露倩等[26]研究发现:CsPIP2;4于干旱胁迫处理下,其表达量在胁迫后2 h达到相对最高值,而随胁迫时间的延长,CsPIP2;4表达丰度显著下降。然而,目前对CsAQP基因的具体作用机制了解尚浅,尤其是不清楚CsAQP基因对非生物胁迫的调控机制。本研究通过对CsAQP基因结构、理化性质、保守基序、亚细胞定位与系统进化树等分析,将有助于鉴定其生物学功能,为进一步探究其功能特性提供了一定的理论依据。此外,对于CsAQP基因在整个生长发育中的调控网络以及与各种环境胁迫因子的关联性也有待探索。