棉花UGPase 基因鉴定与生物信息学分析
2021-09-14张岚程琦梁士辰邓雨潇潘玉欣
张岚,程琦,梁士辰,邓雨潇,潘玉欣
(华北理工大学生命科学学院,河北 唐山 063210)
尿苷二磷酸葡萄糖 (Uridine diphosphate glucose,UDPG)作为反应底物和产物,参与蔗糖、纤维素、糖蛋白、糖脂和碳水化合物等合成代谢过程[1]。 UDP- 葡萄糖焦磷酸化酶(UDP-glucose pyrophosphorylase, UGPase)可逆催化葡萄糖-1-磷酸与尿苷三磷酸(Uridine triphosphate)反应形成UDPG 和焦磷酸。 在葡萄糖合成糖原过程中,UGPase 催化葡萄糖-1- 磷酸与UTP 分子合成为UDPG; 在糖原分解过程中,UGPase 催化UDPG转化为葡萄糖-1-磷酸。
到目前为止,UGPase已经在多种植物中被鉴定,如水稻[2]、黄芪[3]、大麦[4]、马铃薯[5]、香蕉[6]和陆地棉[7]等。植物通常含有UGPase-A 和UGPase-B两类蛋白。UGPase-B 蛋白与UGPase-A 没有同源性,但具有相同的催化功能[8]。 在大麦叶片、胚胎和胚乳中仅发现1 种类型的UGPase 蛋白[4],马铃薯中UGPase等位基因多态性导致cDNA 序列的微小差异[9],在拟南芥、水稻和杨树中均发现有2个高度同源的UGPase-A 基因[1,10]; 在莱茵衣藻(Chlamydomonas reinhardtii) 和拟南芥中发现了与UGPase-A 基因具有相同催化功能的UGPase-B基因[11-12]。
棉花是世界上重要的纤维作物。 已有的研究表明UGPase基因参与纤维素的合成。 在拟南芥中过表达陆地棉(Gossypium hirsutum)GhUGP基因,可导致转基因拟南芥的可溶性糖、淀粉和纤维素含量增加[7]。 在黄麻中过表达CcUGPase基因, 转基因植物的株高和纤维素含量都有所增加,但木质素含量没有变化[13]。棉花基因组在一亿三千万年前经历了双子叶植物共同祖先物种的1次全基因组三倍化事件,而后棉花物种又发生了独立的全基因组五倍化事件[14-15]。 这种全基因组水平上的加倍事件增加了基因的多样性。 而在棉花全基因组水平研究UGPase基因家族成员基因结构、进化特征、组织表达等未见报道。
本研究将在全基因组水平上鉴定亚洲棉(G.arboreum)、雷蒙德氏棉(G. raimondii)、异源四倍体陆地棉、海岛棉(G.barbadense)、葡萄、榴莲、可可等19 种植物中的UGPase基因家族成员,从系统发育、基因结构、选择压力、表达特性等多方面进行比较分析,以推断其进化规律,为深入研究棉花UGPase基因的功能奠定基础。
1 材料与方法
1.1 数据来源和UGPase 基因家族成员鉴定
在SGD(https://www.yeastgenome.org/)数据库中下载1 个酵母UGPase基因。 从TAIR(https://www.arabidopsis.org/)下载得到3 个拟南芥UGPase基 因(AT3G56040.1、AT3G03250.1、AT5G17310.2)序列。 二倍体的亚洲棉、雷蒙德氏棉,四倍体的陆地棉、 海岛棉全基因组序列数据来源于Cotton-FGD((https://cottonfgd.org/)[16]。 4 种双子叶植物葡萄(Vitis vinifera)、可可(Theobroma cacao)、杨树(Populus trichocarpa)、榴 莲(Durio zibethinusMurr.),单子叶植物水稻(Oryza sativa),基部被子植物无油樟 (Amborella trichopoda),5 种藻类莱茵衣藻、绿色鞭毛藻(Ostreococcus lucimarinus)、胶球藻(Coccomyxa subellipsoidea)、团藻(Volvox carteri)和细小微胞藻(Micromonas pusilla),小立碗藓(Physcomitrella patens)以及卷柏(Selaginella moellendorffii)的全基因组序列数据下载自Phytozome 网站(https://phytozome.jgi.doe.gov/pz/portal.html)。
以拟南芥UGPase 蛋白质序列为种子序列,通过本地blastp[17]对上述所有物种基因组数据进行全基因组检索,设置E值≤1e-5,氨基酸序列一致性≥40%,打分≥100,初步获取各物种基因组中UGPase候选基因。 然后通过Pfam 网站(https://pfam.xfam.org,v32.0)[18]预测候选基因的结构域,具有UGPase 结构域(PF01704)的即为UGPase基因家族成员。 在ExPASy(https://www.expasy.org/) 对棉花UGPase 蛋白的理化性质进行预测。
1.2 多序列比对和进化树构建
利用MEGA X[19]软件对UGPase基因家族成员进行多序列比对与进化树构建,采用最大似然法(Maximum likelihood,ML)和JTT+G(Jones-Taylor-Thornton+Gamma-Distributed rates)模型,bootstrap 值设为1 000。
1.3 基因结构分析和蛋白质保守基序分析
根据各基因组基因位置文件,利用数据处理工具TBtools[20]绘制基因结构;利用序列分析工具MEME[21](http://meme-suite.org/, v5.1)分 析 上 述19 个物种的UGPase 蛋白中的保守基序。 参数设置:基序最大发现数量为25,基序最大长度为50 nt(Nucleotide,核苷酸)。
1.4 同源基因鉴定及Ks 值分析
利用蛋白序列同源性分析工具OrthoMCL[22]。(参数设置:E值≤1e-5、 一致性≥50%、 膨胀系数>1.5)鉴定亚洲棉、雷蒙德氏棉、陆地棉、海岛棉、葡萄、可可和榴莲基因组中的直系同源和旁系同源UGPase基因,并利用Circos[23]软件绘制基因同源关系图。
利用Perl 语言编写程序, 计算棉花UGPase基因家族成员同源基因对间的同义替换率Ks值,并利用Circos[23]软件图形化展示基因间的Ks值。
1.5 选择压力分析
使用EasyCodeML[24]软件位点模型方法对UGPase基因进行选择压力分析。ω表示Ka/Ks,ω>1 表示进化中主要受正选择影响,ω<1 表示进化中主要受负选择影响,ω=1 表示进化中主要受中性选择影响。
1.6 UGPase 基因在陆地棉纤维中表达分析
从CottonFGD 网站下载陆地棉UGPase基因表达数据, 基因表达量的衡量指标为RPKM(Reads per kilobases per million reads, 每百万片段中来自某基因每千碱基长度的片段数),用TBtools 绘制基因表达热图。分析UGPase基因在胚珠发育的10 个时期〔-3 DPA(day post anthesis, 开 花 后 天 数)、-1 DPA、0 DPA、1 DPA、3 DPA、5 DPA、10 DPA、20 DPA、25 DPA、35 DPA〕和纤维发育的4 个时期(5、10、20、25 DPA),及在根、茎、叶、花托、花瓣、雄蕊、雌蕊、副萼的表达量。
2 结果与分析
2.1 UGPase 基因家族成员鉴定
对4 个棉种和其他15 个代表物种进行蛋白序列比对初筛和特征结构域复筛, 鉴定出79 个UGPase基因。 其中来自雷德蒙氏棉的最多(13个);其次为海岛棉(12 个);然后依次为单子叶植物水稻(11 个)、陆地棉(9 个)、亚洲棉和小立碗藓(各4 个);其余低等植物和酵母中UPGase基因数目为1~3(图1 和附表1)。 除雷蒙德氏棉和酿酒酵母外, 其余物种中均含有UGPase-B 类基因。绿色鞭毛藻和细小微胞藻不含UGPase-A 类基因,其余物种均含有UGPase-A 类基因。 总体上各物种中UGPase-A 类基因多于UGPase-B类,且UGPase-A 类基因随着物种进化发生了明显的基因扩张。
2.2 UGPase 基因家族系统进化分析
同源性分析表明UGPase-A 类蛋白和UGPase-B 类蛋白同源性极低, 因此对上述19 个物种的UGPase-A 蛋白和UGPase-B 蛋白分别构建系统进化树(图2)。 UGPase-A 类蛋白分为4 组,棉花UGPase-A 类蛋白分布在A1、A2 和A3 亚组,其中A1 亚组只有棉花UGPase 蛋白,A2 亚组成员来自棉花、可可、葡萄和榴莲4 个物种,A3 亚组成员来自棉花和无油樟,A4 亚组成员来自9 个物种。这说明棉花UGPase-A 基因可能在结构或功能上发生了分化。所有UGPase-B 类基因聚在一起(B 组),表明棉花UGPase-B 类基因并没有表现出明显的分化。
对比葡萄基因组进化过程,棉花基因组又经历1 次五倍化过程(图1),因此葡萄基因组中的单个基因, 在棉花基因组中应该有5 个对应基因。但葡萄和棉花都仅有1 个UGPase-B 基因,说明棉花中丢失了约80%的UGPase-B 基因, 在其他物种基因组中也存在类似的丢失现象 (图2B)。这与文献报道一致,在棉花全基因组加倍事件中发生大量的基因丢失、 染色体重排现象,有约70%基因丢失[15]。
2.3 UGPase 蛋白保守基序及对应的基因结构分析
为探究UGPase家族基因的起源和进化模式,用MEME 程序检测了25 个基序(图3)。结果表明UGPase-A 蛋白和UGPase-B 蛋白几乎没有同源性,两者仅共有基序11 和基序23,且只存在于部分蛋白中。基序11 只存在于A3 亚组的棉花UGPase-A 中, 而在所有UGPase-B 蛋白中都存在。基序23 存在于所有高等植物的UGPase-A 蛋白, 以及双子叶植物可可、 榴莲、 棉花的UGPase-B 蛋白。 这些结果表明,在单双子叶植物分化后,UGPase 蛋白功能发生了一定的变化。 值得注意的是, 基序11 和基序23 在UGPase-A 和UGPase-B 中位置不同, 而且共有的基序11 存在于不同的特征结构域中。 在UGPase-A 蛋白中,基序11 和基序25 构成Ribosomal_S2 结构域,且Ribosomal_S2 结构域仅在A3 亚组的棉花UGPase 中检测到, 因此Ribosomal_S2 并不是这些蛋白的主要结构域。 但在UGPase-B 蛋白中,基序11 与基序14、基序13、基序16 和基序21 则构成UGPase-B 蛋白的重要结构域。
比较A1、A2、A3 和A4 四个亚组发现,棉花UGPase-A 蛋白在进化过程中存在基序丢失现象。 在A1 亚组中,棉花UGPase-A 蛋白仅保留基序4;在A2 亚组中,棉花GbD07G02825 仅保留基序20;在A3 亚组中,有3 个棉花UGPase-A 蛋白只有基序9。 上述3 个亚组中的棉花基因均来自棉花D 基因组,说明棉花D 基因组的UGPase基序丢失现象比较严重。
对棉花和其他15 个物种的基因结构分析显示,低等植物中UGPase-A 基因的外显子较长;高等植物中UGPase-A 类基因的外显子较短。 含有Ribosomal_S2 结构域的蛋白中,其基因5'端外显子较长。UGPase-B 类基因5'端外显子普遍较长。无油樟和双子叶植物UGPase-B 类基因均存在较长的内含子。
综上,UGPase-B 类基因比较保守。 在单子叶、双子叶植物进化分离后,UGPase-A 类基因结构差异较大。 棉花UGPase-A 类基因可能发生了结构或功能上的分化,这与系统进化分析中得到的结论一致。
2.4 UGPase 基因同源性及Ks 值分析
同源基因分为直系同源基因和旁系同源基因。 直系同源基因是指2 个物种中来源于共同祖先的同源基因,旁系同源则是基因复制产生的同源基因。 为了解棉花UGPase家族基因的同源进化问题,引入葡萄、可可和榴莲作为参考物种进行分析。 在葡萄和可可中未检测到UGPase旁系同源基因,在榴莲中发现1 对旁系同源基因。 在榴莲和可可间有3 对同源基因,在榴莲和陆地棉间有1 对直系同源基因。 棉花中的同源基因对较多,包括32 对直系同源基因和12 对旁系同源基因(图4)。 由此推断棉花中UGPase基因主要由共同祖先基因组加倍产生。
Ks是基因的同义置换率,反映了基因的分歧时间。 棉花A 和D 基因祖先分歧时间对应的Ks值为0.032, 异源四倍体棉花形成时间对应的Ks值为0.007~0.009, 陆地棉和海岛棉分歧时间对应的Ks值为0.003(480 万年前)[25]。 因此,按棉花各祖先基因组形成时间和各物种的分歧时间,可将Ks分为4 个区间0~0.003、0.003~0.009、0.009~0.032 和大于0.032。43.2%同源基因对(19对)Ks值大于0.032,38.6%同源基因对(17 对)Ks值处于0.009~0.032,11.4%的同源基因对(5 对)Ks值处于0~0.003,6.8%的同源基因对 (3 对)Ks值处于0.003~0.009。 这说明棉花大部分UGPase基因产生于异源四倍体棉花形成前,也证明了棉花UGPase基因主要来源于棉花基因组的加倍。
2.5 棉花UGPase 基因家族适应性进化分析
为研究UGPase基因在棉花中是否发生了适应性进化, 利用EasyCodeML 程序按照A1、A2、A3 和B 四个亚组分别进行UGPase基因的选择压力分析。 位点模型结果显示,棉花中的UGPase基因主要受到纯化选择影响, 以同义突变为主。在A3 亚组UGPase基因中检测到11 个位点受到显著正选择影响(表1),且均分布于基因的5'端。但在A1、A2 和B 亚组UGPase基因中未发现显著正选择位点。这表明,虽然UGPase基因在进化中主要受到纯化选择影响, 但在A3 亚组UG Pase基因中仍有少量位点受到正选择, 这些显著位点可能引起UGPase基因在结构或功能上的分化。
表1 棉花UGPase 基因选择压力位点模型检测结果Table 1 Results of model test for selecting pressure sites in cotton UGPase genes
2.6 UGPase 基因在陆地棉中表达分析
从棉花数据库CottonFGD 网站下载陆地棉(JGI assembly)UGPase基因的转录组数据, 包括根、茎、叶、花托、花瓣、雄蕊、雌蕊、副萼和胚珠发育的10 个时期以及纤维发育的4 个时期的表达量。 利用TBtools 软件展示表达结果见图5。 9 个陆地棉UGPase基因的表达模式和表达量有明显的差别。 在A1 亚组中GhD11G03015 和GhA11G03147 在各发育时期和检测的各组织中表达量都较高;GhD11G03160 和GhD04G00927在棉纤维发育的不同时期及器官中表达量都极低。 表达量极低的2 个基因编码产物中仅包含基序4, 说明UGPase 保守基序的丢失可能影响其基因的表达。 通过比较陆地棉UGPase-A 类基因和UGPase-B 类基因的表达模式,发现UGPase-A类在根、叶中表达量较高,同时UGPase-A 类基因在雌蕊和雄蕊中表达较高;UGPase-B 类基因在雄蕊中表达量较低,在花萼和花托中高表达。 在纤维和胚珠发育的各时期,UGPase-A 类基因表达量较UGPase-B 类基因高,UGPase-A 类基因在5 DPA 表达量最高;UGPase基因在3~25 DPA 的胚珠中表达量较高。 这暗示棉花UGPase基因,尤其是UGPase-A 类基因在棉花纤维细胞的起始和伸长中起重要作用。
3 讨论
UGPase 是糖代谢过程中的一类重要酶,在植物的生长发育过程中起重要作用[26]。 而目前植物中鉴定该类基因的研究较少[27]。 本研究在亚洲棉、雷蒙德氏棉、陆地棉以及海岛棉中分别鉴定出4、13、9 和12 个UGPase基因,在葡萄、可可和榴莲中分别鉴定出2、2 和3 种UGPase基因。 基因数目上的差异表明棉花中的UGPase基因家族成员与其它3 种双子叶植物相比,有较为明显的扩增。
UGPase 分为UGPase-A 与UGPase-B 两类,2类蛋白结构差异较大,各类蛋白保守性较高[26,28]。本研究中的UGPase基因结构分析可知,棉花、拟南芥、葡萄等植物含有2 类UGPase 蛋白,且不同植物间同类UGPase 结构保守性较高。 棉花UGPase-A 类基因分布在A1、A2、A3 亚组中,而水稻UGPase-A 类基因全部聚在A4 亚组, 暗示UGPase基因在单双子叶植物之间存在不同的进化轨迹。 A3 亚组UGPase-A 蛋白的氨基端包含1个特殊的含有基序11 和基序25 的结构域,这个结构域在其他组是不存在的。 在棉花A3 亚组发现11 个显著正选择位点, 这些正选择位点主要分布在基因5'端。 这与A3 亚组基因在5'端的新结构域一致,说明UGPase基因在棉花中发生了分化。 棉花与葡萄、可可、榴莲UGPase基因的同源性分析显示,棉花中存在较多同源基因,且大部分的棉花UGPase基因的Ks值大于0.009, 推断棉花UGPase基因大部分来源于棉花基因组加倍事件。
UGPase存在于植物光合组织和非光合组织中,参与营养生长以及生殖生长[26-27,29]。 拟南芥AtUGP1和AtUGP2突变体影响拟南芥生长[30]。水稻中OsUpg1和OsUpg2调控花粉不育和育性转换过程[31]。除此,在拟南芥、杨树、番茄等多种植物中均证实UGPase 影响细胞壁成分[32-34]。UGPase基因在陆地棉中的表达分析结果显示, 其在根、茎、叶、花、纤维、胚珠等不同器官都有表达,这与文献报道结果类似,GhUGP(即GhD11G03015)在拟南芥中的过表达试验证实,UGPase基因参与调控葡萄糖向葡萄糖-1- 磷酸的转化,GhUGP的表达对拟南芥茎中纤维素含量增加有促进作用[7]。 表达量较高的GhD11G03015、GhA11G03147和较低的GhD11G03160、GhD04G00927 都属于A1 亚组,推测保守基序的改变及丢失可能影响该类基因的表达。 UGPase-B 类基因在雄蕊中表达量高,这揭示了2 类基因功能上的差异。
4 结论
在全基因组水平上鉴定了亚洲棉、雷蒙德氏棉、陆地棉和海岛棉等19 种植物中的UGPase基因家族成员。UGPase基因包含UGPase-A 和UGPase-B 两个类型。 随着棉花的全基因组加倍,棉花UGPase-A 类基因发生了明显的基因扩张,且在结构和功能上发生分化; 棉花UGPase-B 类基因在进化上十分保守。 同源性分析显示,棉花UGPase基因主要来源于棉花四倍体形成前的基因组加倍。 表达分析显示,UGPase基因尤其是UGPase-A 类基因在棉花纤维细胞的生长发育中起重要作用。 棉花UGPase基因家族鉴定及进化分析为深入了解UGPase基因功能奠定了基础。
附表:
附表详细内容参见https://journal.cricaas.com.cn
附表1 棉花UGPase 蛋白的理化性质
Table S1 The physicochemical properities of UGPase proteins in cotton