沙棘UGT 基因家族的全基因组鉴定与表达分析
2022-01-05吕中睿刘宏张国昀于立洋罗红梅何彩云
吕中睿,刘宏,张国昀,于立洋,罗红梅,何彩云*
(1.国家林业和草原局林木培育重点实验室,中国林业科学研究院林业研究所,北京 100091;2.中国林业科学研究院沙漠林业实验中心,内蒙古 磴口 015200)
沙棘(Hippophae rhamnoidesL.)属胡颓子科多年生落叶灌木、小乔木或乔木[1],原产于俄罗斯、中国和北欧[2]。沙棘营养极高,富含维生素、类胡萝卜素、脂类、甾醇和类黄酮[3]。类黄酮是植物最主要的次生代谢物之一[4],在沙棘叶和果实中大量存在,具有降血糖、降血脂、抗衰老、抗氧化等多种生理活性[5],在食药保健领域受到广泛关注。类黄酮在沙棘中通常以糖基衍生物的形式出现[6],Teleszko 等研究发现,黄酮醇糖苷是沙棘中最丰富的酚类化合物[7]。然而,类黄酮在沙棘中的糖基化作用机理仍不清楚。
糖基化修饰是类黄酮生物合成的关键修饰之一,这种修饰促进类黄酮的溶解性、稳定性和生物活性,以防御和适应环境变化[8]。植物次生代谢物的糖基化是由UDP 糖基转移酶(UGT,UDPglycosyltransferase)催化的[9],可以催化糖基加到底物的特定位置或特定区域。植物中UGT 基因长度约为1 000~1 500 bp,UGT 基因在植物中保守性较强,尤其在终止密码子附近有一段编码44 个氨基酸的极强保守序列,称为PSPG box[10],可以作为挑选UGT 基因的依据。作为模式植物,拟南芥UGT 家族最早被研究,Li 等发现,拟南芥中共有107 个成员,根据序列同源性被划分为 14 个系统发育组,命名为A-N[11]。随后,在毛果杨、玉米、葡萄、苹果和茶等植物中陆续发现了O、P、Q和 R组[12-13]。近期,Wilson 等分析了65 个全序列的植物基因组,应用严格的标准来选择候选的UGTs,并进行系统发育分析,重建了被子植物原有的18 个系统发育组(A-R)和OG[14]。在高等植物的进化过程中,A、D、E、G 和L 这5 个组群扩展较快,E组扩展最快,不同物种中E组中的基因占UGT 家族的 20%~25%[15]。
迄今,多个物种中的数百个UGT 基因已经被克隆出来,并对其功能进行了表征。如Lim 等以槲皮素为底物,对拟南芥中91 个糖基转移酶进行了鉴定,其中,29 个能够催化相关的糖基化反应[16]。Trapero 等对番红花中糖基转移酶功能验证发现,UGT707B1 可以催化山奈酚、槲皮素生成相应的糖苷衍生物[17]。然而,与植物基因组中UGT 基因庞大的数量相比,功能被验证的特征蛋白的数量仍然相对较低[15]。
本研究基于沙棘基因组信息,对UGT 基因家族进行了鉴定和分析,共鉴定到89 个沙棘UGT 基因成员,划分为16 个系统发育分组。本研究对沙棘UGT 基因家族的蛋白理化性质、亚细胞定位、染色体分布、基因结构和基因复制进行了预测分析。在此基础上,分析了UGT 基因在沙棘果实不同发育时期的表达模式,并通过实时荧光定量PCR 进行验证,对日后解析沙棘类黄酮糖苷生物合成机制及其积累模式奠定了基础。
1 材料与方法
1.1 沙棘UGT 基因家族的鉴定
113 条拟南芥UGT 氨基酸序列下载自拟南芥基因组网站(https://www.arabidopsis.org/),UGT基因家族保守结构域隐马尔科夫模型HMM 文件(PF00201,UDPGT.HMM)下载自Pfam(http://pfam.xfam.org/)。首先以拟南芥UGT 氨基酸序列作为query 序列,使用BLASTP 程序搜索沙棘基因组蛋白数据库(未发表),evalue=1 e−15,构建沙棘候选UGT 数据集1。通过HMM 文件对沙棘基因组蛋白数据库进行hmmsearch 搜索,evalue=1 e−20,提取结果文件中比对一致的序列通过hmmbuild程序构建沙棘UGT 保守结构域隐马尔科夫模型,并再次进行hmmsearch,构建沙棘候选UGT 数据集2。合并2 个数据集,提交至CDD、Pfam 和SMART 数据库验证保守结构域,然后手动删除氨基酸序列小于250 aa 和PSPG box 不完整的序列。
1.2 UGT 基因家族理化性质和亚细胞定位分析
利用Expasy server 的ProtParam 工具(https://web.expasy.org/protparam/)计算沙棘中各UGT 蛋白的分子量、氨基酸长度和等电点。使用DeepLoc(http://www.cbs.dtu.dk/services/DeepLoc/)预测沙棘UGT 蛋白的亚细胞定位。
1.3 系统发育分析
通过MUSCLE 对沙棘UGT 蛋白序列进行多重序列比对(http://www.ebi.ac.uk/Tools/msa/muscle/),删除gap 区域。利用MEGA 7.0 软件,基于比对后的UGT 蛋白序列,采用neighbor-joining 法,设置bootstrap 值为1000,构建系统发育树[18]。
1.4 保守序列和基因结构分析
通过GSDS 在线工具(v2.0 http://gsds.cbi.pku.edu.cn/),输入沙棘基因注释GFF 文件,将沙棘UGT 的编码序列与其对应的基因组序列进行比较,展示沙棘UGT 的外显子内含子信息。为了比较沙棘UGT 的差异,本研究利用MEME 在线工具对沙棘UGT 蛋白的保守基序进行分析,参数设置为:site distribution:zero or one occurrence (of a contributing motif site) per sequence,maximum number of motifs:10,and optimum motif width ≥ 6 and ≤ 60。
1.5 染色体定位和基因复制分析
通过自建脚本,从沙棘基因组注释文件中提取沙棘UGT 位置信息。使用MCScanX 软件分析基因加倍事件。染色体定位和基因加倍信息通过Circos 软件绘图展示。
1.6 表达模式分析
2 个沙棘亚种(中国沙棘,“FN”;蒙古沙棘,“XY”)不同果实发育阶段的转录组数据下载自沙棘基因组数据库,使用每百万映射reads 的千碱基片段(FPKM)来估计表达水平。利用TBtools软件对数据进行标准化和聚类,并绘制表达量热图[19]。
实时荧光定量PCR 分析所用样品为中国林业科学研究院沙漠林业实验中心种植的蒙古沙棘花后21、63、91 d 果实,每批样品设置3 个生物学重复,采样后迅速使用液氮速冻,并置于−80℃备用。总RNA 的提取采用天根公司RNAprep Pure 多糖多酚植物总RNA 提取试剂盒,参照使用说明书的方法进行提取。反转录试剂盒为TAKARA 公司的PrimeScript™ 1st Strand cDNA Synthesis Kit,并按照使用说明进行。用primer Premier 5.0 软件对选定的9 个HrUGTs 进行特异性引物设计,引物信息见表1。实时荧光定量PCR 反应体系按照TAKARA公司TB Green®Premix Ex Taq ™ II 试剂盒使用说明书配置,PCR 反应程序为:95℃ 30 s 预变性,95℃ 5 s,60℃ 30 s,40 个循环扩增。使用2−ΔΔCT法计算HrUGT 基因的相对表达水平[20],使用Origin 8.0 软件作图。
表1 实时荧光定量PCR 引物信息表Table 1 The primer sequence for quantitative real-time PCR (RT-qPCR)
2 结果分析
2.1 沙棘UGT 基因家族成员鉴定
对利用BLASTP 和hmmsearch 两种方法搜索沙棘基因组蛋白数据库获得的110 个候选沙棘UGT 基因成员,经过验证保守结构域和手动筛选,共鉴定出89 个沙棘UGT 基因。蛋白理化性质分析结果(表2)表明:沙棘UGT 家族各成员蛋白质长度为266~533 aa,平均长度462 aa,蛋白理论分子量平均值为52.00 KDa,平均等电点5.89。82 个沙棘UGT 家族成员定位于细胞质,6 个成员定位于线粒体,1 个成员定位于质体。
表2 沙棘UGT 基因家族成员信息 Table 2 The information of HrUGTs
2.2 系统发育分析
基于蛋白同源序列的相似性进行功能预测是基因功能研究的重要手段,本研究以沙棘和拟南芥、玉米、山柳兰等植物UGT 蛋白序列为基础,构建了系统发育树。图1 表明:89 个沙棘UGT 可被聚类为16 个先前鉴定的类群[13],沙棘UGT 在O组和Q组均没有分布,大部分沙棘UGT 聚集在E(8)、G(8)、D(11)、L(16)和A(17)组。多序列比对分析表明:89 个沙棘UGT 的C 端序列均存在PSPG box,并在 1(W)、4(Q)、8(L)、10(H)、12(S/A)、14(G)、16(F)、19-24(HCGWNS)、27(E)、32-34(GVP)、39(P)、43(D/E)、44(Q)位点高度保守。
图1 沙棘、拟南芥、玉米和山柳兰UGT 系统发育树Fig.1 Phylogenetic tree of UGT proteins of sea buckthorn,Arabidopsis,maize and mouse-ear hawkweed
2.3 蛋白基序和基因结构分析
为了进一步确定沙棘UGT 家族的保守结构域特征,利用在线工具MEME 创建了10 个基序,并从1 到10 列出(图2)。基序1 和基序3为UGT 家族保守结构域PSPG box。La4g1035、La5g0208、La11g1107、La5g1327、La4g1118、La10g1561 和La10g1574 由于1 或2 个氨基酸的插入并没有匹配到基序3,在后续的分析中发现,这些基因除La5g0208 外均未发现表达或表达量极低。A组和R组成员均未发现基序9 的存在,这一基序中3 个氨基酸(GSS)之前被认为在单糖基转移酶中高度保守[21]。
图2 沙棘UGT 家族基因蛋白基序及基因结构的构建Fig.2 Gene structure and architecture of conserved protein motifs in UGT family genes of sea buckthorn
内含子外显子结构的多样性通常在基因家族的进化中发挥关键作用,并为支持系统发育类群提供了额外的证据[22]。为了进一步了解基因结构,对沙棘UGT 的内含子外显子结构进行了分析。在本研究鉴定的89 个UGT 基因中,45 个UGT 基因含有内含子(50.6%),其中,40 个UGT 基因有1 个内含子,5 个UGT 有2 个内含子。G组、P组和F组成员大多具有较长的内含子插入。M组、B组和R组成员均不含内含子。
2.4 染色体定位和基因复制分析
在鉴定出的89 个沙棘UGT 中,84 个UGT 被定位于沙棘染色体上。图3 表明:在12 条沙棘染色体中,只有11 条沙棘染色体包含UGT 基因。11 号染色体包含最多的共13 个UGT 家族成员,而7 号染色体中没有UGT 基因存在。12 号染色体含有12 个UGT 基因,10 号染色体包含11 个UGT基因,4 号、8 号和9 号染色体均只含3 个UGT 基因。沙棘UGT 基因在染色体上的这种不平衡分布,说明沙棘在进化过程中存在遗传变异。
为了揭示沙棘UGT 基因家族的扩展和进化机制,对沙棘基因组中潜在的基因复制事件进行了分析。本研究利用MCScanX 软件基于氨基酸序列同源性在沙棘全基因组内进行了比对,发现UGT 基因家族成员中存在12 个串联重复基因簇和11 个共线基因对(图3),这一结果表明,串联重复是导致沙棘UGT 基因家族扩张的主要复制事件。本研究计算了复制基因间的Ka 和Ks 值,其比值均小于1,说明UGT 基因在进化过程中受到纯化选择。
图3 沙棘UGT 基因的染色体分布和基因重复Fig.3 Chromosomal distribution and gene duplications of the HrUGTs
2.5 沙棘UGT 基因在果实不同发育阶段的表达模式
本研究利用两个沙棘亚种果实3 个发育阶段的转录组数据,来进一步了解沙棘UGT 基因的表达模式,结果发现:沙棘各UGT 在种间和时间上的表达表现出显著差异(图4)。La10g1046,La10g2527和La3g0035 只在中国沙棘果实中微量表达,在蒙古沙棘果实中不表达。La2g0165,La3g0199 和La1g2297 则表现相反;而La9g0469 在蒙古沙棘果实中高表达,在中国沙棘中不表达。La5g0668在两个亚种不同发育时期均高表达。La11g2592、HrUGT0002、La12g1442 等基因在两个亚种果实中表达较高且随着果实发育表达量逐渐升高。大多数UGT 基因主要在果实发育的前期或中期表达量较高,而在果实发育后期表达量降低。
图4 沙棘UGT 基因在两个亚种不同发育时期的表达模式Fig.4 Expression profiles of HrUGTs in various developmental stages of two sea buckthorn subspecies
从沙棘UGT 基因所处的系统发育分组看,A组中,La5g0208 和La12g2361 两个基因表达水平相对较高,且均随果实发育表达量逐渐降低。相似的,La5g0951 只在果实发育初期表达,而在果实发育的中到后期均不表达。C组中,La11g1107在两个沙棘亚种果实中均不表达,而La12g1442 在两个沙棘中表达量相对较高且主要在果实发育的中后期表达。D组和E组均包含较多的沙棘UGT 基因家族成员,但两组基因的表达模式却有着巨大差异。在D组中,除La2g1189 外,其他10 个基因在中国沙棘中均不表达,这些基因在蒙古沙棘果实中的表达水平也相对较低甚至不表达。而在E组中,除La9g0469 在中国沙棘果实中不表达,其余基因在两个沙棘亚种果实中均有一定程度的表达。La11g0447 和La11g0570 在两个沙棘亚种果实中表达量相对较高,La11g0447 在蒙古沙棘中表达量随着果实发育先升高后降低,而在中国沙棘中表现出相反的趋势;La11g0570 在中国沙棘中随着果实发育表达量逐渐降低,而在蒙古沙棘果实中的表达水平先小幅升高,在果实成熟时下降到较低水平。F组成员在沙棘果实中除前期有少量表达外,其余时期表达水平较低或不表达。G组中,La12g0737表达量整体较高,在两个沙棘亚种果实中均表现为随着果实发育表达量先升高后降低;La2g2279 在中国沙棘果实中有着较高的表达水平,且随着果实发育表达量逐渐升高,而在蒙古沙棘果实发育末期表达量下降到较低水平。L组中,La10g1081 和La10g1082 均在果实发育中期表达量较高,且蒙古沙棘高于中国沙棘;HrUGT0002 随着果实发育表达量逐渐增加,且与发育初期相比HrUGT0002 在蒙古沙棘果实成熟期的表达水平提高了16.7 倍,而在中国沙棘中达到了25 倍。J组和R组中的沙棘UGT 基因在果实发育的各个时期均有相对较高的表达水平,H组、I组、K组、M组和N组中各成员在沙棘果实中表达量均相对较低。
本研究对部分表达差异较大的沙棘UGT 利用实时荧光定量PCR 进行验证,结果(图5)表明:在蒙古沙棘中HrUGT0002、La2g0900、La9g0469和La11g2592 均随果实成熟表达量逐渐上升,而La2g3104、La10g1923、La12g2361 总体呈下降趋势,La11g0447 和La11g0570 基因则在果实发育的中期表达较高。总体来看,实时荧光定量PCR 结果与转录组结果基本一致。
图5 沙棘UGT 基因在果实不同发育时期的实时荧光定量PCR 分析Fig.5 Expression analysis of selected HrUGTsin various developmental stages using RT-qPCR.
3 讨论
为了从功能上对沙棘UGT 进行鉴定,通过系统发育分析将鉴定到的89 个沙棘UGT 基因聚类为16 个组。沙棘中的UGT 基因约占沙棘全基因组基因总数的0.29%,低于桃(0.6%)[23]和拟南芥(0.44%)[11],高于石斛(0.28%)[24]和玉米(0.23%)[12]的UGT 基因占比。A组、L组、D组、G组和E组被认为是高等植物进化过程中进化最快的分组[15],在沙棘中这些分组包含了最多的UGT 基因家族成员,这一结果与Ren 等[24]和Cui 等[13]的研究高度一致。A组中的多数UGT 被鉴定为能够催化类黄酮糖苷再次糖基化的糖基转移酶[25-27],本研究发现,沙棘UGT 家族A组成员均不含单糖基转移酶中高度保守的C 端GSS 基序,这一结构特征也暗示着沙棘UGT 家族A组成员可能和多糖基类黄酮糖苷的生物合成存在重要联系。O组和Q组在沙棘中未发现有成员存在,这两个分组最早在玉米中鉴定出来[12]并被认为可能与细胞分裂素的糖基化有关。La12g1195、La11g1196 和La5g0668 被划分为UGT95 亚家族,这一亚家族在山柳兰中首先被鉴定出来,能够催化木犀草素和槲皮素的3′-OH 基团和山萘酚的7-OH 基团糖基化[28]。在石榴[29]和茶树[13]中均发现了UGT95 亚家族成员的存在,Cui 等将其划为R组[13],在本研究中延续了这一分组的划分。
在鉴定到的89 沙棘UGT 基因中,有84 个基因被定位到染色体上。这些基因在染色体上通常成簇存在且表现出较高的序列相似性,这一特征与石斛和棉花表现一致[24,30]。本研究基于序列相似性和基因间距鉴定出12 个串联重复基因簇和11 个共线基因对,证明串联重复是导致沙棘UGT 基因家族扩张的主要复制事件。内含子的位置、丢失和获得可以作为了解基因家族在系统发育类群内进化的重要指标。超过一半(50.6%)的沙棘UGT 有内含子插入,低于玉米(60%)[12]和拟南芥(58%)[11]的内含子数量。利用MEME 在线工具来搜索UGT 蛋白之间共享的保守基序,共发现了10 个不同的保守基序,其中,在所有鉴定的UGT 中都发现了编码UGT 结构域的基序1。这些基序在组间有着显著差异,特别是R组和A组均不含在其他分组中普遍存在的基序9。这些特定的基序可能会导致沙棘UGTs 功能的分化。
了解基因的时空表达模式有助于推测基因的功能。在蒙古沙棘中,48 个UGT 基因在果实发育过程中表达(FPKM >1),在中国沙棘中这一数字为51。R组3 个成员表达量在两个亚种果实发育时期均较高。除La9g0469 外,E组成员在两个亚种果实中均有不同程度的表达。La9g0469 在中国沙棘中不表达,而在蒙古沙棘中高表达,且随着果实发育表达量逐渐上升,这种特异性的表达可能对两个亚种果实中代谢物组成造成一定影响。
4 结论
本研究在沙棘全基因组范围内鉴定获得89 条含有UGT 保守结构域的HrUGTs 蛋白序列,并划分为16 个系统发育分组。同一分组内沙棘UGT 具有相似的蛋白基序和基因结构,但在组间存在着巨大差异。沙棘UGT 家族在进化过程中受到纯化选择。沙棘UGT 基因家族成员在两个沙棘亚种和果实不同发育阶段的表达模式具有显著差异。沙棘UGT 基因家族的表达模式和生物信息学分析将为进一步鉴定沙棘类黄酮糖基转移酶功能和催化机理奠定基础。