苗药八爪金龙转录组测序与次生代谢产物合成相关基因的挖掘
2021-03-09俸婷婷刘雄伟丁晶鑫
刘 畅,俸婷婷,,刘雄伟,丁晶鑫,石 慧,潘 婕,周 英,*
1.贵州中医药大学药学院,药食两用资源应用与开发研究中心,中药材开发技术研究中心,贵州 贵阳 550025
2.贵州省药食同源植物资源开发工程技术研究中心,贵州 贵阳 550025
八爪金龙Ardisia crispa(Thunb.) A.DC.是紫金牛科紫金牛属植物,药用部位为根,别名朱砂根、百两金、八爪龙、八爪根、铁雨伞、高八爪、开喉箭等,该药材在贵州分布广、蕴藏量大,被苗族奉为喉科良药;具有清热解毒、散瘀止痛、祛风除湿之功效,用于治疗咽喉肿痛、扁桃体炎、心胃气痛、劳伤吐血、跌扑损伤、风湿骨痛[1]。现代药理表明八爪金龙具有镇痛、抗炎、抗癌、抗关节炎、抗白血病[2-5]等作用,是苗药验方开喉剑喷雾剂的主要成分[6]。
八爪金龙含有三萜苷类、黄酮类、异香豆素、叶绿素、挥发油、三萜类、酚类、醌类、强心苷、有机酸、鞣质、氨基酸、糖类等多种化学成分[7-10]。其中香豆素类的岩白菜素为其主要有效成分,黄酮类物质,如汉黄芩素、千层纸素、汉黄芩素、黄芩苷[11]与岩白菜素协同起到止咳化痰的作用。随着研究的深入,发现三萜苷或苷元类化合物是其主要化学成分和活性成分,目前已经从八爪金龙中分离得到28 个三萜皂苷或皂苷元类成分[12-14]。但目前对八爪金龙的研究主要集中在化学成分[15]、药理活性[16-17]、分子鉴别[18]等方面,而对八爪金龙次生代谢成分分子生物合成相关基因发掘和利用却鲜有报道。
转录组高通量测序技术逐渐成为研究药用植物天然活性成分生物合成相关功能基因挖掘及其表达规律的重要手段,如青蒿Artemisia carvifoliaBuch.-Ham.ex Roxb.Hort.Beng.[19]、西洋参Panax quiquefoliumL.[20]、人参Panax ginsengC.A.Meyer[21]、金银花Lonicera japonicaThunb.[22]等均已经完成了转录组测序分析,积累了一批与药用次生代谢产物合成调控相关的基因。八爪金龙作为一种民族药,具有重要的应用价值,但其功能基因研究基础十分薄弱。因此,本研究利用Illumina Hiseq 测序平台对八爪金龙根进行转录组测序,以期获得与其有效成分合成相关的基因信息,为进一步挖掘与克隆八爪金龙新的功能基因奠定基础。
1 材料与方法
1.1 材料
苗药八爪金龙根部样品采于贵阳花溪区,经贵州中医药大学魏升华教授鉴定为苗药八爪金龙A.crispa(Thunb.) A.DC.。取八爪金龙根部用锡箔纸包裹并标记好后放置于液氮中冷冻,冻存于−80 ℃冰箱备用,用于后续 RNA的提取。
1.2 RNA 的提取及测序
将样品在冰上融化后粉碎,充分混匀并离心,取适量上清,用Trizol 试剂分离提取总RNA,用Oligotex mRNA 试剂盒对RNA 进行纯化。利用Aglient 2100 检测RNA 样品的浓度和完整性,12 个苗药八爪金龙RNA 样品均满足转录组测序的建库要求。满足建库要求的RNA 样品送至北京百迈克生物科技有限公司,使用Illumina HiSeq 4000 平台进行转录组测序。
1.3 数据过滤及组装
对转录组测序得到原始测序数据(raw reads)后进行数据过滤,去除掉低质量、包含接头和未知碱基N 含量过高的reads,得到高质量测序数据(clean reads)。利用Trinity 软件[23]对clean reads进行重头组装,用cd-hit 软件去除完全一样的序列,然后使用tgicl 进行聚类,合并相似度大于90%,overlap 长度大于35 的序列,最后得到Unigenes。
1.4 Unigenes 的注释和分类
使用BLAST[24]软件将Unigenes序列与非冗余蛋白序列(NCBI non-redundant protein sequences,NR)、注释和修订蛋白序列数据库(a manually annotated and reviewed protein sequence database,Swiss-Prot)、基因本体论(gene ontology,GO)、直系同源蛋白簇(clusters of orthologous groups,COG)、真核同源群簇(clusters of euKaryotic orthologous groups,KOG)、京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)[25-31]数据库比对;使用KOBAS3.0[32]得到Unigenes在KEGG中的KEGG Orthology 结果;预测完Unigenes 的氨基酸序列之后使用HMMER 软件[33]与Pfam(protein family)[34]数据库比对,获得Unigenes 的注释信息。
1.5 基因表达量分析
采用Li 等[35]将测序得到的reads 与Unigenes库进行比对,根据比对结果,结合RSEM(RNA-Seq by Expectation Maximization)[36]进行表达量水平估计。利用FPKM(fragments per kilobase of transcript per million mapped reads)[37]值表示对应Unigenes的表达丰度。FPKM 是每百万reads 中来自比对到某一基因每千碱基长度的reads 数目,是转录组测序数据分析中常用的基因表达水平估算方法。FPKM 能消除基因长度和测序量差异对计算基因表达的影响。
1.6 SSR 位点分析
利用鉴定单重复序列的软件 MISA(microsatellite identification tool)对转录组数据中的Unigenes 进行SSR 位点的检测。按照单碱基、双碱基、三碱基重复分别至少12、6、5 次,四碱基、五碱基、六碱基都不少于4 次的标准进行检索分析。最后对获得的SSR 数据进行分类统计分析。
2 结果与分析
2.1 转录组测序与序列组装
利用Illumina HiSeq 4000 测序平台对12 个苗药八爪金龙根部样品进行转录组测序,共获得89.73 Gb 高质量的clean reads,其Q30平均值达到95.05%,平均每个样品的GC 含量占总碱基数的45.78%(表1)。利用Trinity 对clean reads 进行序列组装,共获得52 249条Unigenes,总长度为75 282 082 nt,平均长度为1440 nt,N50为2336 nt,组装完整性较高。长度分布在300~500 nt 的Unigenes 最多,有15 065 条,占Unigenes 总数的28.83%;长度大于1000 nt 的Unigenes 有25 190条;长度大于2000 nt 的Unigenes 有13 283 条,占Unigenes 总数的25.42%。
表1 样品测序数据统计Table 1 Transcriptome data output quality
2.2 序列比对及基因注释
对52 249 条Unigenes 进行COG、GO、KEGG、KOG、Pfam、SwissProt、eggNOG、NR 8 大数据库比对。结果表明共有31 391 条Unigenes 被注释到数据库中,占全部Unigenes 的60.07%;其中NR数据库中注释到的Unigenes 最多,有31 179 条,占总Unigenes 的59.67%;其次是eggNOG 数据库,注释到29 953 条Unigenes(57.32%);COG、GO、KEGG、KOG、Pfam 和SwissProt 数据库,分别注释到10 988(21.03%)、19 195(36.73%)、12 775(24.45%)、18 741(35.86%)、22 793(43.62%)和22 173(42.43%)条Unigenes。Unigenes 注释同源基因的物种分布如图1所示,在相似序列匹配度较高的物种中,葡萄Vitis viniferaL.所占比例最高,3717 条;其次为栓皮栎Quercus suberBl.(1334 条)、油橄榄Olea europaeaL.(1002 条)、咖啡CoffeacanephoraL.(960 条)、核桃Juglans regiaL.(928条)、芝麻Sesamum indicumL.(902 条)、胡萝卜Daucus carotaLinn.var.sativaHoffm.(640 条)、橡胶树Hevea brasiliensis(Willd.ex A.Juss.) Muell.Arg.(634 条)、可可Theobroma cacaoL.(631 条)、荷花Nelumbo nuciferaGaertn.(546 条),其他匹配物种的Unigenes 为19 848 条。
图1 八爪金龙转录组Unigenes 与NR 数据库匹配物种分布Fig.1 Species distribution of A.crispa transcriptome Unigenes against NR database
2.3 Unigenes 的KOG 分类
对苗药八爪金龙转录组数据进行KOG 数据库功能注释和分类,共有18 741 条Unigenes 被注释到25 种KOG 分类中,有4339 条Unigenes 被注释到“一般功能预测(general function prediction only)”,是注释最多Unigenes 的类群,占总数的23.15%;其次是“翻译后修饰,蛋白质周转,伴侣(posttranslational modification,protein turnover,chaperones)”2197 条,“信号转导机制(signal transductionmechanisms)”1632 条,“翻译,核糖体结构和生物发生(translation,ribosomal structure and biogenesis)”1252 条。注释到“碳水化合物运输和代谢(carbohydrate transport and metabolism)”类群的Unigenes 有1075 条,803 条Unigenes 注释到“脂质转运与代谢(lipid transport and metabolism)”,729条Unigenes 注释到“氨基酸转运与代谢(amino acid transport and metabolism)”,546 条Unigenes 注释到“无机离子转运与代谢(inorganic ion transport and metabolism)”,681 条Unigenes 注释到“次生代谢物的生物合成、运输和分解代谢(secondary metabolites biosynthesis,transport and catabolism)”(图2)。
2.4 Unigenes 的GO 和KEGG 分析
利用GO 数据库对Unigenes 进行功能注释,19 195条Unigenes 被注释到细胞组成(cellular component),分子功能(molecular function)和生物过程(biological processes)3 大类。在细胞组成中Unigenes 主要聚集在细胞(cell)和细胞部分(cell part)2 个类群,分别注释了8902 和8875 条;分子功能中聚集最多的2 个类群是催化活性(catalytic activity)和结合蛋白(binding),分别注释到9627和8961 条Unigenes;在生物过程中聚集最多的2个类群是代谢过程(metabolic process)和细胞过程(cellular process),分别注释了10 006 和9388 条Unigenes(图3)。
通过KEGG 数据库对八爪金龙Unigenes 进行注释,共注释到128 个KEGG 标准代谢通路。按照基因注释量大小依次排序,选取前20 个代谢通路(表2),主要注释到代谢通路(metabolic pathways)、次生代谢生物合成(biosynthesis of secondary metabolites)、核糖体(ribosome)、碳代谢(carbonmetabolism)、氨基酸生物合成(biosynthesis of amino acids)、内质网蛋白加工(protein processing in endoplasmic reticulum)、剪接体(spliceosome)、RNA 转运(RNA transport)、植物激素信号转导(plant hormone signal transduction)等通路。
图2 八爪金龙转录组的KOG 功能分类Fig.2 KOG functional classifications of A.crispa transcriptome
图3 八爪金龙转录组的GO 功能分类Fig.3 GO functional classifications of A.crispa transcriptome
表2 八爪金龙转录组Unigenes KEGG 通路分析统计Table 2 KEGG functional classifications of A.crispa transcriptome
2.5 八爪金龙次生代谢生物合成途径相关酶的鉴定
KEGG 通路分析发现Unigenes 参与苯丙素、萜类、黄酮类、类胡萝卜素、玉米素、生物碱等生物合成相关的18 个次生代谢通路(表3)。苯丙素的生物合成代谢通路(ko00940)Unigenes 数量最多,为126 条;萜类化合物骨架生物合成(ko00900)Unigenes 数量次之,为73 条;与黄酮类化合物生物合成(ko00941)有关的Unigenes 有58 条;其他萜类化合物生物合成(ko00130)的Unigenes 数量有52 条;类胡萝卜素生物合成(ko00906)相关的Unigenes 数量有51 条;分别有30、30、28、20、18、14、12、6、6 条Unigenes 参与玉米素生物合成(ko00908),莨菪烷类、哌啶、吡啶生物碱生物合成(ko00960),异喹啉类生物碱生物合成(ko00950),倍半萜和三萜类化合物生物合成(ko00909),核黄素代谢(ko00740),二萜类生物合成(ko00904),油菜素内酯生物合成(ko00905),单萜类生物合成(ko00902)以及黄酮和黄酮醇生物合成(ko00944)。咖啡因代谢(ko00232)、柠檬烯和蒎烯降解(ko00903)、芥子油苷生物合成(ko00966)和花青素生物合成(ko00942)通路基因数量较少。
表3 八爪金龙转录组Unigenes 次生代谢KEGG 通路注释Table 3 Biosynthetic pathway of secondary metabolites involved in major active substances of A.crispa
2.5.1 香豆素生物合成相关基因的挖掘 苗药八爪金龙中与香豆素生物合成相关的代谢通路为苯丙素的生物合成代谢通路(图4)。莽草酸通过苯丙氨酸和酪氨酸等芳香氨基酸,经脱氨、羟基化等一系列反应形成,其中涉及多种酶的参与,苯丙氨酸解氨酶(phenylalanine ammonia-lyase,PAL)、肉桂-4-羟化酶(cinnamate 4-hydroxylase,C4H)和 4-香豆酸-辅酶-A(4-coumarate-CoA ligase,4CL)是这条途径中的关键酶。在八爪金龙转录组数据中,共注释得到126 条Unigenes 注释到苯丙素生物合成代谢通路。编码香豆素生物合成途径的5 种关键酶,包括5 条PAL 序列(最高FPKM=74.58),2 条C4H 序列(最高FPKM=42.90),2 条COMT 序列(最高FPKM=54.82),1 条C3H 序列(最高FPKM=25.32),仅鉴定出来1 条4CL(FPKM=0.23)(表4和图5),因此可以通过增强4CL 基因的表达,以增加整条代谢通路的通量。
2.5.2 黄酮类化合物合成相关基因的挖掘 根据KEGG 途径分析结果,以及八爪金龙化学成分分析结果,并参考相关文献报道[38-40],对八爪金龙中主要黄酮类化合物的生物合成途径作出预测,见图4。在黄酮类成分合成途径中,查耳酮合酶(chalcone synthase,CHS)、查耳酮异构酶(chalcone isomerase,CHI)和黄酮合酶(flavone synthase,FNS)起着重要的作用。八爪金龙黄酮合成途径的上游阶段CHS(最高FPKM=841.87)和CHI(最高FPKM=36.55)基因的表达量相对较高。编码CHS 的Unigenes 数量为9 条,其各条Unigenes 的表达量不同,其Unigene_186235表达量达到841.87(图5)。二氢黄酮3-羟化酶(flavonoid 3-hydroxylase,F3H,最高 FPKM=107.65)可以催化柚皮素/槲皮素生成二氢黄酮醇类,黄酮醇合酶(flavonol synthase,FLS)分别催化二氢黄酮醇类生成黄酮醇,FLS 作为合成各种黄酮醇类的关键酶基因其表达量(最高FPKM=9.65)很低(图5),直接限制了黄酮醇类的合成;柚皮素/槲皮素可以在FNS 生成黄酮类。同时,二氢黄烷醇4-还原酶(dihydroflavonol-4-reductase,DFRA)(最高FPKM=68.43)的高表达致使下游花青素合成支路通量大(图5),间接降低黄酮醇类合成量,为了提高八爪金龙黄酮醇类的含量,也可通过降低抑制二氢黄酮还原酶(dihydroflavonol reductase,DFR)的表达来实现。无色花色素类可以在无色花色素还原酶(leucoanthocyanidin reductase,LAR)作用下可以生成黄烷醇类。根据Unigenes 的KEGG 途径,筛选到可能编码黄酮合成途径酶的一些Unigenes,作为进一步分析的候选基因。
图4 八爪金龙香豆素类和黄酮类物质生物合成途径Fig.4 Main coumarin and flavone biosynthesis pathway in A.crispa
表4 编码香豆素、黄酮类和萜类生物合成相关酶的Unigenes 数量Table 4 Number of Unigenes encoding enzyme involved in coumarin,flavone,and terpenoid biosynthesis
续表4
图5 生物合成关键基因的表达量Fig.5 Expression of key genes in biosynthesis
2.5.3 萜类化合物合成相关基因的挖掘 根据Unigenes 的KEGG 途径聚类结果,其中与萜类合成相关的的代谢通路共有3 条,包括萜类化合物骨架生物合成(terpenoid backbone biosynthesis),其他萜类化合物生物合成(ubiquinone and other terpenoid-quinone biosynthesis)和倍半萜和三萜类化合物生物合成(sesquiterpenoid and triterpenoid biosynthesis),共计143 条Unigenes。萜类化合物均来源于C5 单元构建异戊二磷酸(isopentenyl diphosphate,IPP)及其同分异构体二甲基烯丙基二磷酸(dimethylallyl diphosphate,DMAPP),由甲戊酸(mevanolate,MAV)和甲基赤藓糖醇磷酸(methyl-D-erythritphosphate,MEP)2 个途径合成(图6)。在八爪金龙转录组数据中,共发现14 个Unigenes 可能编码MVA 途径中的关键酶乙酰辅酶A 酰基转移酶(acetyl-CoA acetyltransferase,AACT)、羟甲基戊二酰辅酶A 合酶(3-hydroxy-3-methylglutaryl-CoA synthase,HMGS)、3-羟基-3-甲基戊二酰辅酶 A 还原酶( 3-hydroxy-3-methylglutaryl coenzyme A reductase,HMGR),甲羟戊酸激酶(mevalonate kinase,MVK)和甲羟戊酸二磷酸脱羧酶(mevalonate diphosphate decarboxylase,MDD)(表4)。但其HMGS 和HMGR 的表达量均不高(图5),HMGS 的最高表达量为11.59,HMGR的最高表达量为6.48,因此可以增强HMGS和HMGR基因的表达,以增加MAV 代谢通路的通量。8 个Unigenes可能编码MEP途径中的1-脱氧-D-木酮糖-5-磷酸合酶(1-deoxyxylulose-5-phosphate synthase,DXS)、1-脱氧-D-木酮糖-5-磷酸还原异构酶(1-deoxy-d-xylulose-5-phosphate reductoisomerase,DXR)、2-C-甲基-D-赤藓糖醇4-隣酸胞苷酸转移酶( 2-C-methyl-D-erythritol 4-phosphate cytidylyltrans ferase,MCT)、4-(胞苷-二磷酸)-2-C-甲基-D-赤藓糖醇激酶(4-diphosphocytidyl-2-C-methyl-D-erythritol kinase,CMK)、4-羟基-3-甲基丁-2-烯基二磷酸还原酶(4-hydroxy-3-methylbut-2-en1yldiphosphate synthase,HDS)、4-羟基-3-甲基丁-2-烯基二磷酸还原酶(4-hydroxy-3-methylbut-2-enyl diphosphatereductase,HDR)(表4)。但其DXR 和MCT 的表达量较低(图5),DXR 的最高表达量为0.65,MCT 的最高表达量为3.95,较低的表达量可能限制了MEP 途径的合成。萜类化合物均来源于C5 单元构建IPP 及其同分异构体DMAPP,同时催化中间体产生所需的酶,在八爪金龙转录组数据中均找到编码相应酶的候选基因,其中包括 6 个牛儿基焦磷酸合酶(geranylgeranyl diphosphate synthase,GGPPS)、4个法尼基二磷酸合酶(farnesyl diphosphate synthase,FPS)、2 个鲨烯合酶(squalene synthase,SQS)、2 个鲨烯环氧酶(squalene epoxidase,SQE)、2 个β-香树脂合成酶(beta-amyrin synthase AS,β-AS)等(表4)。
图6 八爪金龙萜类物质生物合成途径Fig.6 Main terpenoid biosynthesis pathway in A.crispa
2.5.4 次生代谢后修饰酶 骨架形成后需要经过母核的氧化、糖基化等后修饰的反应才能形成结构各异的成分,在萜类、黄酮、生物碱等次生代谢物的衍生修饰过程中,细胞色素P450(cytochrome P450,CYP450)和糖基化转移酶(UDPglycosyltransferase,UGT)主要起催化氧化/羟基化和糖基的重要作用。通过搜索八爪金龙转录组Swiss-Prot 数据库注释结果,共找到 140 条Unigenes 被注释为CYP450,隶属于24 个CYP450家族,其中CYP71 家族的Unigenes 最多(22 条),其次是CYP94 和CYP704,分别为15 条和14 条。113条Unigenes 被注释为UGT,隶属于24 个UGT 亚家族,包括16 条UGT85,14 条UTG73,10 条UTG80,9 条UTG89 和8 条UTG74 等。对各个样品中基因表达量进行聚类表达分析,结果如图7所示,其中 CYP450 家族 FPKM 值较高的有CYP72A219(FPKM =206.71)、CYP704C1( FPKM =131.60) 和 CYP94A1( FPKM =131.18),UTG 家族FPKM 值较高的有UGT92A1(FPKM=278.69)、UGT73C3(FPKM=171.20)和UGT89B1(FPKM=125.18)。
图7 次生代谢后修饰酶CYP450 和UGT 表达模式聚类热图Fig.7 Heat map of differential gene expression of CYP450 and UGT
2.5.5 其他次生代谢产物生物合成通路 八爪金龙中还含有生物碱和内源性激素等生长调节物质,根据KEGG 代谢通路分析结果,有2 条代谢通路可能参与八爪金龙生物碱合成代谢途径,包括30 条Unigenes 参与莨菪烷类、哌啶、吡啶生物碱生物合成,28 条Unigenes 参与异喹啉类生物碱生物合成。分别有51、30、1 条Unigenes 参与类胡萝卜素、玉米素、花青素等的生物合成。
2.6 转录因子分析
转录因子能够激活或抑制植物次生代谢产物生物合成途径中功能基因的表达,从而调控次生代谢产物合成积累。根据各种转录因子的隐马氏模型文件,利用HMMER 3.0 软件对八爪金龙转录组数据进行搜索。结果显示八爪金龙转录组数据预测共有1265 个Unigenes 被注释为转录因子,分属于64种转录因子类型。最多的转录因子类型是MYB类(v-myb avian myeloblastosis viral oncogene homolog ) ( 125 个),AP2/ERF-ERF 类(APETALA2/ethylene-responsive factor)(105 个),锌指蛋白C2H2 类(Cys2His2)81 个,bHLH 类( basic helix-loop-helix ) 78 个,NAC 类(NAM/ATAF/CUC)66 个,WRKY 类64 个,C3H类(Cys3-His)61 个,bZIP 类(basic leucine zipper)类55 个,GRAS 类[根据GAI(gibberellic acid insensitive),RGA(repressor of GA1-3 mutant)和SCR(scarecrow)的特征字母而来]48 个,。MYB 转录因子基因家族与类黄酮生物合成紧密相关。
2.7 转录组序列中的SSR 分析
利用MISA 软件对八爪金龙转录组Unigenes 进行SSRs 分析,共发现17 400 个SSR 位点,SSR 序列总长度为308 795 bp,包括1245 个复合型SSR 和16 155 个完美型SSR,分布在12 334 条Unigenes 中,其发生频率与分布频率分别为48.96%和69.07%,1条Unigene 中最多分布7 个SSR。单碱基重复SSR 共8628 条(53.41%),双碱基重复SSR 共5937 条(36.75%),三碱基重复SSR 共1403 条(8.68%),四碱基、五碱基、六碱基重复SSR 总共为187 条(1.16%)。八爪金龙转录组SSR 重复单元的重复次数主要分布在5~36 次,SSR 重复单元主要以5~14 次的重复为主,共有14 937 个SSR 位点,占总重复单元的92.46%;15~36 次的重复有12 186 个SSR 位点,占SSR 总数的8%以下;20 次以上的重复次数最少,仅有20 个SSR 位点,并且以单碱基重复为主(图8)。
图8 八爪金龙转录组SSR 不同重复类型和重复次数的数量分布Fig.8 Quantitative distribution of different motif lengths and repeats in SSR of A.crispa transcriptome
3 讨论
本研究运用Illumina HiSeq 4000 高通量测序平台对八爪金龙进行转录组测序,获得了52 249条Unigenes,平均长度为1440 nt,N50为2336 nt。基因功能注释结果显示31 391 条Unigenes 被成功注释到数据库中,占全部Unigenes 的60.07%。18 741 条Unigenes 被注释到25 种KOG 类群中,其中注释到“次生代谢物的生物合成、运输和分解代谢”类群的Unigenes 有681 条;KEGG 路径注释结果显示八爪金龙中Unigenes 主要参与萜类、生物碱、黄酮类等生物合成相关的18 个次生代谢通路。近年来,大量药用植物的生长发育状态和次生代谢产物合成机理通过转录组分析得到阐明,八爪金龙注释信息的完成为基因组信息缺乏的八爪金龙次生代谢产物的生物合成的研究提供了新的方向。
PAL 在植物的次生代谢尤其是在苯丙烷类代谢中有关键作用,为连接初级代谢和苯丙烷类代谢、催化苯丙烷类代谢途径第一步反应的酶,是苯丙烷类代谢的关键酶和限速酶[41],该基因在植物中为多拷贝基因[42-43]。Koukol 等[44]1961年首次从高等植物中成功分离并纯化,目前已在多种植物中测到PAL 基因的序列。本研究在八爪金龙中共鉴定出5 条PAL 序列,其中主要表达的序列有1 条(FPKM=74.58),PAL 家族一般仅少量基因表达其余同源基因沉默[45-46]。八爪金龙黄酮合成途径的上游阶段4CL 基因的表达量相对较低,4CL是苯丙氨酸途径中的关键性限速酶,香豆酸在4CL的作用下形成香豆酰-CoA[47]。但实验也发现通过转录组测序鉴定出6 条4-香豆酰CoA 连接酶类似物Unigenes,可能增强4CL 基因的表达,增加了整条代谢通路的通量。二氢黄酮类化合物能在IFS 酶的催化下将芳香基团从2 位向3 位转移生成异黄酮类化合物[48]。但在八爪金龙中未鉴定到IFS 酶,目前八爪金龙中也没有发现异黄酮类物质。八爪金龙中黄酮类代谢通路中,二氢黄酮类化合物可能通过FNS 合成黄酮类,或者通过F3H 合成二氢黄酮醇类物质。
八爪金龙三萜类物质是其次生代谢产物的重要组成部分,而其含量和组分又主要取决于生物合成关键酶以及在细胞中的表达水平。植物中三萜类物质的生物合成的前体是由MVA 途径和MEP 途径共同合成的IPP 或其异构体DMAPP[49]。在八爪金龙转录组的KEGG 注释中,共筛选到143 个参与三萜合成上游部分基因,分别属于MVA 途径和MEP途径的各个环节。整个过程涉及多个酶,因此关键酶的确定至关重要。
CYP450 是植物体内一类超基因家族编码的单加氧酶,具有广泛的催化活性,能够催化多种初级和次级代谢反应,主要用于涉及萜类、生物碱类、甾醇类、黄酮类、异黄酮等的合成和代谢反应等[50-51]。在八爪金龙的转录组中总共有140 个Unigenes 被注释为CYP450 基因。UDP-糖基转移酶( uridine diphosphate-glycosyl-transferases,UGTs)参与次生代谢产物合成的最后阶段,对于生物活性成分终端产物的多样性、稳定性和结构修饰具有重要意义[52]。在本研究八爪金龙的转录组中总共有113条Unigenes被注释为UGTs。八爪金龙药用部位是根,药材采挖过程中地上茎、叶及花部则弃之不用。如何结合不同部位次生产物合成及积累特点进行新药用部位的开发研究,合理利用资源,值得深入探讨。下一步将选择相关关键酶基因,基于qRT-PCR 进行系统的定量表达分析,并开展不同部位八爪金龙黄酮类、三萜类物质合成和积累等相关基础性研究工作。
转录组测序技术可以从合成途径入手,从整体水平上了解各个酶与产物的关系,从而克服单个酶的表达与产物关系的局限性。本研究对八爪金龙进行转录组学研究,构建八爪金龙转录组数据库,极大地丰富了八爪金龙的基因资源,为更深入地研究八爪金龙次生代谢合成及调控提供基础数据,为阐明八爪金龙的次生代谢合成机制奠定了基础。同时SSR 分子标记可以用来分析八爪金龙的遗传多样性、构建遗传图谱和分子标记辅助育种等。
利益冲突所有作者均声明不存在利益冲突