基于转录组测序的山茱萸次生代谢生物合成相关基因的挖掘
2017-03-25朱畇昊董诚明郑晓珂冯卫生刘孟奇
朱畇昊+董诚明+郑晓珂+冯卫生+刘孟奇+赵乐
[摘要]为探讨山茱萸中环烯醚萜等次生代谢产物合成的遗传基础,采用新一代高通量测序技术对其果实进行转录组测序,共获得得96 032条unigenes,平均长度59053 bp;其中共有35 478条unigene能被NR,Swissprot,COG,GO,KOG,Pfam和KEGG等7个公共数据库注释。通过对注释所得的unigene进行KEGG代谢通路的分析发现,共有84个unigene与环烯醚萜类成分的生物合成有关;487条unigene参与山茱萸其他次生代谢相关物质代谢调控。研究发现,共有153条unigene参与山茱萸次生代谢产物的氧化/羟基化;72条unigene参与次生代谢产物的糖基化。该研究首次对山茱萸转录组进行了分析,并获得了山茱萸环烯醚萜类等次生代谢生物合成相关的候选基因,为山茱萸的分子生物学研究提供了丰富的数据资源,也为后续探讨候选基因的功能奠定了基础。
[关键词]山茱萸; 转录组; 次生代谢
Transcriptome analysis reveals genes involved in biosynthesis of
secondary metabolism in Cornus officinalis
ZHU Yunhao, DONG Chengming, Zheng Qiaoke, FENG Weisheng, LIU Mengqi, ZHAO Le*
(Collaborative Innovation Center for Respiratory Disease Diagnosis and Treatment & Chinese Medicine
Development of Henan Province, School of Pharmacy, Henan University of Traditional
Chinese Medicine, Zhengzhou 450046, China)
[Abstract]In order to explore genetic basis for the biosynthesis of secondary metabolism,the transcriptome of Cornus officinalis was sequenced by the new generation of highthroughput sequencing technology,A total of 96 032 unigenes were assembled with an average length of 59053 bp Among them, 35 478 unigenes were annotated in the public databases NR,Swissprot,COG,GO,KOG,Pfam and KEGG Based on the assignment of KEGG pathway, 84 involved in ridoid biosynthesis and 487 unigenes involved in others secondary metabolites biosynthesis were found Additionally,53 unigenes and 72 unigenes were predicted to have potential functions of cytochome P450 and UDP glycosyltransferases based on the annotation result, which may encode responsible for secondary metabolites modification This study was the first comprehensive transcriptome analysis for C officinalis, and the candidate genes involved in the biosynthesis of secondary metabolites were obtained The transcriptome data constitutes a much more abundant genetic resource that can be utilized to benefit further molecular biology studies on C officinalis
[Key words]Cornus officinalis; transcriptome; secondary metabolites
山茱萸Cornus officinalis Sieb et Zucc为山茱萸科多年生落叶乔木或灌木,其成熟干燥果实入药具有补益肝肾、收敛固涩的功效,常用于眩晕耳鸣、肝虚寒热等症。现代药理学研究表明,山茱萸具有免疫抑制、血糖调节、 抗血小板聚集、抗菌、抗炎等作用[1],而其果实中富含的山茱萸苷、马钱苷、莫诺苷等环烯醚萜类及黄酮、三萜类等次生代谢产物可能是其发挥上述药理作用的物质基础。虽然山茱萸在化学和药理学研究方面[12]已有了广泛的研究,但其活性成分代谢途徑的研究较少,次生代谢生物合成相关基因的研究还未见报道。
目前,以边合成边测序为核心的新一代高通量测序方法具有快递、转确率高、成本低、通量高等显著优点,已被广泛应用于药用植物的转录组学研究中[34]。转录组是指生物体的细胞或组织在特定的状态下基因组所转录的全部mRNA,它能够提供全部基因的表达信息和蛋白质的功能、相互作用的信息。药用植物转录组研究提供了一种快速、高通量、全面解读药用植物基因组信息的全新技术手段,也为药用植物次生代谢生物合成途径的关键酶的挖掘、药用植物次生代谢成分的生物合成途径与调控、药用植物种质资源收集与评价、探索中药材道地性形成的分子机制提供了新的思路和方法。目前,已有丹参[5]、人参[6]、黄花蒿、[7]、红豆杉[8]等大量的药用植物已经完成了基于高通量测序的转录组学研究,转录组学研究已经成为挖掘与克隆新的功能基因、探讨基因功能和构建药用植物分子标记不可或缺的手段之一[3]。
1材料与方法
11试验材料及RNA提取试验材料采集于河南宛西药业股份有限公司南阳西峡山茱萸GAP种植基地,选取长势良好的健康果实,经液氮速冻后保存于实验室超低温冰箱中备用。采用Trizol 法提取果实的总RNA,用于转录组测序。分别采用Nanodrop,Qubit 20,Aglient 2100方法检测RNA样品的纯度、浓度和完整性等,以保证使用合格的样品进行转录组测序。
12转录组测序及数据组装使用上述检测合格后的总RNA样品进行文库构建。库检合格后,使用Illumina HiSeq2500测序平台进行高通量测序,测序读长为PE125。测序得到的原始图像数据经碱基识别转化为原始读序,所有的原始读序(raw reads)通过去除接头、重复序列、低质量的序列,得到干净读序(clean reads)。使用Trinity 拼接干净读序得到重叠群(contigs)。在所有的转录本中,取最长的contig作为该转录本的转录本(unigene)。
13功能注释通过BLAST比对软件将所获得的山茱萸unigene序列与NR(Nonredundant Protein Sequence Database in GenBank,NCBI非冗余蛋白质数据库),SwissProt(SwissProt Protein Sequence Database),GO(Gene ontology),COG (Clusters of Orthologous Groups),KOG(Cluster of Orthologous Groups of proteins),KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库比对。使用KOBAS20得到unigene在KEGG中的KEGG Orthology中的注释结果,预测完unigene的氨基酸序列之后使用HMMER软件与Pfam数据库比对,获得unigene的注释信息。
2结果与分析
21测序与组装结果通过 Illumina HiSeq 2500 技术对山茱萸果实进行转录组测序,共获得25 812 447个raw reads,经过测序质量控制,得到650 Gb clean data,Q30碱基达到9106%,GC量为4513%。mRNA片段化随机性检验发现,mRNA片段化随机性较高,样品不存在严重降解现象。使用Mapped Reads对检测到的基因数目的饱和情况进行模拟发现,转录组测序数据饱和度较高,检测到的基因数目会趋于饱和,能够满足后续分析研究的要求。
采用Trinity 软件对序列进行拼接,共获得3 840 190条contigs,其中,长度200~300的contigs序列有3 775 745条,占总体的9832%,其分布特征符合Illumina测序的预期结果,可为后续的数据组装提供原始数据。在contigs数据的基础上,进一步对序列进行组装,共获得96 032个unigenes,序列总长度为56 709 909 bp,平均长度为59053 bp,N50为937 bp。长度在200~300 bp 的unigenes数量最多,占总基因数的4643%。Unigenes长度分布在300~500 bp的有23 7986条,占總体的2478%;分布在500~1 000 bp的有13 975条(1789%),占总体的1455%;长度分布在1 000~2 000 bp的有8 678条,占总体的904%;unigenes 长度超过2 000 bp的有4 997,占总体的520%,见表1。
22Unigene功能注释通过选择BLAST参数Evalue不大于1×10-5和HMMER参数Evalue不大于1×10-10,最终获得35 478(3694%)个能被注释的unigene,见表2。其中35 036 个(3648%)unigene 在SwissProt 数据库中可找到相似序列;20 727
朱畇昊等:基于转录组测序的山茱萸次生代谢生物合成相关基因的挖掘个(4328%)unigene 在SwissProt 数据库中可找到相似序列,60 554个(6306%)unigene 不能被已有数据库注释。
Unigene 在Nr 数据库相似序列匹配的近缘物种中,葡萄Vitis vinifera所占比例最高(9 697条,2769%),随后依次是可可Theobroma cacao,1 781条,509%、莲Nelumbo nucifera,1 636条,467%、咖啡Coffea canephora,1 521条,434%、芝麻Sesamum indicum,1 353条,386%、谷子Setaria italica,1 157条,330%、绒毛烟草Nicotiana tomentosiformis,1 089条,263%、美花烟草N. sylvestris,921,263%、甜橙Citrus sinensis、842条,240%、巨桉Eucalyptus grandis,831条,237%和其他物种(14 195条,4053%)。
23GO分类GO(gene ontology)提供了一套动态更新的标准词汇表来全面描述生物体中基因和基因产物的功能属性,共有分子功能(molecular function)、细胞组分(cellular component)和生物学过程(biological process)3大类,各自描述了基因产物可能行使的分子功能,以及所处的细胞环境和参与的生物学过程。在本研究中,共有20 846(2171%)条unigenes 得到了GO注释。所有具有GO分类信息的unigenes 被分配到98 331 条GO 条目下,包括细胞组分(19 158个),分子功能(34 461个)和生物学过程(44 712个)。所有的匹配序列被进一步富集为52个功能类别,其中,代谢进程(metabolic process,12 294 个)、细胞进程(cellular process,11 630 个)、结合活性(binding,11 620个)、催化活性(catalytic activity,11 325个)、细胞部分(cell part,8 920个)、单有机体过程(singleorganism process,8 570 个)等功能组中包含的unigene较多,而转运活调节性(translation regulator activity,1个)、细胞杀伤(cell killing,3个)、病毒颗粒(virion part,4个)、蛋白标签(protein tag、4个)、胞外基质部分(extracellular matrix,5个)功能组中包含的unigene 较少,见图1。
24COG 相关功能分类COG(clusters of orthologous groups)数据库是对基因产物进行同源分类的数据库,是一个较早的识别直系同源基因的数据库,通过对多种生物的蛋白质序列大量比较而来的。将山茱萸unigene与COG 数据库进行比对,预测unigene功能并进行分类统计。研究结果表明,山茱萸unigene根据其功能大致可分为25类。unigene涉及的COG功能类别比较全面,其中,一般功能预测类基因最多(2 300个);其次是复制、重组和修饰类基因(1 425个)、转录类基因(1 141个)、信号转导类基因(1 013个)和翻译、核糖体结构和生物合成类基因(893个);而核结构类基因(5个)和细胞运动类基因(8个)较少;未发现胞外结构类基因,见图2。
25KEGG分析KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是系统分析基因产物在细胞中的代谢途径以及这些基因产物功能的数据库。将KEGG pathway数据库作为参考,可将11 554个unigene定位到126个具体的代谢途径分支,其中核糖体相关基因共有569个;碳代谢相关基因共有457个;氨基酸生物合成相关基因共有400个;内质网中蛋白质加工相关基因共有361个;淀粉和蔗糖代谢相关基因共有312个,而万古霉素抗性、咖啡因代谢、花青素生物合成相关基因较少,仅分别有2,3,4条。
26山茱萸环烯醚萜苷生物合成相关基因的鉴定山茱萸中含有马钱苷、山茱萸苷、莫诺苷、獐芽菜苷等多种环烯醚萜苷类成分,可能是其发挥降血糖、免疫抑制、抗炎等生物活性的物质基础[2]。环烯醚萜苷类成分的生物合成途径可分为异戊烯焦磷酸(IPP) 与二甲烯丙基焦磷酸(DMAPP)前体形成;牻牛儿基二磷酸(GPP)、法尼基焦磷酸(FPP)、牻牛儿基牻牛儿基二磷酸(GGPP)等萜类骨架构建和羟基化、糖基化等后修饰反应等3个阶段[9]。其中前2个阶段研究已经比较透彻,且为所有萜类化合物的共有途径,而后修饰反应的多样性最终决定了萜类产物结构的多样性。前人研究表明,在不同的物种中,IPP与DMAPP生物合成途径基本是一致的,都可以通过定位于细胞质中的甲羟戊酸(mevalonic acid,MVA)途径和定位于质体中的甲基赤藓醇4磷酸(methylerythritol phosphate,MEP)途径合成[10]。通过对山茱萸注释所得的unigene进行KEGG代谢通路的分析,共有55个unigene映射到萜类骨架合成通路上(KO00900),编码萜类骨架合成途径中的17个关键酶,包括羟甲基戊二酰辅酶A合成酶(HMGS)、甲基戊二酰辅酶A还原酶(HMGR)等6个甲羟戊酸途径(MVA)的酶;1脱氧D木酮糖5磷酸合成酶(DXS)、1脱氧D木酮糖5磷酸还原异构酶(DXR)等8个MEP途径的关键酶和牻牛儿基焦磷酸合成酶(GPPS)、法尼基焦磷酸合酶(FDPS)、牻牛儿基牻牛儿基焦磷酸合酶(GGPS)等3個催化萜类骨架直接前体生产的异戊烯基转移酶,见表3。
香叶醇10脱氢酶(G10H)可催化香叶醇发生羟基化作用形成10羟基香叶醇,而后10羟基香叶醇氧化还原酶(10HGO)催化10羟基香叶醇氧化形成10氧香叶醛。环烯醚萜的生物合成从10氧香叶醛开始分为裂环马钱子苷途径和环形环烯醚萜途径[11]。在裂环马钱子苷途径中,10氧香叶醛可通过以来NADPH的10氧香叶醛环化酶(IRS)的作用形成环烯醚萜,经过几步依赖细胞色素P450的氧化反应和依赖糖基转移酶的糖基化反应合成脱氧马钱子苷酸,进一步甲基化生成甲基马钱子苷,最后由裂环马钱子苷合成酶(SLS)裂环生成裂环马钱子苷。通过查询在unigene在Nr和SwissProt数据库中的注释信息结合KEGG代谢通路的分析,发现有15条可能编码G10H的unigene,6条可能编码10HGO的unigene,2条可能编码IRS的unigene,10条可能编码SLS的unigene,见表3。以上环烯醚萜生物合成途径的相关unigene的获得,为深入开展山茱萸环烯醚萜合成代谢途径及相关功能基因等研究奠定了基础。
27山茱萸其他次生代谢相关基因的鉴定根据KEGG注释结果,共计10条代谢通路中487条unigene可能参与山茱萸其他次生代谢相关物质代谢调控,见图3。其中苯丙素类的生物合成途径(ko00940)所占比例最大,达到4641%,其次是N聚糖的生物合成(ko00510)占986%;莨菪烷、哌啶、吡啶生物碱生物合成(ko00960)占862%;异喹啉生物碱生物合成(ko00950)占801%,而黄酮、黄酮醇(ko00944)和花青素生物合成(ko00942)最少,分别占144%,082%。山茱萸中多种次生代谢相关基因的鉴定暗示着其次生代谢合成的复杂性和化学成分的多样性,为后续再山茱萸中寻找新化合物提供了线索,也为阐明山茱萸功效的物质基础提供了理论基础。
横坐标表示unigene个数。
28山茱萸次生代谢合成中的后修饰酶相关基因的鉴定次生代谢的后修饰主要包括骨架的氧化/羟基化和糖基化,分别由不同超基因家族编码的细胞色素P450单加氧酶和糖基转移酶进行催化[12]。氧化是次生代谢产物合成后修饰中最常见的方式,其中绝大部分依赖细胞色素P450单加氧酶(CYP450)的催化。CYP450能在温和的条件下把底物中的碳氢键进行氧化,进行单加氧反应,从而参与萜类、生物碱、苯丙烷类等多种次生代谢产物的生物合成[13]。通过搜索山茱萸转录组数据在SwissProt数据库的注释结果,共找到153条可能的CYP450,隶属于26个CYP450家族,见表4。属于CYP71家族的unigene最多,有1699%;其次是CYP72,CYP82,CYP714,分别为980%,784%,784%;而CYP73,CYP97,CYP703,CYP711家族仅各有1个unigene。山茱萸转录组中大量CYP450的发现为进一步分析具体CYP450的催化功能,阐述山茱萸次生代谢后修饰氧化反应机制打下了很好的基础。
糖基化是植物次生代谢产物的一种广泛存在的修饰作用。尿苷二磷酸糖基转移酶(UDPglycosyltransferases,UGT)其能催化糖基从UDP糖转移到多种受体[14]。前人已经从山茱萸中分离得到大量的糖苷类物质,如山茱萸苷、马钱苷等[1],而UGT是否参与这些苷类物质的形成尚未清晰。通过搜索山茱萸转录组数据在SwissProt数据库的注释结果,共找到隶属于13个UGT亚家族的72条可能的UGT,其中包括2个UGT71,11个UGT73,12个UGT74,3个UGT76,1个UGT82,10个UGT83,13个UGT86,6个UGT87,1个UGT88,5个UGT89,4个UGT90,3个UGT91,1个UGT92。
3讨论
山茱萸作为常用大宗中药材,随着其在临床及中成药中应用的不断扩大,其化学成分、药理作用等方面的研究也不断深入,但其分子遗传和基因组方面的研究还未见报道,严重影响了山茱萸的次生代谢生物合成的研究及次生代谢产物的开发利用。为了弥补这一空白,本研究利用HiSeq2500技术对山茱萸果实进行转录组测序,经组装以及注释,获得了96 032条unigene 序列,平均长度为59053 bp,N50为937 bp,转录组测序数据饱和度检验表明检测到的基因数目趋于饱和。以上研究结果表明,本次序列组装的效果较好,获得了大量的遗传信息,可满足后续转录组分析的基本要求,且HiSeq2500测序技术可作为批量挖掘山茱萸功能基因的有效手段。
在对获得unigene进行Nr,SwissPro等数据库进行注释后发现,约有6306%的unigene在数据库中无法匹配到已知基因。然而,大量的unigene不能被已知数据库注释这一现象在许多物种的转录组测序结果中均存在,如丹参[5]、虎杖[15]、薯蓣[16]等。推测这可能与部分所得unigene片段较短、山茱萸及其近缘物种基因组研究较少,公共数据库中缺乏属基因组、EST 和蛋白质序列信息、山茱萸中新基因的存在等因素都有关联。
山茱萸中化学成分复杂,主要含有环烯醚萜、三萜、黄酮、有机酸、多糖等多种类型的次生代谢产物,然而对这些次生代谢产物的生物合成途径仍不太清晰,山茱萸中催化这些重要次生代谢产物生物合成的酶及相关基因仍未见报道。本研究通过序列相似性分析及公共数据库比对、注释,共获得环烯醚萜生物合成相关unigene 84条,其他次生代谢产物生物合成相关unigene 487条,并获得具有氧化/羟基化功能的CYP450基因153条;具有糖基化功能的UGT72条。以上山茱萸次生代谢合成相关unigene的获得,为进一步开山茱萸次生代谢生物合成的相关分子机制、山茱萸相关功能基因克隆及功能分析等研究奠定坚实的基础,也为后续开展山茱萸的分子生物学研究提供宝贵的基因数据来源。
[参考文献]
[1]袁菊丽,姜红波 山茱萸的主要化学成分及药理作用[J] 化学与生物工程,2011,28(5):7
[2]张兰桐,袁志芳,杜英峰,等 山茱萸的研究近况及开发前景[J] 中草药,2004,35(8):116
[3]王尧龙,黄璐琦,袁媛,等 药用植物转录组研究进展[J] 中国中药杂志,2015,40(11):2055
[4]吴琼,孙超,陈士林,等 转录组学在药用植物研究中的应用[J] 世界科学技术——中医药现代化,2010,12(3):457
[5]Wenping H, Yuan Z, Jie S, et al De novo transcriptome sequencing in Salvia miltiorrhiza to identify genes involved in the biosynthesis of active ingredients[J] Genomics,2011,98(4):272
[6]Chen S, Luo H, Li Y, et al 454 EST analysis detects genes putatively involved in ginsenoside biosynthesis in Panax ginseng[J]. Plant Cell Rep, 2011, 30(9):1593
[7]Soetaert S S, Neste C, Vandewoestyne M L, et al Differential transcriptome analysis of glandular and filamentous trichomes in Artemisia annua[J] BMC Plant Biol, 2013, 13(1):1
[8]Li S T, Zhang P, Zhang M, et al Transcriptional profile of Taxus chinensis cells in response to methyl jasmonate[J] BMC Genomics, 2012, 13(1):1
[9]Sun P, Song S, Zhou L, et al Transcriptome analysis reveals putative genes involved in iridoid biosynthesis in Rehmannia glutinosa[J] Int J Mol Sci,2012,13(10):13748
[10]Vranova E, Coman D, Gruissem W Network analysis of the MVA and MEP pathways for isoprenoid synthesis[J] Annu Rev Plant Biol,2013,64:665
[11]Miettinen K, Dong L, Navrot N, et al The secoiridoid pathway from Catharanthus roseus[J] Nat Commun, 2014, 5(4):3606
[12]王凌健,方欣,楊长青,等植物萜类次生代谢及其调控[J] 中国科学:生命科学,2013(12):1030
[13]李军玲,罗晓东,赵沛基,等植物萜类生物合成中的后修饰酶[J] 云南植物研究,2009,31(5):461
[14]郭溆,罗红梅,宋经元,等糖基转移酶在植物次生代谢途径中的研究进展[J] 世界科学技术——中医药现代化,2012,14(6):2126
[15]郝大程,马培,穆军,等中药植物虎杖根的高通量转录组测序及转录组特性分析[J] 中国科学:生命科学,2012(5):398
[16]Wang X, Chen D, Wang Y, et al De novo transcriptome assembly and the putative biosynthetic pathway of steroidal sapogenins of Dioscorea composita[J] PLoS ONE,2015,10(4): e0124560
[责任编辑吕冬梅]
[收稿日期]20160801
[基金项目]2014年度河南中医学院省属高校基本科研业务费专项(2014KYYWFZZCX03)
[通信作者]*赵乐,博士,讲师,主要从事分子生物学研究,Email:zhaole1983@126com
[作者简介]朱畇昊,博士,讲师,主要从事药用植物学研究,Email:guxinhan123@163com