建泽泻与川泽泻转录组测序及泽泻三萜生物合成分析
2022-11-03汪丽娜蔡碧雅黄鸣清吴水生
汪丽娜,彭 琴,蔡碧雅,黄鸣清,许 文,吴水生
(福建中医药大学药学院,福建 福州 350122)
泽泻为泽泻科植物东方泽泻Alisma orientale(Sam.)Juzep.或泽泻Alisma plantago-aquaticaLinn.的干燥块茎,具有利水渗湿、泄热、化浊降脂的功效,临床主要应用于小便不利、水肿胀满、热淋涩痛等[1]。泽泻主产于福建、四川、江西、广西等省,福建泽泻因其质佳,素有“建泽泻”之称[2-3],其基原为东方泽泻Alisma orientale(Sam.)Juzep.;四川为“川泽泻”,其基原为泽泻Alisma plantago-aquaticaLinn.。泽泻是大宗药材,其主要药效成分为三萜类化合物[4-5],如泽泻醇 A、泽泻醇 B、23-乙酰泽泻醇 B、23-乙酰泽泻醇C 等成分[6-7]。现代药理研究表明,泽泻中三萜成分具有利尿、抗动脉粥样硬化、免疫调节等活性[8-9]。
随着分子生物学的快速发展,通过转录组测序技术(RNA-Seq)获得基因信息并进行生物信息学分析的方法应用广泛[10-11]。利用高通量测序技术对RNA 反转录成的cDNA 文库进行测序,以期获得特定组织或细胞中表达的转录本及其表达水平[12]。RNA-Seq 在中草药功能基因鉴定、次生代谢调控等方面发挥重要作用[13-14],目前在药用植物葫芦巴、黄参、泽泻等中均有报道[15-17]。本研究采用高通量测序技术首次对建泽泻与川泽泻全生长阶段(包括花前、花中、花后、果前、果中、果后)的全植株(包括根、茎和叶)进行转录组测序,结合生物信息学分析,以期获得建泽泻与川泽泻的转录组注释信息、三萜类成分生物合成基因及简单重复序列(SSR)信息,为泽泻生长发育和三萜类活性成分生物合成的分子调控机制提供参考依据。
1 材料与方法
1.1 实验材料
1.1.1 实验药物 药用植物建泽泻和川泽泻采自南平市农业科学研究所,并由福建中医药大学范世明高级实验师鉴定为泽泻科植物东方泽泻Alisma orientale(Sam.)Juzep.和泽泻Alisma plantago-aquaticaLinn.,采集建泽泻、川泽泻全生长阶段(包括花前、花中、花后、果前、果中、果后)的全植株(包括根、茎和叶)样品于液氮中速冻并置于-80 ℃冰箱中保存。
1.1.2 实验试剂 RP3201 总RNA 快速提取试剂盒(北京百泰克生物技术有限公司);RK20400 cDNA第一链合成试剂盒(湖北爱博泰克生物科技有限公司);引物(上海生物工程股份有限公司);琼脂糖(上海碧云天生物技术有限公司);EB 缓冲液(北京雷根生物技术有限公司)。
1.1.3 实验仪器 Nanodrop 2000 超微量分光光度计(美国NanoDrop 公司);Agilent 2100 生物分析仪(美国Agilent 公司);7900HT 荧光定量PCR 仪(湖北爱博泰克生物科技有限公司);DYCP-31E 琼脂糖水平电泳仪(北京六一生物科技有限公司);HVE-50 高压灭菌锅(华粤行仪器有限公司)。
1.2 RNA 提取、检测 通过Trizol 法分别提取建泽泻、川泽泻全生长阶段全植株的总RNA,利用超微量分光光度计检测RNA的纯度,使用生物分析仪检测RNA 的完整性。用带有Oligo 的磁珠富集mRNA,加入打断试剂将mRNA 打成短片段,以其为模板,合成cDNA 的第一条链;加入缓冲液、脱氧核糖核苷三磷酸、核糖核酸酶H 和DNA 聚合酶合成第二条链;使用试剂盒纯化加缓冲液后做末段修复,加多聚腺苷酸并连接测序接头,用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR 扩增构建测序文库。将检测合格的RNA 委托上海人类基因组研究中心进行测序。
1.3 转录组测序与数据组装 本实验采用Trinity 2.0.6 软件对2 个转录组进行组装,并对得到的转录本(Transcripts)、单基因簇(Unigene)、碱基、N50 大小以及GC 含量进行统计分析。
1.4 基因功能注释及SSR 检测 采用BLASTX 法将测序得到的Unigene 提交至蛋白质序列数据库(SwissProt,http://www.ebi.ac.uk/swissprot/)、蛋白质家族集合数据库(Pfam,http://pfam.xfam.org/)、信号肽预测数据库(SignalP,http://www.cbs.dtu.dk/services/SignalP/)、蛋白跨膜区信号肽预测数据库(TMHMM,http://www.cbs.dtu.dk/services/TMHMM/)、基因本体论数据库(GO,http://www.geneontology.org)、蛋白质直系同源簇数据库(COG,http://www.ncbi.nlm.nih.gov/COG)和京都基因与基因组百科全书数据库(KEGG,https://www.kegg.jp/)进行比对分析,从而获得有关功能基因的注释信息。使用微卫星识别工具(MISA)软件对获得的Unigene 进行SSR 位点挖掘。
2 结 果
2.1 转录组测序及质量评价 通过Illumina HiseqTM2500 高通量测序,建泽泻、川泽泻的原始序列分别有 112 559 910、86 442 594 条。数据过滤后,2 个样品平均剩余94.02%的高质量序列,GC 含量均为44.53%,且碱基质量值Q30 都在90%以上,说明测序质量良好,见表1。
表1 测序数据统计表
2.2 转录组组装与分析 利用Trinity 软件对上述的高质量序列进行组装,建泽泻获得186 733个Transcripts和 167 109 条 Unigene,川泽泻得到 171 526 个Transcripts 和 152 757 条 Unigene,本实验两样品的N50 均超过800 bp,表明序列完整性及测序正确率良好,见表2。对Unigene的长度分布特征进行分析,两样品所占比例最大的Unigene 为200~500 bp,≥1 000 bp 的Unigene 约占15.00%。结果表明,Unigene 的整体长度分布均匀,组装序列完整性较好,便于后续的分析,见图1。
表2 建泽泻与川泽泻的转录本和单基因簇数据组装
图1 建泽泻与川泽泻Unigene 长度分布
2.3 基因功能注释及分类 基于BLASTX 算法将Unigene 比对到 SwissProt、Pfam、SignalP、TMHMM、COG、GO、KEGG 数据库。建泽泻共注释 53 566 条Unigene,其中注释数目最多的是KEGG 数据库,有22 695 个Unigene 获得同源匹配信息,占比42.37%;川泽泻共注释49 448 条Unigene,在KEGG 库中有19 124 个Unigene 获得同源匹配信息,匹配比例为38.67%。以下为建泽泻与川泽泻在7 个数据库中的注释结果,见表3。
表3 在7 个数据库中的注释结果[条(%)]
2.4 GO 注释及分类 将建泽泻与川泽泻的Unigene 在GO 数据库中进行功能分类,见图2。其功能可分为三大类:生物过程(biological process)、分子功能(molecular function)和细胞组分(cellular component),这三类功能包含30 个亚类。在生物过程的大类中,最具代表性的是DNA 集成(DNA integration),注释数量最多;分子功能大类中最多聚集于锌离子结合(zinc ion binding),在细胞组分的大类中细胞核(nucleus)和膜的有机组成(integral component of membrane)占比最高,建泽泻与川泽泻在GO功能分类中有相似的特点。
图2 建泽泻与川泽泻GO 功能分类图
2.5 COG 注释及功能分类 通过对Unigene 进行COG 注释及功能分类,这些基因分属于24 个功能类别,见图3。建泽泻与川泽泻在不同功能分类中有共同的特点,其中可移动基因组:原噬菌体,转因子(mobilome:prophages,transposons)基因数量最多;其次是翻译、核糖体结构及生物起源(translation,ribosomal structure and biogenesis)和信号转导机制(signal transduction mechanisms);RNA 加工与修饰(RNA processing and modifications)、细胞骨架(cytoskeleton)所占Unigene 最少。但从图中可知还有部分未知功能的Unigene,有待进一步研究验证。
图3 建泽泻与川泽泻COG 功能分类
2.6 KEGG 功能注释及泽泻中三萜类成分生物合成相关基因鉴定 对建泽泻和川泽泻的Unigene 进行KEGG 代谢通路富集分析,分别有 22 695、19 124 条Unigene 被注释,与萜类生物合成相关的基因涉及5 个次生代谢通路,建泽泻与川泽泻分别有276、241 条Unigene 参与其中。建泽泻中Unigene 数量最多的代谢通路是萜类化合物骨架生物合成(terpenoid backbone biosynthesis,ko00900)、泛醌和其他萜类醌生物合成(ubiquinone and other terpenoid-quinone biosynthesis,ko00130),各有89 条;其次为二萜类生物合成(diterpenoid biosynthesis,ko00904),有61 条;倍半萜和三萜生物合成(sesquiterpenoid and triterpenoid biosynthesis,ko00909)与单萜生物合成(monoterpenoid biosynthesis,ko00902)最少,分别有13 和24 条。川泽泻中Unigene 数目最多的是萜类化合物骨架生物合成,有84 条;泛醌和其他萜类醌生物合成、倍半萜和三萜生物合成次之,各为72、45 条;单萜生物合成与二萜类生物合成最少,分别是23、17 条。
根据KEGG 数据库的注释,见图4,结合泽泻中已经被报道的三萜类成分,推测泽泻的生物合成途径,乙酰辅酶A(acetyl-CoA)在羟甲基戊二酰辅酶A 合酶(3-hydroxy-3-methylglutaryl CoA synthetase,HMGS)、羟甲基戊二酰辅酶A还原酶(hydroxy methyl glutaryl-CoA reductase,NADPH)、甲羟戊酸激酶(mevalonate kinase,MK)、甲羟戊酸磷酸激酶(mevalonic acid phosphate kinase,MAPK)、焦磷酸甲羟戊脱羧酶(pyrophosphomevalonate decarboxylase,MVD)催化下经过多步反应生成焦磷酸法尼酯(farnesyl-PP),然后焦磷酸法尼酯在法尼基焦磷酸合酶(farnesyl-diphosphate synthase,FPPS)催化下生成前喹啉(presqualene-pp),其通过角鲨烯合酶(naringenin 3-dioxygenase,SQS)生成角鲨烯(squalene),随后在角鲨烯环氧酶(squalene epoxidase,SE)催化下生成骨架类型为原萜烷型的泽泻三萜,见图5。
图4 建泽泻与川泽泻三萜类生物合成途径KEGG 注释图
图5 建泽泻与川泽泻三萜类潜在生物合成途径图
2.7 SSR 分析 利用MISA 软件对建泽泻与川泽泻Unigene 进行SSR 分析,发现检测的序列总长度分别为33 731 649、29 651 576 bp,各有4 263、3 725 个SSR,见表4。建泽泻与川泽泻单碱基重复的SSR数量最多,有 1 871、1 672 个,其中 A/T 类型的比例最高,分别是 1 668、1 488 个;五碱基重复 SSR 最少,均为6 个,见表 5。
表4 建泽泻与川泽泻SSR 分析结果统计
表5 SSR 重复类型分布
3 讨 论
研究表明,泽泻不同部位均含有活性的萜类成分,但不同采收期泽泻萜类成分的积累与质量存在差异[18-20]。秦霞等[17]已对建泽泻、川泽泻、窄叶泽泻的幼嫩叶片进行了高通量测序,表明泽泻SSR数量及类型较为丰富。但目前关于不同生长时期不同部位的建泽泻与川泽泻转录组研究尚未见报道,故本实验选择建泽泻与川泽泻全生长阶段(包括花前、花中、花后、果前、果中、果后)全植株(包括根、茎和叶)进行第二代转录组测序。利用Trinity软件组装,建泽泻获得186 733 个Transcripts 和167 109 条 Unigene,川 泽 泻 得 到 171 526 个 Transcripts 和 152 757 条 Unigene,组装结果质量评估可从N50 数值来评估(一般认为N50≥800 bp 的序列组装完整性较好)。本实验两样品的N50 均超过800 bp,且碱基质量值Q30(碱基正确识别率达99.9%)均在90%以上,表明序列完整性及测序正确率较好。将测序得到的Unigene 在7 个数据库中进行注释,建泽泻注释53 566 条Unigene,川泽泻共注释49 448 条Unigene。其中,注释数目最多为KEGG 数据库,有 22 695、19 124 条;在 GO 数据库中各注释 3 451、3 348 条 Unigene;在 COG 数据库中注释2 519、2 391 条Unigene,其中仍有部分未知功能的Unigene,有待进一步研究验证。
通过KEGG 通路富集分析,与萜类生物合成相关的基因涉及5 个次生代谢通路,建泽泻与川泽泻分别有276、241 条Unigene 参与其中。泽泻的主要药效成分为三萜类化合物,如泽泻醇A、泽泻醇B、23-乙酰泽泻醇B、23-乙酰泽泻醇C 等成分。根据KEGG 数据库的注释,筛选出与三萜类成分合成相关的酶,主要包括 HMGS、NADPH、MK、MAPK、MVD、FPPS、SQS、SE,这些发现对挖掘其次生代谢物的生物合成途径关键基因提供了数据基础。
分子标记技术被广泛应用于植物研究的各个领域,其中SSR 是目前应用较为广泛的一种标记技术。对建泽泻与川泽泻进行SSR分析,挖掘到4 263、3 725 个SSR 位点,其在6 种不同的碱基重复类型中均有分布,单碱基重复的SSR 数量最多,有1 871、1 672 个,其中单碱基A/T 重复类型的比例最高。上述结果为深入开发泽泻SSR 分子标记提供理论基础。
本研究对建泽泻与川泽泻进行转录组测序,获得了大量的转录本序列信息,利用生物信息学对测序得到的Unigene 进行功能注释、代谢通路富集分析及SSR 位点的研究,初步揭示了不同生长时期、不同部位建泽泻与川泽泻转录组的整体特征,为研究泽泻的生长发育及其活性成分生物合成的分子调控机制提供参考。