中泰南五味子转录组测序及生物信息学分析
2022-10-13李静宇徐友阳蔡时可王继华
李静宇,徐友阳,蔡时可,王继华
(1.广东省农作物遗传改良重点实验室,广东省农业科学院作物研究所,广东 广州 510640;2.广东省道地南药资源保护与利用工程中心,广东 广州 510640;3.广东清远和记黄埔有限公司,广东 清远 526070)
中泰南五味子(Kadsura ananosmaKerr)为五味子科南五味子属攀缘植物,属于离蕊南五味子亚属。南五味子,味酸甘、性温,归肺、心、肾经,具有收敛固涩、益气生津、补肾宁心的功效,用于治疗久嗽虚喘、梦遗滑精、遗尿尿频、久泻不止、自汗、盗汗、津伤口渴、短气脉虚、内热消渴、心悸失眠[1-3]。最早记载于《神农本草经》,被列为上品[4]。
对中泰南五味子化学成分的研究发现,其含有较多的木脂素类和三萜类成分。木脂素类成分主要为联苯环辛烯类木脂素类化合物anano lignin A-N,而联苯环辛烯类木脂素是南五味子属和五味子属的特征性成分[5-6]。研究也发现不同种、药用部分和产区的南五味子中木脂素含量和种类差异较大[7-9]。三萜类成分主要为羊毛甾脂烷型三萜类化合 物kadnanosic acid A-B、ananosic acid B-C、kadnanolactone A-I和R、schisanlactone F、micrandilactone B-C和wuweizidilactone H[8-9]。现 代药理学研究发现,南五味子除了具有抗炎、保肝作用外,还有一定的抗氧化、抗肿瘤和抗HIV活性作用[8,10-11]。但是,有关中泰南五味子木脂素类和三萜类等药用成分生物合成分子机制的研究较为少见。
转录组学是植物功能基因组学研究的重要基础,能够在整体水平上研究基因转录表达变化趋势及调控规律,挖掘关键基因,解析药用活性成分合成代谢通路[12]。中泰南五味子基因组学研究相对薄弱,其转录组学的研究尚未见报道。因此,本研究开展中泰南五味子的转录组测序及生物信息学分析,以期为解析中泰南五味子药用物质合成关键基因的挖掘和调控以及开发分子标记提供遗传学基础,现将研究结果报道如下。
1 材料与方法
1.1 实验材料中泰南五味子转录组测序材料在广东省农业科学院作物研究所南药资源圃采集,取样时间为2021年5月,采集健壮植株的叶片和嫩茎,用锡箔纸包裹并迅速浸入液氮处理20 min,置于超-80℃冰箱保存备用。
1.2 中泰南五味子RNA的提取中泰南五味子总RNA采用康为世纪的Total RNA Extractor试剂盒进行提取,然后通过1%凝胶电泳检测所提取RNA的完整性。采用Invitrogen Qubit®2.0荧光计及试剂盒(Fluorometer Life Tech Invitrogen,Q32886)对 总RNA进行定量。
1.3 转录组测序与拼接组装委托北京百迈客生物科技有限公司采用Illumina HiSeq 2500高通量测序平台进行转录组测序。测序得到的原始数据,通过FastQC软件进行质量评估和Trimmomatic质量剪切,过滤掉接头、低质量的序列(reads长度小于35 nt的reads)、带N碱基的序列、低质碱基(Q值<20),得到高质量的clean data[13]。使用Trinity软件对clean data进行de novo拼接组装,再采用RSeQC(RNA-seq data QC)软件去除转录本中的冗余序列,得到Unigene[14]。
1.4 基因功能注释将组装长度在200 bp以上的中泰南五味子Unigene在保守域数据库(Conserved Domain Database,CDD)、真 核 同 源 数 据 库(Eukaryotic Orthologous Groups,KOG)、非冗余数据库(Non-redundant Database,NR)、核酸序列数据库(Nucleotide Sequence Database,Nt)、蛋白结构域预测数据库(Protein Families Database of Alignments and Hidden Markov Models,PFAM)、Swissprot和TrEMBL等多个数据库中进行功能注释。根据转录本与数据库比对结果和Transdecoder进行编码序列预测。根据Unigene与SwissProt、TrEMBL的注释结果,分析得到基因本体论(Gene Ontology,GO)功能注释信息,利用京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes Database,KEGG)自 动 注 释 服 务 器(KEGG Automatic Annotation Server,KAAS)得到KEGG注释信息。
1.5 基因结构分析对长度在1 000 bp以上的中泰南五味子Unigene使用微卫星识别工具(Microisatellite Identification Tool,MISA)软件鉴定简单序列重复(SSR)位点,并利用Primer 3.0软件(http://primer3.sourceforge.net/releases.php)设计相应SSR引物[15]。
2 结果与分析
2.1 转录组测序与de novo组装中泰南五味子cDNA文库的构建由北京百迈客生物科技有限公司完成,并利用Illumina HiSeq 2500测序平台测序。使用Trimmomatic对原始测序数据进行处理,去掉含有带接头、低质量的序列,共得到21 545 302 clean reads,总碱基数目为6 430 141 426 bp,GC含量为47.16%,Q30 bases ratio达到94.61%,表明文库构建质量良好,测序得到的数据准确可靠。使用Trinity将clean reads进行de novo组装成转录本,共得到68 573条转录本,总长86 867 930 bp,平均长度为1 267 bp,N50为1 769 bp,序列长度大于等于500 bp的有51 596条,占总序列数目的75.24%,序列长度在1 000 bp以上的有33 601条,占总数的49.00%。见表1。对Trinity拼装得到的转录本去冗余,共获得29 915条Unigene,总长30 888 944 bp,平均长度为1 033 bp,N50为1 554 bp,其中18 629条序列长度大于等于500 bp,占总序列数目的62.27%,序列长度在1 000 bp以上的有10 747条,占总数的35.93%。见表1、图1。
表1 中泰南五味子转录组测序结果Table 1 Transcriptome sequencing results of Kadsura ananosma Kerr
图1 中泰南五味子Unigene序列长度分布Figure 1 Length distribution of the unigene sequences of Kadsura ananosma Kerr
2.2 Unigene功能注释见表2。中泰南五味子组装后的Unigene序列与CDD、KOG、COG、NR、Nt、PFAM、SwissProt、TrEMBL等多个数据库比对,共有22 359条Unigene在至少1个数据库中获得功能注释。其中,NR数据库中注释到的Unigene数目最多(21 231条),占总Unigene的95.0%,其次为TrEMBL数据库,注释到的Unigene为21 099条,占94.4%。COG数据库中注释到的Unigene数目最少(5 863条,26.2%)。通过与NR库的比对,获得中泰南五味子Unigene序列与近缘种属的近似情况并获得同源序列的功能信息,共有21 231条Unigene获得注释。匹配较多的物种主要有Nelumbo nucifera,Cinnamomum micranthum,Macleaya cordata,Amborella trichopoda和Nymphaea colorata,分 别占16.88%,15.65%,9.07%,8.78%和3.40%。可见中泰南五味子与荷花(Nelumbo nucifera)的序列相似度最高。见图2。
图2 非冗余数据库(NR)数据库的同源物种分类Figure 2 Classification of homologous species in the NR database
表2 中泰南五味子Unigene的功能注释Table 2 Functional annotation of unigenes of Kadsura ananosma kerr
2.3 KEGG功能注释根据KEGG数据库注释结果,共有14 284条Unigene涉及五大类功能,包括代谢、遗传信息过程、细胞过程、环境信息过程和有机系统。Unigene共涉及137条代谢通路。见图3。在有机系统中,涉及植物-病原相互关系通路的Unigene最多有497条,其次为植物昼夜节律通路共涉及90条Unigene;在代谢中,涉及碳代谢、淀粉和蔗糖代谢和氨基酸生物合成的Unigene最多,分别包含368、309和287个基因;在遗传信息过程中,注释到Unigene最多的3个代谢过程为核糖体、内质网中的蛋白质加工和剪接体,分别包含343、298和277个基因;在环境信息响应过程中,涉及到植物激素信号转导、MAPK信号通路和ABC转运通路的基因最多,分别包含425、325和120条Unigene;在细胞过程中,内吞作用、吞噬体和过氧化物酶体通路中包含基因数目最多,分别包含249、117和114个基因。南五味子中包含三萜、木脂素、挥发油和多糖等多种功能活性成分。本研究鉴定到181条Unigene涉及苯丙烷类生物合成,38条Unigene涉及倍半萜类和三萜类生物合成,24条Unigene涉及二萜类生物合成,17条Unigene涉及单萜类生物合成,75条Unigene涉及萜类骨架生物合成,59条Unigene涉及泛醌和其他萜-醌生物合成通路。这些与功能性物质合成相关Unigene的鉴定,为进一步解析中泰南五味子药用成分的生物合成提供了可能。
图3 中泰南五味子Unigene的京都基因与基因组百科全书(KEGG)功能分类Figure 3 Functional classification of KEGG from the Kadsura ananosma Kerr unigenes
2.4 GO功能注释GO数据库是全面描述生物体中基因及其产物属性的分类系统,主要分为生物过 程(Biological process)、细 胞 组 分(Cellular component)及分子功能(Molecular funtion)三大类。根据GO数据库注释结果,共有18 084条中泰南五味子Unigene注释成功,其中,生物过程中包含100 068条Unigene,细胞组分中包含46 406条Unigene,分子功能中包含39 806条Unigene。见图4。这些Unigene总共被划分为43个功能分类,其中:分子功能中的ATP结合注释到的Unigene最多,共有2 259条;细胞组分中的膜的组成成分和细胞组分GO条目中注释到的Unigene较多,分别为4 261和2 237条;生物过程大类中的生物过程GO条目最多,包含2 262条Unigene。这些通路与中泰南五味子的生长发育和药用成分的合成密切相关。
图4 中泰南五味子Unigene的基因本体论(GO)功能分类Figure 4 GO functional classification of Kadsura ananosma Kerr unigenes
2.5 编码序列(CDS)分析对中泰南五味子转录组所有Unigene的CDS序列进行预测,通过Blast比对共获得CDS序列9 843个,其中长度大于200 bp的占66.26%。见图5。
图5 中泰南五味子Unigene的编码序列(CDS)长度分布Figure 5 CDS length distribution of assembled unigenes of Kadsura ananosma Kerr
2.6 SSR分析采用MISA对组装长度为1 000 bp以上的10 747条Unigene进行SSR检测,并对SSR的类型和密度进行统计。结果表明,在3 560条Unigene中共鉴定到6 363个SSR位点。其中,2 127条Unigene中检测到2个及以上的SSR位点,632条Unigene中检测到3个复杂重复类型的SSR位点。最丰富的重复类型是双碱基重复,共检测到1 495个位点,其次为单碱基重复1 433个、三碱基重复605个、四碱基重复16个、六碱基重复5个和五碱基重复6个位点,见图6。
图6 中泰南五味子Unigene的简单序列重复(SSR)位点密度分布Figure 6 Density distribution of SSR loci of Kadsura ananosma Kerr unigenes
3 讨论
转录组分析可以为系统解析药用植物代谢途径提供支撑。植物体内存在复杂的基因调控网络,植物细胞中几乎所有活动都被基因网络所控制[16]。依托大数据分析能力的进步,通过对高通量测序数据构建的基因及代谢网络数据库预测并挖掘新的生物合成网络及途径基因和分子标记开发上的应用越来越广泛[12]。本研究基于Illumina HiSeq 2500高通量测序平台对中泰南五味子叶片进行转录组测序,共获得6.43 Gb Clean Data,经过mRNA片段化随机性检验、插入片段长度检验、转录组测序数据饱和度检验等转录组测序文库质量评估,其中Q30 bases ratio达到94.61%,GC含量为47.16%,结果表明,中泰南五味子转录组测序数据质量较好,可信度高。通过de novo组装,共获得68 573条转录本,其中序列长度大于等于500 bp的有51 596条,共获得29 915条Unigene,平均长度为1 033 bp,N50为1 554 bp,表明中泰南五味子转录组序列组装质量较高。对Unigene进行功能注释发现22 359条Unigene至少在一个公共数据库中获得注释。其与荷花(Nelumbo nucifera)和沉水樟(Cinnamomum micranthum)亲缘关系最为接近。通过KEGG功能注释,共鉴定到181条Unigene涉及苯丙烷类生物合成,38条Unigene涉及倍半萜类和三萜类生物合成,24条Unigene涉及二萜类生物合成,17条Unigene涉及单萜类生物合成,75条Unigene涉及萜类骨架生物合成,59条Unigene涉及泛醌和其他萜-醌生物合成通路。本研究结果为解析中泰南五味子中药用活性成分木脂素、三萜等的合成通路提供了基础[17-18]。
SSR分子标记引物的开发是进行SSR分子标记研究的前提条件。利用转录组结果鉴定EST-SSR比非编码序列更加容易,提高了遗传多样性和分子标记辅助育种研究的准确性。随着技术的发展,开展中药材的分子鉴定研究和应用十分必要[19]。目前,SSR标记已广泛应用于甘草、铁皮石斛、枸杞等中药材的遗传图谱构建[20-21]。本研究共检测到6 363个SSR位点,其中双碱基重复最多,共检测到1 495个位点,与既往研究的中药溪黄草、肇实和黄金艾蒿类似[22-24]。本研究结果为中泰南五味子SSR分子标记的开发和解析中泰南五味子药用活性成分合成通路及分子生物学研究提供了基础的遗传信息,也有利于其保护和利用。