APP下载

金毛狗转录组测序及生物信息学分析

2022-06-01蔡时可梅瑜陈炜玲史广生李静宇王继华

广州中医药大学学报 2022年6期
关键词:碱基位点测序

蔡时可, 梅瑜, 陈炜玲, 史广生, 李静宇, 王继华

(1.广东省农作遗传改良重点实验室/广东省农业科学院作物研究所,广东广州 510640;2.广东省道地南药资源保护与利用工程技术研究中心,广东广州 510640;3.广东良田农林科技有限公司,广东清远 526070)

金毛狗[Cibotium barometz(L)J.Sm.]为桫椤目蚌壳蕨科植物,属国家二级保护植物,分布于我国西南和华南地区以及印度、缅甸、泰国和马来西亚等东南亚国家,多生于林下[1-3]。其为根状茎,卧生,粗大,含有挥发油、蕨素类、芳香族化合物、水溶性酚酸类化合物、黄酮类化合物、氨基酸和无机元素等化学成分[4]。其味苦甘、性温,多见于苗、瑶和壮药,又称金狗脊、金扶金、金丝毛和百枝等,为2015 年版《中国药典》(一部)所收录,具有防治骨质疏松、止血、镇痛、抑菌、抗炎和抗风湿等药理活性,茎上的茸毛也具有止血的功能[1,4]。最早在南朝梁代陶弘景《名医别录》记载,金毛狗产地为河北(常山)太行山脉的山谷,但其品种与产地记载十分混乱[1]。目前,金毛狗还没有人工大规模种植,市售金毛狗药材均为野生资源,但由于其受破坏性采集,资源逐渐减少[1]。对其研究大多集中在化学成分的分离鉴定,并鉴定出一些药用的化合物。采用超临界CO2流体萃取,硅胶柱反复层析分离化合物,并通过理化数据和波谱数据确定其有机酸类、(24R)-豆甾4-烯-3-酮、24-亚甲基环木菠萝烷醇、β-谷甾醇和山柰素-3-O-α-L-(4-O-乙酰基)鼠李糖基-7-O-α-L-鼠李糖甙等多种化合物的结构[5-7]。

近年来,植物转录组学技术在分析细胞基因表达及其调控规律,解析药用成分合成代谢通路、挖掘关键基因、开发分子遗传标记等研究中有重要的作用[8]。特别是没有基因组测序物种,由于基因组数据不完整,重要代谢途径的深入挖掘还存在一定的局限,而转录组的分析可以预测和鉴定出相关的功能基因,为药用植物生长发育及次生代谢的分子机制的研究提供基础的基因信息[9]。金毛狗基因组还未公布,其转录组学的研究也还未见报道。为此,本研究开展金毛狗的转录组分析,以期为解析金毛狗药用物质合成关键基因的挖掘和调控以及开发分子标记提供遗传学基础,现将研究结果报道如下。

1 材料与方法

1.1 实验材料实验材料为广东省农业科学院作物研究所南药资源圃栽培的金毛狗,于2021 年5 月份取样,采集健壮植株的叶片,用锡箔纸包裹并在液氮处理20 min,置于-80 ℃冰箱中保存备用。

1.2 金毛狗RNA的提取采用北京康为世纪生物科技有限公司生产的总RNA 提取试剂盒提取金毛狗叶片总RNA,通过1%电泳凝胶检测其完整性,并采用Invitrogen Qubit®2.0 荧光计及试剂盒(Fluorometer Life Tech Invitrogen,Q32886)进 行定量。

1.3 转录组测序与拼接组装转录组测序由北京百迈客生物科技有限公司采用Illumina HiSeq 2500平台完成。通过FastQC 软件对测序得到的原始数据进行质量评估,采用Trimmomatic 过滤掉接头和低质量的Reads(Reads 长度小于35 nt、带N 碱基、Q值<20)得到高质量的Clean Data[10]。使用Trinily软件进行de novo拼接组装获得转录本(Transcript),并采用RSeQC(RNA-seq data QC)软件冗余序列,得到金毛狗转录组的单基因簇(Unigene)[11]。

1.4 基因功能注释将组装长度在200 bp以上的金毛狗Unigene 在核酸序列数据库(Nucleotide Sequence Database,NT),保守域数据库(Conserved Domain Database,CDD),非冗余蛋白数据库(Nonredundant protein database,NR),蛋白结构域预测(Protein families database of alignments and hidden Markov models,PFAM)数据库,蛋白质直系同源簇(cluster of orthologous groups of proteins,COG)数据库,真核生物直系同源组(eukaryotic orthologous groups)数据库和TrEMBL等多个公共数据库中进行比对注释。

1.5 基因结构分析对长度在1 000 bp 以上的金毛狗Unigene使用微卫星识别工具(MISA)软件鉴定简单重复序列(SSR)位点,并利用Primer 3 软件(http://primer3.sourceforge.net/releases.php)设计相应的SSR引物[12]。

2 结果与分析

2.1 转录组测序与de novo组装金毛狗cDNA 文库的构建由北京百迈客生物科技有限公司完成,测序平台为Illumina Hiseq 2500。原始数据质控后共得到35 667 038 条Clean Reads,计10 609 302 958 bp。其中,GC 含量为49.85%,Q30 bases ratio 达到93.71%,表明测序数据准确可靠,质量较好。Clean Reads 进行de novo组装,共得到204 874 条Transcript,267 502 815 bp,平均长度为1 305.69 bp,N50 为2 210 bp。其中:有129 992 条Transcript 的序列长度大于500 bp,占总数的63.45%;1 000 bp以上的则有96 492 条,占总数的47.10%。见表1。Transcript 经过去冗余,共获得87 791 条Unigene,总长度61 264 724 bp,平均长度为697.9 bp,N50为1 262 bp。其中:长度大于500 bp的序列有30 727条,占总序列数目的35%;长度在1 000 bp 以上的有16 318条序列,占总数的18.55%。见表1和图1。

图1 金毛狗Unigene序列长度分布Figure 1 Length distribution of unigenes of the Cibotium barometz(L)J.Sm.

表1 金毛狗转录组测序的结果Table 1 Results of transcriptome sequencing in Cibotium barometz(L)J.Sm.

2. 2 Unigene功能注释见表2。共有33 682(38.37%)条金毛狗Unigene 在CDD、KOG、COG、NR、NT、PFAM、SwissProt、TrEMBL 等多个数据库中获得注释信息。其中:在NR 数据库中有29 303 条,87.0%的Unigene 得到注释,数目最多;其次为TrEMBL 数据库,共有28 744条Unigene,占总数的85.342%;而在COG 数据库中注释的最少(7 525 条,22.34%)。通过与NR 库的比对,金毛狗Unigene 序 列 与 近 缘 种 属 的 Selaginella moellendorffii, Physcomitrium patens, Marchantia polymorpha 和Picea sitchensis 分 别 有10.90% 、9.06%、7.71%和6.69%的序列相同,其中,与江南卷柏Selaginella moellendorffii相似度最高。结果见图2。

图2 NR数据库的同源物种分类Figure 2 Classification of homologous species in the NR database

表2 Unigene 的功能注释Table 2 Functional annotation of assembled unigenes

2.3 京都基因与基因组百科全书(KEGG)功能注释共有20 379 条金毛狗Unigene 在KEGG 数据库中得到注释,包括五大类:代谢(4 099 条,20.11%)、遗传信息过程(2 989 条,14.67%)、细胞过程(577 条,2.83%)、环境信息过程(719 条,3.53%)和有机系统(548 条,2.69%)。根据其代谢过程,可划分为11 个功能分类,共涉及99 条代谢通路。结果见图3。在代谢中,与次生代谢、氨基酸代谢和脂质代谢相关的Unigene 分别为316条(1.55%)、686 条(3.37%)和679 条(3.33%)。在有机系统中,719 条Unigene 涉及环境适应,占3.53%。在遗传信息过程中最多为转录(1 215 条,5.96%)的Unigene,而在细胞过程中,与转运和分解代谢相关的Unigene最多(577条,2.83%)。共检测到562 条Unigene 涉及信号转导,可用于分析金毛狗对信号因子的响应。金毛狗主要含有苯丙烷类、黄酮、类黄酮类、酚类、氨基酸等化学成分,本研究鉴定到184 条Unigene 涉及苯丙烷类的生物合成,80条Unigene涉及类黄酮类物质的生物合成,1 条Unigene 涉及异黄酮生物合成类化合物生物合成,2 条Unigene 涉及黄酮和黄酮醇生物合成,43 条Unigene 与异喹啉生物碱生物合成相关,19 条Unigene 参与甜菜红色素的生物合成,41 条Unigene涉及二苯乙烯类、二芳基庚烷类和姜辣素生物合成,31条Unigene涉及托烷、哌啶和吡啶生物碱的生物合成。

图3 金毛狗Unigene的KEGG功能分类Figure 3 Functional classification of unigenes in Cibotium barometz(L)J.Sm.by KEGG

2. 4基因本体论(GO)功能注释共有25 246 条金毛狗Unigene 在GO 数据库中得到注释,分为生物过程(biological process)、细胞组分(cellular component)及分子功能(molecular funtion)三大类和44 个具体功能分类,包括代谢过程、刺激响应、生物调节和转运活性等。其中:分子功能中的结合注释到的Unigene 最多,共有14 930 条,占59.14%;细胞组分中的细胞骨架和生物过程中的细胞过程注释的Unigene 也较多,分别为14 439和14 219条,与药用成分相关的催化活性为11 380条,抗氧化活性为146条。这些通路与金毛狗的生长发育和药用成分的合成密切相关。结果见图4。

图4 金毛狗Unigene的GO功能分类Figure 4 Gene ontology(GO)functional classification of Cibotium barometz(L)J.Sm.unigenes

2.5 转录因子分析植物转录因子主要调节各种基因表达模式,常见的种类有bHLH、MYB 和NAC 等。通过研究这些转录因子的作用机制是功能基因组学的重要环节。根据金毛狗的Unigene比对结果,共鉴定到2 189 个转录因子,可分为212 个转录因子家族,其中,C2H2 转录因子类的Unigene数量最多,共103条,占总数的4.71%,其次是C3H(90 条,4.12%),bHLH(72 条,3.29%),AP2/ERF-ERF(63条,2.88%),MYB-related(57 条,2.6%),RLK-Pelle_SD-2b(48 条,2.19%)和PHD(47 条,2.15%)等家族。结果见图5。这些转录因子涉及金毛狗的生长发育、次生代谢和合成、环境响应等多种生物学过程。转录因子的分析有利于研究金毛狗的次生代谢物如苯丙烷类、黄酮、类黄酮类等有效成分的生物合成和调控。

图5 金毛狗转录因子分类Figure 5 Transcription factor classification of Cibotium barometz(L)J.Sm.

2.6 SSR分析采用MISA 对组装长度为1 000 bp以上的16 318 条Unigene 进行SSR 检测,并对SSR的类型和密度进行统计。结果表明,在4 605 条Unigene中共鉴定到6 456个SSR位点。其中:856条Unigene 中检测到2 个以上的SSR 位点,占总Unigene 总数的18.59%;352 条Unigene 中检测到430 个复杂重复类型的SSR 位点,占7.64%。最丰富的重复类型是双碱基重复,共检测到2 502个位点,占38.74%;其次为单碱基重复1 411 个,占21.86%;三碱基重复1 150个,占17.81%;四碱基重复27个、六碱基重复15个,最少的为五碱基重复,仅检测到3个位点。结果见图6。基于6 456个SSR 位点,使用Primer 3.0 软件设计引物,为进一步开发金毛狗的遗传标记和近缘种属的遗传图谱提供了基础数据。

图6 金毛狗Unigene的SSR位点密度分布Figure 6 Density distribution of SSR locus for unigenes in Cibotium barometz(L)J.Sm.

3 讨论

随着高通量测序技术的发展,转录组分析数据产出速度快、成本低,在功能基因挖掘和分子标记开发上的应用越来越广泛[8]。本研究基于Illumina HiSeq 2500 高通量测序平台对金毛狗叶片进行转录组测序,共获得10.1 G的Clean Data,经过mRNA 片段化随机性检验,插入片段长度检验,转录组测序数据饱和度检验等转录组测序文库质量评估,其中Q30 bases ratio达到93.71%,GC含量为49.85%,结果表明金毛狗转录组测序数量大,质量高。通过de nove组装,本研究共获得204 874 个长度在200 bp 以上的Transcript,共有87 791 条Unigene,平均长度为697.85 bp,N50 为1 262 bp,表明金毛狗转录组序列组装质量较高。共有33 682 条(38.37%)Unigene 序列在多个公共数据库中获得功能注释,与江南卷柏Selaginella moellendorffii的亲缘关系最为接近。本研究鉴定到184 条Unigene 涉及苯丙烷类的生物合成,80 条Unigene 涉及类黄酮类物质的生物合成,1 条Unigene 涉及异黄酮生物合成类化合物的生物合成,2 条Unigene 涉及黄酮和黄酮醇生物合成,43 条Unigene与异喹啉生物碱生物合成相关,19条Unigene 参与甜菜红色素的生物合成,41 条Unigene 涉及二苯乙烯类、二芳基庚烷类和姜辣素生物合成,31条Unigene涉及托烷、哌啶和吡啶生物碱的生物合成。这也与金毛狗主要含苯丙烷类、黄酮、类黄酮类、酚类、氨基酸等化学成分密切相关[5,13]。这些与次生代谢相关Unigene的鉴定结果,表明了其富含次生代谢相关基因,为明晰金毛狗黄酮类和萜类物质的合成途径和代谢网络提供了数据支撑。

中药材来源广泛,部分品种有多个基源植物,中药材的质量稳定备受产业的关注,药材真伪的鉴定一直以来是研究的重点和难点[14]。金毛狗加工的中药材及饮片混乱现象严重,非正品多为单芽狗脊蕨和蜈蚣草,但三者功效不同[15]。但通过形态、微观结构、薄层层析等普通的传统的鉴定方法很难快速、准确地加以甄别[16]。随着技术的发展,开展中药材分子鉴定的研究和应用十分必要[17]。其中,SSR标记操作简单、重复性好,利用转录组可以开发,并已在甘草、铁皮石斛、枸杞等中药材用于遗传图谱的构建[18-19]。本研究共检测到6 456 个候选的SSR 位点,其中双碱基重复的类型最多,共检测到2 502个位点,随着碱基重复数的增加而在Unigene 上的SSR 位点减少。碱基类型在Unigene 上的分布密度也与其他药用植物,如溪黄草、肇实和黄金艾蒿一致,表明利用金毛狗转录组鉴定的SSR位点可靠[20-22]。转录组的分析为金毛狗SSR 分子标记的开发,用于群体遗传多样性分析、遗传图谱构建和真伪鉴定提供了依据。

综上所述,本研究为解析金毛狗药用成分的次级代谢物质合成通路及分子生物学研究提供了基础的遗传信息,也为金毛狗的保护和利用提供了方法。

猜你喜欢

碱基位点测序
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
两种高通量测序平台应用于不同SARS-CoV-2变异株的对比研究
DNA脱碱基位点的检测方法及其生物学研究进展
宏基因组测序辅助诊断原发性肺隐球菌
生物测序走在前
基因“字母表”扩充后的生命
创建新型糖基化酶碱基编辑器
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
基因测序技术研究进展