APP下载

阴地蕨全转录组分析及植物激素信号转导相关基因筛选

2020-05-26张林甦韩忠耀王传明邓先扩

广西植物 2020年4期
关键词:转录组

张林甦 韩忠耀 王传明 邓先扩

摘 要: 该研究以新鲜阴地蕨全株为材料,用Illumina HiSeq 2500平台进行全转录组测序,干净序列经组装后得单一基因(Unigene),将Unigene在非冗余蛋白/核酸数据库(nonredundant protein database, NR)、核酸序列数据库(nucleotide sequence database,NT)、基因本体论数据库(gene ontology,GO)、蛋白质真核同源数据库(clusters of eukaryotic orthologous groups,COG)、京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)、蛋白质序列数据库SwissProt和Interpro进行生物信息学分析。结果表明:共获得干净序列 6.67 Gb ,组装后得到 58 646 個Unigene,平均长度为1 023 bp,Unigene在上述数据库的总体注释率为69.25%。其中,在GO数据库中,20 762个基因被注释到生物功能、细胞组分和分子功能3个本体的52个功能组,COG注释了20 633个基因并将其划分为25个功能簇;在KEGG数据库中,比对注释了29 377个基因,可划分为5个大类、19个亚类代谢途径,据此筛选出八类植物激素信号转导相关的41个基因家族。通过比对共得到43 102个编码序列(coding sequence,CDS),平均长度为749 bp, N50为1 137;筛选到60个转录因子(transcript factor,TF)家族共1 502个转录因子基因;共发现17 195 个单核苷酸多态性(single-nucleotide polymorphism,SNP)位点,其中碱基转换11 122个,颠换6 073个;发现了8 245个简单序列重复(simple sequence repeat,SSR),数量最多的为二核苷酸重复和三核苷酸重复。这些结果从功能和结构方面提供了阴地蕨全转录组信息和涉及植物激素信号转导的潜在基因,为进一步深入研究阴地蕨的生长发育、遗传、品种鉴别等提供了分子生物学的基础数据。

关键词: 阴地蕨, 转录组, 植物激素, 信号转导, 基因筛选

中图分类号: Q943  文献标识码: A

文章编号: 1000-3142(2020)04-0536-10

Abstract: Botrychium ternatum is a commonly used folk medicinal plant, its growth and development have some typical representative characteristics of some fern plants. But researches on it mainly focus on chemical constituents, clinical and pharmacological effects, classification and distribution investigation, few about its molecular biology.Plant hormone is a sort of small signal molecular and has very important function to plant growth and development, and plant hormone signal transduction plays a key role in hormonal equilibrium. To obtain related information, Illumina HiSeq 2500 platform was used to perform transcriptome sequencing and bioinformatics analysis were carried out afterwards. Results showed 6.67 Gb clean reads was obtained and 58 646 Unigenes were assembled with an average length of 1 023 bp. Unigenes were annotated in nonredundant protein database (NR), nucleotide sequence database (NT), gene ontology (GO), clusters of eukaryotic orthologous groups (COG), Kyoto encyclopedia of genes and genomes (KEGG),Swissprot and Interpro databases with an overall annotation rate of 69.25%.Through GO annotation, 20 762 genes were annotated to three terms and 52 functional groups. A total of 20 633 genes were divided into 25 functional cluster by COG annotation. Through KEGG analysis, 29 377 genes were mapped to five groups and nineteen sub-groups pathways. In addition, 41 gene families related to eight plant hormone signal transduction pathways were screened. Through BLAST and ESTScan, 43 102 coding sequences (CDS) were found, with average length 749 bp, N50 1 137. 60 transcript factor gene families with total 1 520 genes were screened out, including C3H, MYB,MYB-related, bHLH,AP2-EREBP,WRKY and GRAS. 17 195 single-nucleotide polymorphisms (SNP) were found, including 11 122 transitions and 6 073 transversion. And 8 245 simple sequence repeats were found, among them di-nucleotide repeats and tri-nucleotide repeats rank the top two abundance. These data sets provide functional and structural information of global transcriptome and putative genes involving plant hormone signal transduction, and basic data for further research on the growth, development and variety identification of B. ternatum.

Key words: Botrychium ternatum, transcriptome, plant hormone, signal transduction, gene screening

植物激素是一类信号小分子,对于植物的生长发育起着重要作用,其通过植物激素信号转导系统发挥作用,即内因或外因可促使一系列植物激素基因诱导和表达,作用于相应的激素受体或组件,最终显现出不同的性状(苏谦等,2008)。常见的植物激素有生长素、细胞分裂素、赤霉素、脱落酸、乙烯、油菜内酯素、茉莉酸和水杨酸等,在这些激素信号转导系统中有的受体或关键组分因互作(interact)或串话(crosstalk)會产生协同或拮抗的作用而使信号途径网络化(Ohri et al., 2015)。比如光信号可以通过与生长素信号途径发生串话从而调控根的发育(Kumari & Panigrahi, 2019),光敏色素作用因子(PIFs)可以响应赤霉素、油菜内酯素、茉莉酸、生长素吲哚乙酸(IAA)、脱落酸、乙烯等信号途径,通过这个“枢纽”分子将激素信号途径联成了复杂的网络(任小芸等,2016)。植物激素还可通过表观遗传调控促进开花,如赤霉素、茉莉酸、脱落酸和生长素对DNA甲基化、组蛋白翻译后修饰介导的染色质压缩起重要作用从而影响开花(Campos-Rivero et al., 2017)。另外,在植物应对土壤病原菌侵害时也进化出复杂的激素信号网络来保护自身(Berens et al., 2017)。可见植物的激素信号转导系统对植物的生长发育、防御、环境适应等具有重要意义。

阴地蕨(Botrychium ternatum),又名一朵云、小春花、蛇不见、郎萁细辛、独脚蒿、冬草等,属于阴地蕨科阴地蕨属,一年生草本药用植物,多以孢子进行繁殖,其生长发育具有一定的代表性。在我国民间,尤其是贵州、福建等地常用的一种中草药,因其具有清热解毒、止咳、止血等功效,主要用于小儿高热惊搐、肺热咳嗽、咳血、百日咳、毒蛇咬伤、目赤火眼、目生翳障等(齐建红,2012;赵俊华等,2008;阮君山,2002)。目前,对阴地蕨的研究较少,主要集中在化学成分、临床及药理作用、分类及分布调查等方面,分子生物学相关的信息较少,限制了更深入的研究。转录组(transcriptome)是指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA(mRNA)、核糖体RNA(rRNA)、转运RNA(tRNA)及非编码RNA(none coding RNA)。随着测序技术的发展和普及,转录组测序(RNA-seq)已经成为从分子水平研究生物基因及其调控的重要方法。本研究通过高通量测序获得阴地蕨全转录组,通过生物信息学方法对其进行分析,得到阴地蕨转录组的整体注释信息、筛选出植物激素信号转导相关的潜在基因及其单核苷酸多态性(single nucleotide polymorphism, SNP)和短序列重复多态性(short sequence repeat polymorphism, SSR)等信息,为进一步从分子水平开展阴地蕨生长发育、品种鉴定等研究提供了有用的资源。

1 材料与方法

1.1 材料

新鲜、成熟阴地蕨植物全株3株(包含根、茎、叶及孢子,于2016年7月采于贵州省黔南州都匀市郊斗篷山地区(107°20′—107°27′ E、26°12′—26°16′ N,海拔约1 500 m),经黔南医学高等专科学校王传明副教授鉴定为阴地蕨(Botrychium ternatum)。样品采集后,立即用清水冲洗干净,吸水纸吸干后放入干冰盒中带回,以备提取RNA。

1.2 cDNA文库制备及测序

将植物全株用液氮研磨成粉末,用RNA提取试剂盒(艾德莱公司,北京)提取总RNA并将DNA消化,用带有寡聚脱氧胸腺嘧啶(Oligo dT)的磁珠富集 mRNA,经琼脂糖电泳及微量核酸检测仪NanoDrop检测合格后用试剂盒依次合成cDNA、纯化、修复粘性末端、在3′末端加上碱基“A”并连接接头,然后进行片段大小选择,最后进行 PCR 扩增构建cDNA文库;构建好的文库经检验合格后上Illumina HiSeq 2500平台进行测序。

1.3 De novo(从头) 组装

将测序得到的原始序列(raw reads)去除低质量、接头污染以及未知碱基N含量过高的序列得到干净序列(clean reads),使用Trinity软件(v2.0.6)(Grabherr et al.,2011 )对clean reads进行De novo组装, 使用Tgicl软件(v2.0.6)(Pertea et al., 2003)将组装的转录本进行聚类去冗余,得到单一基因(Unigene)用于后续分析。

1.4 Unigene功能注释及分析

为了解Unigene的功能,用生信分析软件将Unigene在七大功能数据库中进行注释:用 Blast(v2.2.23) 进行 NT、NR、COG、KEGG注释;用SwissProt注释;用 Blast2GO (v2.5.0)(Conesa et al., 2005) 以及NR注释结果进行GO注释;用 InterProScan5 (v5.11-51.0)(Quevillon et al., 2005)进行InterPro注释。根据KEGG 信号途径 map04075,将经注释的相关基因进行归类,即得植物激素信号转导相关基因。

1.5 转录组结构分析

1.5.1 编码序列(coding sequences,CDS)预测 根据功能注释结果,按照NR、SwissProt、KEGG、COG的数据库优先顺序,挑选Unigene的最佳比对片段作为该Unigene的 CDS 。未能注释上的Unigene使用预测得到的 CDS 作为模型进行建模,然后使用ESTScan (v3.0.2) (Iseli et al., 1999)进行CDS预测。

1.5.2 转录因子(transcript factor,TF)编码能力预测 首先,用getorf(EMBOSS:6.5.7.0) (Rice et al., 2000) 检测Unigene的开放阅读框(open reading frame,ORF);然后,使用hmmsearch(v3.0) (Mistry et al., 2013) 将ORF比对到转录因子蛋白结构域(数据来源于PlantTFDB);最后,根据PlantTFDB描述的转录因子家族特征对Unigene进行TF编码能力鉴定(Jin et al., 2017)。

1.5.3 SSR和SNP检测 首先,用MISA (v1.0)(Thiel et al., 2003) 对Unigene进行SSR检测;然后,用HISAT( v0.1.6-beta)(Kim et al., 2015) 把clean reads比对到Unigene;最后,使用GATK (v3.4-0)(McKenna et al., 2010) 检测 SNP。

2 结果与分析

2.1 测序及组装结果

使用Illumina Hiseq平台一共测得总原始序列(raw reads)数据量为55.52 Mb,过滤后得到干净序列(clean reads)44.45 Mb, clean reads比率达到80.6%,测序深度属“深度”(high deep,>15 Mb)测序。得到干净总碱基数 6.67 Gb ,组装后得到 58 646 个Unigene,平均长度1 023 bp,N50、N70均大于1 000 bp (表1) 。所有Unigene的长度均大于300 bp, 分布在300~400 bp的最多, 占25.5%,大于1 000 bp 的累计占39%(图1),说明测序连续性和组装效果较好。

2.2 Unigene功能注释

将Unigene进行七大功能数据库注释(NR、NT、GO、COG、KEGG、Swissprot 和 Interpro),注释结果见表2。在NR(NCBI蛋白数据库,NCBI protein database)中得到最多注释(65.4%),总体注释率为69.25%。根据NR注释结果统计了注释物种分布(图2),在蕨类植物小立碗藓(Physcomitrella patens)和江南卷柏(Selaginella moellendorffii)中共注释了24%,跟阴地蕨蕨类植物属性相符,另外在常用的参比物种北美云杉(Picea sitchensis)中注释也较高(14.21%),可能跟北美云杉本身的注释较好有关(Ralph et al., 2008)。NR、COG、KEGG、Swissprot以及Interpro的注释结果展示在图3,在五个数据库中都注释上的有12 522个,占全部Unigene 的21.4%。

2.3 GO注释结果

通过GO注释将20 762个阴地蕨基因或基因产物赋予三大类术语(term): 分子功能、细胞组分和生物学过程,GO功能分布如图3。在生物学过程中涉及基因数量处于前三位的分别是代谢过程(metabolic process)、细胞过程(cellular process)和单组织过程(single-organism process)。细胞组分中最多的是细胞(cell),最少的是核苷(nucleotide)。分子功能中数量最多的是催化活性(catalytic activity)和结合(binding),其次是转运活性(transport activity)。

2.4 COG功能注释

通过与COG数据库进行比对,将20 633个阴地蕨Unigene进行COG注释,结果如图5。聚在一般功能(general function prediction only)的最多(4 559个),包含1 000~2 000个基因的簇有8个,包括翻译、核糖体结构及生物发生及转录等重要的生命活动,值得注意的是鉴定了995个未知功能(function unknown)基因。

2.5 KEGG通路分析及植物激素信号转导基因筛选

共有29 377条基因比对到六大类、21亚类代谢通路上(图6),其中数量最多的是新陈代谢(metabolism)通路,有17 698个基因,占60%;最少的是与人类疾病相关的基因,共141个(阴地蕨属植物);与有机系统(organismal system)环境适应(environmental adaption)有关的基因有1 266个。根据KEGG 信号途径 map04075,将经注释的相关基因进行归类,得植物激素信号转导相关的候选基因(表3)。

2.6 转录组结构

CDS:通过BLAST得到38 212个CDS,用ESTScan方法得到4 890个CDS, 共得到43 102个CDS,平均长度749 bp, N50为1 137。

TF:共筛选到60个转录因子基因家族共1 502个TF基因,数量超过100的有C3H MYB 和MYB-related以及bHLH转录因子家族,其他较多的还有AP2-EREBP、WRKY、GRAS等转录因子。

SNP:共发现17 195 个SNP位点,其中碱基转换11 122个,包括A-G 5 452個、C-T 5 670个;颠换6 073个,包括A-C 1 444个、A-T 1 729个、C-G 1 418个、G-T 1 482个。

SSR:最多的是二核苷酸重复,有3 666个;其次是三核苷酸重复,3 439个;接下来依次是单核苷酸重复(563个)、六核苷酸重复(260个)、四核苷酸重复(169个)和五核苷酸重复(148个)。

3 讨论

GRABHERR MG, HAAS BJ, YASSOUR M, et al., 2011. Trinity: Reconstructing a full-length transcriptome without a genome from RNA-Seq Data [J]. Nat Biotechnol, 29(7): 644-652.

ISELI C, JONGENEEL CV, BUCHER P, 1999. ESTScan: A program for detecting, evaluating, and reconstructing potential coding regions in EST sequences [J]. Proc Int Conf Intell Syst Mol Biol, 99: 138-148.

JIN JP, TIAN F, YANG DC, et al., 2017. PlantTFDB 4.0: Toward a central hub for transcription factors and regulatory interactions in plants [J]. Nucl Acids Res, 45(D1): D1040-D1045.

KIM D, LANGMEAD B, SALZBERG SL, 2015. HISAT: A fast spliced aligner with low memory requirements [J]. Nat Methods,12(4): 357-360.

KUMARI S, PANIGRAHI KCS, 2019. Light and auxin signaling cross-talk programme root development in plants [J]. J Biosci, 44(1): 26.

MCKENNA A, HANNA M, BANKS E, et al., 2010. The genome analysis toolkit: A map reduce framework for analyzing next generation DNA sequencing data [J]. Genome Res, 20(9): 1297-1303.

MEENA KK, SORTY AM, BITLA UM, et al., 2017. Abiotic stress responses and microbe-mediated mitigation in plants: The omics strategies [J]. Front Plant Sci, 8: 172.

MISTRY J,FINN RD, EDDY SR, et al., 2013. Challenges in homology search: HMMER3 and convergent evolution of coiled-coil regions [J]. Nucl Acid Res, 41(12): e121.

MYBURG AA,HUSSEY SG,WANG JP, 2019. Systems and synthetic biology of forest trees: A bioengineering paradigm for woody biomass feedstocks [J]. Front Plant Sci, 10: 775.

OHRI P, BHARDWAJ R, BALI S, et al., 2015. The common molecular players in plant hormone crosstalk and signaling [J]. Curr Protein Pept Sci, 16(5): 369-388.

PERTEA G, HUANG X, LIANG F, et al., 2003. TIGR gene indices clustering tools (TGICL): A soft ware system for fast clustering of large EST datasets [J]. Bioinformatics, 19(5): 651-652.

QI JH, 2012. A summary of recent studies on Botrychium Sw [J]. J Xian Univ Arts Sci (Nat Sci Ed), 15(2):48-50. [齊建红, 2012. 阴地蕨属植物研究进展 [J]. 西安文理学院学报自然科学版, 15(2):48-50.]

QUEVILLON E, SILVENTOINEN V, PILLAI S, et al., 2005. InterProScan: Protein domains identifier [J]. Nucl Acids Res, 33: 116-120.

RALPH SG, CHUN HJ, KOLOSOVA N, et al., 2008. A conifer genomics resource of 200 000 spruce (Picea spp.) ESTs and 6 464 high-quality, sequence-finished full-length cDNAs for Sitka spruce (Picea sitchensis) [J]. BMC Genomics,9:484.

REN XY,WU MQ,CHEN JM, et al., 2016. The molecular mechanisms of phytochrome interacting factors (PIFs) in phytohormone signaling transduction [J]. J Plant Physiol, 52 (10): 1466-1473. [任小芸, 吴美琴, 陈建民, 等, 2016. 光敏色素作用因子PIFs参与植物激素信号转导的分子机制 [J]. 植物生理学报, 52 (10): 1466-1473.]

RICE P, LONGDEN I, BLEASBY A, 2000. EMBOSS: The European molecular biology open software suite [J]. Trends Genet,16(6): 276-277.

RUAN JS, 2002. Research progress of Sceptridium ternatum and its effective ingredients [J]. J Chin Pharm Univ, 33: 328-329. [阮君山, 2002.小春花及其有效成分研究进展 [J]. 中国药科大学学报, 33: 328-329.]

SU Q, AN D, WANG K, 2008. Phytohormone receptors and induced genes in plants [J]. Plant Physiol Mol Biol, 44(6): 1202-1208. [苏谦, 安冬, 王库, 2008. 植物激素的受体和诱导基因 [J]. 物生理学通讯, 44(6): 1202-1208.]

THIEL T, MICHALEK W, VARSHNEY RK, et al., 2003. Exploiting EST databases for the development and characterization of gene-derived SSR-markers in barley (Hordeum vulgare L.) [J]. Theor Appl Genet, 106(3): 411-422.

YANG M, YOU W, WU S, et al., 2017. Global transcriptome analysis of Huperzia serrata and identification of critical genes involved in the biosynthesis of huperzine A [J]. BMC Genomics, 18: 245.

ZHANG KM, SHEN Y, LIU Y, et al., 2016. Research progress on development and physio-ecology of fern gametophytes [J]. Guihaia, 36(4): 419-424. [張开梅, 沈羽, 刘颖, 等, 2016. 蕨类植物配子体发育与生理生态研究进展 [J]. 广西植物, 36(4): 419-424.]

ZHAO JH, ZHAO NW,WANG PS, et al., 2008. Study on the species and distribution of Adiantum and Botrychiam medicinal plants from Tujia medicine of Guizhou Province origin [J]. J Med Pharm Chin Minor, 5: 44-46. [赵俊华, 赵能武, 王培善, 等, 2008. 土家药黔产铁线蕨、阴地蕨科药用植物的种类和分布研究 [J]. 中国民族医药杂志, 5:44-46.]

(责任编辑 何永艳)

猜你喜欢

转录组
红麻肌醇加氧酶基因的分离及表达分析
红麻肌醇加氧酶基因的分离及表达分析
基于云计算的RNA—seq转录组数据分析流程初探
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的玄参根部转录组学研究及萜类化合物合成相关基因的挖掘
多穗柯转录组分析及黄酮类化合物合成相关基因的挖掘
基于转录组测序的山茱萸次生代谢生物合成相关基因的挖掘
金钗石斛转录组SSR位点信息分析
人参属药用植物转录组研究进展