基于转录组学测序的长白落叶松材性表达基因1)
2016-05-06赵佳丽张磊张素芳王艳红张含国
赵佳丽 张磊 张素芳 王艳红 张含国
(林木遗传育种国家重点实验室(东北林业大学),哈尔滨,150040)
基于转录组学测序的长白落叶松材性表达基因1)
赵佳丽张磊张素芳王艳红张含国
(林木遗传育种国家重点实验室(东北林业大学),哈尔滨,150040)
摘要基于边合成边测序(Sequencing By Synthesis,SBS)技术,使用Illumina HiSeq2500高通量测序平台对长白落叶松cDNA文库进行测序。共获得非重复序列基因58 683条,总长度为55 283 938 bp。将得到的转录本使用BLAST软件将非重复序列基因序列与NR、Swiss-Prot、GO、COG、KEGG数据库比对,通过选择BLAST参数E-value不大于10(-5),最终获得29 350个有注释信息的基因序列,其中19 292个转录本注释GO编号,有9 112个转录本在COG数据库中被注释并分为25个功能分类,同时注释到120条KEGG代谢途径。在得到注释的转录本中搜索到木质素相关基因共68条,其中与木质素合成相关基因29条,与木质素分解代谢相关基因27条;找到了147条纤维素相关基因,其中与纤维素合成相关基因103条,与纤维素分解代谢相关基因44条。
关键词长白落叶松;转录组;高通量测序;材性基因
分类号S791.225
Gene Expression of Wood Properties Based on Transcriptome ofLarixolgensis
Zhao Jiali, Zhang Lei, Zhang Sufang, Wang Yanhong, Zhang Hanguo
(State Key Laboratory of Tree Genetics and Breeding, Northeast Forestry University, Harbin 150040, P. R. China)//Journal of Northeast Forestry University,2016,44(4):8-12.
Based on sequencing-by-synthesis (Sequencing By Synthesis, SBS) technology, we used Illumina HiSeq2500 high-throughput sequencing to perform the cDNA libraryLarixolgensisfor sequencing platform. We acquired 58 683 Unigenes, and the total length was 55 283 938 bp. We used BLAST software to compare Unigenes sequence of transcript with NR, Swiss-Prot, GO, COG, KEGG database.The parameter of E-value was not more than 10-5with 29 350 annotated Unigenes. Among them, 19 292 annotations was from GO, 9 112 from COG, and these Unigenes was divided into 25 functional categories, 120 from KEGG. There were 68 Unigenes connected with lignin biosynthesis in the annotated transcripts. The Unigenes related to lignin biosynthesis was 29, and the Unigenes related to lignin catabolism was 27. We found 147 Unigenes related to cellulose. The Unigenes related to cellulose biosynthesis was 103, and the Unigenes related to cellulose catabolism was 44.
KeywordsLarixolgensis; Transcriptome; High throughput sequencing; Wood properties
转录组(Transcriptome)[1]广义上指在特定环境或生理条件下的一个细胞、组织或生物体中所有表达基因的总和。转录组学是一门在整体水平上研究某一时刻某一细胞中基因全部转录本种类、结构和功能及转录调控规律的学科,其目的在于提供构成生物全部基因的表达调节系统和全部蛋白质的功能、相互作用等信息,以及解析生物细胞功能的全部情况[2]。随着后基因组时代的到来,转录组学是最先发展并且应用最广泛的技术[3]。因此,转录组学可用来比较不同组织或不同生理状态下生物组织基因表达的整体差异,可以高效地发掘与特定生理功能、生源途径相关的相关功能基因,并且推测未知基因,对研究特定生物学过程具有重要意义。
近年来,转录组在林木中的应用研究十分广泛,特别是毛果杨,其具有基因组小、生长迅速等特点,成为了林木基因组学研究的模式植物[4]。Alexander A M et al.[5]对巨桉的基因组测序也已经完成。虽然针叶树基因组巨大,相比较其他物种重复序列多,世代周期长,研究滞后于模式植物和作物,但近年来对针叶树基因组研究中也发现了许多功能基因,对针叶树基因组的发展起到了推动作用[6]。Thomas et al.[7]对黑松的转录组进行组装和注释,以及其潜在的分子标记开发,有助于研究其他松树。Aleksey Zimin et al.[8-10]采用新的方法确定火炬松的基因组序列,火炬松的全基因组测序约为人类基因组的七倍,是目前已完成测序的最大基因组,在发表过的针叶树基因组序列中也是最完整的。
同样转录组学被应用于基因的开发与挖掘。李林等[11]从基因组水平对微藻的脂肪酸、淀粉进行分析,挖掘与其合成和降解途径中的相关基因。Novaes E et al.[12]在巨桉的转录组研究当中发现了新基因的存在。王晓锋等[13]采用Illumina高通量测序技术对转录组进行了测序,首次构建了马尾松均一化cDNA文库,用生物信息学的方法对功能基因进行预测。
长白落叶松(Larixolgensis)是我国东北林区的主要速生造林树种之一,生长速度快,材质好,是工业用材和纸浆造纸的良好原料,对长白落叶松进行遗传改良有着至关重要的作用。目前,在长白落叶松转录组数据方面的发表与研究比较匮乏,由于公共数据库中公布的基因序列非常有限,所以材性优异基因的挖掘与利用的研究较少。本研究通过对长白落叶松转录组测序,利用序列对比及功能注释,发现可能参与材性基因合成相关酶的基因,为遗传育种及资源挖掘提供重要信息。
1材料与方法
植物材料取自东北林业大学帽儿山实验林场,根据长白落叶松生长物候期,分别于粗生长开始时期(5月5日)和粗生长旺盛期(6月15日)[14-16]取形成层及周围组织薄层,立刻置于液氮中,放于冰箱-80 ℃保存。
RNA的提取:采用CTAB法对上述时期采集的长白落叶松形成层分别进行总RNA提取,经DNase I消化后,再等量分别混合。
1.1转录组测序
对于许多函数问题的求解往往需要应用多种知识和技能.因为高中的数学函数和许多复杂的知识是联系在一起的,只有在头脑中形成深刻的印象和学习思维,才能有条不紊地解决各种相关的例题,为高中数学函数的学习做出有效的应用探究.例如,和函数定义域相同的函数是( ).
用带有Oligo(dT)的磁珠富集真核生物mRNA,加入Fragmentation Buffer将mRNA进行随机打断,以mRNA为模板,用六碱基随机引物(random hexamers)合成第一条cDNA链,然后加入缓冲液、dNTPs、RNase H和DNA polymerase I合成第二条cDNA链,利用AMPure XP beads纯化cDNA,纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择,最后通过PCR富集得到cDNA文库。用HiSeq2500进行高通量测序,测序读长为PE125。
1.2数据的组装、注释、功能分类和生物学通路分析
基于边合成边测序(Sequencing By Synthesis,SBS)技术,使用Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量序列(Reads),截除其中的测序接头以及引物序列,过滤低质量值数据,确保数据质量。
使用Trinity[17]软件从头组装转录组。将序列按照指定长度的核苷酸序列(K-mer)打断来构建数据库,去除可能包含错误的序列。选择频率最高的作为种子向两端进行贪婪延伸,不断循环此过程直至耗光数据库,从而得到重叠群(Contig)。再将其进行聚簇得到片段集合(Component),对每个片段集合中的重叠群构建De Bruijn图。将De Bruijn图进行简化。以真实的测序序列来解开De Bruijn图,获得转录本序列。
使用BLAST[18]软件将非重复基因序列(Unigene)与NR[19]、Swiss-Prot[20]、GO[21](Gene Ontology)、COG[22](Clusters of Orthologous Groups)、KEGG[20](Kyoto Encyclopedia of Genes and Genomes)数据库比对,获得功能注释和分类信息。最后与KEGG数据库进行比对,分析得到相关的代谢通路。
2结果与分析
2.1长白落叶松转录组测序数据组装结果
利用Trinity软件进行组装,组装共得到19 279 388条重叠群(Contig),总长度为836 941 382 bp。平均长度为43.41 bp,N50长度为45 bp。重叠群长度主要分布在≥200~300 bp,序列数量为19 211 854,占总量的99.65%。长度在≥300~500 bp的序列数量为32 682,占总量的0.17%;长度≥500 bp的序列数量为34 852,占总量的0.18%(表1)。
表1 重叠群组装统计
表2 非重复序列基因组装统计
2.2长白落叶松转录组功能注释
2.2.1GO分类
为了进一步了解长白落叶松功能基因的情况,根据比对结果进行GO分类,有19 292个转录本注释GO编号。对所获得的非重复序列基因进行GO分类,归纳为3个类别,分别为细胞组分44 885个序列(表3),分子功能21997个序列(表4),生化过程(biological process)51 181个序列(表5)。3个类别又划分为56个功能基因,有一些序列同时参与了多个调控过程。在细胞组分功能中,组成细胞、细胞和组成细胞器的明显高于其他基因,而胞外区部分、细胞外基质、细胞外基质部分、病毒和部分病毒很少表达。在分子功能中,具有捆绑能力、催化功能的序列显著高于其他基因,但营养储藏活动、金属活动、蛋白标签和翻译调节活性等基因几乎未表达。在参与生物学进程的功能中,参与代谢过程、细胞形成过程的序列最多,分别占到总非重复序列的24.0%和21.4%,而转移、病毒复制、碳利用率、细胞死亡和氮素利用率的序列则几乎没有表达。
表3 细胞组分中的功能基因
表4 分子功能中的功能基因
2.2.2COG分类
将所获得的非重复序列基因在COG数据库中比对,根据比对结果进行COG分析,有9112个转录本可以和数据库比对上,并分为25个功能分类(见表6),其中一般功能预测基因序列最多,共2 291条,占总注释的25.1%。其次是复制、重组和修饰功能(1225条,占总注释的13.44%)。而核结构类注释最少,仅为1条,细胞外结构类注释为0。
表5 生化过程中的功能基因
表6 转录组COG注释功能分类
2.2.3KEGG注释
为了明确长白落叶松活跃的生物代谢途径,我们根据KEGG注释结果,共获得6 017个注释序列,分别归属120条KEGG代谢通路,主要代谢途径见(表7)。其中代谢途径参与基因最多,为1 827个,占总注释30.4%;其次是次生代谢产物合成途径,参与基因为862个,占总注释14.3%。数量排列前10名的代谢途径占总共的72.4%。
表7 数量排列前10代谢途径
2.3长白落叶松材性基因的挖掘
随着第二代测序技术的快速发展,对针叶树基因序列资源的挖掘受到了巨大的重视[24]。树木的组分大部分都是次生木质部,即木材。而纤维素和木质素是木材次生木质部的细胞壁重要组成成分。在材性性状中,纤维素含量、木质素含量等是主要考虑因素,尤其是纤维素含量直接影响制浆得率。
木质素的生物合成是在一系列酶的催化作用下,通过苯丙烷途径及木质素合成特异途径,将苯丙氨酸(或酪氨酸)转化生成3种主要木质素单体,最后聚合形成木质素。在长白落叶松转录组测序数据的注释中找到木质素相关非重复序列基因(Unigene)共68条,与木质素合成相关酶29条,与木质素分解代谢相关酶27条,其中包含咖啡酰辅酶A氧甲基转移酶(CCoAOMT)6条、肉桂酰辅酶A还原酶(CCR)4条、漆酶(Laccase)4条、苯丙氨酸氨基裂解酶(PAL)6条、4-香豆酸辅酶A连接酶(4CL)5条,肉桂醇脱氢酶(CAD)1条。这几种酶是木质素生物合成关键酶基因[25]。而在纤维素合成过程中,最重要的酶就是纤维素合酶,目前,对杨树、桉树等经济树种研究比较深入,并已成功克隆出桉树、杨树多个纤维素合酶基因[26]。在网上公布的数据库中,长白落叶松纤维素相关序列并未见报道。本研究转录组数据中,根据转录本注释,找到了147条纤维素相关基因,其中与纤维素合成相关基因103条,与纤维素分解代谢相关基因44条。
3结论与讨论
目前,转录组测序技术广泛应用于生物信息挖掘,所含基因信息丰富[27]。在对非模式生物的转录组研究中,国内已开展了如丹参[28],东北红豆杉[29]、麻黄[30]等中药植物转录组研究;如玉米[31]、黄瓜[32]等作物的转录组研究。在林木中,桉树[33-34],挪威云杉[35]、日本落叶松[36]、马尾松[13]的转录组研究也已相继开展。在丹参[28]转录组数据中共获得基因注释的非重复序列基因(Unigene)13 308条,有4 927条未被注释到。本研究中长白落叶松转录组已获得基因注释的Unigene为29 350条,是丹参的两倍之多,而未被注释的Unigene为28 333条,是丹参的5.75倍。麻黄转录组中Unigene长度分布大于2 000 bp序列所占比例为0.44%,在本研究中其所占比例为11.45%。这是由于针叶树具有庞大而复杂的基因组,重复序列多,导致其与丹参、麻黄之间的巨大差异。而马尾松[13]转录组测序得到的结果中,重叠群(contig)大于300 bp的数量为53 677条,大于1 kb的数量为17 386条;长白落叶松的contig数量分别为67 534、17 118条。在整个转录组数据中分析,两针叶树种之间在大于300 bp的数量上稍有差异,在大于1 kb的数量上相差不大,表明针叶树种虽具有巨大的基因组,但同为针叶树,有可能在数量上相差不大。同时这一结果也表明,长白落叶松的转录组数据在材性基因序列挖掘方面具有可观的数量。
在林木基因工程育种过程中,提高其抗逆能力如抗干旱、抗涝、抗盐碱、抗冻、抗病虫害是学者们主要的研究方向。虽然有些树种控制木质素与纤维素合成的基因已有报道,但材性改良方面的研究仍比较薄弱,长白落叶松作为我国东北林区的主要速生造林树种之一,具有重要的经济与生态价值,其材性相关基因序列在已公布的数据库中鲜有报道。截止至今,在长白落叶松基因序列挖掘研究中,本研究所发现的材性相关基因序列是现阶段报道过最多的。长白落叶松木质素和纤维素基因序列的成功挖掘,为进一步克隆其合成与代谢关键酶的基因全长、研究其具体功能提供了基础数据。
由于针叶树基因组巨大,重复序列多,世代周期长,研究手段有限,在科研经费预算中是一笔很大的花销,所以针叶树基因组学研究滞后于模式植物和作物。长白落叶松为非模式植物,数据库中基因资源缺乏,可供参考的信息相对较少,导致本研究中仅有50.01%的Unigene能对应GO、COG、KEGG等数据库中的注释,有29 333条Unigene未被注释到,这部分未被注释的Unigenes很有可能是新基因。这些序列对后续开展长白落叶松的功能基因研究、生物合成途径分析、分子标记、多态性分析具有重要价值。因此对其特异性的新基因的发掘还有待进一步的深入研究。
随着针叶树基因资源的不断积累,转录组测序所得到的基因序列等数据有助于材性性状在分子遗传育种方向进行改良,也为与长白落叶松相近的物种在基因组学研究中提供了有价值的参考基因。
参考文献
[1]VELCULESCU V E, ZHANG Lin, ZHOU Wei, et al. Characterization of the yeast transcriptome[J]. Cell,1997,88(2):243-251.
[2]黄琛,武明花,李桂源.鼻咽癌转录组学研究的现状与进展[J].生物化学与生物物理进展,2007,34(11):1129-1135.
[3]LOCKHART D J, WINZELER E A. Genomics, gene expression and DNA arrays[J]. Nature,2000,405:827-836.
[4]TUSKAN G A, DIFAZIO S P, TEICHMAN T. Poplar genomics is getting popular: the impact of the poplar genome project on tree reseach[J]. Plant Biology,2004,6(1):2-4.
[5]MYBURG A A, DARIO G, TUSKAN G A, et al. The genome of Eucalyptus grandis[J]. Nature,2014,510:356-362.
[6]MATIAS K, JOHNSON A F, CHRISTIE B, et al. Apparent homology of expressed genes from wood-forming tissues of loblolly pine (PinustaedaL.) with Arabidopsis thaliana[J]. Proceedings of the National Academy of Sciences,2003,100(12):7383-7388.
[7]PARCHMAN T L, GEIST K S, GRAHNEN J A, et al. Transcriptome sequencing in an ecologically important tree species: assembly, annotation, and marker discovery[J]. Bmc Genomics,2010,11(3):180.
[8]WEGRZYN J L, LIECHTY J D, STEVENS K A, et al. Unique Features of the Loblolly Pine (PinustaedaL.) Megagenome Revealed Through Sequence Annotation[J]. Genetics,2014,196(3):891-909.
[9]ALEKSEY Z, STEVENS K A, CREPEAN M W, et al. Sequencing and assembly of the 22-gb loblolly pine genome[J]. Genetics,2014,196(3):875-890.
[10]NEALE D B, WEGRZYN J L, KRISTIAN A S, et al. Decoding the massive genome of loblolly pine using haploid DNA and novel assembly strategies[J]. Genome Biology,2014,15(3):315-330.
[11]李林,王钦宏,杨海麟,等.微藻(Chlorella sorokiniana)的转录组分析:油脂生物合成相关的途径解析和基因挖掘[J].微生物学报,2014,54(9):1010-1021.
[12]NOVAES E, RST D, FAREMRIE W G, et al. High-throughput gene and SNP discovery in Eucalyptus grandis, an uncharacterized genome[J]. Bmc Genomics,2008,9(1):312.
[13]王晓锋,何卫龙,蔡卫.马尾松转录组测序和分析[J].分子植物育种,2013(3):385-392.
[14]栾英刚,于景涛,周轸世.红松樟子松长白落叶松物候观察报告[J].吉林林业科技,1992(5):1-3.
[15]周晓峰,王义弘,赵惠勋.几种主要用材树种的生长节律(一)[J].东北林业大学学报,1981,9(2):49-60.
[16]祝宁,江洪,金永岩.中国东北天然次生林主要树种的物候研究[J].植物生态学与地植物学学报,1990,14(4):336-349.
[17]GRABHERR M G, HAAS B J, YASSOUR M, et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nature Biotechnology,2011,29(7):644-652.
[18]ALTSCHUL S F, MADDEN T L, SCHAFFER A A, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs[J]. Nucleic Acids Research,1997,25(8):3389-3402.
[19]DENG Y, LI Jianqi, WU Songfeng, et al. Integrated nr database in protein annotation system and its localization[J]. Computer Engineering,2006,32(5):71-72.
[20]ROLF A, AMOS B, WU C, et al. UniProt: the universal protein knowledgebase[J]. Nucleic Acids Research,2004,32:115-119.
[21]ASHBUREN M. Gene Ontology: tool for the unification of biology[J]. Nature Genetics,2000,25(1):25-29.
[22]TATUSOV R L, GALPERIN M Y, NATALE D A, et al. The COG database: a tool for genome scale analysis of protein functions and evolution[J]. Nucleic Acids Research,2000,28(1):33-36.
[23]MINORU K, SUSUMU G, KANG Shuichi, et al. The KEGG resource for deciphering the genome[J]. Nucleic Acids Research,2004,32(22):277D280.
[24]许晨璐,孙晓梅,张守攻.针叶树基因组特征及其序列资源挖掘进展[J].植物学报,2013,48(6):684-693.
[25]李潞滨,刘蕾,何聪芬,等.木质素生物合成关键酶基因的研究[J].分子植物育种,2007,5(z1):45-51.
[26]黄青云,张党权,谷振军,等.纤维素合成酶及其在基因工程中的应用[J].经济林研究,2009,27(2):131-136.
[27]ANDERSEN J R, LUBBERSTEDT T. Functional markers in plants[J]. Trends in Plant Science,2003,8(11):554-560.
[28]李滢,孙超,罗红梅,等.基于高通量测序 454 GS FLX 的丹参转录组学研究[J].药学学报,2010,45(4):524-529.
[29]WANG Qiong, SHEN Chao, LI Hongmei, et al. Transcriptome Analysis of Taxus cuspidata Needles Based on 454 Pyrosequencing[J]. Planta Medica,2011,77(4):394-400.
[30]邓楠,史胜青,常二梅,等.基于中麻黄萌发种子转录组的黄酮类化合物合成途径基因的挖掘[J].林业科学研究,2014,27(6):758-761.
[31]许波,张伟强,冯晓曦,等.转录组测序技术在玉米中的应用研究进展[J].玉米科学,2014,22(1):67-72,78.
[32]GLASSER S P, SUZANAE J, JAN B, et al. Transcriptome sequencing and comparative analysis of cucumber flowers with different sex types[J]. Bmc Genomics,2010,11(25):1-13.
[33]MIZRACHI E, HEFER C A, RANIK M, et al. De novo assembled expressed gene catalog of a fast-growing Eucalyptus tree produced by Illumina mRNA-Seq[J]. Bmc Genomics,2010,11(1):681.
[34]MYBURG A A, GRATTA D, TUSKAN G A, et al. The genome of eucalyptus grandis[J]. Nature,2014,510:356-362.
[35]FENG O, MAO J F, WANG J, et al. Transcriptome analysis reveals that red and blue light regulate growth and phytohormone metabolism in norway spruce[Piceaabies(L.) Karst.][J]. PLos One,2015,10(8):1-19.
[36]YUAN Z, ZHANG Shougong, HUA Suying, et al. Transcriptome profiling and in silico analysis of somatic embryos in Japanese larch (Larixleptolepis)[J]. Plant Cell Reports,2012,31(9):1637-1657.
收稿日期:2015年10月26日。
作者简介:第一赵佳丽,女,1990年5月生,林木遗传育种国家重点实验室(东北林业大学),硕士研究生。E-mail:380543302@qq.com。通信作者:张含国,林木遗传育种国家重点实验室(东北林业大学),教授。E-mail:hanguozhang1@sina.com。
1)国家高技术研究发展计划(863计划)(2013AA102704)。
责任编辑:潘华。