大豆转录组测序研究进展综述
2015-07-02刘佳伟姚丹赵东海石放放
刘佳伟+姚丹+赵东海+石放放
摘 要:大豆是世界上最重要的油料作物之一,同时也是人类食物和动物饲料的主要来源。随着第二代基因组高通量测序技术的广泛应用,录组组测序技术的迅猛发展给生物基因组学的研究带来了深刻的影响。转录组研究能够从整体水平研究基因功能和基因结构揭示特定生物学过程以及疾病发生过程中的分子机理。该文主要简述了转录组测序主要方法及其在大豆研究中的应用,为今后该技术的研究与应用提供参考。
关键词:大豆;转录组;高通量测序技术
中图分类号 S511.2+2 文献标识码 A 文章编号 1007-7731(2015)08-17-05
Research Status of Soybean Transcriptome Sequencing
Liu Jiawei1 et al.
(1College of Life Sciences,Jilin Agricultural University,Jilin 130118,China)
Abstract:Soybean is one of the world's most important oil crops,also is the main source of human food and animal feed.As the second generation of high-throughput genome sequencing technology widespread application,the rapid development of sequencing technology has brought the profound influence on biological genomics research.From the overall level of gene function and gene structure,transcriptome research revealed the specific molecular mechanism in the process of biological processes and disease.This article mainly introduced the transcriptome sequencing of main methods and its application in soybean research,providing a reference for future research and application of the technology.
Key words:Soybean;Transcriptome;High-throughput sequencing
转录组(Transcriptome)的概念最早是由Velculescu等于1995年提出,广义上讲转录组是指在某一生理条件下细胞内所有转录产物的总和,包括mRNA(编码RNA)和tRNA、rRNA、snRNA等非编码RNA;狭义上讲是指所有mRNA的总和。与基因组具有静态实体的特点不同,转录组的表达具有动态性,它既受外源因子的影响也受内源因子的调控,可以准确反映出生物个体特定细胞、组织和器官在某一特定生长发育阶段细胞中所有表达基因的水平;同时也可以用来比较不同组织或不同生理条件下基因表达的差异,发现与特定生理功能相关的新基因,并预测未知基因。目前转录组测序技术已广泛应用于医学和农业科学等基础研究领域。RNA测序可以产生基因表达的大量信息,并避免DNA微矩阵分析方法的许多固有的缺陷,随着拟南芥、水稻、棉花、马铃薯、玉米、大豆等植物的全基因组测序的完成,越来越多的研究者使用RNA测序技术研究不同环境条件下或不同生长发育阶段植物的基因表达模式,为理解基因表达调控机制以及挖掘与特定性状相关的候选基因提供大量重要的信息。本文对近年来大豆转录组学研究进展进行了综述,为转录组测序技术在大豆以及其他动植物中的应用提供可借鉴的依据。
1 高通量测序技术平台
使用很多不同的方法对所得到的基因进行测序和基因的比对,最主要的目的是能够得到细胞内基因的时空表达模式。DNA的测序方法,例如降解方法是随着 DNA双螺旋结构被发现之后相继出现的,当时的DNA测序方法操作起来比较复杂,因而在科学领域并没有形成规模化的生产和应用实验。Sanger等成功的于1977年构建起的测序方法是链终止法,也被称之为双脱氧测序法或Sanger测序,随着该测序方法的出现,DNA的测序成功的迈向了规模化与实用化的道路。但该测序方法也存在着测序通量较低,测序的过程比较复杂,耗费时间和精力的缺点。随着罗氏公司的焦磷酸测序技术,Illumina公司的Solexa测序技术,以及AB公司的SOLiD测序技术的相继问世,这些新一代测序技术又被称作深度测序技术,主要特点是测序的通量高,测序时间和成本显著下降。有了这几个测序平台,对转录组学的研究是非常有利的,从而更快的推动转录组学在生物学及基因组学的前进步伐。
1.1 第二代测序技术 高通量测序技术也被称作为第二代测序技术,该测序技术的成功问世相对于传统测序技术来讲是一次历史性转变,因为第二代测序技术最为主要的功能是可以在一次测序过程中完成对几十万甚至几百万个DNA分子的测定。第二代测序技术的平台分别是罗氏公司、Illumina公司和AB公司所搭建的,这3种测序技术各有千秋,如何选择测序平台还应该依据科研机构和科研工作者的需要来取舍。
1.1.1 罗氏公司454测序技术:焦磷酸测序 罗氏公司的焦磷酸测序技术过程相对比较繁琐,而且比较浪费时间(Hall,2007)。这是因为在使用该测序技术测序的时候,需要借助将测序的DNA片段克隆到细菌宿主细胞,还需要进行体内扩增的过程才能完成测序,这也是该测序方法的不足之处。作为目前使用比较广泛的测序技术之一(Margulies等,2005),焦磷酸测序技术是率先投放至市场的新一代测序技术,其最为主要的功能特点是利用类似于PCR的方法进行扩增,这种扩增的效率非常高,被称之为乳滴PCR(Tawfik等,1998)。乳滴PCR是把含有接头的数以千计的DNA片段,使这些DNA片段分别结合到同一个磁珠上,单个油水混合小滴包裹磁珠之后,单独的扩增环境就发生在这个小滴里面,在这种较封闭的环境之下进行测序的有利之处在于排除受到其他因素以及污染性序列的影响。每一个等待进行测序的DNA片段能够跟磁珠表面的寡聚核苷酸顺利的杂交上,孵育的油水小滴混合物之中具有PCR反应体系,这是因为磁珠的表面布满了数以百万和文库构建时所加入的接头互补的寡核苷酸序列。为了确保待测样品在磁珠上经过孵育PCR,达到测序反应必不可少的检测信号值,每一个磁珠表面上将会得到大于100万倍的原始DNA片段的拷贝数。此过程之后还要经过将孵育的磁珠放到454PTP板的表面,放在里面的称之为测序过程的类似磁珠的东西,它能够被激活并通过检测信号便可以确定待测的DNA序列。焦磷酸测序实质上是一种经过检测扩增过程中所释放的焦磷酸的量,即同时产生了一种温度较高的图谱来得以实现的。测序效率的大幅度提高(Margulies等,2005),是因为在454PTP板上能够同一时间完成数以万计焦磷酸反应。而且罗氏454 GSFLX测序仪可以在4h的测序运行中针对80~120Mb的序列进行测序,最为主要的是一次测序读长能够增加至200~300bp。罗氏公司的焦磷酸测序技术平台的最大亮点是读取序列较长,但是由于一些因素导致测序的准确率很低,而且测序的成本也相对较高。即便这样,例如需要从头拼接或者宏基因组学的应用来讲,罗氏公司的焦磷酸测序技术还可以称之为最好的选择。
1.1.2 Illumina公司的Solexa测序技术 Illumina公司的Solexa测序技术的基本原理是边合成边测序的形式(Sequencing By Synthesis,简称SBS)[14]。Solexa测序技术的主要测序过程所使用的DNA模板是单链的,在形成互补链过程中,不同的碱基的确定是通过携带荧光标记的dNTP发出不同颜色的荧光来完成的。同时能够确定单次反应只能加入一个碱基,也可以在这个碱基成功读取完毕之后,会把保护基团去掉,这样一来能够使下一个反应可正常继续进行的必要条件是新加入dNTP的末端能够将可逆的保护基团封闭起来。Solexa测序技术在准备进行测序时要对等待测序的测片段进行桥式扩增(Bridge Amplification),这样做的主要目的是加强荧光的强度,使其更容易被成像系统所采集。该测序技术的主要特点是进行一次循环,大约需要4d的时间,可以测序40~50Mb的碱基序列,平均的序列读取长度是32-40bp。该测序技术在与焦磷酸测序技术相对比的情况下不难发现,Solexa测序技术在对同聚物的测序方面比焦磷酸测序技术更有优势。该测序技术的不足之处在于进行测序的过程当中要使待测的片段被切成很短的片段之后才能进行测序,这样一来就比较麻烦,在测序结束之后要借助生物信息学手段重新进行数据分析。该测序技术平台是目前应用最广泛的新一代测序平台,其显著的优点在于测序的通量很高,测序的准确性也非常高,同时还具有高灵敏度和低成本等诸多优势。
1.1.3 AB公司的SOLiD测序技术 AB公司的SOLiD(supported oligo ligation detection)测序技术手段是通过系统在文库的构建和PCR 扩增的情况下与GSFLX系统是十分相似的,DNA片段是通过微珠接头进行抓取的,同时进行乳液PCR的过程。该测序技术相对焦磷酸测序技术和Solexa测序技术的主要特点在于传统的聚合酶延伸反应被连接反应取而代之,连接反应的底物通常是以混合物状态存在的碱基单链荧光探针。每种颜色的荧光对应4种碱基组成主要原因是该探针的5端标记有荧光而3端1~2位的碱基对和5端荧光信号的颜色是相对应的关系,因为2个碱基一共有16种组合情况,恰恰只有4种颜色的荧光,而碱基序列主要是经过下面的测序循环过程来确定的,SOLiD的测序反应一共要经过5轮,很多个连接反应一块构成了每一轮测序反应。下面便是连接反应的首次反应,此次连接反应被包括在第一轮反应当中,这次连接反应需要加入探针1条,该条探针3端1~2位编码区颜色信息是通过测序仪记录下所反映出来的,紧接着应该去除6~8位碱基和5末端的荧光基团,这一过程其实一共连接了5个碱基,与此同时取得1~2位的颜色信息。与上面的过程一样,连接反应的第二次反应一共得到模板上第6~7位碱基序列的颜色信息,连接反应的第3次反应得到第11~12位的颜色信息,以此类推,多个循环过后要做的是重置引物,引物重置完以后紧接着进行第2轮的测序。第2轮测序的引物与第1轮测序的引物有所不同,不同之处在于该轮测序所需要的引物比前一轮前移一位,因此在这1轮测序所得到的与前一轮也有所不同,这一轮得到的0~1位,5~6位和10~11位等颜色信息,直到第5轮测序反应完成之后,方能获得到所有位置颜色的信息,根据这些位置颜色信息的综合分析得到对应碱基序列。AB公司的SOLiD测序平台最主要的特点是拥有特别高的读取序列的精准性与巨大的数据输出量。在测序价格方面,如果在相同数据量的条件下进行测序,那么该测序技术所需要的测序费用要略低于Solexa测序技术。与Solexa相同之处在于,因为序列读取长度很短,测序完成后的数据信息同样要借助生物信息学知识加以分析。
1.2 第三代测序技术 随着测序技术的逐渐发展和第二代测序技术的影响下,为了能够得到测序通量更高,测序的成本更加低廉和基因序列读取长度更长的测序标准,第三代测序技术即基因单分子测序正迅猛发展起来。第三代测序技术的主要代表的是Pacific Biosciences公司的单分子实时测序技术和Oxford Nanopore Technologies公司纳米孔单分子测序技术。单分子实时测序技术的主要技术特点是使用荧光信号进行测序,纳米孔单分子测序技术则是利用不同碱基所能够产生的电信号进行测序[15-17]。基因单链的通过空间被纳米孔所限制,每次只能通过一个核苷酸分子,此过程能被逐一识别是在DNA序列通过纳米孔时。第三代测序技术相对于第二代测序技术,主要优势在于操作起来很方便,读取速度非常快,而且测序的成本低廉。
2 大豆转录组研究进展
大豆是目前全世界种植面积相对比较大的作物之一,大豆作为重要的食品、饲料和工业原料,在人类的生产和生活中发挥着重要的作用。因此,研究大豆在特定条件下的基因表达模式,对于开发和利用大豆种质资源十分必要。
2.1 大豆结瘤发育的转录组分析 大豆结瘤具有与某些微生物进行固氮共生相互作用的独特能力,大豆的根组织是分化根瘤的特定器官,为根瘤提供碳源和适当的细胞环境,可以确保根瘤能够固定大气中的氮源,大豆的根与根瘤的共生关系是大豆植株生长的关键。Colebatch、Moreau等[8]研究表明,参与大豆结瘤的形成和固氮过程的基因,除了已知的大豆结瘤素基因外,还有许多新发现的基因参与大豆根的结瘤。此外,一些信号转导的基因和转录因子被认为是调节基因控制感染、结节与器官功能。Benedito等[9]确定了3 400多个差异表达基因都与大豆根瘤发育的过程有关联,对这些基因功能的分析决定了在转录过程中4个不同阶段结节的分化、根细胞独立分化、根瘤分化和固氮。这项研究包括细胞分裂素的合成和茉莉酸途径结节发育。有趣的是,许多豆科植物特异性基因被发现要优先表达在根瘤上,这充分证明这些基因被赋予到进化过程中所执行的是特殊功能。总的来说,这些研究提供了参与大豆结瘤发育和相关联的候选基因。然而,还有许多基因有待发现,目前我们仍然没有完全获知大豆结瘤过程的完整的分子机制。
2.2 大豆种子发育的转录组分析 大豆种子发育是一个相对比较复杂的过程,大豆种子在发育过程中需要协调表达和几种基因协调调控。作为重要的农艺性状,大豆种子发育一直是研究豆科植物的重点。Severin等[10]表明,近期许多进行全转录组研究重点都集中在对大豆种子发育过程的分析与研究上。Gallardo等[11]的研究揭示了大豆种子的组织可能与大豆种子填充过程中调节蛋白质合成色氨酸的合成酶的过程相独立,这个重要农艺性状被发现,可以利用制定方法用于改变大豆种子的营养价值。另外,转录物和蛋白质分布的对比分析表明基因的一个显著特点,大豆种子在发育过程中进行转录后调控。Severin等[10]对大豆种子发育的7个阶段进行分析并确定了2 000个基因在种子中优先表达,其中很多基因参与大豆种子填充过程,有的基因与纤维素合酶的活性有关,营养储存活性和脲酶活性的基因被发现与大豆种子发育有关。Verdier等[12]制定一个详细的时间序列(授粉后10~20d,DAP),已经作为基因表达图谱的一部分,是对转录的大豆种子成熟的研究,总基因的30%,其中包括190个豆科特异性基因,624转录因子和293转运基因被鉴定为种子发育期间差异表达,其中种子贮藏蛋白基因、豌豆球蛋白基因、大豆球蛋白基因在种子中是高度表达的基因。这项研究确定了几个基因簇具有鲜明的表达模式与在种子发育的不同阶段的生理过程是密切相关的。例如,参与配体-受体相互作用和细胞周期的基因在(10 DAP)在胚胎发育过程中出现了偏高;同样地,涉及在淀粉和蔗糖代谢的基因在大豆种子灌浆期(16 DAP)的比例过高,并参与蛋白质折叠和降解基因富集在种子干燥和成熟阶段(20DAP)。总体而言,从转录组研究的角度来讲,这些发现是令人兴奋的,而且在这一重要农艺性状的工作中确定了种子发育过程中候选基因的作用。
2.3 大豆花发育的转录组分析 在高等植物中,从营养生长到开花期的转变表明了植物的生殖发育。Jack等[13]指出,大豆花发育的分子基础已被广泛应用到研究拟南芥和水稻等模型植物上。Keurentjes等[14]在以分子遗传学分析全基因组转录组的研究中确定了大豆花发育的几个关键阶段,并提出了大豆花的发展模式。而且基因调控开花时间已经成功建立,并成功通过了在拟南芥基因组范围内的基因表达分析,这表明大多数参与大豆花发育的已知基因是保守的。Dong等[15]在分子水平上研究表明,某些与大豆花有关的基因,如UNIFOLIATA和STAMINA PISTILLOIDA,已经在豆科植物中获得了附加功能。因此,当务之急是将研究豆科类作为重要的发展项目以及寻找重点监管,建立形态学的分子基础。Singh等[16]研究了潜在的大豆花转变,并通过微阵列分析拍摄顶端分生组织的分子过程。本次研究总共331个转录物与显著差异表达鉴定花香和牵连糖,生长素和脱落酸在这一过程中非生物胁迫和大豆花信号通路重叠的证据也被突出显示。在最近的RNA序列转录组基于3种营养组织和大豆花发展的8个阶段进行了分析,转录动力学的鹰嘴豆全球视野已经呈现。Kater等[17]研究确定了在大豆花发育的不同阶段优先表达的基因,许多这些基因的发现为转录因子进行编码,同时还发现大量的MADS-box转录因子在大豆花发育阶段上调,MADS-box转录因子是已知的大豆花器官发育的关键调节剂。
3 问题与展望
3.1 问题 虽然新一代高通量测序技术发展迅猛,越来越多的应用于动植物及微生物中,但是此项技术同时也存在以下几个问题:(1)序列长度一直都是制约新一代测序技术广泛应用的主要因素。根据现行的测序原理,通量的增加注定以牺牲序列片段为代价,而序列长度对于基因组或转录组的后续拼接非常重要。在测序质量方面,错误率偏高也是困扰科研工作者的主要问题,因此很多人还是选择了准确性更高的传统的Sanger测序。如何改善测序长度,并最大限度的降低测序错误率是目前各大技术都应着手解决的问题。(2)第二代测序技术采用体外扩增的办法,样品必须经过打断、加接头、反转录、扩增等多重步骤,步骤的增加势必引入各种误差,同时测序费用也相应提高,在实际操作中还有很多问题也尚待解决。如在RNA-seq研究中,先打断后反转可以得到更全面的转录本信息,但是这种方法的前提是RNA的纯度和浓度都必须很高,这必然增加了取材的难度。(3)新一代测序技术已经取得令人瞩目的成就,但是面对海量的测序数据后期处理仍然存在2个主要问题:第一,如何充分挖掘隐藏在原始数据中的生物学意义,解释各种生物学现象;第二,如何高效地对数据进行分类、存档等,成为了研究人员必须面临的一个难题。在实际的操作中,一些序列的拼接聚冗等处理还是有一定的问题。
3.2 展望 随着高通量测序技术的日渐成熟,测序成本的进一步降低和对海量数据处理能力的不断提高,高通量将成为一项常规的实验手段,一些生物学问题将会得到有效地解决,为生物学和生物医学领域带来革命性的变革。高通量测序技术的发展极大推动了转录组学的研究,使研究者能发现更多新转录本,挖掘更多分子标记,更清晰的绘制转录图谱以及更准确的确定代谢途径通道。随着第三代测序技术的不断完善和发展,将来测序成本会大大降低,测序的通量和准确性也会不断提高,从而进一步推动转录组测序技术在农业科学等基础研究中的应用。随着组学时代的到来,以高通量测序技术为基础,综合各种组学研究成为必然的发展趋势,后基因组时代的大豆转录组学的研究将会更加深入。
参考文献
[1]Margulies M,Egholm M,Altman WE.Genome sequencing in microfabricated high-density picolitre reactors[J].Nature,2005,437(7057):376-380.
[2]Tawfik D.S.,Griffiths A. D.. Man-made cell-like compartments for molecular evolution [J].Nat.Biotechnol,1998,16:652-656.
[3]Bennett S..Solexa Ltd[J].Pharmacogenomics,2004,5:433-438.
[4]Rajeev K.Varshney,Spurthi N.Nayak,Gregory D.May,et al.sequencing technologies and their implications for crop genetics and breeding[J].Trends Biotechnol,2009,27(9):522-530.
[5]Service RF.Gene sequencing:The race for the $1000 genome[J].Science,2006,311(5767):1544-1546.
[6]HarrisTD,Buzby PR,Babcock H,et al.Single-moleculeDNA sequencing of a viral genome[J].Science,2008,320(5872):106-109.
[7]林海建,张志明,沈亚欧,等.基因芯片研究植物逆境基因表达新进展[J].遗传,2009,12(5):34-45.
[8]Colebatch,G.,S. Kloska,B. Trevaskis,et al.Novel aspects of symbiotic nitrogen fixation uncovered by transcript profiling with cDNA arrays[J]. Mol. Plant Microbe Interact.,2002,15:411-420.
[9]Benedito,V.A.,I. Torres-Jerez,J.D. Murray,et al.A gene expression atlas of the model legume Medicago truncatula[J]. Plant J.,2008,55:504-513.
[10]Severin,A.J.,J.L. Woody,Y.T. Bolon,et al.RNA-Seq Atlas of Glycine max:a guide to the soybean transcriptome[J].BMC Plant Biol.,2010,10:160.
[11]Gallardo,K.,C. Firnhaber,H. Zuber,et al.A combined proteome and transcriptome analysis of developing Medicago The Plant Genome:Posted 12 June 2013; doi:10.3835/plantgenome2013.04.0011 truncatula seeds:evidence for metabolic specialization of maternal and filial tissues[J]. Mol. Cell Proteomics,2007,6:2165-2179.
[12]Verdier,J.,F. Dessaint,C. Schneider,et al.A combined histology and transcriptome analysis unravels novel questions on Medicago truncatula seed coat[J]. J. Exp. Bot,2013,64:459-470.
[13]Jack,T. Molecular and genetic mechanisms of floral control[J].Plant Cell,2004,16Suppl:S1-S17.
[14]Keurentjes,J.J.,J. Fu et al.Regulatory network construction in Arabidopsis by using genome-wide gene expression quantitative trait loci[J]. Proc. Natl. Acad. Sci. USA,2007,104:1708-1713.
[15]Dong,Z.C.,Z. Zhao,C.W. Liu,et al. Floral patterning in Lotus japonicas[J].Plant Physiol.,2005,137:1272-1282.
[16]Singh,V.K.,R. Garg,M. Jain.A global view of transcriptome dynamics during flower development in chickpea by deep sequencing. Plant Biotechnol.J.doi:10.1111/pbi.12059. Stacey,G.,M. Libault,L. Brechenmacher,J. Wan,and G.D. May. 2006. Genetics and functional genomics of legume nodulation. Curr. Opin[J]. Plant Biol,2013,9:110-121.
[17]Kater,M.M.,L. Dreni,L. Colombo. Functional conservation of MADS-box factors controlling floral organ identity in rice and Arabidopsis[J]. J. Exp. Bot,2006,57:3433-3444.
(责编:张宏民)