RNA-seq:转录组测序的重要工具
2020-07-02阚东扬
阚东扬
(昭通学院农学与生命科学学院 云南 昭通 657000)
引言
众所周知,遗传信息是通过信使RNA(mRNA),经过精细调节的过程从DNA传递到蛋白质的。由中心法则我们可以知道RNA是作为一个“桥”连接着遗传信息由DNA传递到蛋白质中,而每个基因以及其相应的表达量水平被称为转录组[1]。从广义上来说转录组包括mRNA,rRNA,tRNA,以及非编码RNA。狭义上来说它仅指所一个样本中收集到的所有mRNA[2],因此转录组测序也被称为RNA-seq。
随着对基因组研究的深入,研究者对能够进行各种转录基因分析的工具的需求,更加迫切。特别是能够进行差异基因鉴别和表达量分析的工具。因此随着新一代测序技术的成熟,RNA-seq被广泛应用于各种RNA功能研究中,通过不同的分离试剂可以在制备cDNA文库前得到所需要的各种类型RNA(mRNA,rRNA,tRNA,小分子RNA)。
一、RNA-seq的优点
目前RNA-seq已经作为一种主流的研究转录组的测序技术,其相比较于其他几种技术具有显著的优势。
通过建立泊松分布模型捕获差异表达基因,发现相较于其他几种测序技术(分子杂交,生物芯片,碱基测序,这些方法基本都基于桑格尔测序法),有0.5%的基因可以观察到明显的差异,背离分布。并且通过这个模型,比基因组芯片鉴定出的基因更多,高达30%[3](Marioni et al.,2008)(Marioni,J.C,2008)。特别是对具有亲缘关系的相近物种进行检测基因表达量分析和差异基因鉴别时,相比其他方法具有高度灵敏性和更高的信息深度[4]。而这些基于碱基杂交的方法其固有的缺陷:1花费昂贵,2 high-resolution tiling arrays(高分辨率芯片)需要查询大量的基因组,此外这些方法还有其他限制:1需要大量已知的片段序列,2高背景水平(由于交叉杂交的特点),3有限的检测范围(由于信号的浓度和溶解度)并且对表达水平的检测,一个实验往往很难办到,而且常常是普通实验复杂化[5]。RNA-seq的三个优势:1:无需现有基因的支持,可以测序非模式种,2与DNA芯片相比低背景,高敏感性,样品只需少量,无序列数量上限,精度高[6]。
RNA-seq相比芯片技术在测序范围内高出了五个数量级,高丰度情况下,RNA-seq相比芯片能检测出大约40%的差异基因表达的。事实上,RNA-seq相比芯片技术的最大优势是在外显子边界范围的预测[7]。采用RNA-seq可以较为准确的测量基因表达水平[8]转录子的表达水平是与它的读段是成比例的,相应的读段数目乘以转录子的长度,即可作为一个直观的量化表达量的水平的依据[9]。RNA-seq的另一个巨大优势体现在时效性和廉价性上,特别是在大规模测序应用中,可以以低廉的花费在较短的时间内获得样品基因组的数据。
表1 RNA-seq的特点
二、RNA-seq的原理和功能
(一)RNA-seq的工作原理
RNA-seq是以 Illumina 公司的 Solexa 技术为代表的新一代测序技术,又称作深度测序技术。由于其具有的测序通量高、测序时间和成本显著下降特点,使其被广泛应用于各种RNA片段测序研究中,因此被称为RNA-seq 或 RNA 测序。
以Illumina公司的Solexa技术为例,其测序原理为:边合成边测序[10],其测序过程是在获得的RNA单链反转录为DNA 单链后,以单链cDNA为模板,在生成互补链时,利用带荧光标记的 dNTP 发出不同颜色的荧光来确定不同的碱基.新加入 dNTP 的末端被可逆的保护基团封闭,既保证单次反应只能加入一个碱基,又能在该碱基读取完毕后,将保护基团除去,继续下一个反应。
RNA-seq主要包含两个流程:1 cDNA文库的构建,2 测序得到的读段(read)处理。以Illumina技术为例,典型的构建mRNA文库主要分为(1)抽提总RNA并片段化,(2)使用共轭磁珠(oligo-dT)从总RNA中捕获polyA+,获得mRNA(RNA片段相对于DNA片段的优势在于减少RNA二级结构[11]库,(3)反转录mRNA获得cDNA片段,(4)为cDNA装配测序接头,(5)清理文库并扩增文库片段。如图1所示:
图1 cDNA文库构建流程
完成cDNA文库的构建后,即可上机测序,获得读段(reads),将获得的读段进行比较,基于读段之间的重叠区域进行拼接,构建重叠群。对这些拼接后获得的序列(contigs)进行相邻序列界定(往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定这些Contigs之间的顺序关系),进一步拼接。这些确定前后顺序的contigs拼接后的片段称为Scaffold。随后就可以将获得的Scaffold拼接并构建样品基因组。如图2所示:
图2 读段后续处理
(二)RNA-seq的功能
几乎所有的RNA-seq研究都可以分为三类:1.差异基因表达研究,比较在不同条件下,每个基因的差异表达。2.差异转录本/外显子使用研究,比较在不同条件下基因同工型丰度谱的组成。3.差异转录表达研究,重点在研究单个转录本是否显示不同条件之间的差异表达[12]。
整个转录组分析的主要目标是鉴定,表征和分类在特定细胞/组织(特定阶段)表达的所有转录本,它具有确定正确剪接模式和基因结构的潜力,并量化两种转录本的差异表达 生理和病理状况。同样的,具有同工型编码不同蛋白的基因可能是作用于不同细胞或者生命活动周期,而检测不同的promoter和拼接位点可以探明转录组的调节行为和规律[13],了解这些差异对于我们理解或者解决生物的多种重大疾病有极大的帮助。
三、讨论
(一)RNA-seq本身所具有的缺陷:
(1)RNA-seq得到的数十亿对碱基数据对于高效构建转录图谱是一个巨大的挑战。大量“未充分利用”的信息的滞存,由于新信息的产生,使得这些滞存的信息在几个月内变得无用[14]而由于转录子结构的不连续性,对于精准拼接庞大的RNA-seq数据库是很困难的[15],但现有的算法有其固有的缺陷对于拼接或者表达水平有误差(如:RPKM(一种RNA-seq的读段测量方法)——所固有的问题:掩盖了总mRNA含量的差异。如果总mRNA含量也发生变化,则一个基因的RPKM可能会“上调”,并且绝对表达水平会降低[16]因此对新的计算策略和专业知识进行同等开发就迫在眉睫,以处理当前一代新测序仪器创建的数据量,最大程度地发挥其潜在效益。(2)数据管理:没有适当的信息技术(IT)基础架构,下游计算分析将变得困难;每次测序运行产生的数兆字节的数据需要显着的存储和备份容量,大大增加了,这也迫切需要专业的生物信息技术学者开发新的算法;(3)关于原始数据生成所使用的协议:每个平台在样品制备以及原始数据的类型和数量上都有其独特性,因此使用它们时,每个均需要相应的实验室专业知识和数据处理管道,这很大程度上阻碍了研究人员的实验进度。(4)无论使用哪种软件,最重要的问题是了解其局限性和假设。测序采用输入/输出数据标准对于有效处理数据管理问题也至关重要。(5)仔细的实验设计的未得到充分考虑。
(二)RNA-seq的进一步应用研究
近年来对于单细胞RNA-seq的应用不断深入,将RNA-seq应用于单细胞转录组中,以研究细胞在不同分化阶段上的转录组差异,构建细胞的时间轴上的分化差异,从而构建细胞的分化时间轴,进而挖掘重要的功能基因[18]。这对于研究生物系统发育极具吸引力,新的研究成果不断涌现,未来RNA-seq也将更进一步的应用于非模式种的单细胞转录组测序中。