APP下载

高通量测序技术的研究进展

2019-01-04李妍综述徐兴祥审校

中国医学工程 2019年3期
关键词:碱基文库基因组

李妍 综述;徐兴祥 审校

(1.大连医科大学 研究生院,辽宁 大连 116044;2.江苏省苏北人民医院 呼吸科,江苏 扬州 225001)

1 二代测序技术的诞生

二代测序技术是在过去十年中不断发展起来的测序技术[1]。在20世纪70年代,Sanger等[2]和Maxam与Gilbert[3]分别开发了通过链终止和断裂技术对DNA进行测序的方法。这种生物转化是通过提供破译完整基因以及后来整个基因组的工具来实现。由于Sanger及其同事开发的技术,通常被称为Sanger测序,与Maxam和Gilbert的方法相比,对有毒化学品和放射性同位素的处理要求较少,因此它成为未来30年内更为普遍应用的DNA测序方法。随着对测序通量需求的不断增加,促进了实验室自动化和测序流程的并行化,最终导致大量的测序仪器批量式生产,由于这些进步,Sanger技术最终在2004年实现了第一个人类基因组测序的完成[4]。然而,人类基因组计划(Human Genome Project,HGP)的完成需要大量的时间和资源,显然我们需要更快,更高通量和更经济的测序技术。因此,在2004年,国家人类基因组研究所(National Human Genome Research Institute,NHGRI)发起了一项资助计划,目标是在十年内将人类基因组测序的成本降低到1000美元[5],这刺激了二代测序技术的开发和商业化。新的测序技术主要有三个方面的改进[6]:首先,它们不依赖于细菌DNA片段的克隆,而是依赖于非细胞系统中二代测序技术(next-generation sequencing,NGS)文库的制备。其次,并行产生数千至数百万个测序反应,而不是通常的数百个。第三,无需电泳即可直接检测到测序输出,整个过程是循环和并行进行的。NGS产生的大量读数能够以前所未有的速度对整个基因组进行测序。这些重大改进使科学家能够在很短的时间内以低成本处理整个基因组的测序,开辟了基因组学和分子生物学的新时代。

从1977年第一代DNA测序技术(Sanger法),发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长,不断经历着重大变革的同时也取得了技术上不断的进步。目前,第二代测序技术在全球测序市场上已占据绝对的优势,同时第三和第四代测序技术也初露锋芒。测序技术每一次变革,都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。

2 根据NGS平台不同分类

二代测序技术的原理包括合成法测序及连接法测序。目前高通量测序的主要平台代表有罗氏公司(Roche)的454测序仪(Roch GS FLX sequencer),Illumina公司的Solexa基因组分析仪(Illumina Genome Analyzer)和ABI的SOLiD测序仪(ABI SOLiD sequencer)。

2.1 454焦磷酸测序

罗氏454是第一个商业上成功的下一代测序系统。使用焦磷酸测序继续,而非双脱氧核苷酸来终止链扩增,焦磷酸测序技术依赖于核苷酸掺入期间释放的焦磷酸的检测。罗氏公司的454焦磷酸测序技术原理为:在DNA聚合酶、ATP硫酸化酶、荧光素酶和双磷酸酶的作用下,将每一个脱氧核糖核苷三磷酸(deoxy-ribonucleotide triphosphate,dNTP)的聚合与一次化学发光信号的释放偶联起来,通过检测化学发光信号的有无和强度,达到实时检测DNA序列的目的[7]。

该技术的流程可大致分为以下几部分,第一步为DNA文库制备,即基因组DNA/cDNA利用酶促或机械方法片段化处理至300~800 bp间,经末端修复与特异性接头等修饰后变性处理回收单链DNA。第二步为乳液聚合酶链式反应(polymerase chain reaction,PCR)[8]:单链DNA文库被固定在直径约28 μm的DNA捕获磁珠上,乳化,形成油包水的混合物,每个独特的片断在自己的微反应器里进行独立的扩增,回收纯化。第三步为焦磷酸测序反应:携带DNA片段的磁珠被放入一种称作“PicoTiterPlate”(PTP)的平板中供测序反应使用。测序方法采用焦磷酸测序法,将一种比PTP板上小孔直径(约为44 μm)更小的磁珠放入小孔中,启动测序反应。测序反应以磁珠上大量扩增出的单链DNA为模板,每次反应加入一种dNTP进行合成反应,如果dNTP能与待测序列配对,则会在合成后释放相同数量的焦磷酸基团,释放的焦磷酸基团会与反应体系中的三磷酸腺苷(adenosine triphosphate,ATP)硫酸化学酶反应生成ATP,生成的ATP和荧光素酶共同氧化使测序反应中的荧光素分子并发出荧光[9],同时由PTP板另一侧的电荷耦合器件(charge coupled device,CCD)照相机记录,最后通过计算机进行光信号处理而获得最终的测序结果。由于每一种dNTP在反应中产生的荧光颜色不同,因此可以根据荧光的颜色来判断被测分子的序列。反应结束后,游离的dNTP会在双磷酸酶的作用下降解ATP,从而导致荧光淬灭,以便使测序反应进入下一个循 环。

由于454测序技术中,每个测序反应都在PTP板上独立的小孔中进行,因而能大大降低相互间的干扰和测序偏差。此技术读取长度最长,高质量的读长能达到400 bp[10],但通量最低。其主要的错误来自于同聚物,当测序遇到序列中存在类似于PolyA的多聚核苷酸的情况时,如TAAAAC序列,即相同的碱基的连续延伸,其中T和C的读取没有问题,但A只记录了一次光信号,仅信号强度与TAC序列的A有所不同,因此同聚物越长,可能产生的误差就越大,重复的碱基个数只能通过荧光强度推测获得,碱基个数与信号强度不再成线性关系,引入插入和缺失的测序错误将不可避免,所以在检测具有重复序列的DNA片段时该测序方法具有困难。

相对于Sanger测序、Solexa和SOLid测序而言,454焦磷酸测序可以提供中等的读长和适中的价格,适合从头测序、转录组测序、基因组结构分析、宏基因组研究等[11]。

2.2 Solexa聚合酶合成测序

2006年,Solexa发布了Genome Analyzer(GA)测序仪,2007年该公司被Illumina收购。测序仪采用合成测序技术(sequencing by synthesis,SBS)。该测序方法的核心技术是:“DNA簇”和“可逆性末端终止”。具体技术原理是:将基因组DNA的随机片段附着到光学透明的测序芯片表面,称为流动槽(flow cell),这些DNA片段经过延伸和桥式扩增后,在flow cell上形成了数以亿计的DNA簇,每个簇是具有数千份相同模板的单分子簇。然后利用带荧光基团的四种特殊脱氧核糖核苷酸,通过可逆性终止的边合成边测序技术对待测的模板DNA进行测序[12]。

该测序方法具体步骤为,第一步文库构建:方法同454测序,不同之处在于读长,除特殊需要外,大多数研究主要是打断成长度为200~500 bp的序列片段。第二步为簇的生成:flow cell是用于吸附流动DNA片段的槽道,每个flow cell有8个管道(channel),每个channel的表面都附有很多接头,当文库建好后,这些文库中的DNA在通过flow cell的时候会随机附着在flow cell表面的管道上,随后DNA在其表面进行桥式PCR的扩增。第三步为桥式PCR扩增与变性,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。第四步测序:测序方法采用边合成边测序的方法。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。随后,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3'-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率大致在1%~1.5%之间。Solexa技术特色突出表现在:①每张测序芯片有8个通道,每个通道可单独运行一个样品,也可把多个样品混合在一起检测;②一次实验可读取大于15亿个碱基/芯片;③可精确读取重复序列,如:GGGGGG;④成本低,为传统方法的1/100;⑤不需要建立文库,自动化样品制备,简单易行。

Solexa平台的应用范围十分广泛,几乎覆盖了目前基因组学研究的各个方面,如基因组从头测序、转录组测序、表达谱分析、小RNA及非编码RNA测序、表观遗传学研究等。此项技术读取的片段多,测序通量高,高度自动化,适合大量小片段DNA的测序。其优点在于性价比最高,不仅机器的售价比其他两种低,而且运行成本也低,在数据量相同的情况下,成本只有焦磷酸测序的 1/10。但局限性在于可逆反应时随反应次数的增加效率减低、信号减弱,且读长短,从头测序具有困难。Solexa的读长在100~150 bp之间,适合小RNA鉴定、甲基化和表观遗传学研究。

2.3 SOLiD连接酶测序

SOLiD由Applied Biosystems于2006年购买。测序仪采用基于连接测序的双碱基测序技术。该技术的独特之处在于以四色荧光标记寡核苷酸的连续连接合成为基础,取代了传统PCR,可对单拷贝DNA片段进行大规模扩增和高通量并行测序[9]。基本原理是通过荧光标记的8个碱基单链DNA探针与模板配对连接,发出不同的荧光信号,其包含连接位点(第一个碱基),切割位点(第五个碱基)和4个不同的荧光染料(连接到最后一个碱基)[10],从而读取目标序列的碱基排列顺序。在该方法下,目标序列的所有碱基都被读取了两遍,因此,该测序方法最大的优势就是极高的准确率。该技术原理为:用连接法测序获得基于“双碱基编码原理”的SOLiD颜色编码序列,随后的数据分析比较原始颜色序列与转换成颜色编码的reference序列,把SOLiD颜色序列定位到reference上,同时校正测序错误,并可结合原始颜色序列的质量信息发现潜在单核苷酸多态性(single nucleotide polymorphism,SNP)位点。

测序技术流程:第一步同样为文库构建,SOLiD系统能支持两种测序模板:片段文库或配对末端文库,我们通常根据需要选择对应的文库。片段文库多用于转录组测序、RNA定量、miRNA探索、目标(区域)重测序(targeted resequencing)、3',5'-RACE、甲基化分析、染色质免疫共沉淀(chromatin immuno precipitation,ChIP)测序等。配对末端文库多用于全基因组测序(whole genome sequencing,WGS)、SNP分析、结构重排/拷贝数等研究。第二步为乳液PCR/微珠富集:SOLiD的PCR过程也和454的方法类似,但这些微珠比起454系统来说则要小得多,只有1 μm。与454测序方法相比,在同一系统中高通量的实现显得更为轻松。第三步为连接酶测序。这一步是SOLiD测序的独特之处,就在于两个碱基确定一个荧光信号,相当于一次能决定两个碱基,这种测序方法也称之为“双碱基测序法”。第四步为数据分析,SOLiD测序完成后,得到了由颜色编码组成的SOLiD原始序列。考虑到碱基与颜色信息的简并性,为避免错误颜色编码引起后续的连锁解码错误,SOLiD序列分析软件不直接将SOLiD原始颜色序列解码成碱基序列,而是依靠参考(reference)序列进行后续数据分析。

SOLiD的读取长度最初是35 bp,每次运行输出数据量为3 G。由于采用双碱基测序方法,过滤后SOLiD可达到99.85%的高精度。ABI在2007年底发布了第一个SOLiD系统,在2010年末发布了SOLiD 5500xl测序系统。从SOLiD到SOLiD 5500xl,ABI在短短三年内发布了五次升级。SOLiD 5500xl实现了每次运行在读长、精确度及输出量分别为85 bp,99.99%和30 G。一次完整运行可在七天内完成,目前是第二代测序技术中准确性最高的。并且由于Solid测序法采用的不是PCR反应进行DNA合成与测序,因此对于高GC含量的样本具有很大优势。但在荧光解码阶段,鉴于其是双碱基确定一个荧光信号,因而一旦发生错误就容易产生连锁的解码错误。另外,在这三种技术中该技术测序读长为50 bp最短,后续序列拼接同样比较复杂,且读取长度受反应次数限制,给从头测序拼接带来困难。因此,我们在选择测序方法之前应权衡利弊,选择最合适的测序方法。该测序方法常用平台为ABI 3730 XL,适于基因组重测序和单核苷酸多态性(SNP)检测。

3 根据NGS原材料不同进行分类

目前,我们可以根据要解决问题的不同使用不同的方法。初始输入材料可以是基因组DNA(DNA-seq),信使或非编码RNA(RNA-seq)或特异性获得的任何核/核糖核酸材料。

3.1 DNA测序(DNA-Seq)

包括全基因组测序[13],全外显子测序(whole exome sequencing,WES)[14]和靶向测序[15]。

WGS允许对整个基因组测序,需要大的DNA样品,为了准确地检测临床突变,可能需要100至200倍的测序覆盖,即在时间和成本上具有一定的限制性。通常,采用足以鉴定结构重排的30至60倍测序。WGS的主要技术优点是文库制备不需要任何富集或扩增,测序特异性理论上为100%,在实践中实现约为95%~98%,在整个输入材料的感兴趣区域(region of interest,ROI)中具有均匀的覆盖。日常应用WGS最重要的障碍是成本高,数据的复杂通路分析和数据解释。该方法特异度为95%~98%,测序深度为30~60 x,20 x以上的目标区域占所有目标区域的90%~95%,操作过程所需时间为6~24个小时[15-17]。

对于许多应用来说,整个基因组测序既不实用也不必要。WES仅对基因组的编码区进行测序,关注基因组的外显子,约2.5%的人类基因组已发现与疾病或表型相关的罕见或常见变体[18-19]。与WGS相比,WES降低了成本和时间。最常见的方法依赖于通过寡核苷酸探针杂交以“捕获”靶向的DNA片段,从而富集外显子序列。WES目前已应用于识别与癌症相关的基因[20],糖尿病[21],免疫疾病[22-23]等。WES文库制备/样本处理最常用的技术为TruSeq,代表了Illumina测序的最新进展,旨在优化数据准确性,研究可扩展性和用户体验。典型的测序工作流程包括样品/文库制备,簇扩增,DNA测序,图像分析/碱基调用,读取比对和变体发现。通过TruSeq技术,该流程中的每个步骤均经过优化,可提供最准确的数据,以确保任何研究项目的最高质量标准。通常,WES测序的特异度为75%~80%,测序深度为100~200 x,20 x以上的目标区域占所有目标区域的90%~95%,操作过程所需时间为6~72个小时。

靶向测序即测序集中于针对特定疾病的目标基因。由于靶向测序技术聚焦于对特定疾病ROI的选择,在节约时间和成本方面,对于更多针对临床应用研究的实验室更加准确和方便。

3.2 RNA测序(RNA-Seq)

RNA测序旨在对选择性的基因剪接转录物的发现、转录后修饰、基因融合、突变/单核苷酸多态性(SNP)的检测以及小和长非编码RNA和基因表达变化等研究[24]。首先将提取的RNA富集并逆转录成互补DNA,然后加工。此外,即使当前没有可用于诊断的相关基因测序板,使用NGS方法,仍然可以对表观遗传学改变,例如启动子甲基化,微小RNA和其他小RNA的表达进行研究。

早期的RNA-seq研究经常使用不保留链信息的方案。然而,真核转录组远比我们预想的复杂得多,许多基因会产生反义转录物[25]。为了应对这种复杂性,已经开发了许多特异性的RNA-seq方案,其中第一个出现在2008年[24]。这些方案使得鉴定具有重要生物功能的新型反义调控转录物成为可能[26-28]。目前,一些新型的样品制备方法可允许在单细胞水平进行转录组分析。单细胞转录组学提供了与经典方法相比更为详细的转录动力学视图。例如,来自对单细胞转录组的分析显示,看似相同的细胞之间可能存在实质的转录异质性[29]。最近发表的一篇开创性研究描述了一种称为荧光原位RNA测序(fluorescent in situ sequencing,FISSeq)的方法,不仅能够研究单细胞的转录组,而且可以确定细胞内每个转录物的精确位置[30]。

经典RNA-seq仅限于测量RNA稳态水平,通常不直接反映转录活性或蛋白质合成速率。几年前,开发了一种在单核苷酸分辨率下通过特异地测序新生转录物使转录可视化的方法。NET-seq是2011年开发的一种RNA测量工具,它是提供更高分辨率并保留RNA链信息的RNA聚合酶ChIP-seq的替代品。这里提到的ChIP-seq是将染色质免疫共沉淀技术(ChIP)与NGS技术相结合的染色质免疫共沉淀测序(ChIP-seq),最初被开发用于鉴定体内蛋白质-DNA相互作用[31],并已经广泛用于研究生物过程的多样性。近年来,很多的突变都被这种技术检测出来。

4 讨论

虽然,二代测序的出现为临床诊疗提供了一个崭新的平台和广阔的前景,包括个体化癌症治疗和精准医学等广泛应用[32-34]。然而,实施NGS的重大挑战仍然存在,局限性仍然不容忽视。除以上列举的技术性局限性之外,数据存储和处理也是NGS面临的重要挑战。在未来几年,成千上万的新的人类基因组将使已经令人印象深刻的可用序列数据量翻倍。越来越多的人选择进行基因组测序,保密成为一个重要因素。这些信息将如何存储以及访问权限,是否可以让测序者知道其基因组的每个细节,或只知道与疾病诊断或治疗相关的细节,我们如何防止可能出现的“遗传歧视”,以及道德问题等肯定会随着个人基因组的发展而出现,这些问题仍迫切需要解决。此外,以更高效的数据存储和分析方法来跟上数据生产的增长速度也有待研究[35],后续大量的测序数据分析,以及如何以生物学知识去科学地解释和实际应用都值得我们进一步探索。

猜你喜欢

碱基文库基因组
用生命保卫中央文库的陈为人
“植物界大熊猫”完整基因组图谱首次发布
牛参考基因组中发现被忽视基因
专家文库
基因“字母表”扩充后的生命
科学家找到母爱改变基因组的证据
应用思维进阶构建模型 例谈培养学生创造性思维
优秀传统文化启蒙文库
血清HBV前基因组RNA的研究进展
关于推荐《当代诗坛百家文库》入选诗家的启事