高通量测序中拼接问题的研究现状
2016-04-13徐鹏昊
徐鹏昊
(复旦大学生命科学学院,上海200433)
高通量测序中拼接问题的研究现状
徐鹏昊
(复旦大学生命科学学院,上海200433)
近年来,随着第二代测序技术的普及和第三代测序技术的逐步发展,高通量测序技术在实际研究中的应用越来越广泛。高速率、高性价比是其主要优点。相对于传统的桑格(Sanger)法测序来言,高通量测序得到的片段长度较为短小,故如何拼接得到完整的序列一直是炙手可热的研究方向。本文总结了现阶段高通量测序中拼接问题的研究结果,针对现在流行的各种算法进行了简单介绍。
高通量测序;reads拼接;contigs组装;OLC、De brujin图
一、测序技术的发展过程和现状[1]
(一)桑格法
桑格法又叫做双脱氧链终止法,由Sanger在1977年提出。通过加入带有放射标记的ddNTP(双脱氧核苷酸)使DNA合成终止。再通过电泳,并使用放射自显影技术读出碱基。此方法得到的片段较长,能达到1000bp左右。
(二)第二代测序技术
随着科学技术的发展,传统的桑格法已经不能满足研究的需要。科学家们需要更快的速度、更高的通量以及更低廉的价格,于是第二代测序技术应运而生。其核心思想是边合成边测序。现在主要有454 GS FLX、SOLiD和Illumina/Solexa Genome Analyzer三个平台。第二代测序是现阶段测序技术的主流,也是高通量测序的开始。
(三)第三代测序技术
第三代测序技术是指单分子测序技术。不需要经过PCR的过程即可测序,速度可以达到每秒十个碱基。通量更大,读长更短,是现阶段测序技术的发展方向。
二、高通量测序中的拼接工作
(一)高通量测序所得片段的特点
高通量测序之后所得到的序列片段称为reads(读取),其主要特点两点。一是长度短,一般在200bp以下,最长的454平台能达到的长度也不过1000bp,因此需要进行大量的拼接才能得到整条DNA序列。二是有部分重叠,由于测序位置具有随机性,故各reads总会有一定的重叠,这些重叠是拼接工作的关键。
(二)拼接过程
整个拼接过程分为两步。第一步,考察reads的重复序列,并拼接成更长的片段,称为contigs(重叠群),这一步称为reads的拼接;第二步,确定contigs之间的顺序关系,并按此排列,形成称为scaffolds的序列,这一步叫做contigs的组装。
三、Reads的拼接
(一)拼接过程的难点
reads拼接过程中要克服的难点主要有两点,一是高通量测序得到的reads长度较短,故内含信息较少,不易确认相对顺序。二是远程连接信息(Long-range linking information)的不可靠性。2这两点制约着reads拼接过程的准确率。
(二)方法[3]
reads拼接过程中算法的基本要求是de novo(从头测序),即不需要任何序列信息即可对原料进行测序。由此衍生出两种主流的算法:
1.OLC
OLC,即交叠-排列-共有序列算法 (Overlaplayout-consensus),是一个比较传统的算法,其基本思想为根据reads间的重复部分,确定可能性的reads连接顺序。
其步骤为:构建交叠图:对每两个reads进行比对,计算它们的重叠度——排列reads:将reads进行排列,确定它们之间的相对位置,建立overlap图——生成共有序列:通过多序列比对等方法,确立最后的contig。
OLC算法的计算量主要体现在交叠图的构建,而高通量测序得到的海量短序列有大量的交叠,往往需要大量的运算时间。故OLC算法并不适合现在高通量测序的发展趋势。现在某些拼接软件,如Shorty、CABOG等仍在使用基于此的算法。虽然这些软件针对OLC算法有一定的改进和优化,但其拼接速度和准确性仍受到限制。
2.De brujin图
基于De brujin图(DBG)的算法是现在最流行的算法,许多常用的拼接软件如Velvet、ABySS等都在使用这种算法。其特点为把基因序列的拼接问题转化为了数学上的图论问题,大大提高了拼接效率。
(1)基本思想
reads中连续的 k个碱基称为 k-mer,作为DBG的节点,两个k-mer如果在同一read中相邻,则形成一条边。故每个read都会对一些边加权,最后形成一个含有节点、有权值的边的DBG,由此生成最佳的contig。
(2)步骤
筛选reads:对reads进行检测,去除掉可能错误的reads——确定k值:k的值直接影响速度和精度。K值较大时,精度有所提高,但更容易受覆盖率的影响。故应该根据覆盖率、reads长度等确定合适的k值——处理DBG:根据确定的k值,做出DBG,同时完成化简和修正——根据DBG,拼接成contig。
(3)优缺点
DBG算法在处理海量短reads的时候效果优秀,与现在测序技术的发展趋势相匹配。然而,由于k-mer的长度较短,此方法受重复序列、测序错误的影响较大。
(三)不同拼接软件的效果差异
不同的拼接软件在reads拼接过程中表现为三点:一是比起软件来说,reads质量对拼接结果影响更大;二是与标准序列的接近度随reads和拼接软件的不同有很大改变;三是各软件拼接的正确率差别很大,但与接近度的结果不一致。
四、Contigs的组装
与reads的拼接相比,contigs的组装的难度相对较小。这是因为contigs的长度较reads长很多,所含信息较多。故可以较为准确的组装成scaffold
(一)组装过程的难点[4]
Contigs组装过程中的难点主要有二。一是contigs中含有大量的重复序列,不易确定contigs之间的相对顺序;二是由于contigs由reads拼接而成,其中不免会有一些错误,这些错误也会对contigs的组装产生干扰。
(二)方法
Contigs组装的方法较reads拼接而言较多,一般常用的有图论法和光学图谱法(Optical mapping)两种。
1.图论法[5]
图论法是比较传统的方法,与reads拼接有相似的地方。它以contigs作为节点,由相连的读取对(Linking reads pair)作为边,由此形成算图。
其一般步骤为:库的构建:构建出含有所有reads的库——计算相连读取对之间的距离,并由此计算gap的长度——把长度放在边上,作为算图的数据。
其理想的输出结果是一条scaffold序列,对应一条染色体,包含以正确顺序排列的contigs和contigs之间gap的长度。
2.光学图谱法[6]
光学图谱法是一种较为新颖的方法。通过内切酶将DNA切断,此时DNA片段的谱表现出一种特殊的指纹或是识别码的性质。利用光学方法追踪此信息得到相对位置,由此组装成正确的scaffold。
主要步骤为:将 contigs放置在光学图谱上——修正光学图谱——做出contigs的连接图,由此决定最佳的contigs连接顺序。
光学图谱法的组装结果有着很高的覆盖率,巧妙运用光学图谱法可以获得很高的成本效益。
有研究表明,当与454平台获得的实验结果相结合的时候,光学图谱法可以迅速、价廉的得到排列好的定向的contigs组,由此可以产生一个将近完整的基因组。
(三)发展方向
Contigs组装过程的关键点在于如何得到正确的连接顺序。现阶段此方面研究多集中在这一方向。
五、前景与展望
随着生物学研究向微观、向基因领域逐步延伸,高通量测序作为获得基因序列的主要方法,越来越受到重视,拼接技术也在不断发展。高通量测序的基因片段会变得海量且短小,应对此变化,拼接技术也会由确定“唯一的基因序列”向确定“最可能的基因序列”完成转变。因此,新一代的拼接技术会在准确率、覆盖率和速度上,作出超于现在拼接技术的改进。
[1]Anderson MW,Schrijver I.Next Generation DNA Sequencing and the Future of Genomic Medicine.?Genes. 2010;1(1):38-69.doi:10.3390/genes1010038.
[2]Salzberg SL,Phillippy AM,Zimin A,et al.GAGE:A critical evaluation of genome assemblies and assembly algorithms.Genome Research.2012;22(3):557-567.doi:10.1101/gr.131383.111.
[3]Deng X,Naccache SN,Ng T,et al.An ensemble strategy that significantly improves de novo assembly of microbial genomes from metagenomic next-generation sequencing data.Nucleic Acids Research.2015;43(7):e46.doi:10.1093/ nar/gkv002.
[4]Latreille P,Norton S,Goldman BS,et al.Optical mapping as a routine tool for bacterial genome sequence finishing.BMC Genomics.2007;8:321.doi:10.1186/1471-2164-8-321.
[5]HuntM,NewboldC,BerrimanM,OttoTD.A comprehensive evaluation of assembly scaffolding tools. Genome Biology.2014;15(3):R42.doi:10.1186/gb-2014-15-3-r42.
[6]NagarajanN,ReadTD,PopM.Scaffoldingand validation of bacterial genome assemblies using optical restriction maps.Bioinformatics.2008;24(10):1229-1235. doi:10.1093/bioinformatics/btn102.
编辑:冯惟榘
The Recent Research Progress Af High-throughput Sequencing's ASsembling
XU Penghao
(School of Life Sciences Fudan University,Shanghai 200433)
In recent years,with the popularization and gradual development of the second-genaration sequencing technique,High-throughput Sequencing has been widely applied in the practical studies.Its main advantages are the high speed and cost-effectiveness.Relative to the traditional Sanger method,the High-throughput Sequencing's fragment length is fairly shorter.Therefore,how to assemble the fragments into a complete sequence has always been an attracting study field.This paper summarized the research findings of High-throughput Sequencing's assembling part at this stage,and briefly introduced the various popular algorithms.
High-throughput Sequencing;Reads Assembling;Contigs Assembling;OLC,De Brujin Graph
F326
A
2095-7327(2016)-01-0042-03
徐鹏昊,男,山东济南人,复旦大学生命科学学院,主要研究方向为生物技术、生物信息。