APP下载

新一代测序技术及其在遗传性聋基因研究中的应用

2012-02-14李洪波综述袁慧军韩东一审校

听力学及言语疾病杂志 2012年3期
关键词:磁珠碱基基因组

李洪波 综述 袁慧军 韩东一 审校

近几年,新一代测序技术(next-generation sequencing technology,NGS)已经被广泛的应用。该技术可以提供高质量和处理数目庞大的测序数据,帮助研究人员深入地理解掌握基因组和转录组,并将深入到医学病理分析、临床诊断、疾病预测、表型鉴定和个体化的治疗等各个领域,极大地推动生物学和生物医学的研究和发展。但是这项技术目前依旧是非常复杂的,为了很好的将其用于生物学和生物医学的研究,需要将分子生物学技术和生物信息学两方面的知识结合。本综述主要介绍新一代测序技术的特点、原理、应用平台和功能及其在耳聋基因研究中的应用和面临的挑战。

1 新一代测序技术的特点

DNA 测序技术是现代分子生物学和生物医学研究中常用的一种技术手段。1977年,第一代测序技术(Sanger测序法)出现。人类基因组计划(human genome project,HGP)利用该技术加以自动化改进之后,各国政府相继投入资金几十亿美元,耗时约13年,完成了人类遗传密码30亿对碱基序列的测定[1~4]。由于高昂的测序成本限制了该技术更常规的使用。2005年以后出现的新一代测序技术,由于测序成本的大幅度降低,使之能够成为解决一般性的基因分子生物学问题的有效工具[5,6]。该技术的诸多优点也为研究者快速确定疾病病因、促进疾病的预防以及诊断技术和新药的开发提供了越来越多的可能。

新一代测序技术主要分成两大类[7~9],即合成测序(sequenceing by synthesis,SBS)和DNA 单分子测序技术,其中合成测序又可以称为第二代测序技术,而单分子测序技术可以称为第三代测序技术。本文主要介绍第二代测序技术,其不同于传统测序之处在于采用的测序策略为循环芯片测序法(cyclic-array sequencing)。所谓循环芯片测序法,就是对布满DNA 样品的芯片重复进行基于DNA的聚合酶反应(模板变性、引物退火杂交及延伸)以及荧光序列读取反应。该技术具有超高通量并行测序能力,一次可以读取最大400万条序列,读取长度根据平台不同从25bp到450bp,不同的测序平台在一次实验中,可以读取1G 到14G 不等的碱基数,这样庞大的测序能力是传统测序技术所不能比拟的。传统测序是对多个DNA 分子的混合物进行测序,其测序结果是多个DNA 分子综合的序列信息,而合成测序先对单个DNA 分子进行PCR 以放大DNA 分子数量,再对这些DNA 分子进行测序,就可以得到原来单个DNA 分子的序列信息。第三代测序技术也有其自身特点,它比第二代测序技术拥有更高的测序通量,更加低廉的测序价格。该技术不需要制备DNA 文库及对DNA 片段进行单分子扩增[10,11],因而具有更快的测序速度。

2 新一代基因测序技术的基本原理

第二代测序技术在Sanger等测序方法的基础上,通过技术创新发展而来,该技术的核心思想是边合成边测序,其主要原理是通过把大量被测的模板DNA 片段在芯片上进行固定,并在固定化的DNA测序模板上杂交结合通用的DNA 引物,利用不同的方法分别控制4 种碱基在DNA 引物上的延伸,通过检测延伸反应过程或延伸碱基,实现高通量并行的DNA 序列信息的检测。目前,比较成熟的技术平台主要包括美国Roche Applied Science公司的454 基因组测序仪、美国Illumina 公司和英国Solexa technology公司合作开发的Illumina测序仪和美国Applied Biosystems公司的SOLiD 测序仪。这三个技术平台各有优缺点,它们在测序原理上也有着不同的差别。

2.1 454 基因组测序平台 美国Roche Applied Science公司的454测序技术平台主要应用焦磷酸测序(pyrosequencing)原理[12]:该技术是在DNA聚合酶、ATP 硫酸化酶(ATP sulfurylase)、荧光素酶(luciferase)和三磷酸腺苷双磷酸酶(apyrase)的协同作用下催化的同一反应体系中的酶级联化学发光反应,在每一轮测序反应中,只加入一种dNTP,若该dNTP与模板配对,聚合酶就可以将其掺入到引物链中并释放出相同摩尔数的焦磷酸基团(PPi)。PPi可最终转化为可见光信号,通过CCD 光学系统即可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。反应体系中剩余的dNTP 和残留的少量ATP在apyrase的作用下发生降解,这样,就可以在反应体系中加入另一种dNTP,使以上反应重复进行,根据获得的峰值图即可读取准确的DNA 序列信息[13~16]。Roche Applied Science公司推出的GS FLX 系统[14]即应用上述的焦磷酸测序(pyrosequencing)原理,将基因组分割为长度为300到500个碱基对的片段,然后将双链解开,弃去互补链当中的一条,将另一条链通过接头(adaptor)与磁珠上的复合物结合,并使得每个珠子只与一条链发生结合,所有的磁珠即构成了样品文库。随后将包含磁珠和扩增试剂的水溶液注入到矿物油中,水溶液分散形成小水滴,被矿物油包裹,形成了油包水(water-in-oil)的乳浊液结构,每个小水滴中就是只包含一个磁珠及PCR 试剂的微反应器。通过聚合酶链反应(polymerase chain reaction,PCR)对结合在小珠上的片段进行复制,直到各个片段的拷贝完全覆盖其所在的小珠为止。乳浊液PCR(emulsion PCR,emPCR)在每个微反应器中独立进行,排除了其他序列的影响。每个片段扩增后产生了几百万个相同的拷贝,这些拷贝也结合在磁珠上。接下来将珠子分散在一个包含大约160万个直径为44μm 小孔的平板(picotiter plate)上,先使特异性的测序引物和单链DNA 模板结合后,在多种酶和荧光素(luciferin)等的共同参与下,将每一个dNTP 的聚合与荧光信号的释放偶联起来。用CCD 将每个微球发出光及其强度进行记录同时成像,并将所记录下的发光现象与当时加入的核苷酸相关联,可以得到同时发生的几十万个DNA 片段的延伸情况[12,17~19]。焦磷酸测序反应在磁珠上进行,每个磁珠都产生一条读长,最新的GS FLX 系统,一次运行可获得一百多万个读长片段,高质量读长达到200~300bp,读取超过5亿个碱基信息,并通过GS FLX 系统进行分析。

2.2 Illumina Genome Analyzer测序平台 Illumina公司和Solexa technology公司开发的Solexa测序平台采用了与454基因组测序仪不同的合成测序原理[20~22],其核心专利是DNA 簇和可逆性末端终结(reversible terminator)。DNA 簇是指将待测序的单个基因组DNA 片段固定在载玻片表面不同的位置上,形成DNA 文库,并产生DNA 簇的过程。芯片表面连接有一层与接头互补的寡核苷酸,DNA 片段两端通过接头与芯片固定后,形成桥(bridge)结构,并以寡核苷酸为引物进行PCR,复制过程将每个DNA 片段转换为大约1 000个完全一样的拷贝,并位于同一个DNA 簇之中,成为单克隆的DNA 簇群。可逆性末端终结是指在测序过程中,使用可逆终止子边合成边测序。该技术中使用的dNTP,经过了特殊的修饰,四种不同的dNTP分别被标记上了不同的荧光基团,这些带荧光标记的dNTP就是可逆终止子,在所有的dNTP中加入了3’末端保护基团,这些基团能够封闭dNTP 的3’端黏性,阻止另一个dNTP与之相连。因此,测序的每个循环只掺入单个碱基,直到其荧光信号被收集后,将荧光基团去除,再将封闭基团去掉,从而进行下一步反应,而每步反应所收集到的荧光信号,则对应了所要检测的序列。具体过程是,序列合成反应体系包括引物、DNA 聚合酶、4 种标记了不同荧光的核苷酸,每个核苷酸的碱基被保护基团封闭。引物与1个dNTP相连,激光扫描芯片表面,读取各个位置的荧光信号之后,将基团化学切割,恢复3’端黏性,继续聚合下一个dNTP,直到测序完成。每次反应掺入一个核苷酸,该核苷酸类别可通过标记荧光进行识别,经过扫描,读取该次反应颜色后,位于碱基3’末端的保护基团被除去,继续下一轮反应,如此反复,得出片段的精确序列。

2.3 SOLiD 测序平台 Church等发明了另一种不同的测序方法[23,24],后被美国Applied Biosystems公司发展为SOLiD(supported oligo ligation detection)测序技术。它与上述测序技术的不同之处在于以四色荧光标记寡核苷酸的连续合成为基础,取代了传统的聚合酶连接反应,因此也被称作为连接测序(sequenceing by ligation),可对单拷贝DNA片段进行大规模扩增和高通量并行测序,同时利用了独特的双碱基编码原理。SOLiD 在文库构建和PCR扩增方面,与GS FLX 系统类似,微珠通过接头捕获DNA 片段,并进行乳液PCR。不过SOLiD系统的微珠直径只有1μm,而GS FLX 系统采用的磁珠是20μm。在该方法中,DNA 片段文库生成以后,待测的短的DNA 片段的两侧,被连上SOLiD接头,分别是P1接头和P2接头,然后,对加上接头的待测片段,在特定的磁珠表面进行扩增,具体则是通过油包水PCR 反应进行的,其中,和P1接头对应的P1 引物,被固定在P1 磁珠的表面,在PCR 反应前,将含有PCR 反应所有成分的水溶液,注入高速旋转的矿物油表面,形成了类似于GS FLX 系统的油包水乳浊液结构。理想状况下,形成每个小液滴中只包含一个磁珠及PCR 试剂的微反应器,随着PCR 反应的进行,磁珠上就形成了若干具有相同来源的扩增产物,为后续的测序反应做好了准备,再加入测序引物,与固定在每个微珠上的DNA 片段中已知的起始序列发生结合,该测序引物与磁珠上的扩增产物的P1 接头可以互补杂交,随后,向混合物中加入长度为8个碱基的荧光标记寡核苷酸探针开始测序。最新的SOLiD3系统单次运行可产生50GB 的序列数据,相当于17倍人类基因组覆盖度。同时由于SOLiD 系统在测序过程中对每个碱基判读两次,从而减少原始数据错误,并且该技术使用连接酶替代聚合酶能明显减少因碱基错配而出现的错误,测序过程中更换引物也能减少背景噪声和错误率。多项措施的采用,确保了SOLiD 系统原始碱基数据的高准确度。

以上所描述的是几种相对成熟的技术,但这三项技术还远谈不上完美。例如,454 技术的样品准备过程过于复杂,Solexa技术的测序阅读长度还比较短,而SOLiD 技术还需要得到更多科研群体的广泛验证,这些具体的问题,都需要一一解决[25]。事实上,除这几种技术外,许多依据其它不同的原理的技术也正在研究中,即第三代测序技术,从目前看,它们的潜力是非常巨大的。

2.4 单分子测序 为了克服第二代合成测序的一些问题,比如阅读长度过短,需要对测序的模板分子进行扩增,试剂的消耗量过大等,单分子测序应运而生。实现单分子实时测序,需要解决三个关键的技术,第一是荧光标记的脱氧核苷酸。目前的显微镜还无法真正的实时观看到“单分子”,但是它可以实时记录荧光的强度变化。第二是纳米微孔。由于光的衍射作用,DNA 链周围众多荧光标记的脱氧核苷酸形成的强大的荧光背景会使单分子的荧光探测成为不可能。利用纳米微孔技术,可以形成非常稳定的背景荧光信号,便于显微镜捕捉阅读。第三是共聚焦显微镜实时快速地对集成在板上无数的纳米小孔同时进行记录。单分子测序技术解决了上述三个关键问题,不但能够直接测定DNA 的序列[26],同时还能够对RNA 分子序列和甲基化的DNA 序列进行测定。目前的第三代测序仪主要包括Helicos Biosciences 公司的 HeliScope 测序仪(http://www.helicosbio.com/)、Pacific Biosciences公司推出的“Single Molecule Real Time(SMRTTM)DNA Sequencing” (http://www.pacificbiosciences.com/)、VisiGen Biotechnologies公司的单分子合成测序仪、LI-COR Biosciences公司单分子测序仪(http://www.licor.com/bio/)、ABI(Ion Torrent)新一代测序仪(http://www.appliedbiosystems.com)、Oxford Nanopore 的纳米孔测序技术(http://www.nanoporetech.com/)等,各个公司的测序仪和第二代测序技术有着显著的不同:首先单分子测序不需要PCR 扩增,更能反映细胞或组织内分子的真实情况,特别是在需要定量分析的情况下[27];其次该技术具有更高的通量[28];最后该项技术拥有更高的测序准确性。尽管如此,单分子测序也存在新的问题,比如:如何降低非检测特异性背景的干扰,如何更准确快速地记录测序反应的结果,如何自动快速处理巨量的DNA 序列信息等[29]。这些都是亟待进一步研究解决的问题。

3 新一代测序技术在遗传性聋致病基因研究中的应用

遗传性聋分为非综合征型聋(nonsyndromic hearing impairment,NSHI)和综合征型聋(syndromic hearing impairment,SHI)。全部NSHI和绝大部分SHI是符合孟德尔遗传规律的单基因遗传病。随着分子生物学技术的发展,与耳聋相关的基因的定位、分离、克隆及基因的突变得到深入的研究。目前,非综合征型聋已确定了135 个基因座,65个非综合征型聋基因被克隆,据预测耳聋相关基因可能有大约600 个[30]。检测基因突变的筛查方法很多,直接测序是寻找突变的金标准。新一代测序技术作为生命科学的又一重大技术创新,以其固有的平行高效的检测特点,与耳聋基因的高遗传异质性相契合,成为一种极具潜力的耳聋基因诊断和筛查工具。2010年,Shearer等[31]利用454基因组测序平台和Illumina Genome Analyzer测序平台分别对9名经sanger技术确诊的遗传性聋患者进行测序,证明了新一代测序技术的可靠性。同年,Rehman等[32]利用外显子靶向捕获技术联合NGS,对来源于一个近亲的常染色体隐性非综合型遗传性聋的DFNB79家系患者基因组DNA 进行了分析,将致病基因定位于染色体9q34.3 中一个2.9 Mb区间内,这个区间共包含有108个候选区基因,通过对402 554个序列读长文库进行分析,发现了8个之前没有报道过的突变,在这8个突变中,其中有6个是多态,一个是非编码基因,剩下的一个为基因C9orf75,重新被命名为TPRN 的无义突变。同时对其他3个DFNB79连锁的家系进行分析,在这个基因上也发现了3个移码突变。2011年,Schraders等[33]对一个X 连锁语后聋荷兰家系进行基因定位连锁分析时发现,在DXS7108 和DXS7110.之间12.9 Mb 的一个区间,包含了之前曾经描述的DFNX4和75个候选基因,利用NGS检测到SMPX一个无义突变,该基因主要编码小肌肉蛋白,同时进一步对26个来自X 连锁遗传性聋的小家系患者进行筛查,没有找到该基因的突变,只是找到一个该基因的框移突变,分离分析发现该突变与耳聋遗传共分离。在众多的学者利用NGS对遗传性聋家系患者进行DNA 测序、以期定位致病基因的同时,Mortazavi等[34]利用NGS对小鼠的大脑、肝脏和骨骼肌等组织器官RNA 进行了测序,对测得的序列进行分析发现,约90%的数据显示落在已知的外显子中,同时,也发现了许多序列并不在已知的外显子序列中,而那些在已知序列之外的信息,通过数据分析展示的是从未被报道过的RNA 剪切、3’端非翻译区、变动的启动子以及潜在的小分子RNA 前体等,而这些信息用传统技术是无法发现的。在全基因组基因表达谱的分析上,相信利用NGS对内耳基因表达情况进行深入研究,也将有可能发现新的在内耳表达的基因,并成为新的候选基因。2009年,Lewis等[35]开发了一个耳聋的小鼠模型,通过该模型人们首次证明microRNA 对形成此病有直接影响。microRNA 基因的相应片断可以对小鼠及人内耳中的听觉细胞产生影响。在随后的研究中,进一步发现一种被称为miR-96[36]的一个特定的microRNA的突变引起的耳聋,突变的miR-96可以影响感觉毛细胞的生理发育。由于这些小分子RNA 的序列较短,并且高度同源,传统的方法在检测突变时具有一定的困难[37,38],而NGS能很好的解决这个问题,同时测序方法还能在实验中发现新的小分子RNA[39,40]。

4 总结与展望

在过去10年,人类基因组计划的完成和测序技术的飞速发展,极大地促进了遗传性聋致病基因的研究进展,虽然测序技术越来越成熟,成本也越来越低,但是目前依旧面临许多的挑战,其中一个很大的挑战是如何认识基因变异对遗传性聋发生、发展的影响。虽然测序研究能够提示那些可能导致遗传性聋发生的基因,但是还需要相应的功能研究来证实。目前,大量突变基因中只有部分得到了进一步的研究,而遗传性聋的发生和发展,除了基因本身的改变,还有转录、翻译和表观遗传方面的改变。因此,需要重视各类数据的有效整合。相信随着测序技术的逐步成熟,遗传性聋的本质会逐渐被揭示出来。

1 Eric SL,Lauren ML,Bruce B,et al.Initial sequencing and analysis of the human genome[J].Nature,2001,409:860.

2 Craig JV,Mark DA,Eugene WM,et al.The Sequence of the Human Genome[J].Science,2001,291:304.

3 Francis SC,Eric DG,Alan EG,et al.A vision for the future of genomics research[J].Nature,2003,422:835.

4 Chu TJ,Kimberly BW,Allen H,et al.Statistical model for whole genome sequencing and its application to minimally invasive diagnosis of fetal genetic disease[J].Bioinformatics,2009,25:1 244.

5 Melissa JF,Chia-LW,Edison TL,et al.Next-generation DNA sequencing of paired-end tags(PET)for transcriptome and genome analyses[J].Genome Res,2009,19:521.

6 Talima P,Richard TO,Jeffrey TF,et al.Phylogenetic understanding of clonal populations in an era of whole genome sequencing[J].Infection,Genetics and Evolution,2009,9:1 010.

7 Kling J.Ultrafast DNA sequencing[J].Nature Biotechnology,2003,21:1 425.

8 Metzker ML.Emerging technologies in DNA sequencing[J].Genome Res,2005,15:1 767.

9 Jay S,Robi DM,Chris V,et al.Advanced sequencing technologies:methods and goals[J].Nature Reviews Genetics,2004,5:335.

10 Pushkarev D,Neff NF,Quake SR.Single-molecule sequencing of an individual human genome[J].Nat Biotechnol,2009,27:847.

11 Branton D,Deamer DW,Marziali A,et al.The potential and challenges of nanopore sequencing[J].Nat Biotechnol,2008,26:1 146.

12 Marcel M,Michael E,William EA,et al.Genome sequencing in microfabricated high-density picolitre reactors[J].Nature,2005,437:376.

13 Karl VV,Shale AD,Durtschi JD.Next-generation sequencing:from basic research to diagnostics[J].Clinical Chemistry,2009,55:641.

14 Marcus Droege BH.The Genome sequencer FLXTMsystemlonger reads,more applications,straight forward bioinformatics and more complete data sets[J].Journal of Biotechnology,2008,136:3.

15 Daniel M,Jonatyan DGJ,David J.Studholme.Application of'next-generation'sequencing technologies to microbial genetics[J].Nature Reviews Microbiology,2009,7:287.

16 Mardis ER.Next-generation DNA sequencing methods[J].Annual Review of Genomics and Human Genetics,2008,9:387.

17 John HL,William LL,Karrie RT,et al.A massively parallel PicoTiterPlate?based platform for discrete picoliter-scale polymerase chain reactions[J].Electrophoresis,2003,24:3 769.

18 Elahe E,Mostafa R.Pyrosequencing:A Tool for DNA sequencing analysis[J].Methods in Molecular Biology 2004,255:211.

19 Ronaghi M.Pyrosequencing sheds light on DNA sequencing[J].Genome Res,2001,11:3.

20 Sydney B,Mana J,John B,et al.Gene expression analysis by massively parallel signature sequencing (MPSS)on microbead arrays[J].Nature Biotechnology,2000,18:630.

21 Bennett ST,Bames C,Cox A,et al.Toward the$1000human genome[J].Pharmacogenomics,2005,6:373.

22 Meyer M,Kircher M.Illumina sequencing library preparation for highly multiplexed target capture and sequencing[J].Cold Spring Harb Protoc,2010,2010:5 448.

23 Douglas RS,Aaron RQ,Heather EP,et al.Rapid whole-genome mutational profiling using next-generation sequencing technologies[J].Genome Res,2008,18:1 638.

24 Jay S,Gregory JP,Nikos BR,et al.Accurate multiplex polony sequencing of an evolved bacterial genome[J].Science,2005,309:1 728.

25 Matsumura H,Kruger DH,Kahl G,et al.Super SAGE:a modern platform for genome-wide quantitative transcript profiling[J].Current Pharmaceutical Biotechnology,2008,9:368.

26 Ozsolak F,Platt AR,Jones DR,et al.Direct RNA sequencing[J].Nature,2009,461:814.

27 Ido B,Benidict H,Emil K,et al.Sequence information can be obtained from single DNA molecules[J].PNAS,2003,100:3 960.

28 Harris TD,Buzby PR,Babcock H,et al.Single-molecule DNA sequencing of a viral genome[J].Science,2008,320:106.

29 Korlach J,Marks PJ,Cicero RL,et al.Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures[J].Proc Natl Acad Sci USA,2008,105:1 176.

30 Nance WE.The genetics of deafness[J].Ment Retard Dev Disabil Res Rev,2003,9:109.

31 Shearer AE,Deluca AP,Hildebrand MS,et al.Comprehensive genetic testing for hereditary hearing loss using massively parallel sequencing[J].Proc Natl Acad Sci USA,2010,107:21104.

32 Rehman AU,Morell RJ,Belyantseva IA,et al.Targeted capture and next-generation sequencing identifies C9orf75,encoding taperin,as the mutated gene in nonsyndromic deafness DFNB79[J].Am J Hum Genet,2010,86:378.

33 Schraders M,Haas SA,Weegerink NJ,et al.Next-generation sequencing identifies mutations of SMPX,which encodes the small muscle protein,X-linked,as a cause of progressive hearing impairment[J].Am J Hum Genet,2011,88:628.

34 Mortazavi A,Williams BA,Mccue K,et al.Mapping and quantifying mammalian transcriptomes by RNA-Seq[J].Nat Methods,2008,5:621.

35 Lewis MA,Quint E,Glazier AM,et al.An ENU-induced mutation of miR-96associated with progressive hearing loss in mice[J].Nat Genet,2009,41:614.

36 Kuhn S,Johnson SL,Furness DN,et al.miR-96regulates the progression of differentiation in mammalian cochlear inner and outer hair cells[J].Proc Natl Acad Sci USA,2011,108:2 355.

37 Xu G,Fewell C,Taylor C,et al.Transcriptome and targetome analysis in MIR155expressing cells using RNA-seq[J].Rna,2010,16:1 610.

38 Perez-Enciso M,Ferretti L.Massive parallel sequencing in animal genetics:wherefroms and wheretos[J].Anim Genet,2010,41:561.

39 Kreuze JF,Perez A,Untiveros M,et al.Complete viral genome sequence and discovery of novel viruses by deep sequencing of small RNAs:ageneric method for diagnosis,discovery and sequencing of viruses[J].Virology,2009,388:1.

40 Armisen J,Gilchrist MJ,Wilczynska A,et al.Abundant and dynamically expressed miRNAs,piRNAs,and other small RNAs in the vertebrate Xenopus tropicalis[J].Genome Res,2009,19:1 766.

猜你喜欢

磁珠碱基基因组
牛参考基因组中发现被忽视基因
一种基于磁珠的血清miRNA提取体系的研究
科学家找到母爱改变基因组的证据
应用思维进阶构建模型 例谈培养学生创造性思维
不同粒径的免疫磁珠对食源性致病菌捕获效率的影响
血清HBV前基因组RNA的研究进展
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
磁珠固定化凝血酶的制备及其在槐米中活性化合物筛选中的应用