基因组测序技术及其应用研究进展
2018-05-14李国治邓卫东
李国治 邓卫东
摘要 基因组测序技术从第1代Sanger测序经第2代高通量测序已发展到第3代单分子测序,第2代高通量测序技术是当前基因组测序中最主要的分析技术。对高通量测序技术在全基因组de novo测序、全基因组重测序、简化基因组测序、宏基因组测序分析和表观基因组学研究等领域的应用原理、步骤及现状进行综述,以为基因组测序技术的应用提参考。
关键词 高通量测序;全基因组重测序;宏基因组测序;表观基因组学
中图分类号 Q75 文献标识码 A 文章编号 0517-6611(2018)22-0020-03
Abstract Genome sequencing technology has been developed from the first generation of Sanger sequencing to the third generation of single molecule sequencing through the second generation of highthroughput sequencing. The second generation of highthroughput sequencing technology was the most commonly used technology in genome sequencing. The application principles, steps and status of highthroughput sequencing technology in genomewide de novo sequencing, genomewide resequencing, reducedrepresentation sequencing, metagenomic sequencing and epigenetic research were reviewed in this paper to provide reference for applying genome sequencing technology.
Key words Highthroughput sequencing;Genomewide resequencing;Metagenomic sequencing;Epigenetic
以Sanger測序为代表的第1代测序技术读长达1 000 bp,准确率高达99.99%,可靠性高。但由于其依赖于酶和电泳分离技术,导致测序成本高,分析速度慢。Roche/454焦磷酸测序、Illumina/Solexa聚合酶合成测序、ABI/SOLiD连接酶测序和Ion PGM半导体芯片测序是第2代测序技术的4种主流测序方法,其突出特点是单次运行(run)产出序列数据量大,故这4种测序方法被统称为高通量测序技术。因测序原理各异,4种测序方法的数据产量、数据质量和运行成本也不相同。Roche/454测序读长(600~1 000 bp)最长,通量(0.5~1.0 Gb/run)最低;Illumina/Solexa测序读长(100 bp)较短,通量(600Gb/run)较大;ABI/SOLiD测序读长(50 bp)最短,创新应用双碱基编码,降低测序错误率,其原理与重测序相似,对于具有高质量参考基因组序列物种的重测序特别适用;Ion PGM测序基于半导体芯片技术,无需激光、照相机或标记等技术,成本不到普通测序的10%[1]。并行单分子合成测序、单分子实时合成测序、纳米孔单分子测序、基于荧光共振能量传递测序、半导体测序等单分子测序方法属于第3代测序技术,以边合成边测序(SBS)技术为基本原理,无需PCR扩增,简化文库构建,与第2代测序技术相比,读长更长,后续拼接工作更为简单,可对未知基因组测序,但错误率仍较高,因采用水解法,不能重复测序[2-4]。上述3代测序技术各有优缺点,已被广泛应用于全基因组de novo测序、全基因组重测序、简化基因组测序、宏基因组测序分析和表观基因组学研究等方面。该研究重点对这3种测序技术在基因组DNA水平研究中的具体应用进行综述。
1 全基因组de novo测序
全基因组de novo测序不参考任何已有的DNA序列信息,直接测序某物种的基因组,因此被称为从头测序。从头测序技术首先获取某物种基因组DNA样品,检测样品质量,评估基因组特征,构建梯度插入片段文库上机测序,采用生物信息学分析手段将测序产生的海量DNA序列片段(reads)进行排序、拼接,从而组装出该物种完整的基因组DNA序列图谱。
全基因组de novo测序生物信息学分析可获得基因组拼装信息:原始数据、测序覆盖率、Contig N50、Scaffold N50、GC含量等;基因组注释:基因预测、功能注释(与Interpro、Swiss-Prot、NR等同源比对)、重复序列分析及Non-coding RNA注释等;基因功能分类:GO分类、KEGG通路等;比较基因组学研究:对相近物种基因组数据进行比较,从功能、结构、进化等方面分析目标基因组;构建数据库:按照国际标准建立具有良好兼容性的基因组数据库,实现基因数据查询与共享。
从头测序组装物种基因组图谱是通过识别不同reads间的重叠区域(overlap),确定其相对位置顺序,把多条较短的reads序列片段拼接成较长的contigs,进一步构建mate-pair或paired-end文库,选择大片段测序获取两端reads序列,通过两端reads序列确定contigs间的相对位置,按照contigs间的位置关系拼接成scaffolds,最后填补空缺序列(gaps)获得物种全基因组DNA序列。基因组从头拼接组装常用软件有:Velvet、SOAPdenovo、ABySS和CLC Genomic Workbench等[5]。Velvet是EMBL-EBI开发的一款在linux系统下运行的拼接软件,是目前广泛使用的拼接短reads(25-500bp)的首选工具,不足之处是无法同时利用多个CPU进行拼接[6]。SOAPdenovo由华大基因开发,在linux系统下采用一种新型短read拼接方法对大型动植物、细菌和真菌基因组进行从头拼接。ABySS用于大型基因组从头拼接,在C++环境中运行,优点在于可以同时执行多项拼接任务。CLC Genomic Workbench由丹麦Aarhus公司研发的一种综合性跨平台拼接软件,在windows/macosx/linux操作系统下可分析来自Illumina、SOLiD、454、HeliScope等多个平台的基因组数据。
ICGSC完成一只雌性近交系红色原鸡全基因组de novo测序拼接组装,构建了其完整基因组序列图谱,含有1.05 Gb碱基对,contigs N50为36 kb,覆盖率为98%,碱基替代率为0.02%[7]。Li等[8]运用Solexa聚合酶合成测序技术完成熊猫全基因组de novo测序,获得其2.4 Gb基因组序列图谱,研究结果表明熊猫与狗的遗传关系最近,熊猫TIR1基因失活导致感受不到肉的鲜美,所以熊猫不吃肉。Wang等[9]对一只雌性藏鸡de novo测序,绘制出藏鸡基因组序列图谱,采用比较基因组学和群体基因组学分析方法揭示了藏鸡高原适应性的分子机制,钙离子通路在藏鸡高原适应中扮演着重要作用。Li等[10]运用de novo组装策略获得中国和欧洲10个代表性猪种高质量基因组序列,共鉴定出8.86~15.95 Mb单核苷酸多态(SNP)、15.99~23.07 Mb插入变异和3.61~5.63 Mb缺失变异,中国猪种遗传多样性明显高于欧洲猪种;还鉴定出参考基因组中缺失的137.02 Mb序列,包含1 737个蛋白编码基因,其中有74个基因与肌肉生长和脂肪沉积相关,76个基因与免疫调控相关,研究结果为猪肉产量和抗病性等生产性能分子遗传学研究奠定了重要基础。
2 全基因组重测序
对已有参考基因组序列的物种进行个体或群体全基因组测序称为全基因组重测序。全基因组重测序结果与已有参考基因组序列进行比对,检测出全基因组范围的单核苷酸多态(SNP)、插入缺失突变(InDel)、拷贝数变异(CNV)和机构变异(SV)等变异信息,获得个体或群体分子遗传特征,进行动物重要经济性状候选基因预测及遗传进化分析,广泛应用于遗传变异检测、性状基因定位、遗传图谱构建和遗传进化研究。
全基因组重测序数据分析最关键的一步在于序列比对(mapping),将重测序所得的reads序列与已有的参考基因组序列进行相似性比较,比对过程一般按两步进行:首先归类整理reads数据或参考基因组序列,然后用适当算法比对和定位reads序列。用于序列比对的软件有很多种,如2008年推出的SeqMap、Soap、Zoom、MAQ、RMAP,2009年推出的SOAP2、SHRiMP、BOAT、BFAST、MOM、BWA、MapNext、Bowtie,2010年推出了BWA-SW,各种软件处理数据的方法、重点和能力不同,选择合适比对软件的主要依据是产生分析数据的测序平台,能处理多个平台产生的数据的软件有较好的实用性和应用前景。目前,多数比对软件只处理一个测序平台产生的数据,只有MAQ、SHRiMP、BFAST、BWA等软件通过转换格式可以处理2个测序平台产生的数据。
Li等[11]对48份家猪样本(6个藏猪群体、5个四川猪种)进行全基因组重测序(深度131×),与55个欧亚野猪和家猪基因组数据比对分析,检测出低氧适应、能量代谢等268个基因位点,揭示藏猪高原低氧适应的遗传基础;比较基因组学研究发现,早在690万年前藏猪和家猪祖先开始分化,早于牦牛和家牛(490万年前)以及人类和黑猩猩(500万~700万年前)的分化时间;遗传对比分析野生种和驯养种表明,人工选择比自然选择更能改变驯养动物基因组;欧亚猪种明显的遗传背景差异证明地理隔离导致的遗传差异比野生种与驯化种的差异大。Daetwyler等[12]对2头奶牛和232头公牛(其中荷兰种129頭、德国种43头、泽西种15头)开展全基因组重测序(深度8.3×),共检测出28.3万个变异位点,平均每1000个碱基上含有1.44个杂合位点;鉴定出了与胚胎死亡、骨骼畸形、卷毛以及产奶等性状连锁的基因,并分析出胚胎死亡与牛繁殖力降低显著相关;该项研究成果为提高牛产肉量和产奶量奠定了科学基础。Yi等[13]对12只不同品种的鸡进行全基因组重测序,共检测出8 840个CNVs区域,片段大小从1.1~268.8 kb不等,平均长度11.1 kb,覆盖98.2 Mb碱基,占全基因组的9.4%;共分析出2 214个CNVs与2 216个RefSeq功能基因相关;在CNVs覆盖区域发现了与疾病易感性和抗病性相关的FZD6L基因和IMS1基因。
3 简化基因组测序
简化基因组测序(Reduced Representation Genome Sequencing)能大幅降低基因组的复杂度,显著降低测序成本,快速鉴定高密度SNP位点,常用于遗传变异检测、高密度遗传图谱构建、重要性状候选基因定位和群体遗传进化分析。常用于动物基因组研究的简化基因组测序技术主要有简化代表文库测序(Reduced-Representation Libraries sequencing,RRLs)和限制性酶切位点关联DNA测序(Restriction-site-Associated DNA sequencing,RAD-seq)。
RRLs将某群体中不同个体DNA样本混合,选择特异内切酶消化基因组DNA,回收特定长度的酶切片段,作为全基因组序列的简化代表性文库用于高通量测序,将测序片段与参考基因组序列比对,或拼接组装测序片段相互比对,快速检测SNPs。RAD-seq利用限制性内切酶消化目标基因组DNA,在酶切基因组片段两端加上P1接头,打断加有P1接头的片段,选择特定长度的片段加上P2接头,PCR扩增富集既有P1接头又有P2接头的DNA tags,并进行高通量测序比对,对有无参考基因组的物种进行SNPs的快速开发和基因分型。
Van等[14]利用HaeⅢ酶切3个品种66头牛基因组混合样构建RRLs文库,经Illumina Genome Analyzer 测序5000万条,检测到62042个候选SNPs,对其中23357个随机SNPs进行基因分型验证,准确率达到92%。Kerstens等[15]利用Sau 3A消化2个品系6只火鸡基因组混合样建立RRLs文库,经高通量测序和数据分析,鉴定出1.1万个SNPs,基因分型验证其中340个代表性SNPs,准确率达到95%,证明RRLs技术在未知基因组序列的情况下可有效开发SNPs。Baird等[16]利用SbfⅠ分别消化96条F2代和亲本三刺鱼基因组,通过RAD-seq技术测序分析,检测出1.3万个SNPs,定位到弱骨盆结构刺退化和体侧骨板缺失等性状的基因位点。李勇等[17]采用RAD-seq技术对618头母猪基因组测序并进行遗传分型,获得79 725个SNPs,在未知验证群表型值的情况下分析最佳线性无偏预测(best linear unbiased prediction,BLUP)、基因组BLUP、一步基因组BLUP预测育种值的准确性和偏向性,结果表明基于RAD-seq的基因组选择法能有效预测种猪繁殖性状的育种值。
4 宏基因组测序分析
宏基因组是指生态环境中全部微生物基因组的总和,宏基因组学以基因组学技术为基础,研究环境中微生物的多样性、种群关系、功能关系及与环境间的关系,无需人工培养微生物,直接提取环境中微生物混合基因组DNA并测序,从群落水平上解析微生物活动,挖掘微生物新资源。
全基因组测序分析和16S rDNA测序分析是宏基因组学研究的2个主要策略,分别以环境样品中全部DNA序列和16S rDNA序列为研究对象。2种测序分析策略直接提取环境样品中全部基因组DNA,全基因组测序分析经酶切或超声波打断DNA,16S rDNA测序分析经16S rDNA可变区PCR扩增,建立质粒文库并测序,去噪处理测序数据;全基因组测序分析拼装去噪序列并进行基因预测,利用比对和数据库搜索分析方法对预测基因进行功能注释和分类注释;16S rDNA测序分析聚类分析去噪序列,生成操作分类单元,开展多样性和系统发育树构建等后续分析。
Parmar等[18]对饲喂青草、干草的水牛瘤胃微生物进行宏基因组测序分析发现,门水平上拟杆菌最多,属水平上普氏菌最多;食糜中厚壁菌和拟杆菌占比高于胃液;饲喂干草的水牛瘤胃食糜中拟杆菌数量随着日粮中粗饲料含量的增加显著升高,梭菌数量也显著增加;饲喂青草、干草的牛瘤胃液中糖苷水解酶水平随着日粮中纤维素含量的增加而升高。Singh等[19]对不同饲料转化率肉鸡粪便中微生物菌群进行宏基因测序比对发现,细菌比率高达95%以上,真核生物比率达2%以上,古菌和病毒比率分别在0.2%以上;在门水平上,高、低饲料转化率肉鸡粪便样品中变形菌、厚壁菌和拟杆菌比率分别为52.04%和78.83%、27.53%和11.97%、17.53%和7.10%。Larsbrink等[20]对奶牛瘤胃微生物进行宏基因组测序,共鉴定出27 755个碳水化合物水解酶类候选基因,此类候选基因可编译出90种蛋白,其中57%蛋白通过酶促作用激活抗纤维素底物相关酶类。
5 表观基因组学研究
基因组DNA序列无变化,但有基因表达和性状发生可遗传的变异,这种现象称为表观遗传。表观遗传学研究采用高通量测序技术及相应的研究方法进行基因表达调控机制研究,DNA甲基化、组蛋白修饰是表观遗传学研究的2个重要领域。
DNA甲基化表观遗传学研究主要采用全基因组重亚硫酸氢盐测序(全基因组Bisulfite测序)和甲基化DNA免疫共沉淀测序(MeDIP-Seq)。全基因组Bisulfite测序对预处理的DNA进行巢式PCR扩增,采用琼脂糖凝胶电泳检测盒单克隆测序扩增产物,准确获得全基因组甲基化水平数据,被认为DNA甲基化检测的“金标准”,适用于构建全基因组DNA单碱基分辨率甲基化图谱。MeDIP-Seq特异性识别5-甲基胞嘧啶抗体,富集全基因组DNA甲基化片段,对CpG岛富集的甲基化区域进行高通量测序,比较不同组织细胞DNA甲基化的差异,广泛应用于分子标记育种和遗传疾病诊断。组蛋白修饰表观遗传学研究主要集中在甲基化、乙酰化修饰,染色质免疫沉淀结合高通量测序技术(ChIP-Seq),研究蛋白质与DNA相互作用关系,在全基因组范围高效而准确地筛选和鉴定蛋白结合位点。
Lister等[21]采用全基因组Bisulfite测序技术构建人类基因组甲基化图谱,为人类遗传疾病的研究奠定了坚实基础。张小丽[22]采用MeDIP-Seq技术构建3头210日龄长白母猪DNA文库,获取高度匹配的32.91Gb DNA序列,鉴定出不同组织中甲基化差异区域(DMRs),外显子区域DMRs内CpG的比率显著高于启动子、内含子、转录起始位点上游2 kb等区域,证明启动子区域的甲基化能调控基因表达,该研究为深入解析动物不同组织脂肪功能提供了表观遗传基础数据。Sun等[23]采用ChIP-Seq技术研究小白鼠组织中的RNA Pol-Ⅱ 启动子,检测到38 639个Pol-Ⅱ 启动子,有12 270个新启动子,识别不同组织中注释基因的Pol-Ⅱ 启动子,发现37%编码基因受选择性启动子调控。
参考文献
[1] HARISMENDY O,NG P C,STRAUSBERG R L,et al.Evaluation of next generation sequencing platforms for population targeted sequencing studies[J].Genome Biol,2009,10(3):1-13.
[2]DERRINGTON I M,BUTLER T Z,COLLINS M D,et al.Nanopore DNA sequencing with MspA[J].Proc Natl Acad Sci USA,2010,107(37):6060-6065.
[3]LUAN B Q,PENG H B,POLONSKY S,et al.BaseByBase ratcheting of single stranded DNA through a solidstate nanopore[J].Phys Rev Lett,2010,104:238103.
[4]EID J,FEHR A,GRAY J,et al.Realtime DNA sequencing from single polymerase molecules[J].Science,2009,323:133-138.
[5]朱大強,李存,陈斌,等.四种常用高通量测序拼接软件的应用比较[J].生物信息学,2011,9(2):106-112.
[6]ZERBINO D R,BIMEY E.Velvet:Algorithms for de novo short read assembly using de Bruijn graphs[J].Genome Res,2008,18(5):821-829.
[7]International Chicken Genome Sequencing Consortium.Sequence and comparative analysis of the chicken genome provide unique perspectives on vertebrate evolution[J].Nature,2004,432(7018):695-716.
[8]LI R Q,FAN W,TIAN G,et al.The sequence and de novo assembly of the giant panda genome[J].Nature,2010,463(7279):311-317.
[9]WANG M S,LI Y,PENG M S,et al.Genomic analyses reveal potential independent adaptation to high altitude in tibetan chickens[J].Molecular biology and evolution,2015,32(7):1880-1889.
[10] LI M Z,CHEN L,TIAN S L,et al.Comprehensive variation discovery and recovery of missing sequence in the pig genome using multiple de novo assemblies[J].Genome research,2017,27(5):865-874.
[11]LI M Z,TIAN S L,JIN L,et al.Genome analyse identify distinct patterns of selection in domesticated pigs and Tibetan wild boars[J].Nat Genet,2013,45(12):1431-1438.
[12]DAETWYLER H D,CAPITAN A,PAUSCH H,et al.Wholegenome sequencing of 234 bulls facilitates mapping of monogenic and complex traits in cattle[J].Nat Genet,2014,46(8):858-865.
[13]YI G Q,QU L J,LIU J F,et al.Genomewide patterns of copy number variation in the diversified chicken genomes using nextgeneration sequencing[J].BMC Genomics,2014,15(1):1-16.
[14]VAN TASSELL C P,SMITH T P L,MATUKUMALLI L K,et al.SNP discovery and allele frequency estimation by deep sequencing of reduced representation libraries[J].Nature methods,2008,5(3):247-252.
[15]KERSTENS H H D,CROOIJMANS R P M A,VEENENDAAL A,et al.Large scale single nucleotide polymorphism discovery in unsequenced genomes using second generation high throughput sequencing technology:Applied to turkey[J].BMC Genomics,2009,10(1):1-11.
[16]BAIRD N A,ETTER P D,ATWOOD T S,et al.Rapid SNP discovery and genetic mapping using sequenced RAD markers[J].PLoS One,2008,10(3):3376.
[17]李勇,苗澤圃,蒙小云,等.RAD-seq技术在大白猪繁殖性状基因组选择上的应用[J].农业生物技术学报,2017,25(9):1508-1515.
[18]PARMAR N R,SOLANKI J V,PATEL A B,et al.Metagenome of Mehsani buffalo rumen microbiota:An assessment of variation in feeddependent phylogenetic and functional classification[J].J Mol Microbiol Biotechnol,2014,24(4):249-261.
[19]SINGH K M,SHAH T M,REDDY B,et al.Taxonomic and genecentric metagenomics of the fecal microbiome of low and high feed conversion ratio(FCR)broilers[J].J Appl Genet,2014,55(1):145-154.
[20]LARSBRINK J,ROGERS T E,HEMSWORTH G R,et al.A discrete genetic locus confers xyloglucan metabolism in select human gut Bacteroidetes[J].Nature,2014,506(7489):498-502.
[21]LISTER R,ECKER J R.Finding the fifth base:Genomewide sequencing of cytosine methylation[J].Genome Res,2009,19(6):959-966.
[22]张小丽.猪背部浅层和背部深层脂肪组织全基因组甲基化研究[D].雅安:四川农业大学,2013.
[23]SUN H,WU J J,WICKRAMASINGHE P,et al.Genomewide mapping of RNA PolⅡ promoter usage in mouse tissues by ChIPSeq[J].Nucleic Acids Res,2011,39(1):190-201.