二代测序技术在法医学中的应用进展
2016-12-16张素华边英男李成涛司法部司法鉴定科学技术研究所上海市法医学重点实验室上海市司法鉴定专业技术服务平台上海200063
张素华,边英男,赵 琪,李成涛(司法部司法鉴定科学技术研究所 上海市法医学重点实验室 上海市司法鉴定专业技术服务平台,上海 200063)
二代测序技术在法医学中的应用进展
张素华,边英男,赵琪,李成涛
(司法部司法鉴定科学技术研究所 上海市法医学重点实验室 上海市司法鉴定专业技术服务平台,上海 200063)
近几年二代测序(second generation sequencing,SGS)技术的快速发展,使其在通量增大、读长增加的同时测序成本大幅降低,给生物学领域带来了新的突破,也使法医遗传学进入了一个新的发展阶段。本文从测序技术在法医遗传学的应用历程展开,回顾了测序技术对法医学遗传标记检测的重要性。以已有相关法医学研究应用的Roche、Illumina和Life Technologies三大测序技术公司推出的二代测序技术平台为例,探讨其在法医遗传学中的应用现状及潜能。目前可依赖这些平台完成DNA水平遗传标记(SNP、STR)、RNA水平遗传标记(mRNA、microRNA)及线粒体DNA全基因组的测序。然而,技术产品的推出及验证、分析软件的成熟化、与现有数据库的对接、大数据使用中的伦理问题等都是决定该技术能否替代(或补充)成熟PCR毛细管电泳技术以及普遍应用于案件检测的关键。
法医遗传学;二代测序;综述[文献类型];遗传标记
1 测序技术在法医遗传学的应用历程
DNA测序技术在法医学中最早的应用是采用Sanger技术进行线粒体DNA(mitochondrial DNA,mtDNA)高变区测序[1-3]。在20世纪80年代末至90年代初,法医学个人识别主要依赖限制性片段长度多态性(restriction fragment length polymorphism,RFLP)遗传标记的检测,但是RFLP对DNA质量要求高,故无法对降解或微量的DNA样本(特别是骨DNA或者脱落毛发)提供有效的遗传信息[4-5],因此,引发了对这部分DNA检材进行mtDNA高变区HVⅠ/HVⅡ的研究热潮。1999年,欧洲DNA分型组织(European DNA Profiling group,EDNAP)建立了mtDNA数据库(EMPOP)[6],旨在为mtDNA测序建立一个通用的法医学标准,并提供mtDNA在线数据库,用于数据的查阅及比对。截至2013年10月16日,EMPOP中共包含34 617条来自全世界各地的线粒体序列信息,数据的获得主要依赖于传统的Sanger测序法(也称为双脱氧链末端终止法)。之后,连接有荧光标记基团的ddNTP和毛细管电泳(capillary electrophoresis,CE)技术的发展,在大大提高测序灵敏度和通量的同时测序成本大幅下降,使得对整个环状mtDNA测序变得可能。然而,受引物设计和测序通量的限制,该测序过程耗时长、成本高、结果分析繁琐,无法广泛应用于法医学生物检材的mtDNA全基因组测序。
随着CE技术的成熟和STR、SNP遗传标记在法医遗传学中的广泛应用,法医生物学领域对于mtDNA测序的需求逐步降低。Sanger技术在STR检测中主要用于等位基因的发现和确认;在SNP检测中进行单位点测序,被认为是SNP检测的金标准,但是由于通量低、成本高,在SNP检测中无法广泛使用。之后,SNPshot、SNPlex、Taqman、质谱检测、单碱基延伸(single base extension,SBE)和焦磷酸测序(pyrosequencing)等技术都在法医学SNP检测中发挥了重要的作用[7-9]。
随着人类基因组计划(Human Genome Project,HGP)的成功,科学家们开始了新一代测序技术(next generation sequencing,NGS)的研发,以建立更先进、更快速、更高通量的测序技术,克服第一代测序技术成本高、通量低及对人力需求大等缺陷。基于大规模平行测序(massively parallel sequencing,MPS)的二代测序(second generation sequencing,SGS)技术应运而生。第一台SGS平台是Roche公司推出的基于焦磷酸测序原理的454基因组测序仪[10]。之后其他SGS测序方法及相关平台的研发进入了新的发展阶段,相关研究文献也呈指数增长。与传统测序技术相比,SGS测序无论是测序原理、测序过程、适用范围还是测序结果都存在本质的不同,给生物学领域带来新的突破,对法医遗传学这一应用性学科也带来了冲击和挑战。从2012年起,应用SGS技术平台对法医学常用遗传标记(STR和SNP)及mtDNA和RNA的研究进入白热化[10-25],部分生物公司开始针对法医学应用研发适当通量的SGS检测平台及相关商品化试剂盒[22-23]。另外,也有学者开始关注第三代测序技术(单分子测序技术)在法医学的相关应用[10]。本文就目前常用的SGS平台在法医遗传学中的研究进展及展望进行综述。
2 常见法医学SGS平台及原理
目前市场上SGS平台根据测序原理、测序通量的不同可分为多种类型,适用于不同的科学研究目的。本文仅以Roche、Illumina和Life Technologies三大测序技术公司推出的SGS平台为例,探讨其原理及在法医遗传学中的应用潜能。
2.1Roche 454基因组测序仪
2005年底,Roche 454基因组测序仪的推出开创了高通量测序技术的先河。454基因组测序仪使用的是一种类似焦磷酸测序的创新测序方法,利用“Pico TiterPlate(PTP)”平板(含有160多万个由光纤组成的孔,孔中载有化学发光反应所需的各种酶和底物),在DNA聚合酶、ATP硫酸化酶、荧光素酶和双磷酸酶的协同作用下,将每一个dNTP的聚合与一次荧光信号释放偶联起来,并利用乳液PCR(emulsion PCR,emPCR)对DNA文库进行放大,通过检测荧光信号释放的有无和强度,实现实时、大规模并行测定DNA序列的目的。测序反应中以磁珠为反应载体,每个磁珠上连接一个文库,采用CCD相机进行信号收集,并通过FLX系统进行分析,平均读长在400bp[10]。之后推出的Roche 454 GS FLX+最大读长可达到1000bp,测序准确性高达99%,与Sanger测序相当,可谓集一代测序读长及质量优势与二代测序高通量的特点于一身。然而,由于该平台基于焦磷酸测序原理,对同聚物检测的准确性会受影响[22-23]。
基于其较长读长的特点,主要应用的领域为微生物群落多样性分析、微生物基因组的de novo测序、宏基因组学研究、转录组测序,此外还可应用于外显子测序、病原菌检测、目标区域捕获分析等研究。在遗传标记检测方面,植物遗传学家利用该平台进行了SNP相关研究[11];法医学者们则进行了STR[12]、mtDNA[13]及法医微生物学[10]等研究。由于测序读长长,这一平台是最早进行STR遗传标记研究的测序仪。但由于市场运营原因,454基因组测序仪将在2016年被逐步淘汰,Roche公司届时将停止454仪器、零部件、试剂和耗材的相关服务和支持。
2.2Illumina测序仪
2007年,Illumina公司收购了Solexa,使得Genome Analyzer(GA)测序仪商品化。该测序仪拥有DNA簇(DNA cluster)、桥式 PCR(bridge PCR)、可逆阻断(reversible terminator)等核心技术,具有高通量、低成本、低错误率和短读长等优点,在基因组重测序中成为首选平台。之后,Illumina又推出了GAⅡx、MiSeq 和HiSeq 2000合成测序仪,并针对法医客户发行了MiSeq FGx平台(最大读长可达300bp,预计2016年进入市场)。所采用的原理为边合成边测序(sequencing by synthesis,SBS),在dNTP上连接荧光基团和阻断基团,通过“去阻断-延伸-激发荧光-切割荧光基团-去阻断”的循环方法进行DNA序列信息的依次读取,因此对单个碱基的读取准确性高。每次延伸反应时,4种dNTP的浓度均匀,故可自然有效地避免掺入错误[10]。目前,Illumina测序平台已广泛应用于基因组学、转录组学和表观组学研究。不过,该平台也存在一些缺陷,如随着测序过程中荧光信号的减弱,靠后碱基的准确性会受一定程度的影响,这也是影响该平台测序读长的主要因素。
法医学者利用Illumina GAⅡx、MiSeq或HiSeq 2000平台进行了 STR遗传标记[14]和mtDNA的研究[15-16],或对候选基因[17]、外显子[18]进行测序以帮助死因诊断及法医微生物学研究[10]等。这些研究均表明Illumina公司推出的SGS平台对法医学相关研究具有较大吸引力。
2.3Life Technologies测序仪
2007年,Life Technologies公司推出了其第一台二代测序仪——SOLiD(Solid by Oligo Ligation Detection)[10]。该平台采用寡聚物连接检测测序,通过结合到经乳液PCR(emulsion PCR,emPCR)扩增的DNA簇上的通用引物与碱基单链探针之间的连接反应进行测序。基于这一原理,目标序列的所有碱基均被读取了两遍,因而SOLiD平台最大的优点是准确性高。另外,由于该平台不是基于PCR反应进行DNA合成与测序,对于高GC含量的样本具有很大的技术优势。之后,又革命性地推出了不需图像技术的离子流半导体芯片DNA测序技术——Ion Proton和Ion PGM平台,其技术核心是半导体芯片上的离子流测序,类似焦磷酸测序,核苷酸依次流过半导体芯片,通过对DNA复制过程中产生的离子流进行实时测定来反映DNA的延伸及性质,每一步合成仅需数秒。半导体芯片采用大规模并行的半导体传感器阵列,直接将DNA信息转换成数字信息,实现了快速可扩展的测序,无须修饰核酸,无须化学级联酶促反应,无须荧光和化学发光。不过,该系统对多聚物的检测准确性不及Illumina平台[10]。
离子流半导体芯片平台根据芯片种类的不同可以进行数据量的自由拓展,以Ion PGM平台为例,芯片种类分为314、316和318,产出数据量分别为100M、500M和1G。对于法医学遗传标记的检测而言,这一平台通量合适,测序速度快,读长可满足需求。目前,研究人员就法医学常用遗传标记 STR[19-21]、SNP[21-23]、mtDNA[21,24]和microRNA[25]展开了相关研究。
3 SGS技术在法医遗传学领域的研究现状
SGS测序最为关键的一步是进行测序文库的构建。制备DNA(或RNA)文库的主要步骤包括:片段化/筛分指定长度的目标序列;将目标片段转化成双链DNA;在片段末端连上寡核苷酸接头;对最终的文库进行定量[26]。DNA片段化主要是通过物理方法(如超声破碎)、酶学方法(即非特异的核酸内切酶处理)或化学反应来实现,最为经典的是鸟枪法(Shot gun)。但鸟枪法无法用于法医学遗传标记的文库构建,主要由于其对DNA量的要求(数克)对于大多数生物检材而言很难达到;其次,该法是将DNA随机处理成大小不同的片段,结果的重复会不尽相同;另外,对片段化DNA测序信息进行数据整合分析,由于测序平台及分析软件的不同(测序深度不一样,比对及组装方法不同),导致最终得到的分析结果可能会不同,这对于法医学样本的结果解释是很大的考验。
对于法医学中涉及的DNA样本而言,检验的主要目的是进行个人识别或者对亲缘关系进行刻画,这并不需要全基因组信息,只需要DNA(RNA)水平遗传标记或mtDNA信息的检测。随着复合扩增体系中各个组分的优化,尤其是酶的优化,目前可以依赖超多重PCR技术对目标片段进行文库构建,通过emPCR实现文库放大,使SGS技术在外显子测序、基因研究和遗传标记的检测中广泛应用[26]。Life Technologies公司创新性地提出了AmpliSeq技术,可以对多达数千个目标片段同时进行文库构建,对DNA量的要求低;另一个片段文库构建技术由美国RainDance公司研发,主要是使用微滴PCR,这种方法可以显著降低PCR扩增中带入的偏差[26]。
目前法医学遗传标记的检测主要依赖于成熟化的PCR-CE技术和相应的试剂盒,检测快速、分析简单、成本低、质控简单、具有庞大的数据库,可实现数据共享,这些优势使得该技术将被继续运用相当长的时间。但是,SGS技术及相应平台的进一步成熟还是给法医遗传学带来了巨大的冲击,科研人员均围绕这一技术展开了对各类遗传标记的相关研究,探讨其应用潜能及前景。
3.1SGS技术用于SNP检测
SGS技术在法医遗传学中最初的研究围绕SNP位点展开。Life Technologies公司在2014年正式发布了两个基于Ion PGM平台开发的SNP检测试剂盒:(1)HID-Ion AmpliSeqTMSNP-124个人识别试剂盒,该试剂盒包含124个SNP位点(90个常染色体SNP和34个Y-SNP)。90个常染色体SNP中,有43个来自IISNP[27],48个来自SNPforID[28],两者之间具有一个相同SNP位点。在该试剂盒正式推出市场之前,有两个测试版本,由国际知名法医学实验室完成评估测试,评估报告详见文献[22-23]。本实验室对该试剂盒进行了试用,发现高于0.5ng DNA进行文库构建时即可获得理想分型效果;6个SNP位点(rs7520386、rs4530059、rs214955、rs1523537、rs2342747和rs576261)检测到杂合子不均衡现象,2个 SNP位点(rs2342747和rs12997453)测序深度小于100;5个常染色体SNP位点在中国汉族人群中的MAF值小于0.1[29]。(2)HIDIon AmpliSeq SNP先祖推断试剂盒。该试剂盒含有Seldin和Kidd研究中筛选出的大部分SNP位点[30-31]。Churchill等[21]在12个盲样DNA检测中使用以上两个试剂盒进行了个人信息及先祖信息的分析。这两个检测试剂盒均可扩增120个以上SNP位点的文库,检测灵敏度与传统PCR-CE(0.5~1 ng)相当,准确性高,对混合物分析具有优势(可以在1∶100混合样本中检测低含量组分)。另外,在SGS检测过程中还可发现SNP位点侧翼序列上的变异信息,从而提供更多的遗传信息。
Illumina公司针对MiSeq平台推出了ForenSeq DNA Signature Prep试剂盒测试版,该试剂盒包含63个STR基因座和95个用于个人识别的常染色体SNP位点(IISNP[27]和SNPforID[28]),并可以选择性地加入56个先祖SNP和22个表型信息SNP(HIrisPlex[32])。Churchill等[33]完成了测试评估,结果显示1 ng DNA即可获得完整的分型结果,在1∶19的混合物检测中表现良好。之后,公司针对这一试剂盒进行了相应调整,希望在针对法医客户推出的MiSeq FGx平台上进行应用,目前尚无正式试剂盒的推出及数据报道。
除商业化检测试剂盒外,基于SGS检测平台对自行筛选的SNP位点进行相关研究也是热点之一。Ralf等[34]采用AmpliSeq技术对432个Y染色体上最大单倍型SNP位点进行了文库构建,并在Ion PGM平台上完成了测序检测,结果表明采用这一技术可以一次性完成数百个Y-SNP位点的并行测序,DNA最低检测限为100 pg,且对降解检材的分型效果优于传统PCR-CE技术。本实验室结合SNP公共数据库及已有研究文献、工作基础,筛选了279个在中国汉族人群中多态性好、通用性高且相互独立的SNP位点,建立了相关的分型系统,并完成了在Ion PGM平台的检测评估,结果表明该系统灵敏度高、测序数据可靠,适用于个体身份信息的刻画(数据待发表)。
3.2SGS技术用于STR测序
STR是法医学中最为常用的一类遗传标记,目前国内外相关的法医学DNA数据库主要围绕STR基因座建立(主要是常染色体STR和Y-STR)。因此,若要将SGS技术推广应用于法医学领域,就要求该平台能成功地对STR进行测序检测,当前必须攻克如下技术难点:一是测序读长的限制,从第一台SGS测序仪研发启用开始,大多数SGS测序平台的读长对于STR重复结构的测序而言都过短;二是STR重复结构的这一特征使得序列信息的读取及比对困难。可喜的是,随着测序平台技术的不断进步,目前平均测序读长已经可以满足部分STR基因座测序片段的大小要求。
2012年,Bornman等[14]利用Illumina GAⅡx测序仪研究了DNA联合索引系统(CODIS)13个STR基因座的序列多态性,显示了SGS技术在STR检测中的优势,在得到序列信息的同时大大丰富了等位基因信息,提供了更为全面的遗传数据。目前,Illumina公司推出了SGS-STR检测试剂盒,宣称PCR-SGS技术可以代替PCR-CE。在MiSeq平台上,除ForenSeq DNA Signature Prep试剂盒测试版[32]外,Promega公司还开发了一个含有23个STR基因座用于SGS检测的试剂盒(PowerSeqTMAuto System[35]),初步的评估数据表明,62 pg DNA就可以得到完整的分型结果;在混合物比例为1∶19时,次要组分在部分STR基因座上可以得到分型结果,且在STR基因座侧翼序列及重复结构内部发现的SNP多态性位点可以进一步帮助解释混合样本的结果。
Ion PGM平台第一个推出了从建库到最后数据分析的完整解决方案[10]。Fordyce等[19]对HID STR 10-plex进行了评估(含性别牙釉质位点、CSF1PO、D16S539、D3S1358、D5S818、D7S820、D8S1179、TH01、TPOX和vWA),研究结果表明,低至50pg DNA就可以得到完整的分型结果;对于1∶20混合样本的检验结果理想,只是次要组分的分型需要手动进行;对于采用CE检测不能得到完整分型的降解检材,利用该平台可以得到完整结果(文库设计均在 170 bp之内)。Churchill等[21]也采用该试剂盒对12个盲样进行了上述STR基因座的检测,结果与PCR-CE检测一致,但是在相同片段长度等位基因发现了多样化的序列信息(长度一致的情况下存在序列上的不同),得到了比PCR-CE更丰富的信息。在这一结果的鼓舞之下,Life Technologies公司于2015年推出了一个含有24个STR基因座的试剂盒测试版,在原有基础上增加了部分miniSTR[36]。
除商业化STR-SGS试剂盒的推出,借助SGS平台进行复杂STR基因座核心序列结构的探讨也是研究热点之一。与PCR-CE的片段长度分析相比,SGS测序更多地揭示了序列的内部变异情况,可以发现新的等位基因及更多的变异位点。Gelardi等[37]对D12S391基因座在197个丹麦人中的多态性进行了研究,发现了53个等位基因,而采用PCR-CE检测仅发现15个等位基因,这主要是由于含有相同片段长度的等位基因实际上具有不同的序列结构信息,如等位基因21可检测到8种不同的序列结构,在这一研究中还发现采用PCR-CE进行分型得到的纯合子中有30%存在序列结构上的不同,这一结果也从侧面反映了采用SGS平台进行STR基因座研究的优势。其次,SGS测序对STR基因座的检测可以简化混合样本的结果分析,如混合样本中不同身源者的等位基因即使具有相同的片段长度但是序列结构却可能是不同的。本实验室目前的研究结果表明,在低至1∶100的混合比例中,次要组分的STR基因型可以通过SGS测序获得,而采用传统的PCR-CE技术无法实现(结果待发表)。
3.3SGS技术用于线粒体全基因组测序
人类mtDNA位于细胞质中,是一套独立于核染色体外的遗传物质,为双链闭合环状分子,全长16569bp,可分为编码区和控制区。其中编码区较为保守,因而大多数研究均围绕线粒体高变区展开。mtDNA由于拷贝数多、母系遗传等特点在法医遗传学中常用于补充检验,而有些情况下却是唯一可以检验的遗传标记[1,3,13,15-16,21,24]。 相对于传统Sanger测序技术,采用SGS技术对mtDNA全序列进行快速便捷的检测对法医学应用具有巨大的吸引力。人类mtDNA具有异质性,即使是同一个体,其不同组织来源细胞中的mtDNA亦可能有较大差异,且mtDNA易受到污染,这些因素均会导致测序结果的解释变得困难。而SGS测序则会给出每一个位点上主要碱基与次要碱基的reads数,能够提供除高变区外的单倍体类型,获得更为全面的mtDNA单倍群信息,同时还能够对组织特异性进行检测[13,15-16,21,24]。
深市港股通方面,前十大活跃标的分别为腾讯控股、招商银行、融创中国、东阳光药、中兴通讯、农业银行、吉利汽车、丰盛控股、石药集团和建设银行。
mtDNA全基因组测序研究中,文库的有效构建是难点之一。针对条件理想的mtDNA,可以采用二段或者三段PCR进行长PCR扩增,在得到长PCR扩增子后,可以使用酶切试剂盒或物理手段进行片段化处理。Life Technologies公司推出的SequalPrepTMLong PCR Kit with dNTPs试剂盒可专门用于这一类PCR的扩增。但是,由于法医学检材大部分为降解检材,为提高其检出率,文库构建的策略应尽量采用较小的PCR扩增片段,并且为避免扩增片段间的相互干扰,还应该减少不必要的扩增子数目。另外,对于mtDNA而言,因其序列中包含较多变异位点,且存在与核染色体高度同源的序列,使得针对mtDNA测序小片段引物的设计有一定难度。目前,Life Technologies公司在Ion PGM平台上推出了一个针对mtDNA全基因组测序的测试版HID-Ion AmpliSeqTMMitochondrial Tiling Path Panel。在这个Panel中,共分成两个Pool 对mtDNA进行扩增,每个Pool中含有81对引物。
3.4SGS技术用于RNA检测
RNA在法医学上可用于体液(斑)或者组织类型的鉴定。研究主要围绕信使RNA(message RNA,mRNA)和微小核糖核酸(microRNA,miRNA)进行。mRNA的研究开展较早,目前已有部分推荐位点供选择。Zubakov等[20]率先利用Ion PGM平台对DNA和RNA标记同时进行研究,共涉及12个成熟mRNA标志,用于6种常见组织类型的鉴定,对降解检材的分析能力优越,但是RNA建库与DNA建库需要分开进行。近几年,miRNA作为一类长度在18~25个核苷酸的非编码小分子RNA,在转录后水平调控基因表达,其表达具有高保守性、时序性和组织特异性[25],相比mRNA更适合进行体液(斑)的鉴定。之前常用的研究方法为实时定量PCR和生物芯片技术等,但仅局限于获取已知序列信息的miRNA,而SGS平台可以一次性获得数百万条miRNA序列信息,能够快速鉴定出不同组织、不同发育阶段甚至不同疾病状态下miRNA及其表达差异,给法医学和遗传医学等提供了有力的解决工具。Wang等[25]基于Ion PGM平台,针对血液和唾液样本miRNA检测,给出了一套成熟的检测流程。
3.5SGS技术对多种遗传标记的联合检测
对多种遗传标记进行联合检测是SGS技术的优势之一。目前Illumina公司已经针对常见遗传标记(SNP 和STR)进行了整合试剂盒的开发及测试(ForenSeq DNA Signature Prep)。然而,将核DNA水平的遗传标记与mtDNA或RNA遗传标记整合在一个panel中尚不可行,主要是由于拷贝数差异过大。针对不同的检测目标区域选用不同的建库手段,然后将文库混合进行后续检测则可以实现这一目标。Zubakov等[20]采用AmpliSeq技术对9个常染色体STR基因座和12个mRNA标记分别构建文库,单独进行测序和在同一张芯片进行测序的结果相一致。其次,将这些不同水平的遗传标记整合在一起,在实际案件工作中是否具有可行性及必要性,目前尚无定论[10],主要原因在于大部分案件其实并不需要mtDNA或RNA水平信息,而整合后这两类遗传标记在测序panel中必将占用一定的测序空间,使得每次测序反应中所能容纳的样本数减少,导致检测成本相对增加。先祖信息SNP或表型特征SNP是否纳入也面临同样的处境。因此,针对不同的案件类型,灵活地选择位点定制Panel,即在必须检测的遗传标记基础上自由选择加入其他种类的遗传标记,这种方式或许更具实际意义。
3.6SGS技术在法医学领域的拓展研究
法医微生物学作为法医学中的新兴学科,在法医学领域受到越来越多科研人员的关注[10,38-41]。Brenig等[38]对生物痕迹进行深度测序和宏基因组分析,证实该方法可以用于生物痕迹中微生物成分的检验;Tridico等[39]对人类头发中的微生物菌群进行鉴定,发现该方法可以为部分性侵类案件(未发现任何有价值的生物检材)的侦破提供参考信息;Franzosa等[40]的研究则表明可以利用宏基因组编码进行人体微生物的识别。另外,对犯罪现场土壤中微生物的鉴定也有了新的研究进展[10]。在生物反恐方面,Broomall等[41]利用SGS平台对经γ射线处理后的信件进行微生物测序,获得有效数据。
4 SGS数据分析及软件开发需求
SGS技术对法医学未来的发展起着至关重要的作用,相应平台及配套试剂的开发也带动了科研人员新一轮的研究热潮。然而,如何科学地利用这些数据,如何合理地解释这些数据以及如何形成一套有公信力的数据采信标准是面临的最大难题。
对获取的SGS原始数据而言,将文库(35~400bp)序列信息进行精确的比对和组装是难点之一。法医学研究大多选择人类参考基因组,但需要注意的是,随着时间的推移,数据库信息会时常更新,比如人类基因组信息现在就有多个版本:2003年6月的NCBI34/hg16,2004年5月的 NCBI35/hg17,2006年3月的NCBI36/hg18,2009年2月的GRCh37/hg19以及2013年12月的GRCh38/hg38。现在最为常见的是GRChg38及GRChg19。所以,将原始序列文件比对到哪个版本的基因组是事先必须明确的,常用的工具有Bowtie/Bowtie2、BWA、SOAP1/SOAP2等。此外,需要注意所获得的序列信息是源于基因组测序(DNA-Seq)还是转录组测序(mRNA-Seq)。对于真核生物而言,mRNA序列与DNA序列并不完全相同,在经历后剪切之后,成熟的mRNA可能是原基因的一部分,顺序及个别碱基会产生变化。如果是mRNA测序,比对工作就会在DNA测序比对的基础上再多一步,需比对到转录组上去[25-26]。所以比较流行的做法是使用Bowtie进行DNA测序信息比对,使用TopHat进行RNA测序信息比对。目前的测序平台都相对成熟,可以借助服务器自带插件进行序列信息的初步比对及组装,获取BAM/SAM文件[19-25]。
其次,如何对已获得的BAM/SAM文件进一步分析,形成可以供法医学实际使用的数据是目前SGS数据分析的最大难点。Life Technologies和Illumina公司针对其推出的相关遗传标记检测试剂盒匹配了相应的分析工具。本实验室尝试用这些工具进行数据分析,发现主要存在以下几个缺陷:(1)分析软件均针对已开发试剂盒,参数的设置相对固定,但是由于前期文库构建过程无法全自动化,人员操作及实验室条件等差异均会造成不同实验室即使采用同一DNA样本也无法得到一致的测序结果(主要表现在文库构建质量、SGS有效数据量、位点覆盖度、样本间检测的均一性等)。其中Life Technologies公司推出的插件无法对STR和SNP同时进行分析且不能对样本进行选择性分析;Illumina公司推出的工具可以对两者同时完成分析,但是设置了相同的标准,修改参数空间不大,限制了数据分析功能。(2)对混合样本进行分析时,次要组分的测序信息与stutter峰(STR基因座检测中出现)及噪音的测序信息无法进行有效区分。(3)遗传标记侧翼序列若存在变异位点,分析系统不能自动给出提示。(4)对实验质控的信息无法很好地体现。(5)对测序数据的质量控制不全面。(6)呈现的数据格式过于复杂,不利于法医学实际应用。
2014年,Van Neste等[43]针对Illumina MiSeq平台开发了一套生物信息算法,称为My-Forensic-Lociqueries(MyFLq),用于对原始SGS数据进行STR和SNP的分析;2015年,Warshauer等[44]针对Ion PGM平台更新了其基于Linux操作系统开发的STRait Razor软件,目前该软件可以用于86个STR基因座的分析。因而,开发出一套可以快速、便捷、准确地进行SGS数据分析的工具是该技术能够被法医学工作者快速接受的前提之一。对于最常用遗传标记STR基因座而言,由于同一长度等位基因内部序列结构有异导致新等位基因的大量检出,使得原有针对STR片段长度的命名方式已不能满足实际需求。国际法医遗传学学会(ISFG)专门就SGS-STR测序信息的通用命名原则组织了相关的工作小组。目前SGS-STR测序研究中普遍参考的是Gelardi等[37]的命名原则。但这一命名原则仅能满足具有简单重复结构的STR基因座。另外,对于SGS-STR测序数据分析,应该让用户可以根据实验结果自定义基因型分析需要的最小覆盖度、可以接受的stutter范围及背景噪音和合理的等位基因均衡度。
由于STR基因座是法医学最常用的遗传标记,且现有法医学数据库均围绕该遗传标记建立,并且在未来的很长时间内将持续丰富及更新,如何将SGSSTR基因座数据信息与CE-STR基因座信息相对接,是这一技术应用的最大难题。第26届ISFG会议提出了以下几个主要观点:(1)SGS测序分析的软件需要可以将测序STR基因座核心区域及侧翼序列的FASTA信息导出并形成数据库,从而获取新等位基因的频率信息;(2)目前对CE-STR命名时参考的基因组信息均为GRChg19,千人基因组计划提供的变异位点信息也均参考GRChg19,是否需要将所有命名全部按照最新参考序列GRCh38进行命名,以及如何将这部分信息与最新的人类基因座版本相统一是关键之一;(3)CE-STR命名时部分STR基因座参考的是反向序列信息,在目前对STR基因座进行序列深度测序的情况下,建议全部采用正向参考序列;但是若按照ISFG之前的命名原则,以序列中最先开始的基序(motif)进行命名,那么在这个过程中必然会遇到基序与之前不一致的情况,如何解决这一问题,需要有明确方案;(4)如果全部采用正向,那么之前采用反向序列命名的STR基因座核心序列的起始和终止位置会发生改变,需要对这部分信息给予更新;(5)关于具有复杂序列结构的STR基因座是否需要纳入SGS-STR检测,以及如何对这部分等位基因进行命名,值得商榷。目前推荐的一种命名方式,以D13S317基因座的等位基因12为例,命名如下:D13S317[12]-Chr13-GRCh38 82148025-82148068[TATC]12 82148001-A;82148069-T。这一命名方式中的次序为:基因座名称、等位基因大小、染色体位置、参考基因组版本号、核心序列起始和终止位置、重复结构及次数、侧翼序列的变异信息。这一命名方式要求对STR基因座的侧翼序列信息也进行解读(目前常见的做法是对上下游侧翼序列15bp进行解读)[45]。
软件还应该具备混合样本分析模块,SGS技术的优势之一就是可以为法医学常见混合检材提供更全面、更丰富的遗传信息。同时,还应配备mtDNA分析、Y染色体单倍型分析、X染色体遗传标记分析、组织来源分析及表型分析等模块[43-45]。
5 SGS技术在法医学的应用展望
SGS技术的应用使法医遗传学进入了一个新的发展阶段,与传统的PCR-CE技术相比,可以同时进行数百甚至数千个遗传标记的检测;与Barcode技术相结合,可以对多个样本并行检测;不借助荧光标记系统,可以将文库构建片段设计得极短,对降解检材的分析能力大大提高;序列等位基因的大量检出,使得系统效能大大增加;对序列内部碱基的深度读取,使得混合样本分析能力大幅提高。基于这些优势,我们有理由相信这一技术将能在各个法医遗传学实验室得以应用。但是,SGS测序平台及相关试剂的成本、相关技术产品的推出及验证、分析软件的成熟化、与现有数据库的对接等都是决定该技术能否替代(或补充)成熟PCR-CE技术以及普遍应用于案件检测的关键。同时,如何看待大数据测序中可能出现的伦理问题也是法医学者应用这一技术需要考虑的问题。
[1]Parson W,Parsons TJ,Scheithauer R,et al.Population data for 101 Austrian Caucasian mitochondrial DNA d-loop sequences:application of mtDNA sequence analysis to a forensic case[J].Int J Legal Med,1998,111(3):124-132.
[2] Schneider PM,Seo Y,Rittner C.Forensic mtDNA hair analysis excludes a dog from having caused a traffic accident[J].Int J Legal Med,1999,112(5):315-316.
[3] Bender K,Schneider PM,Rittner C.Application of mtDNA sequence analysis in forensic casework for the identification of human remains[J].Forensic Sci Int,2000,113(1-3):103-107.
[4]Laber TL,Giese SA,Iverson JT,et al.Validation studies on the forensic analysis of restriction fragment length polymorphism(RFLP)on LE agarose gels without ethidium bromide:effects of contaminants,sunlight,and the electrophoresis of varying quantities of deoxyribonucleic acid(DNA)[J].J Forensic Sci,1994,39(3):707-730.
[5]Budowle B,Baechtel FS,Comey CT,et al.Simple protocolsfortypingforensicbiologicalevidence:chemiluminescent detection for human DNA quantitationandrestrictionfragmentlengthpolymorphism (RFLP)analyses and manual typing of polymerase chain reaction(PCR)amplified polymorphisms[J]. Electrophoresis,1995,16(9):1559-1567.
[6] ParsonW,DürA.EMPOP--aforensicmtDNA database[J].Forensic Sci Int Genet,2007,1(2):88-92.
[7]Sobrino B,Carracedo A.SNP typing in forensic genetics:a review[J].Methods Mol Biol,2005,297:107-126.
[8] Sobrino B,Brión M,Carracedo A.SNPs in forensic genetics:a review on SNP typing methodologies[J]. Forensic Sci Int,2005,154(2-3):181-194.
[9]Lavebratt C,Sengul S.Single nucleotide polymorphism (SNP)allele frequency estimation in DNA pools using Pyrosequencing[J].Nat Protoc,2006,1(6):2573-2582.
[10]Børsting C,Morling N.Next generation sequencing and its applications in forensic genetics[J].Forensic Sci Int Genet,2015,18:78-89.
[11]Bundock PC,Eliott FG,Ablett G,et al.Targeted single nucleotide polymorphism (SNP)discovery in a highly polyploid plant species using 454 sequenc-ing[J].Plant Biotechnol J,2009,7(4):347-354.
[12]Scheible M,Loreille O,Just R,et al.Short tandem repeat typing on the 454 platform:strategies and considerationsfortargetedsequencingofcommon forensic markers[J].Forensic Sci Int Genet,2014,12:107-119.
[13]Mikkelsen M,Frank-Hansen R,Hansen AJ,et al. Massively parallel pyrosequencing of the mitochondrial genome with the 454 methodology in forensic genetics[J].Forensic Sci Int Genet,2014,12:30-37.
[14]Bornman DM,Hester ME,Schuetter JM,et al. Short-read,high-throughputsequencingtechnology for STR genotyping[J].Biotech Rapid Dispatches,2012:1-6.
[15]Davis C,Peters D,Warshauer D,et al.Sequencing thehypervariableregionsofhumanmitochondrial DNA using massively parallel sequencing:Enhanced dataacquisition forDNA samples encountered in forensic testing[J].Leg Med(Tokyo),2015,17(2):123-127.
[16]KingJL,LaRueBL,NovroskiNM,etal. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq[J].Forensic Sci Int Genet,2014,12:128-135.
[17]Hertz CL,Christiansen SL,Ferrero-Miliani L,et al. Next-generation sequencing of 100 candidate genes in young victims of suspected sudden cardiac death with structural abnormalities of the heart[J].Int J Legal Med,2016,130(1):91-102.
[18]Nunn LM,Lopes LR,Syrris P,et al.Diagnostic yield of molecular autopsy in patients with sudden arrhythmic death syndrome using targeted exome sequencing[J].Europace,2016,18(6):888-896.
[19]Fordyce SL,Mogensen HS,Børsting C,et al.Secondgeneration sequencing of forensic STRs using the Ion TorrentTMHID STR 10-plex and the Ion PGMTM[J]. Forensic Sci Int Genet,2015,14:132-140.
[20]Zubakov D,Kokmeijer I,Ralf A,et al.Towards simultaneous individual and tissue identification:A proof-of-principlestudyonparallelsequencingof STRs,amelogenin,and mRNAs with the Ion Torrent PGM[J].Forensic Sci Int Genet,2015,17:122-128.
[21]Churchill JD,Chang J,Ge J,et al.Blind study evaluation illustrates utility of the Ion PGMTMsystem for use in human identity DNA typing[J].Croat Med J,2015,56(3):218-229.
[22]Eduardoff M,Santos C,de la Puente M,et al.Inter-laboratory evaluation of SNP-based forensic identification by massively parallel sequencing using the Ion PGMTM[J].Forensic Sci Int Genet,2015,17:110-121.
[23]Børsting C,Fordyce SL,Olofsson J,et al.Evaluation of the Ion TorrentTMHID SNP 169-plex:A SNP typing assay developed for human identification by second generation sequencing[J].Forensic Sci Int Genet,2014,12:144-154.
[24]Parson W,Strobl C,Huber G,et al.Evaluation of next generation mtGenome sequencing using the Ion Torrent Personal Genome Machine(PGM)[J].Forensic Sci Int Genet,2013,7(5):543-549.
[25]Wang Z,Zhou D,Cao Y,et al.Characterization of microRNA expression profiles in blood and saliva using the Ion Personal Genome Machine® System (Ion PGMTMSystem)[J].Forensic Sci Int Genet,2016,20:140-146.
[26]Head SR,Komori HK,LaMere SA,et al.Library construction for next-generation sequencing:overviews and challenges[J].Biotechniques,2014,56(2):61-64,66,68.
[27]Pakstis AJ,Speed WC,Fang R,et al.SNPs for a universalindividualidentificationpanel[J].Hum Genet,2010,127(3):315-324.
[28]Musgrave-Brown E,Ballard D,Balogh K,et al. Forensic validation of the SNPforID 52-plex assay[J]. Forensic Sci Int Genet,2007,1(2):186-190.
[29]Zhang S,Bian Y,Zhang Z,et al.Parallel Analysis of 124 Universal SNPs for Human Identification by Targeted Semiconductor Sequencing[J].Sci Rep,2015,5:18683.
[30]Nassir R,Kosoy R,Tian C,et al.An ancestry informative marker set for determining continental origin:validation and extension using human genome diversity panels[J].BMC Genet,2009,10:39.
[31]Nievergelt CM,Maihofer AX,Shekhtman T,et al. Inference of human continental origin and admixture proportions using a highly discriminative ancestry informative 41-SNP panel[J].Investig Genet,2013,4(1):13.
[32]Walsh S,Chaitanya L,Clarisse L,et al.Developmental validation of the HIrisPlex system:DNA-based eye and hair colour prediction for forensic and anthropological usage[J].Forensic Sci Int Genet,2014,9:150-161.
[33]Churchill JD,Schmedes SE,King JL,et al.Evaluation of the Illumina®Beta Version ForenSeqTMDNA Signature Prep Kit for use in genetic profiling[J]. Forensic Sci Int Genet,2016,20:20-29.
[34]Ralf A,van Oven M,Zhong K,et al.Simultaneous analysis of hundreds of Y-chromosomal SNPs for high-resolutionpaternallineageclassificationusing targeted semiconductor sequencing[J].Hum Mutat,2015,36(1):151-159.
[35]Zeng X,King J,Hermanson S,et al.An evaluation of the PowerSeqTMAuto System:A multiplex short tandem repeat marker kit compatible with massively parallel sequencing[J].Forensic Sci Int Genet, 2015,19:172-179.
[36]Butler JM,Hill CR.Biology and genetics of new autosomal STR loci useful for forensic DNA analysis[J].Forensic Sci Rev,2012,24(1):15-26.
[37]Gelardi C,Rockenbauer E,Dalsgaard S,et al.Second generationsequencingofthreeSTRsD3S1358,D12S391 and D21S11 in Danes and a new nomenclature for sequenced STR alleles[J].Forensic Sci Int Genet,2014,12:38-41.
[38]Brenig B,Beck J,Schütz E.Shotgun metagenomics of biological stains using ultra-deep DNA sequencing[J]. Forensic Sci Int Genet,2010,4(4):228-231.
[39]Tridico SR,Murray DC,Addison J,et al.Metagenomic analyses of bacteria on human hairs:a qualitative assessment for applications in forensic science[J]. Investig Genet,2014,5(1):16.
[40]Franzosa EA,Huang K,Meadow JF,et al.Identifying personal microbiomes using metagenomic codes[J]. Proc Natl Acad Sci USA,2015,112(22):E2930-E2938.
[41]Broomall SM,Ait Ichou M,Krepps MD,et al. Whole-genome sequencing in microbial forensic analysis of gamma-irradiated microbial materials[J].Appl Environ Microbiol,2015,82(2):596-607.
[42]Hertz CL,Ferrero-Miliani L,Frank-Hansen R,et al.A comparison of genetic findings in sudden cardiac death victims and cardiac patients:the importance of phenotypic classification[J].Europace,2015,17(3):350-357.
[43]Van Neste C,Vandewoestyne M,Van Criekinge W,et al.My-Forensic-Loci-queries(MyFLq)framework for analysis of forensic STR data generated by massive parallel sequencing[J].Forensic Sci Int Genet,2014,9:1-8.
[44]Warshauer DH,Lin D,Hari K,et al.STRait Razor:a length-based forensic STR allele-calling tool for use with second generation sequencing data[J].Forensic Sci Int Genet,2013,7(4):409-417.
[45]Parson W,Ballard D,Budowle B,et al.Massively parallel sequencing of forensic STRs:Considerations of the DNA commission of the International Society for Forensic Genetics(ISFG)on minimal nomenclature requirements[J].Forensic Sci Int Genet,2016,22:54-63.
(本文编辑:李莉)
Review of Second Generation Sequencing and Its Application in Forensic Genetics
ZHANG Su-hua,BIAN Ying-nan,ZHAO Qi,LI Cheng-tao
(Shanghai Key Laboratory of Forensic Medicine,Shanghai Forensic Service Platform,Institute of Forensic Science,Ministry of Justice,P.R.China,Shanghai 200063,China)
The rapid development of second generation sequencing(SGS)within the past few years has led to the increasement of data throughput and read length while at the same time brought down substantially the sequencing cost.This made new breakthrough in the area of biology and ushered the forensic genetics into a new era.Based on the history of sequencing application in forensic genetics,this paper reviews the importance of sequencing technologies for genetic marker detection.The application status and potential of SGS in forensic genetics are discussed based on the already explored SGS platforms of Roche,Illumina and Life Technologies.With these platforms,DNA markers(SNP,STR),RNA markers(mRNA,microRNA)and whole mtDNA can be sequenced.However,development and validation of application kits,maturation of analysis software,connection to the existing databases and the possible ethical issues occurred with big data will be the key factors that determine whether this technology can substitute or supplement PCR-CE,the mature technology,and be widely used for cases detection.
forensic genetics;second generation sequencing;review[publication type];genetic markers
·教育与管理·
DF795.2
A
10.3969/j.issn.1004-5619.2016.04.012
1004-5619(2016)04-0282-08
国家自然科学基金资助项目(81302620);中央级科研院所公益专项(GY2014G-4);上海市标准研制项目(14DZ 0502500);上海市司法鉴定专业技术服务平台资助项目(16DZ 2290900)
张素华(1985—),女,助理研究员,主要从事法医遗传学研究;E-mail:zsh-daisy@163.com
李成涛,男,研究员,博士研究生导师,主要从事法医遗传学研究;E-mail:lichengtaohla@163.com
2016-02-24)