二代测序技术在疑难生物检材法医DNA检验的研究进展
2018-03-29严江伟
程 凤,严江伟,2,3*
(1.山西医科大学法医学院,中国山西太原030001;2.中国科学院北京基因组研究所,中国北京100029;3.中国科学院大学,中国北京100049)
目前,基于毛细管电泳的复合荧光短串联重复序列(short tandem repeat,STR)检测已经成为法医DNA分析的常规方法,并且发挥了显著的作用。然而,在法医实际案件中经常会需要对衣物和作案工具上的脱落细胞、陈旧骨骸、混合精斑等微量、降解以及混合样本进行DNA分析。由于上述检材的复杂性,使用常规的检验技术常会遇到一些问题,例如位点缺失、分型不完整和stutter峰干扰以及未能提取到核DNA等,往往难以获得满意的实验结果。与传统的毛细管电泳STR方法相比,二代测序技术(next-generation sequencing)采用了全新的测序方法,具有测序片段短、可深度测序、检测长度差异的同时还可准确区分序列差异、可同时进行更多位点的检测等诸多优点,为疑难生物检材的法医DNA分析提供了新的思路和方法。
1 二代测序技术
二代测序技术又称为高通量测序技术,是对传统Sanger测序(称为一代测序技术)革命性的改变。二代测序技术的核心思想是边合成边测序,可以一次并行对几十万到几百万条DNA分子进行序列测定,所以又被称为深度测序。由于二代测序技术具有多样本、多位点同时进行测序并且具有较高的覆盖率等优势,在生命科学领域已经被广泛应用。目前在法医领域应用的二代测序技术系统主要为美国Thermo Fisher公司的Ion系列测序系统和Illumina公司的MiSeq FGx测序系统。
Ion系列测序系统[1]将微体系机械设计和半导体技术相组合,避免使用复杂的光学元件或带标记的核苷酸,通过检测电流强度的变化获得DNA序列信息。针对法医学疑难样本,Thermo Fisher公司已经相继推出了包含90个常染色体单核苷酸多态性(single-nucleotide polymorphisms,SNPs)位点和34个Y-SNP位点的测序试剂盒、采用叠瓦式短片段扩增子设计的全线粒体测序试剂盒以及包含35个STR位点的测序试剂盒等商品化试剂盒。
MiSeq FGx系统主要使用荧光测序的方法,在每个测序循环中,4种带荧光的与可逆终止子结合的dNTP同模板结合,通过直接测定荧光信号强度来进行碱基序列判读。目前,Illumina公司推出的ForenSeq DNA Signature Prep试剂盒[2]可用于对法医疑难检材的检验,该试剂盒一次实验可得到230个位点的分型,包括58个STR位点(27个常染色体STR、24个Y染色体STR和7个X染色体STR)和172个SNP位点(94个用于个体识别,22个和56个分别用于表型和祖先推断)。
2 二代测序技术在微量生物检材法医DNA检验的研究进展
随着人们自我保护意识的逐渐增强,犯罪分子在案件现场中遗留下的痕迹越来越少,工作人员往往只能提取到衣物、作案工具以及日常用品上的脱落细胞等微量DNA检材,这为法医DNA的检验带来了巨大挑战[3]。目前大多数常染色体复合荧光STR检测试剂盒推荐的模板量约为1 ng,所检测的位点通常为15~24个[4]。然而在实际案件中,微量生物检材所提取到的DNA量往往较低,达不到最佳检验要求,经常会出现只有部分位点的分型或者没有分型结果[5]的情况,并且如果还需要获得性染色体和线粒体上更多类型位点的分型,通常需要多次检测。而采用二代测序技术进行微量检材的DNA检验则具有一定优势,例如:二代测序技术可以对不同类型的多位点同时进行检测,在避免多次检测导致消耗珍贵样本的同时,也可弥补常规检验由于模板量低导致最终能有效用于鉴定结论的位点不足的缺点;可检测序列差异,减少了污染等非扩增特异性产物对结果的影响;可进行深度测序,使得灵敏度相对较高。
Børsting等[6]使用Ion PGM二代测序平台对一个包含136个常染色体SNP位点和33个Y染色体SNP位点的复合体系进行检测,结果表明当模板量仅为0.5 ng时,其位点的检出成功率仍为100%。Zeng等[7]分别使用毛细管电泳和二代测序平台对24个无关个体的17个常染色体的STR位点进行分析,结果表明当模板量为500 pg时,两种方法得到的分型结果完全一致,而当模板DNA的量仅为62 pg时二代测序平台检测仍可成功获得完整的分型。Churchill等[8]通过对包含58个STR位点和172个SNP位点的ForenSeq DNA Signature Prep试剂盒进行灵敏度测试,发现当DNA模板量仅为100 pg时,其位点检出量仍可保持在94%以上。
另外,由于二代测序技术不但可准确区分片段长度差异而且可同时得到详细的序列信息,因此可对非特异性扩增产物进行有效的识别,从而增加分型结果的可信度及准确率。Sharma等[9]的研究显示,通过对二代测序数据进行分析,可对stutter峰的来源进行区分,并且通过对序列的进一步分析,可准确排除由单碱基替换而引起的位点检测错误,判断其正确的等位基因分型。Kwon等[10]在250个男性样本中对Y染色体上的23个STR位点进行测序,通过对stutter峰出现概率的计算和背景杂音的分析,得出二代测序技术对微量检材中等位基因位点的识别具有重要意义。
3 二代测序技术在降解生物检材法医DNA检验的研究进展
对于残存的骨骸、腐烂的组织、保存不理想的DNA样本或检验中出现的各种降解样本,由于DNA模板高度碎片化或经过化学修饰,常导致目标位点的聚合酶链式反应(polymerase chain reac-tion,PCR)扩增缺失或错误扩增[11],因此往往无法获得相关物证的完整DNA分型结果或者造成结果不可靠,为案件的顺利侦破和审理带来极大的困难。传统的毛细管电泳检测技术受检测荧光种类和检测范围的限制,需要人为地将所检测的位点设计成标记不同荧光并且长度大小不一的扩增片段,使得在同一个电泳体系中仅可检测20个左右的位点,并且部分位点的扩增片段长度较长,这导致对于降解DNA的检测成功率较低。与毛细管电泳检测技术不同,二代测序技术是对每一个扩增片段分别进行规模化平行测序,彼此之间并不产生影响,检测位点的扩增片段长度相对较短,使其对降解检材的DNA检测成功率较高。
目前对于降解生物检材的检测,虽然使用毛细管电泳对扩增片段较短的miniSTR进行检测,可在一定程度上提高检测成功率,如Tsukada等[12]使用4对扩增片段长度为74~143 bp的miniSTR引物对保存17~26年的1 ng骨骼DNA进行毛细管电泳检测,结果显示其位点检出成功率为100%。但其仍受到毛细管电泳检测原理的限制,即还需要人为地设计长度大小不一的扩增片段,不能完全实现每一个miniSTR位点扩增片段的最小化设计。Kim等[13]分别使用毛细管电泳和二代测序技术,对片段长度为200~300 bp人工降解的200 pg DNA进行17个常染色体STR位点检测,结果显示使用毛细管电泳对STR位点进行检测时有4个等位基因位点的缺失和两个位点检出不完整,而二代测序的检测结果相对理想,位点检出成功率为100%。Wang等[14]通过使用毛细管电泳AGCU 21+1 STR kit和二代测序技术Precision ID GlobalFilerTMNGS STR Panel,对核酸酶不同作用时间的DNA样本进行STR检测分析,结果发现在酶消化的不同时间段内二代测序技术中位点的检出成功率远大于毛细管电泳检测技术。与STR位点相比,SNP扩增片段更短,对于降解生物检材的检测成功率相对更高[15]。但是由于单个SNP位点多态性较差,因此需要联合使用较多SNP位点才能达到法医学个体识别目的[16]。SNaPshot技术是一种基于荧光标记单碱基延伸原理的分型技术,它使用毛细管电泳对SNP位点进行检测,一般可检测10~30个SNP位点。Lou等[17]使用包含44个SNP位点的两个SNaPshot体系对保存20年的陈旧血痕和自然放置20周的抗凝血中的DNA进行检测,结果显示位点检出率在82%~100%。而二代测序技术可同时对多个SNP位点进行检测,Fei等[18]使用包含124个SNP位点的HID-Ion AmpliSeq Identity Panel对降解指数为3.44的血斑进行检测,发现位点检出率为100%。Shih等[19]使用二代测序技术对人工降解片段长度约为150 bp的DNA模板的426个SNP位点进行扩增,结果显示SNP位点覆盖度可达到96%。同时,他们对两根自然脱落的毛发的毛囊进行检测,其位点平均检出率也达到了80%以上。
二代测序技术不仅可对常规核DNA遗传位点进行检测,对于线粒体DNA及RNA的检测也具有一定优势[20]。线粒体DNA具有较高的拷贝数和突变率,适用于对毛干、指甲等严重角化的组织以及陈旧骨骸等无法提取到核DNA的降解样本进行法医DNA分析[21]。目前,采用Sanger测序技术的法医线粒体DNA分析通常只是对线粒体高变区1和高变区2进行分析。但是作为单倍型遗传标记,如果仅仅检测线粒体高变区,很难对两个样本进行同一认定,只能得出不排除具有相同来源的判断。Irwin等[22]提出仅对600 bp的线粒体DNA突变区进行检测,这限制了法医线粒体DNA的检测力度,不能为非母系亲属的个人识别提供充足的证据。二代测序技术可通过对全线粒体DNA进行测序,增加检测范围,使结果更具有说服力。Wang等[23]使用Illumina HiSeq 2000 system对10对单卵双胞胎进行全线粒体DNA测序,发现在8对双胞胎中有16个单碱基出现多态性,其中有6个碱基出现在高变区1和高变区2,10个碱基出现在编码区。Parson等[24]使用高通量测序技术可在2 cm的发干中得到完整的线粒体DNA分型结果。Gouveia等[25]使用包含162对引物的双复合体系Applied BiosystemsTMPrecision ID mtDNA Whole Genome Panel,实现了整个线粒体DNA的扩增检测。King等[26]使用二代测序技术对埋藏约300年的查理三世骨骼样本进行全线粒体DNA测序,发现分别与现存19级和21级母系亲属的线粒体DNA序列产生匹配,这进一步为查理三世身份的证实提供了证据。微RNA(microRNA,miRNA)由于其片段较短(约22 bp)且具有组织表达特异性,因此可以作为法医学降解检材分析及鉴定组织来源的生物标记[27]。Wang等[28]首先对5份血液样本和5份唾液样本中2 588个miRNA进行高通量测序,再对测序结果进行生物信息学分析,结果显示挖掘出6~19个可以鉴别血液和唾液的miRNA生物学位点。Hanson等[29]使用包含34对信使RNA(messenger RNA,mRNA)及miRNA扩增引物的复合体系,成功识别了血液、精液、唾液等法医常见样本的体液及组织来源。
4 二代测序技术在混合生物检材法医DNA检验的研究进展
混合生物检材是指来源两个或以上不同人的混合样本。法医案件中的混合生物检材主要包括:1)不同人的相同组织样本的混合;2)不同人的不同组织样本的混合[30]。例如:犯罪现场受害人与嫌疑人的混合血斑,强奸案中的阴道拭子等。目前,毛细管电泳的检测原理在针对混合样本的检测中存在较多局限,如:只能对等位基因的片段长度进行区分,核苷酸数量相等的所有等位基因分型被认为是同一个等位基因,无法准确区分混合样本中长度一致的等位基因[31];不能准确地分辨stutter峰和混合样本中低比例样本的等位基因分型。而二代测序技术不仅可以分辨位点的扩增长度,还可对其内在的碱基序列进行详细的分析[32]。例如:通过对核心检测位点及其侧翼的碱基序列进行分析,可增加位点的多态性信息;通过对stutter峰进行分析,可排除杂峰干扰,得到更加准确的等位基因分型。
Gelardi等[33]使用二代测序技术对丹麦人群D3S1358基因座进行了等位基因频率调查,检测到17种等位基因分型,而使用毛细管电泳进行检测时,只获得8种等位基因分型。Gettings等[34]使用千人基因组计划中的数据将法医学中常用的24个STR位点分别进行毛细管电泳及二代测序技术检测,结果发现通过二代测序技术对核心的等位基因序列进行测序后,其中有9个STR位点的多态性较使用毛细管电泳检测时增加了30%。通过二代测序技术对核心检测位点进行分析,可得到等位基因详细的碱基序列,有助于对长度相同但重复序列有所差异的等位基因进行分辨。此外,还可以根据其侧翼序列的多态性对位点进行进一步的区分,增加检测位点的多态性和识别能力。Zhao等[35]使用二代测序技术对165个中国人的10个常染色体STR进行分析,发现在引物结合区域与核心位点之间的侧翼序列有11个多态性变化。Clayton等[36]使用毛细管电泳对混合DNA样本中的STR进行分析时发现,STR位点复制滑脱而导致的stutter峰,通常位于主峰旁且峰面积约为主峰的15%,若混合样本中比重较少DNA的等位基因的峰高小于或接近stutter峰,将无法区分此峰是样本中真实存在的还是stutter峰。Guo等[37]同时使用毛细管电泳检测技术和二代测序技术对人工混合的DNA样本进行检测,并对D2S1338和vWA进行分析,结果在毛细管电泳峰图上仅显示片段长度的差异,而且无法对stutter峰的信息进行相关分析,但在二代测序数据中不仅可以显示片段长度、序列的差异及位点的贡献情况,还可以有效识别stutter峰并确定其来源,使混合样本的检测结果更加准确可靠。Gettings等[38]使用MiSeq就22个常染色体STR位点对183个不同种族的DNA样本进行检测,由于侧翼序列的缺失导致其位点的扩增长度缩短,使毛细管电泳检测结果出现误差;但是,二代测序检测技术可对扩增片段长度与序列同时进行识别,清晰判定核心检测位点分型,得到准确的结果。
利用二代测序技术多位点同时检测的优势,也可将核DNA、线粒体DNA以及RNA的位点检测相结合,综合考虑多种信息以进行混合样本的分析[39]。Hwa等[40]使用具有1 204个遗传标记的复合体系(包括1 075个核DNA的SNP位点和129个线粒体DNA的SNP位点),对含有两个无关个体DNA的混合样本进行检测,最高可检测出其中DNA含量仅为1%的样本的基因分型。Zubakov等[41]使用Ion Torrent PGM对9个常染色体STR位点和14个mRNA位点进行扩增检测,结果显示:利用4个mRNA位点可准确对血液、精子、唾液等不同组织来源的DNA样本进行识别,利用STR位点可对不同组织样本进行同一认定。将DNA上的遗传标记与RNA上的遗传标记进行合并检测,有助于对个体识别的鉴定结果与组织来源认定的结果进行综合分析,使混合样本的分析更加全面,更利于案件的调查与侦破。
5 展望与挑战
由于法医疑难生物检材的复杂性,目前并没有较为成熟的检测体系。二代测序技术所具有的能同时进行多样本、多位点检测;可对长度、序列多态性同时鉴别;可深度测序等优势,为疑难检材的法医DNA分析提供了新的思路。例如:通过二代测序技术可挖掘受核小体保护或具有多拷贝数的INNULs序列的遗传位点,并利用这些位点提高微量降解检材的法医DNA检出成功率;通过二代测序技术可同时进行众多微单倍型位点的分析,在具有高个体识别率的同时又能排除stutter峰的干扰,使混合样本的分型结果更加真实可靠。另外,二代测序技术对疑难生物检材的检测,不仅仅局限于对物证检材本身所含有的DNA或RNA等成分的检测,还可对其所附着的微生物、植物等进行检测,增加检测范围,以便更全面地了解作案时间、地点等信息,这将在对嫌疑人进行主动查找、认定等方面发挥巨大作用。未来随着测序技术的不断快速发展,尤其是不经过PCR扩增即可直接进行测序的单分子测序技术的成熟应用,必将会对疑难生物检材的法医DNA分析带来全新的技术手段和方法。
然而与传统毛细管电泳相比较,二代测序技术还存在检测前期所需实验步骤繁琐、消耗时间较长并且单个样本的测序成本高等缺点,使其在法庭科学方面的应用受到一定限制。相信随着测序技术的持续发展及法医科学家的努力,这一情况也会很快得到改善。而且,二代测序的法医生物信息分析方法尚不完善,无法满足对案件中疑难检材DNA检测的实际需求。未来期望随着生物信息技术的发展以及相关数据的不断积累,二代测序的数据分析会更加准确、快速,更适用于法医实际工作需求。另外,二代测序技术在能够检测较多位点的同时,也会得到核心检测位点周围的碱基序列,导致可能包含疾病或其他遗传性状的遗传信息的泄露,未来应设定相应的法律法规为可能涉及的个人隐私泄露提供保护。