混合STR分型分析方法研究进展
2022-02-13李永久严安心赵禾苗赵兴春
彭 柱,徐 珍,凃 政,杨 帆,李永久,严安心,聂 昊,赵禾苗,赵兴春
(公安部物证鉴定中心,北京 100038)
随着DNA提取及检验技术灵敏度的提高,案件中检出混合STR分型的情况也越来越多,其中不同组分的等位基因相互叠加,彼此影响,导致这一法医物证学研究与办案的难题愈加复杂难解。目前,通过差异裂解、孔径过滤、显微操作、激光显微切割、光镊捕获、流式细胞分选以及基于微流控芯片的核酸适配体筛选、电泳分离等技术,均能实现不同类型的细胞分离[1-4],获得较为单一的STR分型。但是对于同类细胞混合的生物检材,目前只能对提取到的混合DNA样品进行检测分析。同二代测序(next generation sequencing,NGS)技术[5]、缺失或插入多态性片段与STR连锁的新型遗传标记(deletion-insertionpolymorphism-STR,DIP-STR)技术[6]、微单倍型技术[7]相比,基于传统PCR和毛细管电泳(PCR-capillary electrophoresis,PCR-CE)平台的STR检测技术在模板用量、检测系统成熟度、结果解析及应用推广等方面更符合当前实际需求。本文总结了混合STR分型分析方法的相关研究进展,展望了人工智能时代混合STR分型分析方法研究的发展方向。文中的混合STR分型均为基于传统PCR-CE平台对混合DNA样本进行STR遗传标记检测分析得到的STR分型。
1 混合STR分型分析概述
目前关于混合STR分型的解释与分析,其策略主要参照由Clayton等提出并获得国际法医遗传学会(International Society of Forensic Genetics,ISFG)DNA委员会认可的“克莱顿法则”[8-9]。
1)确定检出的STR分型是否为混合STR分型,需结合阈值对等位基因峰和影子(stutter)峰、拔起峰等伪峰进行区分,尤其需要注意微量DNA(low template DNA,LT-DNA)及罕见的染色体异常的情况。
2)确定混合STR分型中的组分数,一般根据单个基因座上的最大等位基因峰的数量及峰高比来判断。
3)评估各组分之间的大致混合比例(mixture proportion,Mx),可根据峰高/峰面积等定量信息推测各组分之间的大致比例。
4)确定各组分可能的STR分型组合,根据确定的组分数和混合比例,结合定量信息及杂合子均衡度(heterozygote balance,Hb)剔除掉不可能的基因型组合。
5)将混合STR分型中拆分出的STR分型同待定个体(person of interest,POI)分型进行比较。
6)结合统计学评估计算分型证据和POI之间的关联度,统计方法有多种,如联合包含概率(combined probability of inclusion,CPI)法、修正的随机匹配概率(modifi ed random match probability,mRMP) 法以及似然比(likelihood ratio,LR)法。
完整的混合STR分型分析结论应当包含对混合STR分型证据与POI之间量化的统计学评估,方便后续环节检察和审判人员对混合STR分型证据力度的理解,也易于和其他的量化证据进行统一分析。
2 国内混合STR分型分析方法的研究进展
关于混合STR分型的解释,国内仍然以人工定性分析为主,即依靠鉴定人对混合STR分型的认识与经验进行人工拆分,并结合参考STR分型出具是否包含POI的定性结论;若嫌疑人STR分型未知,可将拆分出的未知单一STR分型进行入库检索,为侦查提供线索,以上主要适用于两组分混合的情况。人工分析过程基于一些假定前提,如Hb不小于60%[10],stutter峰高比例不超过15%,各组分的混合比例经过复合扩增后保持不变,并且与基因座内各自等位基因峰高的比值大致相同,等位基因存在共享时其峰值是相互叠加的[11]等。我国现有行业标准中关于混合STR分型解释的内容较少,仅限于两组分混合下,存在已知对照样本拆分另一未知个体分型或者当两者混合比例差异较大(1∶10)且均为杂合子时的无对照拆分[12]。人工分析方法在实际案件中已有多起成功报道,如苑美青等利用人工拆分方法对包含已知受害人分型的两组分混合STR分型进行解释并在DNA快比平台中成功比中了嫌疑人[13];陈静等对21起未破获案件中的混合STR分型进行人工拆分,19起案件拆分出不完整的STR分型,5起案件比中前科人员或与异地案件串并[14];刘小莹等在检出二组分混合STR分型的15起案件中,借助已知受害人分型拆分出另一未知分型,其中11起案件直接认定嫌疑人[15];苏艳佳等在已知受害人分型的前提下,通过计算杂合子重叠等位基因峰高比值的变化率,设置响应阈值,对二组分混合中含重叠等位基因的基因座进行拆分,为人工拆分处理含重叠基因的混合STR分型提供了可资借鉴的解决方案[16]。
除人工分析外,国内也在积极探索智能比对、分析算法等在混合STR分型解析中的应用,如王禹等从比对角度出发,先根据CPI的变化来判断可疑等位基因的取舍,CPI即混合STR分型包含随机无关个体分型的概率,混合STR分型的等位基因数越少,CPI值越小,混合STR分型的识别力越强;然后对混合STR分型在数据库中比中的所有个体分型分别计算对应的联合被包含概率(combined probability of being included,CPBI)来对个体进行排序,优先分析等位基因频率低、杂合基因座多的个体分型(相应的CPBI值低),从而提高工作效率,将以往人工先拆分后比对的工作模式转化为先比对后拆分验证的路径[17];康艳荣等利用以图论为基础的混合物组分拆分(mixtures component deconvolution using graph theory,MDG)算法,将混合STR分型中基因座上每个等位基因作为顶点V,以任意两个等位基因的峰面积比值为边E,当E∈(0.67,1.67)时,此时两个等位基因对应的顶点有边相连,将混合STR分型拆分转化为图集挖掘问题,借助计算机运算可快速获得大量的基因型组合,为解决混合STR分型分析问题提供了一种新的解决思路[18];周密通过计算混合STR分型的多基因座某表观组分数累积概率(cumulative probability of apparent component number,CPA)而对混合DNA样本的组分数进行辅助判断,并利用随机模拟法产生的混合数据对该值计算公式的准确性进行验证[19]。
以上方法仅在分析两组分混合的情况下显现优势,随着混合组分数的增加,每个基因座的基因型组合情况变得异常复杂,即使存在已知参考分型,人工拆分出未知个体分型也十分困难,若采取先比对后拆分的模式,则耗时更长,系统硬件要求也更高,此外上述方法均无法给出量化的统计学评估结果,影响了混合STR分型证据的进一步解读与应用。
3 国外混合STR分型分析方法研究进展
国外率先开展了法医DNA检验技术的应用[20-21],故其关于混合STR分型解析的研究较为成熟[8,22]。CE结合激光诱导荧光检测系统具有高灵敏度和高分辨率,既有研究表明,在一定范围内CE系统检出的峰高度与电泳样品中DNA含量呈线性相关[23-24],而且同板凝胶系统相比,CE系统产生的STR等位基因峰的峰形更对称,峰高被大多数实验室用于混合STR分型的定量解析[25],国外关于混合STR分型的统计分析模型也主要以峰高作为定量分析的参考依据[26-27]。
3.1 二进制模型(binary model)
国外最早用于解释混合STR分型的方法模型为二进制模型,即根据基因座上等位基因的有无对相关基因型组合的概率权重指定为1(包含)或者0(排除)。早期的二进制模型未考虑峰高和Mx信息,使用无限制性组合方法[28]计算LR,称为定性二进制模型;随后出现的半定量二进制模型能够依据经验准则和人工判断, 结合Mx、Hb的限定,对基因型组合进行筛选,排除可能性低的组合[8,29];在等位基因可能发生缺失(drop-out)的基因座,该模型采用更为保守的2p法则或者直接忽略该基因座的方式处理,2p法则是对于只检测到一个等位基因a并且其峰高低于随机阈值的基因座,用2pa表示该基因座分型概率的保守方法,但当嫌疑人分型为ab杂合型,考虑共祖效应且drop-out概率小于0.5时,2p法则被证明并不保守[30]。除了2p法则外,还有使用替代符表示缺失等位基因的方法,即用“F”标记该基因座上的任意一个等位基因和用“Q”标记该基因座上除已有等位基因外任意一个等位基因。这两种方法在分析含有LT-DNA的混合STR分型时用于计算LR比较方便。但改进的二进制模型仍无法很好地解决POI分型的等位基因在混合STR分型中缺失所导致的不匹配问题,也难以处理复杂的多组分混合及同时分析多个平行重复扩增数据的情况[24]。
3.2 基因型概率模型
基因型概率模型(probabilistic genotyping model,PG model)简称PG模型,该模型不仅可以同时分析多个重复数据,而且考虑了等位基因缺失的概率(probability of drop-out,Pr(D))和插入的概率(probability of contamination,Pr(C)),能够较好处理POI分型与混合STR分型不匹配的问题,也可以基于给定的基因型组合计算出相应的概率权重,数值为0~1之间的常数。基因型概率模型分为半连续模型(semi-continuous model)和完全连续模型(full-continuous model)。
3.2.1 半连续模型
半连续模型 又称离散模型或缺失模型,该模型在二进制模型的基础上,将Pr(D)/Pr(C)纳入到分析过程中。对Pr(D)的评估,Gill等通过仿真数据计算经验似然函数,通过最大似然法求Pr(D)[31];Tvedebrink等通过已知验证数据,使用逻辑回归对Pr(D)建模,结合混合STR分型中的峰高信息估计Pr(D)[32-34]。对Pr(C)的评估,则往往通过空白/阴性对照的经验数据估计[35]。然而,半连续模型对混合STR分型信息的利用仍不充分,既没有对stutter峰等伪峰进行模拟,计算前需要分析人员对混合STR分型中的等位基因峰和伪峰加以区分;也没有充分利用可用信息,峰高信息仅用于评估Pr(D),对于混合STR分型的基因型组合拆分仍类似于定性二进制模型,对所有基因型组合分配相同的概率权重。
3.2.2 完全连续模型
完全连续模型在半连续模型的基础上,能对混合STR分型中每个基因座上各种基因型组合分别赋予相应的概率权重,较为客观地描述当前基因型组合能够产生实际混合STR分型的可能性。该值的计算依赖于生物模型、概率分布和马尔科夫链-蒙特卡洛(Markov Chain-Monte Carlo,MCMC)算法。生物模型的功能是预测峰高,影响峰高的因素很多,包括DNA模板量、降解系数、基因座特异扩增系数、基因型剂量系数、影子峰率等。在假定相应参数后生物模型可根据不同基因型组合模拟产生大量的混合STR分型[36],模拟过程兼顾等位基因缺失/插入等随机效应;在将模拟图谱和实际图谱进行拟合比较的过程中,借助MCMC算法,对每种基因型组合的期望权重进行统计估算,选择最佳基因型组合[37]。MCMC算法是一种随机采样的方法,在参数期望值无法直接计算时,通过后验概率密度函数对变量进行多次随机采样并计算,从而对真实参数期望值进行模拟评估的方法。MCMC在深度学习、语言处理等理论研究以及航空航天、天气预报等生产生活领域都有着广泛的应用。完全连续模型能够更好地利用混合STR分型中的可用信息,同其他模型相比,有效增强了结果的客观性和准确性[38-39],也方便在不同假设条件下计算LR值。意大利的Yara Gambirasio命案[40]、西班牙的一起失踪人口案和一起谋杀案[41]以及美国纽约波茨坦男孩被杀案[42]均是通过借助完全连续模型为基础的分析软件对现场物证混合STR分型进行分析,最终为案件侦查或诉讼提供了重要支撑。
3.3 不同模型比较总结
完全连续模型同其他模型相比,在混合STR分型的前处理、适用范围、结果的客观性与准确性上具有较大的优势,然而该模型的计算原理复杂,涉及大量的概率论与统计学知识,对于初学者犹如“黑匣子”,法庭解释较为困难。此外,完全连续模型分析所需计算量大,为确保结果的准确性,往往采取多条MCMC链进行上百万次的迭代计算,算法复杂且耗时长。相对而言,半连续模型忽略了峰高定量信息,程序简单,分析迅速;而二进制模型原理最为简单,容易理解,对于经验丰富的鉴定人而言,可能更倾向于人工参与程度高的二进制模型,因其有助于增强鉴定人的信心。表1集中展示了不同统计模型的基本特征。
表1 不同统计模型的特征对比Table 1 Comparison among characteristics from different statistical models
为进一步对比并阐述不同统计模型的基本原理,分别采用上述统计模型对模拟2组分混合的SE33基因座混合STR分型进行分析,分型详细信息如表2所示。
表2 SE33基因座混合STR分型示例Table 2 The exampled SE33 locus where to harbor value-various mixed-STR constituents
设定随机阈值为300 RFU,混合组分数为2,假定根据其他基因座信息,确认POI为组分1,分别计算POI分型为16/19和16/26.2时,混合STR分型包含POI和随机个体的概率。对于二进制模型和半连续模型,分析前需人工将stutter峰与等位基因峰进行区分,结果如表3所示。由于完全连续模型的概率权重计算过程过于复杂,此处不详细展示。
表3 不同统计模型计算结果Table 3 Results from calculation with different statistical models
随着理论模型的不断成熟,近几年又有多个混合STR分型分析软件相继问世,其中基于PG模型的混合分析软件成为国际主流。部分软件如EuroForMix、TrueAllele®及STRmixTM等已经通过大量实验数据验证,结果符合预期[43-50],在三人以上混合及组分包含LT-DNA的情况下,完全连续分型软件计算比传统的人工分析更具优势[48]。当前部分软件计算的结果已经作为证据的一部分被引入刑事诉讼程序中,如英国和丹麦的法院已经将DNAmixtures软件用于混合STR分型证据的计算评估[40],美国也至少有一半以上的DNA实验室正在使用或准备使用该类软件解决日常案件中的混合STR分型问题[51]。表4列举了目前国际上比较常用的PG模型软件系统。
表4 基于PG模型解释混合STR分型的常用软件[51]Table 4 Mainstream PG-model-based software for deciphering mixed STR profi les [51]
4 总结与展望
4.1 混合STR分型分析的发展趋势
我国人口基数大,案件数量多,在混合STR分型结果解析方面一直更注重以实际应用为导向。国内前期研究主要集中在前期投入少而经验要求相对高的人工分析领域;我国拥有世界上数据量最大的DNA数据库,间接导致国内混合STR分型分析智能化、自动化研究侧重于混合STR分型直接入库比对,而非混合STR分型本身的智能算法解析。国外混合STR分型分析起步早,从理论模型研究到系统平台搭建都更为成熟,在自动化和智能算法领域,确有其可借鉴之处。虽然完全连续型模型是目前公认的比较成熟的概率解释模型,其注释结果便于进行统计学量化评估,符合实际需求,但是该模型在前期实验室相关参数校正以及模板降解严重的混合STR分型解析方面仍有一定的局限性。近年来NGS技术在法医遗传学领域崭露头角,NGS的扩增模式独特,测序结果包含完整的序列信息,在STR基因座识别能力、降解检材的分析以及LT-DNA的检测灵敏度等方面可填补传统PCR-CE技术的短板[52],目前该技术在实际案例中已有成功应用[53],但NGS的结果数据如何同传统的STR分型数据兼容并纳入模型分析计算仍是一个难题。如何结合我国DNA数据库的优势,开发出适应数据范围更广、计算速度更快、原理更易理解的新型智能算法模型并为其注释结果设计量化评估方式将是今后的一个重要理论研究方向。
应用研究层面,由于遗传分析仪的电耦合元件(charge coupled device,CCD)检测器对荧光的线性响应以及光谱校正均存在一定的有效区间,为保证分析结果的准确性,混合DNA的模板量是不可忽略的一个因素。未来,结合检材前端预处理甄别技术,不仅能够针对不同类型细胞混合的生物检材进行细胞水平的筛选并对DNA定量,还能对同一类型细胞混合的生物检材DNA样本进行整体定量。针对不同的检测仪器和扩增试剂盒,结合扩增循环数及模板量对混合STR分型进行质量评估,为下一步模型分析提供最佳的数据源。当然,应用研究也可与算法模型理论的基础研究相结合,开发出一种全方位的分析方法,完整解决混合STR分型的分析难题。
4.2 人工智能技术在混合STR分型解析中的应用
近年来,人工智能(artifi cial intelligence,AI)作为继计算机、互联网之后对人类社会产生重大深远影响的新一代技术,在各行业领域中都呈现出广泛的应用前景,法医DNA鉴定领域当然也不例外。人工智能独特的优势将有助于目前既有统计模型的优化,尤其在面对新的实验环境以及前期模型试验中未涉及的特殊情况时,人工智能机器自主学习和智慧算法可在计算过程中自动对模型参数进行校正,可极大地节省人工劳动成本。人工智能的模式识别技术不仅能在检材前端的预处理上发挥作用,更好地“分类”并“定量”,获得峰高更适于分析的STR分型,而且更有望替代人工完成对混合STR分型电泳数据的前处理,尽可能减少因经验差异导致的主观误差,将混合生物检材从前端处理到后续结果分析的完整流程进行系统整合,形成一个功能更加强大的人工智能分析系统。届时,其高度自动化的工作流程,将能有效扩大应用范围并降低使用门槛,有助于从根本上解决混合STR分型分析应用的难题。