APP下载

基于NGS-SNP分型和IBS策略进行全同胞关系鉴定

2019-05-27王致远王迪佳李燃李海霞汪娜娜孙宏钰

法医学杂志 2019年2期
关键词:判别函数亲缘同胞

王致远,王迪佳,李燃,李海霞,汪娜娜,孙宏钰

(1.中山大学中山医学院法医学系,广东 广州 510089;2.佛山市公安局,广东 佛山 528000;3.深圳市公安局龙华分局,广东 深圳 518109)

单核苷酸多态性(single nucleotide polymorphism,SNP)具有突变率低(仅为STR的十万分之一)、扩增片段短、数量丰富等特点,被称为第三代遗传标记[1-3]。但是,由于单个SNP位点通常只有两个等位基因,多态性较STR相对低,因此要检测更多的SNP位点才能达到法医学个体识别和亲子鉴定的检测需求。SANCHEZ等[4-5]基于传统的毛细管电泳(capillary electrophoresis,CE)技术开发了包含52个SNP位点的SNPforID检测体系,研究结果显示,其可以应用于个体识别,但是仍然难以满足亲缘关系分析的要求。

近年来,大规模平行测序(massively parallel sequencing,MPS)技 术 ,又 称 为 高 通 量 测 序(highthroughput sequencing,HTS)技术或下一代测序(next generation sequencing,NGS)技术,发展迅速,能够同步检测的遗传数目增多,检测成本降低[6-7]。本课题组前期基于Ion TorrentTM平台的HID-Ion AmpliSeqTMIdentity Panel分型体系,探索了90个常染色体SNP位点在广东汉族群体的多态性[8],本研究拟基于状态一致性(identity by state,IBS)分析策略,探索这90个SNP位点在全同胞关系分析中的效能。

1 材料与方法

1.1 样本收集和DNA提取

在知情同意原则下,采集中国汉族一个四代家系共35个成员的血样,个体之间关系如图1所示。使用AutoMateExpressTMForensic DNA Extraction System(美国Thermo Fisher Scientific公司)提取DNA,并使用 QubitTMdsDNA HS Assay Kit(美国 Thermo Fisher Scientific公司)在QubitTM3.0荧光定量仪(美国Thermo Fisher Scientific公司)上进行DNA定量。另外,根据本课题组前期研究中的无关个体SNP分型数据[8]随机组合获得1000对无关个体(unrelated individual,UI)。

图1 本研究对象的四代家系系谱图

1.2 常染色体STR分型

采用Goldeneye®DNA身份鉴定系统25A[基点认知技术(北京)公司]对23个常染色体STR基因座进行扩增,在3500xL基因分析仪(美国Thermo Fisher Scientific公司)上进行检测,并使用GeneMapper®ID-Xv1.5软件(美国Thermo Fisher Scientific公司)进行STR分型。

1.3 常染色体SNP分型

采用Precision ID Identity Panel(美国Thermo Fisher Scientific公司)和Ion AmpliSeqTMLibrary Kit(美国Thermo Fisher Scientific公司)进行文库构建[8]。该检测体系可同时检测90个常染色体身份信息SNP(identity informative SNP,iiSNP)以及34个Y-SNP位点。扩增产物使用Ion ChefTMSystem(美国Thermo Fisher Scientific公司)进行自动化模板制备,应用Ion 520TM或 Ion 530TMKit(美 国 Thermo Fisher Scientific公司)在Ion S5TMXL System(美国Thermo Fisher Scientific公司)上进行测序。测序结果采用Torrent SuiteTMv5.2.2软件(美国Thermo Fisher Scientific公司)进行分析,同时结合HID SNP Genotyper Plugin v4.3.1软件(美国Thermo Fisher Scientific公司)进行SNP分型。

1.4 数据分析

对于家系中的所有父-母-子关系,根据23个常染色体STR的分型结果,计算亲权指数(paternity index,PI),依照行业技术规范[9],如果累积亲权指数(combined paternity index,CPI)大于10000,则支持他们之间的亲子关系。基于该家系共获得全同胞(full sibling,FS)、祖孙(grandparent-grandchild,GG)、叔侄(姨甥)(uncle/aunt-nephew/niece,UN)和第一代堂表亲(first cousin,FC)共4种亲缘关系类型。参考《生物学全同胞鉴定实施规范》[10],分别计算各种关系类型的IBS评分,采用R语言绘制各关系类型的IBS分布图[11]。采用Wilcoxon秩和检验比较全同胞与其他亲缘关系类型IBS评分分布的差异,检验水准α=0.05。采用SPSS 20.0软件建立各种关系的Fisher判别函数[12]。以待鉴定个体对的IBS评分作为判别因子(S),分别代入相应的判别函数获得判别评分L值,并将该对个体的关系类型归为L值较大的组别。同时,基于前期研究获得的频率数据[8],分别模拟10 000对4种亲缘关系和无关个体样本对。参考《生物学全同胞关系鉴定实施规范》[10],对于待鉴定个体对,如果其IBS评分小于或等于某一阈值(下限值t1),则判定为无关个体;如果大于或等于另一阈值(上限值t2),则判定为对应亲缘关系;如果在t1和t2之间,则无法判定。基于此设定探索错判率分别为≤0.01%、≤0.05%、≤0.1%、≤0.5%和≤1%时的判定阈值以及相应的系统效能。

2 结 果

2.1 SNP测序概况

对于该家系的35个样本共进行了3批测序,装载(chip loading)比例分别为62%、70%、73%,富集率(enrichment)分别为93%、95%、95%,单克隆(monoclonal)比例分别为64%、67%、67%,总计获得超过1 400万条序列(reads)。35个样本在90个SNP位点均获得完整分型,分型率为100%。

2.2 家系成员关系确认

根据23个常染色体STR分型结果对本研究四代家系中所有的父-母-子关系进行了确认,基于该家系样本可获得的亲缘关系类型及数量如表1所示。

表1 本研究四代家系样本的关系类型及数量

2.3 各类亲缘关系的IBS评分分布

基于该90个SNP分型结果,在256对亲缘关系中,全同胞的平均IBS评分最高(IBS=148),第一代堂表亲的平均IBS评分最低(IBS=124)。祖孙、叔侄(姨甥)的平均IBS分值分别为130、132。相比之下,无关个体的IBS评分最低,平均仅为120。各种关系类型的IBS分布情况如图2所示。

经Wilcoxon秩和检验,除了祖孙与叔侄(姨甥)的IBS评分差异无统计学意义(P=0.719)外,其余关系类型之间差异均有统计学意义(P<0.05)。

图2 5种关系类型基于90个SNP分型的IBS分布

2.4 Fisher判别函数法进行亲缘关系判定

通过Fisher判别函数进行4种亲缘关系的判定,结果见表2。其中,全同胞关系全部被正确评判为相应的亲缘关系,对于更远的亲缘关系,错判率显著升高。综合考虑无关个体的判定结果,判别函数法对全同胞关系判定的准确率最高(98.7%),对第一代堂表亲判定的准确率最低(61.3%)。

表2 基于90个SNP分型建立的4种关系判别函数及分析结果

2.5 IBS阈值法进行亲缘关系判定

基于前期研究,本研究模拟了10000对4种亲缘关系和无关个体样本,全同胞的IBS分布情况见图3。

参考《生物学全同胞关系鉴定实施规范》[10],本研究计算了在不同错判率下各类亲缘关系IBS评分的判定阈值及相应的系统效能,结果见表3。

从表3可以看出,在相同错判率下,全同胞关系鉴定的系统效能最高,第一代堂表亲关系鉴定效能最低。

图3 基于90个SNP分型的全同胞IBS分布

表3 基于90个SNP分型建立的各种亲缘关系IBS判定阈值及系统效能

另外,可根据此表灵活选择判定阈值。以全同胞关系为例,当设定错判率≤0.05%时,如果某对样本IBS评分≤128,则判定为无关个体,如果≥141,则判定为全同胞,相应的系统效能为0.8814,即88.14%的案例可以获得明确的鉴定意见。

3 讨 论

目前,国内司法系统使用的《生物学全同胞关系鉴定实施规范》基于STR分型结果,采用IBS评分法提出判断全同胞、无法判断、无关个体的标准和检测效能[10]。相对于似然比(likelihood ratio)法,IBS评分法无需考虑等位基因频率,只需要根据等位基因共享情况即可进行亲缘关系判定,具有分析直观、简单、快速的优势[11,13-15]。另一方面,对于特殊案例,如高度腐败或者降解检材,常常无法获得完整STR分型,而SNP由于扩增片段短可以获得完整分型。并且随着NGSSNP分型体系的日益成熟,将越来越广泛地应用于法医学个体识别和亲缘鉴定[16],因此本研究采用Precision ID Identity Panel分型体系对90个SNP位点进行分型,结合IBS策略探索了该检测体系在全同胞关系鉴定中的应用价值。

本研究结果显示,全同胞、祖孙、叔侄(姨甥)和第一代堂表亲4种亲缘关系中,除了祖孙与叔侄(姨甥)关系外,其余关系类型的IBS评分差异均有统计学意义,且均高于无关个体。祖孙与叔侄(姨甥)的IBS评分无显著差异,可解释为这两类亲缘关系同属于二级亲缘关系,理论上他们之间均共有四分之一的亲代遗传物质。另外,随着亲缘关系的疏远,IBS分值逐渐降低。亲缘关系中的第一代堂表亲与无关个体的IBS差异最小。

本研究根据90个SNP分型数据建立了4种亲缘关系的Fisher判别函数,综合无关个体的判定结果后对全同胞关系的错判率为1.3%,低于赵书民等[12]研究中的2.98%。分析原因为本研究包含的90个SNP位点相当于22个STR基因座的多态性[17],多于赵书民等研究中采用的Identifiler系统STR数目(15个STR)。但是,对于其他较远亲缘关系的错判率较高,尚不能满足实践需求。

此外,由于判别函数法具有“是”或者“否”的二分类特征,不存在无法判定的“灰色区域”,系统效能高,但是错判率相对也较高。本研究采用判别函数法进行全同胞关系的错判率为1.3%,显著高于根据《生物学全同胞关系鉴定实施规范》及赵书民等[12-13]研究采用19个STR和IBS阈值法(t1=13,t2=22)的错判率(≤0.05%)。本研究基于前期获得的频率数据,模拟了10000对各种亲缘关系和无关个体,获得了相应的IBS判定阈值。结果表明,当错判率低至0.05%时,进行全同胞鉴定的系统效能为0.881 4,高于采用19个STR时的效能(0.75)[10],提示这90个SNP可以应用于全同胞关系鉴定。因此,当采用这90个SNP进行鉴定时,推荐使用对应的阈值t1=128、t2=141作为全同胞的判定标准。如果允许的错判率提高,相应的系统效能更大。实际工作中可以根据需要,选择不同的标准和阈值进行判定,这也显示了IBS阈值法的灵活性。

值得一提的是,检测体系包含的SNP位点数目越多,对于各类亲缘关系鉴定的鉴别能力以及准确率越高。KLING等[18-19]应用高密度SNP芯片技术检测了超过90万个SNP位点,以共有等位基因数目作为判定参数,发现可以区分至第二代堂兄弟(姐妹)的关系。这也显示了SNP遗传标记和IBS策略在亲缘关系鉴定中的应用潜力,本研究下一步拟基于更大数量的实验样本和实际案例进行验证。

猜你喜欢

判别函数亲缘同胞
谷子近缘野生种的亲缘关系及其利用研究
以中华文化促进两岸同胞心灵契合的路径思考
Fisher判别法在个人信用风险评估中的应用
游乐设施事故与危险量化判别函数的构建
厂窖惨案遇难同胞纪念馆
菊科药用植物遗传多样性及亲缘关系的ISSR分析
探究上市公司财务预警的数学模型
小白菜种质遗传多样性与亲缘关系的SRAP 和SSR分析
制造业上市公司财务预警研究
海外同胞与中国健儿心心相连