APP下载

STR分型的民族推断

2017-05-14毛坤云陈嘉佳郝兴龙

中国刑警学院学报 2017年2期
关键词:基因座汉族等位基因

王 禹 毛坤云 陈嘉佳 郝兴龙 贾 润

(镇江市公安局刑警支队 江苏 镇江 212000)

STR分型的民族推断

王 禹 毛坤云 陈嘉佳 郝兴龙 贾 润

(镇江市公安局刑警支队 江苏 镇江 212000)

利用不同民族间等位基因频率的差异,使用统计学方法将这种差异量化,判断未知STR分型的民族来源。使用卡方检验,证明新疆某少数民族和汉族在D8S1179等19个基因座的等位基因频率有极显著差异。使用贝叶斯推断分析,当一个STR分型的R值大于1000、先验概率为5%时,推断该分型来源于新疆某少数民族的概率达到67%以上,相对于5%的先验概率,提高了13倍。当一个STR分型的R值大于50、先验概率为50%时,推断该分型来源于新疆某少数民族的概率达到95%以上。

STR分型 民族推断 等位基因频率 贝叶斯推断 卡方检验

1 引言

随着社会经济的迅速发展,DNA鉴定技术被广泛应用到各个领域,为刑事侦查工作提供了准确的定案证据,在一定程度上加快了破案的速度。DNA鉴定技术在刑事侦查中的应用,是刑事侦查技术和生物科技的一次完美结合,打破了传统的刑事侦查策略。特别是当DNA鉴定技术与DNA数据库相结合之后,一份犯罪现场遗留DNA通过数据库比对,就可能直接破案。但是DNA数据库不是全体人类的数据库,只是其中的抽样,必然有部分犯罪嫌疑人的DNA数据不在数据库中。他们犯罪后遗留在现场的DNA的价值就大大下降了,最理想的情况也只是提供串案的依据。此文的目的是探索一种统计学的方法,利用等位基因频率在不同民族中的差异,来判断STR分型的民族来源,并对判断的可靠性进行量化。由于我国民族组成复杂,本文选择汉族和新疆地区某少数民族进行研究。

2 材料和方法

2.1 等位基因频率的统计和分析

结合镇江本地数据库的特点和实际工作的需求,本文采用GoldeneyeTM20A基因分型系统(中国基点认知公司)对新疆地区某少数民族和中国东部汉族人群遗传学数据进行分析。分别随机选取各2000例无关个体血样进行检验,经统计得到新疆某少数民族和汉族D8S1179等19个STR基因座的等位基因频率,见表1。其中,等位基因频数小于5的,都按频数5计算频率[1],即频率为0.00125。

2.2 新疆某少数民族与汉族等位基因频率差异的证实

利用STR基因座等位基因频率(以下简称基因频率)的差异来区分新疆某少数民族和汉族,先要证明两个民族间的基因频率有显著差异。首先,有文献报道新疆某少数民族与汉族历史起源差异较大,而且互相通婚极为少见[2]。其次,本文使用卡方检验[3]的方法,以汉族的基因频率为理论值,新疆某少数民族的基因频率为实际观测值进行量化分析,结果19个基因座的等位基因频率差异均评价为极显著(见表2),证明可以应用两个民族间基因频率的差异来进行STR分型的民族来源判断。

表1 新疆某少数民族和汉族19个STR基因座等位基因频率分布(n=2000)

表2 新疆某少数民族和汉族19个STR基因座等位基因频率差异的卡方检验

2.3 贝叶斯推断

在判断一个犯罪嫌疑人是新疆某少数民族还是汉族之前,侦查员根据以前的经验、对案情的分析和当地民族人口比例等因素,会提出一个倾向性的意见,例如90%是新疆某少数民族,或者新疆某少数民族或汉族的概率都是50%。此时,通过DNA检验得到的STR分型由于2.2所述的原因,带有其民族特性,可以用来修正侦查员的意见。贝叶斯推断实际是借助于新的信息修正先验概率的推理方法,这样的方法如果运用得当,可以使我们在依据概率作出决断时,不必一次收集一个长期过程的大量资料,而可以根据事物发展的情况,不断利用新的信息来修正前面的概率,得到后验概率,作出正确决策。贝叶斯后验概率公式[4],即:

等式左边P(A|B)即后验概率或称置信度,意为当B事件发生时A事件发生的概率。P(B|A),意为当A事件发生时B事件发生的概率,P(B|A'),意为当A'事件发生时B事件发生的概率。P(A)与P(A')分别为A事件和A'事件发生的概率,两者同为先验概率,且两者互补为一个总体,即:

2.4 事件的定义

为了能直观地使用贝叶斯后验概率公式,首先需要定义A事件和B事件。本文将A事件定义为STR分型来源于新疆某少数民族,A'事件定义为STR分型来源于汉族。P(A)即为STR分型来源于新疆某少数民族的先验概率,P(A') 即为STR分型来源于汉族的先验概率,这两个概率采纳侦查员意见。

B事件的定义较为关键,实际上是要找出一种诊断指标,指出在STR分型具有某个特征时,该分型的民族倾向如何,并且可以统计该特征在新疆某少数民族和汉族中出现的概率。因此本文引入一个可计算的值R,计算方法为某个STR分型以新疆某少数民族基因频率计算的随机匹配概率除以以汉族基因频率计算的随机匹配概率。因为一个随机的STR分型,有更大的可能选取到本民族中出现频率较高的等位基因,所以上述R值越大,该分型就越可能来源于新疆某少数民族。因此将B事件定义为R值大于某个特定值X,则P(B) 为R大于某个特定值X的概率。

2.5 P(B|A)和P(B|A')的统计和计算

P(B|A)为当STR分型来源于新疆某少数民族时R大于某个特定值的概率,可称为检验准确度。P(B|A')为当STR分型来源于汉族时R大于某个特定值的概率,可称为误报率。以上两个概率都可以通过抽样统计的方法得到。本文另从数据库中随机各抽取680例无关新疆某少数民族STR分型和698例无关汉族STR分型,分别计算得到680个R(少)值和698个R(汉)值,结果R(少)介于6.17×10-3和5.29×105之间,R(汉)介于7.92×10-4和9.24×102之间。再将R(少)和R(汉),以数值大于1、大于5、大于10、大于50、大于250、大于1000、大于10000、大于100000共8个范围条件分别计数,记为C(少)和C(汉),则P(B|A)=C(少)/680,P(B|A')=C(汉)/698,结果见表3。可见无论R取何值,P(B|A)始终大于P(B|A'),随着R取值的逐渐加大, P(B|A)和P(B|A')都逐渐变小,但是P(B|A)/P(B|A')逐渐提高,这表明P(B|A)的下降速度相对较慢。

表3 P(B|A)和P(B|A')的计算

2.6 P(A|B)的计算

这样对于一个未知民族的STR分型,我们可以通过计算得到其R值,从而确定P(B|A)和P(B|A'),根据犯罪地民族人口比例结合具体案情,估计P(A)和P(A'),再使用贝叶斯后验概率公式计算得到P(A|B),也就是该STR分型来源于新疆某少数民族的概率,即本文目的所在。

结合后验概率公式和表3,计算得到在不同的R值和P(A)时,P(A|B)的数值。由于698个汉族样本未观察到R大于1000的情况,此时P(B|A')为0,但是我们不能因为一个事件没有被观察到,就武断地认为该事件发生的概率为0。而且如果按此计算,此时P(A|B)为1,意味着R值大于1000时,该分型100%来源于新疆某少数民族,这显然是不合适的。因此,本文采用拉普拉斯平滑来处理这种情况,将每个分量的计数加1,这样虽然高估了P(B|A'),降低了P(A|B),但是可以方便有效的避免零概率问题,使得推断结果更可信。所以,当R大于1000,近似估计P(B|A) =39/681,P(B|A')=1/699。当R大于10000和100000时,不采用拉普拉斯平滑处理,因为此时将P(B|A')估计为1/699,会明显高估,从而导致P(A|B)降低。最终计算结果见表4。

表4 P(A|B)计算表

3 结果与讨论

从表4可以看到本文最终研究结果,例如,根据侦查员意见,认为犯罪嫌疑人是新疆某少数民族或汉族的概率都是50%,则P(A)=0.5。此时,嫌疑人DNA的STR分型经使用前文所述的方法计算R值大于1时,则该犯罪嫌疑人是新疆某少数民族的概率提升到76.84717%。R值大于50时,犯罪嫌疑人是新疆某少数民族的概率提升到95.56657%,从对犯罪嫌疑人民族完全无知,到几乎认定犯罪嫌疑人是新疆某少数民族。同理,当P(A)=0.05时,从侦查员的观点看,犯罪嫌疑人是新疆某少数民族在统计学上认为是小概率事件,但是如果R值大于50,新疆某少数民族的概率就提升到53.15106%,R值大于1000,新疆某少数民族的概率就提升到67.81343%,提升了13倍。这表明当一个原本认为几乎不可能是新疆某少数民族作案的案件,如果现场提取的犯罪嫌疑人DNA的STR分型的R值大于1000,则更倾向认为是新疆某少数民族作案,这对案件的侦查工作将有极大的帮助。

从表2给出的卡方值可以看出,虽然本文使用的19个基因座的等位基因频率的差异在新疆某少数民族和汉族之间都极显著,但是差异程度各不相同。从差异最小的基因座D3S1358,卡方值为88.302,到差异最大的基因座Penta E,卡方值为13688.52。基因座Penta E的等位基因7,n=2000时,在新疆某少数民族中出现频数为264,在汉族中出现频数为5,仅仅一个等位基因就使得R值提高了近53倍。在今后的工作中,如果需要分辨STR分型的民族来源,应该选用民族差异大的遗传标记,可以有效提高系统分辨率。

另外,由于受到样本数量和计算能力的限制,用于计算R值的抽样不到700份,导致在汉族中未观察到R大于1000的样本。如果能加大抽样数量,还有望继续提高民族推断的准确度。

[1]John M. Butler.法医DNA分型[M].侯一平,刘雅诚,译.北京:科学出版社,2007:346.

[2]李晓霞.新疆南部农村维汉通婚调查[J].新疆社会科学,2012(4):59-66.

[3]郑秀芬.法医DNA分析[M].北京:中国人民公安大学出版社,2002:380.

[4]伯纳德·罗斯纳.生物统计学基础[M].孙尚拱,译.北京:科学出版社,2004:55.

(责任编辑:孟凡骞)

DF795.2

A

2095-7939(2017)02-0096-04

10.14060/j.issn.2095-7939.2017.02.019

2016-12-15

王禹(1983-),男,江苏镇江人,江苏省镇江市公安局刑警支队主检法医师,主要从事法医遗传学研究。

猜你喜欢

基因座汉族等位基因
常染色体STR基因座母源突变的观察分析与亲权指数计算
亲子鉴定中Penta E稀有等位基因28的确认1例
RANTES及其受体CCR5基因多态性及环境因素在昆明汉族T2DM发生中的交互作用
亲子鉴定中男性个体Amelogenin基因座异常1例
亲子鉴定中STR基因座来源不明突变的分析
广东汉族人群Penta D基因座off-ladder稀有等位基因分析
贵州汉族人群23个STR基因座的OL等位基因研究
Study on Local Financial Supervision Right and Regulation Countermeasures
亲子鉴定常用STR基因座突变的特点研究
不要乱叫“老家”了!中国姓氏分布图曝光,看看自己的根在哪