中国Y-STR数据库建设相关问题探讨
2013-03-11葛建业严江伟谢群孙宏钰周怀谷李斌
葛建业,严江伟,谢群,孙宏钰,周怀谷,李斌
(1.北德州大学健康科学中心,美国德克萨斯州 76107;2.中国科学院北京基因组研究所,北京 100029;3.公安部物证鉴定中心,北京 100038;4.中山大学中山医学院法医学系,广东广州 510080;5.上海市公安局物证鉴定中心上海市现场物证重点实验室,上海 200083;6.福建省公安厅刑事技术总队,福建福州 350003)
·综述·
中国Y-STR数据库建设相关问题探讨
葛建业1,严江伟2,谢群3,孙宏钰4,周怀谷5,李斌6
(1.北德州大学健康科学中心,美国德克萨斯州 76107;2.中国科学院北京基因组研究所,北京 100029;3.公安部物证鉴定中心,北京 100038;4.中山大学中山医学院法医学系,广东广州 510080;5.上海市公安局物证鉴定中心上海市现场物证重点实验室,上海 200083;6.福建省公安厅刑事技术总队,福建福州 350003)
目的Y染色体是男性所特有的父系遗传染色体,Y染色体上的STR基因座已经大量应用于实际案件。本文总结了Y-STR的特性以及选择适合中国人群的Y-STR基因座所需要考虑的问题,展望了Y-STR在家系排查、亲缘搜索、来源人群推断、混合样本检验、亲缘关系鉴定等方面的应用前景,并探讨了Y-STR试剂盒研发、验证,Y-STR突变率,搜索软件等方面的问题,提出了相应的建议。
法医遗传学;Y染色体;综述[文献类型];短串联重复序列;DNA数据库
Y染色体是男性所特有,它只从父亲传递给儿子,同一父系内的男性通常有一致的或者非常接近的Y染色体。当前法庭科学上常用的Y染色体上的短串联重复序列(Y-chromosome short tandem repeat,Y-STR)多态性基因座主要选择于非重组区,因其完全连锁,可作为一个整体用于追踪和识别男性之间的家系关系。目前,Y染色体的父系遗传特点越来越多地应用于法庭科学的实际检案中,如家系排查、亲缘搜索、来源人群推定、个体识别和亲缘关系辅助鉴定等。
我国的法庭科学DNA数据库自开始建立以来已经在公安实际检案中发挥了巨大作用,但它仅包含常染色体STR基因座,利用DNA数据库破获的案件以个体间的匹配为主,这也是“全国公安机关DNA数据库”的局限所在。尽管当前数据库的数据总量已超过1 500万,但相对于违法犯罪人员所占比例及全国潜在犯罪人口而言,覆盖率仍很低,依靠个体间匹配造成比中的效能相对低下。由于罪犯绝大多数为男性,在DNA数据库中增加Y染色体的男性家系遗传特性及其比对功能,可在未来进一步扩展DNA数据库的作用,使其功能从个体覆盖扩展到家系覆盖。本文旨在探讨中国Y-STR数据库建设中需要考虑的问题并提出相应的建议。
1 Y染色体遗传标记的选择
Y染色体上的遗传标记主要包括STR和SNP,其中SNP突变率极低,在几代家系内可以认为不发生突变,但是绝大部分SNP位点只有两个等位基因,个体识别能力较低。此外,SNP分析技术与当前STR技术有所不同,从目前SNP的研究应用现状来看,使用SNP可能会额外增加实验室的检验成本和工作量。因此在当前和可预见的未来,Y-STR还将是法庭科学应用中主流的Y染色体遗传标记。
目前,已有商业化Y-STR试剂盒可供选择,这些试剂盒包含17~24个Y-STR基因座(表1)。根据当前研究[1-3],几千个无关个体可能具有相同的Y-filer单倍型。因此,在Y-filer系统17个Y-STR基因座的基础上,有些公司增加了各自认为合适的基因座,以提高系统效能。Y-filer和PowerPlex Y23试剂盒中基因座的选择主要是基于欧洲、非洲和南亚人群中各个Y-STR基因座个体识别能力的考虑[4],但是,Y-STR基因座等位基因的频率分布和个体识别能力会因群体不同而有所差异。Hedman等[5]针对芬兰人群选择了7个Y-STR基因座(DYS449、DYS460、DYS505、DYS522、DYS576、DYS612、DYS627),发现这7个基因座所组成的单倍型在芬兰人群的个体识别能力比Y-filer系统的17个Y-STR更高。同理,在欧洲人群中个体识别能力比较高的基因座或单倍型不一定在中国人群中也有较高的个体识别能力[3],因此需要确定适合中国人群的Y-STR基因座。现阶段,我国已有大量关于Y-filer的群体遗传学数据[6-10],但是其他基因座的单倍型数据还很有限,至今还无法确定哪些基因座、试剂盒更适合中国人群。如果能够收集足够量的中国不同群体的样本和单倍型数据,对于筛选和验证适合中国人群的Y-STR基因座将具有重要价值。
表1 中国法庭科学DNA实验室常用的Y-STR检测试剂盒
2 Y-STR数据库的应用
法庭科学中的数据库工具可发挥排查、认定两种作用。相对于常染色体STR基因座,Y-STR单倍型的个体识别能力较低,且不能单独用于个体认定,但其辅助鉴定价值已在大量案件中得以证实。Y-STR的作用主要体现在以下方面。
2.1 家系排查
如果案件发生在一个相对封闭、流动人口较少的地域内(例如临近的几个村庄),使用常染色体STR进行排查通常需要大量时间和资源,但如果分析该地域各个家系内的亲缘关系,并有选择地对每个家系中的几名代表进行Y-STR分型,将能迅速有效地确定犯罪嫌疑人可能的家系来源(朱传红等[11-12]已总结了这方面的经验并破获了大量案件)。在我国,子代一般继承父姓,其传递方式类似人类Y染色体的遗传方式,因此男性姓氏与Y染色体存在一定程度的相关性。如果案件发生在相对封闭的环境,可通过Y染色体分析来推断犯罪嫌疑人可能的姓氏。然而,由于中国历史上存在改姓、赐姓、随母姓以及领养等复杂情况,在广义范围上使用Y染色体来推测姓氏也会存在误差。
2.2 亲缘搜索
如果案件发生在人口流动频繁的地域(例如北京、上海等大都市),现阶段直接使用Y-STR排查并不一定能得到很好的效果,可考虑利用常染色体STR基因座在数据库中搜索罪犯可能的亲属,继而对其中的男性样本进行Y-STR分型,迅速排除绝大部分与罪犯无关的个体,而对Y-STR匹配的样本可进一步分析调查其亲属,以确定是否有常染色体STR也完全匹配的个体。这个方法已经在实际案件中被应用并破获了一些积压多年的悬案[13]。如果Y-STR数据库足够大,在现场物证常染色体STR信息录入数据库比对后仅有少数基因座比中或无基因座比中的情况下,可以率先对Y-STR数据库进行搜索,结合其他背景信息为案件的侦查提供可能的线索或方向。
2.3 来源人群推断
由于呈父系遗传特性,Y染色体可用于估计生物样本的来源人群,其准确程度与基因座的选择和数量直接相关。最理想的用于推断来源人群的Y-STR基因座具有如下特点:(1)在各个人群中均具有较高的个体识别能力;(2)在各个人群中基因频率分布差异较大。由于这类基因座报道较少,当前比较现实的做法是选择尽可能多的基因座,以提高系统效能,用于确定来源人群。
2.4 混合样本检验
通常犯罪学实验室所受理的案件中,性侵犯案件占50%以上,其中一男一女的混合样本是最常见的情况。常染色体STR的分析结果比较难以解析,经常无法确定男女各自的身份,而Y-STR分析能排除女性DNA的干扰,得到Y-STR分型结果。虽然Y-STR检测不能完全认定男性身份,但可作为一个可靠的排查工具。此外,某些强奸案中,犯罪嫌疑人无精或少精,但其前列腺液中可能含有脱落上皮细胞、白细胞等,鉴定人从检材中可能提取到微量的男性DNA,此时常染色体STR分析往往不能得到理想的结果,而应用Y-STR分析通常可以确定男性的单倍型。对于轮奸案中多个男性的混合样本,检验Y-STR可以比较准确地推断犯罪嫌疑人的人数。
2.5 失踪人员及失踪人员亲属鉴定
失踪人员数据库和打拐数据库检索中需要进行大量的亲缘关系鉴定。对于二联体,如果所检测的常染色体STR基因座少于19个,有可能得出错误的鉴定结论[14]。如果增加额外的基因座,无论是常染色体STR基因座还是Y-STR基因座,均有助于提高鉴定的准确率。研究[14]表明,增加Y-STR基因座比增加同样数量的常染色体STR基因座效果更佳。
3 需要考虑的问题
3.1 Y-STR试剂盒的研发
法庭科学DNA数据库主要由两部分组成——人员库和物证库。人员库的DNA样本质量通常较好,对试剂盒的灵敏度要求不高,因此,研发时可考虑同时将常染色体STR基因座和Y-STR基因座纳入一个试剂盒中。考虑到中国DNA数据库的规模,这样的做法能极大地节约办案经费。目前,五色荧光技术的试剂盒最多只能容纳大约25个基因座,而常用的常染色体STR基因座至少有15个,因此Y-STR基因座最多只能选择10个。如果六色荧光技术乃至更多颜色的荧光得以应用,扩增体系能复合的基因座数将有所增加。如果在中国人群能够筛选出10个左右个体识别能力高的Y-STR基因座,同常染色体STR组合成一个试剂盒,将能极大地节约办案经费并提升办案效率。
3.2 Y-STR试剂盒的验证
不同的试剂盒由于引物设计不同,对同一样本分型结果不一致的现象并不罕见。目前,中国市场上可选择的试剂盒类型比其他国家更多,因此这个问题尤其明显。Davis等[15]对美国人群951个样本比较了Y-filer和PowerPlex Y23体系的一致性,发现在Y-filer的17个基因座上两个试剂盒的分型结果完全一致,但是当DYS448区域出现一个极少见的42bp缺失的等位基因峰,因为不同的基因座分布设计,Y-filer体系判读该等位基因属于DYS437,而PowerPlex Y23体系判读该等位基因属于DYS576,从而造成不一致的结果。这个等位基因主要出现在印第安人中,这也是试剂盒设计主要针对高加索人和非洲人而忽视其他人群的一个直接表现。因此,针对中国人群Y-STR分型的试剂盒研发完成后,需要采用不同的试剂盒进行一致性验证,并在数据库搜索软件中有相关设定或提示,以减少或避免因为使用不同试剂盒而造成的判读错误。
3.3 Y-STR基因座突变情形的处理
Y-STR基因座的突变是另外一个要注意的问题。Y-STR基因座的突变率约为0.2%[16]。以Y-filer中的17个基因座为例,父子之间出现至少一个突变的可能性是3.3%,平均33对父子之间就有一对父子有突变发生。因此,大规模的Y-STR数据库搜索中,单倍型不一致的样本仍有来源于同一父系的可能,这种情况在实际案件中已经得到证实[17]。其次,在统计突变次数时,必须考虑DYS389Ⅰ和DYS389Ⅱ的结构特殊性。如果DYS389Ⅰ发生突变,DYS389Ⅱ也会出现重复片段的不一致,看似发生了两次突变,而实际上只是一次发生在DYS389Ⅰ的突变。此外,我们需要良好的突变数学模型来描述发生突变的可能性,以计算个体识别案件中10→11、10→13、10→10.2等各种突变情形的似然率[18]。重复序列变化为整数的突变(例如11→13)通常属于滑变,变化数量越大,随机匹配概率越低。而重复序列变化为非整数时(例如11→10.2),通常是因为碱基缺失,其随机匹配概率通常极低(可能低至10-8)。以上情况在设计Y-STR搜索比对软件时应予以高度重视。
3.4 搜索软件系统开发
和其他数据库一样,搜索软件系统是Y-STR数据库建设的核心,该系统应该能够容纳当前常用的YSTR,并保留继续扩展基因座的能力。数据库系统的容量要能够满足未来5~10年数据库发展的需要。数据库搜索算法应能快速地搜索到匹配或者近似的单倍型。基于反索引表的合并和交叉运算可能是比较高效的解决方案。对于搜索得到的单倍型,软件系统应能估算单倍型之间的相似度,并猜测可能的来源人群。搜索中同样需要考虑不同试剂盒的不一致性问题。为了更加有效地利用现有资源,Y-STR数据库可作为现有常染色体DNA数据库的一部分,或者至少可以利用一致的索引号相互检索以实现两个数据库的对接,这样可以大大提高比对效能。
总而言之,为了有效地建立中国Y-STR数据库并应用于公安刑侦工作,对数据库建设中需要注意的问题进行全面的前期研究十分必要。从各个民族和地域(包括人口流动频繁的城市和相对封闭的山村)广泛收集样本和数据,验证和比较当前常用的Y-STR基因座并寻找适合中国人群的新基因座,分析基因座的群体特异性,比较不同试剂盒在不同人群中的一致性,探索突变的数学模型,解析与常染色体STR联合使用的结果,结合实际办案不断总结问题和需求,将为中国Y-STR数据库的建设及高效应用打下良好的基础。
[1]Budowle B,Ge J,Aranda XG,et al.Texas population substructure and its impact on estimating the rarity of Y STR haplotypes from DNA evidence[J]. J Forensic Sci,2009,54(5):1016-1021.
[2]Budowle B,Ge J,Low J,et al.The effects of Asian population substructureon YSTRforensic analyses[J].Leg Med(Tokyo),2009,11(2):64-69.
[3]Ge J,Budowle B,Planz JV,et al.US forensic Y-chromosome short tandem repeats database[J].Leg Med(Tokyo),2010,12(6):289-295.
[4]Kayser M,Kittler R,Erler A,et al.A comprehensive survey of human Y-chromosomal microsatellites[J]. Am J Hum Genet,2004,74(6):1183-1197.
[5]Hedman M,Neuvonen AM,Sajantila A,et al.Dissecting the Finnish male uniformity:the value of additional Y-STR loci[J].Forensic Sci Int Genet,2011,5(3):199-201.
[6]Wu W,Pan L,Hao H,et al.Population genetics of 17 Y-STR loci in a large Chinese Han population from Zhejiang Province,Eastern China[J].Forensic Sci Int Genet,2011,5(1):e11-e13.
[7]Zhu B,Shen C,Xun X,et al.Population genetic polymorphisms for 17 Y-chromosomal STRs haplotypes of Chinese Salar ethnic minority group[J].Leg Med(Tokyo),2007,9(4):203-209.
[8]Zhu B,Wu Y,Shen C,et al.Genetic analysis of 17 Y-chromosomal STRs haplotypes of Chinese Tibetan ethnic group residing in Qinghai province of China[J].Forensic Sci Int,2008,175(2-3):238-243.
[9]Guo H,Yan J,Jiao Z,et al.Genetic polymorphisms for 17 Y-chromosomal STRs haplotypes in Chinese Hui population[J].Leg Med(Tokyo),2008,10(3):163-169.
[10]Huang TY,Hsu YT,Li JM,et al.Polymorphism of 17 Y-STR loci in Taiwan population[J].Forensic Sci Int,2008,174(2-3):249-254.
[11]朱传红,史绍杏,王海生,等.Y-STR家系排查法的应用原则及注意事项[J].中国法医学杂志,2007,22(6):431-432.
[12]史绍杏,马伟,朱传红.Y-STR家系分型及ITO分析法侦破强奸杀人案1例[J].刑事技术,2005,(4):58-59.
[13]STR-DNA Y-chromosome[DB/OL].[2012-10-18].http:// www.denverda.org/DNA/Y-chromosome_DNA_Lega_% 20Decisions.htm.
[14]Ge J,Eisenberg A,Budowle B.Developing criteria and data to determine best options for expanding the core CODIS loci[J].Investig Genet,2012,3:1.
[15]Davis C,Ge J,Sprecher C,et al.Prototype PowerPlex®Y23 System:A concordance study[J].Forensic Sci Int Genet,2013,7(1):204-208.
[16]Ge J,Budowle B,Aranda XG,et al.Mutation rates at Y chromosome short tandem repeats in Texas populations[J].Forensic Sci Int Genet,2009,3(3):179-184.
[17]史绍杏,朱传红,王海生,等.Y-STR家系排查中出现Y-STR突变1例[J].刑事技术,2008,(1):68-69.
[18]Ge J,Budowle B,Chakraborty R.DNA identification by pedigree likelihood ratio accommodating population substructure and mutations[J].Investig Genet,2010,1(1):8.
Development of Chinese Forensic Y-STR DNA Database
GE Jian-ye1,YAN Jiang-wei2,XIE Qun3,SUN Hong-yu4,ZHOU Huai-gu5,LI Bin6
(1.Health Science Center,University of North Texas,Texas 76107,USA;2.Beijing Institute of Genomics, Chinese Academy of Sciences,Beijing 100029,China;3.Institute of Forensic Science,Ministry of Public Security,Beijing 100038,China;4.Department of Forensic Medicine,Zhongshan Medical College,Sun Yat-Sen University,Guangzhou 510080,China;5.Shanghai Key Laboratory of Crime Scene Evidence, Criminal Technology Agency,Shanghai 200083,China;6.Forensic Science Division,Fujian Provincial Public Security,Fuzhou 350003,China)
Y chromosome is a male-specific paternal inherited chromosome.The STR markers on Y chromosome have been widely used in forensic practices.This article summarizes the characteristics of Y-STR and some factors are considered of selecting appropriate Y-STR markers for Chinese population. The prospects of existing and potential forensic applications of Y-STR profiles are discussed including familial excluding,familial searching,crowd source deducing,mixture sample testing,and kinship identifying.The research,development,verification of Y-STR kit,Y-STR mutation rate,and search software are explored and some suggestions are given.
forensic genetics;Y chromosome;review[publication type];short tandem repeat;DNA database
DF795.2
A
10.3969/j.issn.1004-5619.2013.03.015
1004-5619(2013)03-0212-04
2012-10-19)
(本文编辑:李莉)
葛建业(1977—),男,浙江宁海人,博士,主要从事DNA证据解析方面的研究;E-mail:Jianye.Ge@unthsc.edu