人体表型特征的DNA分子鉴识
——5年新进展
2019-03-24孟昊天兰琼朱波峰
孟昊天 ,兰琼 ,朱波峰 ,
(1.西安交通大学口腔医院 陕西省颅颌面精准医学研究重点实验室,陕西 西安 710004;2.南方医科大学法医学院,广东 广州 510515)
通过短串联重复(short tandem repeat,STR)序列分型,将犯罪现场、灾难现场或失踪人员案件中获取的不明确来源人的生物检材与已知人员、嫌疑人、失踪人员亲属或失踪人员私人物品等参考生物样本进行DNA分型图谱比对,从而进行个体识别,是当前法医DNA分析的常规方法[1],然而,缺乏可供比对的已知DNA分型图谱局限了这一技术的应用。虽然通过建立法医DNA数据库可以在一定程度上解决此问题,但是在法医日常司法实践工作中,常会遇到无法在数据库中获得匹配结果的情况[2]。大多数情况下,这些案件会变为“冷案”。原则上,扩大DNA数据库的规模是避免“冷案”出现最有效的方法。然而,在样本收集过程中,相关部门将面临伦理、社会和法律等一系列问题,从而限制了DNA数据库的规模化。
如果常规调查结果不能成功确认犯罪嫌疑人身份,或者DNA数据库比对未能成功匹配,基于DNA的人体外部可见表型特征(externally visible characteristic,EVC)分子鉴识[3],也被称为法医DNA表型(forensic DNA phenotyping,FDP)推断[2,4],将有希望为案件的侦破提供线索。FDP可以从案发现场留下的生物检材的DNA中推断出检材来源人的EVC特征。如果能够得到可靠的外部可见表型特征,FDP就可以作为“分子目击证人”来协助警方的调查。
FDP研究始于21世纪初,由于人类EVC多为由环境因素及遗传因素共同决定的复杂性状,大量表型相关基因的综合作用才能解释个体间的表型差异[5],所以多年来研究进展得相对缓慢。近几年来,随着分子生物学领域技术的飞速发展,大量相关研究不仅筛选出与部分EVC高度相关的分子标记,也建立了相应的推断算法和推断模型[2-3]。早期研究成果已有较为详细的综述[2-3],本文重点关注近5年来人类表型特征分子鉴识研究领域的最新成果。
1 色素特征
色素特征是指人类虹膜、头发和皮肤颜色在人群中的差异,目前可以根据DNA进行推断,具有比较高的准确性。
1.1 虹膜颜色
人类虹膜色素特征取决于虹膜基质层内色素上皮细胞内的色素含量,根据色素含量的不同,人类的虹膜可呈现棕色、蓝色、绿色或灰色等不同的颜色。
2010年,WALSH等[6]基于与虹膜颜色推断相关性最好的6个单核苷酸多态性(single nucleotide polymorphism,SNP)位点(rs12913832、rs1800407、rs12896399、rs16891982、rs1393350和rs12203592),构建了用于推断棕色和蓝色虹膜的IrisPlex系统,并于2011年对这一检测体系进行了验证[7]。随后几年,其他用于虹膜颜色推断的SNP位点组合也有报道,但推断准确性大多未超过IrisPlex系统[8-10]。
虹膜颜色在FDP中属于推断准确性较高的表型特征,目前研究主要针对以下两个方面:(1)现在常用的IrisPlex系统在部分群体中推断准确性依然存在不足,仍需进一步探究影响其推断准确性的相关因素,或寻找更具普遍适用性的虹膜颜色相关SNP位点;(2)选用更适宜的推断算法,以进一步改进推断模型。
1.2 发色
人类头发中的黑色素以两种不同的化合物形式存在:褐色-黑色的真黑色素和红色-黄色的类黑色素,发色的差异是由二者分布、含量和类型的不同引起[14]。
早在1995年,VALVERDE等[15]就发现红发主要与MC1R基因的多态性有关。2007年,SULEM等[16]发表了第一项囊括所有发色分类的研究。2013年,WALSH等[17]开发了第一个同时推断发色和虹膜颜色的DNA测试系统HIrisPlex系统,并在1年后发表了该系统的验证研究结果[18]。
到目前为止,发色的推断准确性还有待提高,尤其是金发和棕色头发。部分原因可能是,有些人在孩提时代头发为金色,但在青春期变为棕色[17]。2018年,KUKLA-BARTOSZEK等[19]利用HIrisPlex系统研究了年龄增长引起的发色加深对发色推断的影响,对HIrisPlex系统中24个位点的测序结果表明,多数情况下,对于经历了发色加深的个体,推断结果为其青春期前的发色,建议在构建推断模型时充分考虑这一现象。2018年,HYSI等[20]通过对近3万名欧洲祖先来源的个体进行全基因组关联分析(genome-wide association study,GWAS),发现124个与发色显著相关的SNP位点(包括13个新SNP位点),其中123个位于常染色体,1个位于X染色体。目前,发色推断的准确性尚不能完全满足实际案件应用需要,也未考虑包括年龄在内的多种可能对发色产生影响的因素。通过对发色改变机制的深入研究,将有望提高发色推断的准确性。
1.3 肤色
由于存在于皮肤黑色素细胞中黑色素的类型、数量和分布的不同,导致人类皮肤颜色也存在差异,并且在不同人种之间和种群内存在高度多样性[21]。与其他色素表型相比,肤色推断研究相对较少,缺乏成熟的推断体系。
2015年,LIU等[22]开展了一项GWAS研究,探索人类肤色的遗传学基础,研究结果表明,染色体20q11.22区域内存在与欧洲人群肤色有显著相关性的基因,EIF2S2和GSS基因为该区域的功能候选基因,来自9个基因的9个最相关SNP位点可能适用于欧洲和邻近人群肤色推断。2017年,WALSH等[23]基于SNaPshot技术构建分型体系,在全球36个不同地区共2025个样本中评估了77个SNP位点在肤色推断中的效能,并应用其中的36个与肤色最为相关的SNP位点建立肤色推断模型,其准确性用曲线下面积(area under curve,AUC)表示,在极白色、白色、中间色、黑色以及深黑色5个等级色中的AUC值()分别为 0.74±0.05、0.72±0.03、0.73±0.03、0.87±0.10和 0.97±0.03。2018年,CHAITANYA等[24]在HIrisPlex系统的基础上添加了17个肤色相关SNP位点构建HIrisPlex-S分析推断体系,并提供在线分析工具,可同时对3种虹膜颜色、4种发色以及5种肤色进行系统推断。
目前,肤色推断的准确性在色素特征中相对较低,还需进一步筛选准确、高效的推断位点,构建合理的推断模型,并在更多群体中进行验证与评估。
理想情况下,虹膜、头发和皮肤颜色,应从定性推断过渡为定量推断,以进一步提高推断结果的准确程度。同时,如果能利用尽可能少的位点,同时推断三种色素表型特征,将有助于节约检测的时间和经济成本。
2 发质和脱发
自然状态下,头发可以呈现笔直或卷曲、浓密或稀疏等多种状态,是一种非常独特的EVC。
到目前为止,人们对发质的遗传决定因素知之甚少。根据报道,头发的笔直度或卷曲度是在毛囊内编程的,由头发角蛋白的类型和分布以及细胞类型决定[25-26]。2015 年,POPIECH 等[27]基于 SNaPshot和二代测序技术,首次尝试基于DNA进行发质推断,研究评估了3个基因(TCHH、WNT10A和FRAS1)中6个发质相关SNP的推断能力,发现rs11803731、rs7349332、rs1268789的基因型组合TTGGGG是推断直发的最佳标记,具有该基因型组合的个体直发概率大于80%。2016年,ADHIKARI等[28]通过在拉丁美洲人群中进行头发以及面部毛发(胡须)的GWAS研究,发现丝氨酸蛋白酶S1家族成员53的Q30R替代通过影响酶的加工处理以及分泌而对头发形态产生影响,与头发形态显著相关。同年,WU等[29]通过GWAS揭示EDAR基因变异对中国汉族及维吾尔族群体的直发性状具有较大影响。2018年,LIU等[30]基于三个欧洲人群中的GWAS研究进行Meta分析,发现8个与人类发质显著相关的新基因,同时验证了其中4个已知的相关基因,并利用14个SNP位点构建多元回归模型以推断发质,结果显示其AUC值达到0.66。同年,POPIECH等[31]对90个候选SNP位点进行测序,并基于其中的32个位点构建发质推断模型,在欧洲人群以及非欧洲人群中AUC值分别达到0.664和0.789,将性别和年龄因素纳入模型后,推断准确性提升为0.680和0.800。
脱发是指头皮部分或全部没有头发生长。人类最常见的秃发形式是男性遗传性脱发(androgenetic alopecia,AGA),多数研究均针对早发性 AGA[32-33]。2016年,LIU等[34]利用既往GWAS研究中确立的男性脱发相关SNP建立逻辑回归推断模型,在男性早发性脱发中的AUC值达到0.74,在男性正常年龄段脱发中AUC为0.69~0.71。
3 年 龄
年龄是警方追查嫌疑人时的重要线索之一。年龄会影响一个人的体态、外貌,及其他年龄依赖性的EVC,如秃发、皱纹、发色等。经典的年龄推断依赖于牙齿或骨骼检材,误差较小,但从案发现场采集到犯罪嫌疑人牙齿或骨骼检材的可能性较小。基于犯罪现场遗留的常见生物检材(如血迹),来推断年龄,更有利于对犯罪嫌疑人的排查。
DNA甲基化是目前研究发现的比较适宜进行年龄推断的分子标记[35]。近几年的研究,除了筛选CpG位点并构建模型进行年龄推断外,还关注其他影响推断准确性的因素(如使用的样本组织类型、疾病、推断对象的年龄段等)。2015年,ZBIEC-PIEKARSKA等[36]通过对8个基因中的41个CpG位点进行焦磷酸测序,筛选出5个CpG位点(分别位于ELOVL2、C1orf132、TRIM59、KLF14和FHL2基因)进行年龄推断,R2值为0.94,推断结果的标准误(standard error,SE)为4.5岁,并提供了免费的在线年龄推断计算工具。同年,XU等[37]利用甲基化芯片筛选年龄相关CpG位点,基于其中11个位点构建推断模型,发现在多元线性回归、多元非线性回归、反向传播神经网络和支持向量回归四种不同模型中,支持向量回归模型推断结果最为可靠,与实际年龄的平均绝对偏差(mean absolute deviation,MAD)最小(2.8岁)。LEE等[38]利用甲基化芯片对多种体液样本(血液、唾液、精液)进行检测,针对精液样本筛选出3个CpG位点(cg06304190、cg06979108和cg12837463)进行年龄推断,推断结果的平均绝对差(average absolute difference,AAD)为4.7年。ZBIECPIEKARSKA等[39]及BEKAERT等[40]报道了在血痕样本或从尸体获得的血样中,分别对7个和4个CpG位点进行甲基化测序,推断年龄的结果与使用新鲜血液获得的结果基本一致。2018年,SPÓLNICKA等[41]在早发、晚发型阿尔茨海默病及格雷夫斯病患者中进行甲基化测序,利用来自ELOVL2、C1orf132、KLF14、FHL2和TRIM59这5个基因的CpG位点进行年龄推断,发现ELOVL2和C1orf132基因相关标记推断准确性不受上述疾病影响,实用性较高。同年,ALIFERI等[42]基于12个DNA甲基化位点的高通量测序数据综合评估了均方根误差和具有多项式函数模型的支持向量机模型在年龄推断中的效能,发现支持向量机模型对年龄推断适用性更高。FREIRE-ARADAS等[43]利用甲基化芯片数据在2~18岁儿童及青少年中研究DNA甲基化水平与年龄的相关性,发现KCNAB3基因与儿童及青少年期DNA甲基化水平高度相关,为上述年龄段个体年龄推断的潜在标志物。
此外,国内也有诸多研究人员展开了相关研究并取得了重要成果。2018年,FENG等[44]基于EpiTYPER系统(美国Agena Bioscience公司),在中国汉族男性群体中筛选出9个CpG位点构建年龄推断模型,模型的MAD为2.89岁(决定系数R2值达到0.92)。2019年,李姗飞等[45]基于EpiTYPER系统检测21个年龄相关CpG位点,应用其中8个高度相关位点构建年龄推断模型,在北方汉族男性群体中MAD为2.69岁。
4 身 高
身高是人类个体间最明显的差异之一。研究结果表明,身高受到遗传、环境等多种因素的影响,其中遗传因素所占的比例最大[46]。然而,目前基于DNA进行身高推断的研究进展并不理想[47]。由于身高是一个复杂性状,在受到多个基因调控的同时,还受到环境因素的影响。单个基因或变异对身高的影响很小,但这些基因或变异的集合对身高影响较大,目前的基因分型技术和分析方法很难完全捕获他们。2017年,UEKI等[48]利用实时定量PCR技术(quantitative realtime PCR,qPCR)对LTBP1以及ETV6基因区域的身高相关的拷贝数变异(copy number variations,CNV)进行研究,证实qPCR技术可用于筛选EVC相关CNV标记。2018年,焦会永等[49]基于547个身高相关SNP位点,结合山东汉族男性样本SNP芯片检测及全基因组测序数据进行分析,并构建身高推断模型,最终AUC值为0.67。由于中国汉族人群身高相关SNP位点报道有限,该研究使用既往报道的与欧洲高加索人群身高高度相关的SNP位点构建推断模型,这些SNP位点与中国人群身高的相关性尚需进一步验证,基于我国群体筛选身高相关特异性SNP位点有望提高我国个体身高推断的准确性。总体而言,成人身高推断准确性的进一步提高,有赖于基因分型技术和分析方法的改进,以及对人体身高调节机制认识的进一步深入。
5 容 貌
面部容貌是识别个体最重要的EVC,从DNA中推断个体特异性面部容貌对案件调查有很大的帮助。基于DNA进行面部容貌推断的研究起步相对较晚,直到2014年才出现了利用DNA进行人脸推断的系统研究[50-51]。
2016年,ADHIKARI等[52]利用GWAS评估了14种面部特征,发现4个基因组区域的SNP位点与3种鼻部特征显著相关:鼻小柱倾斜(4q31),鼻梁宽度(6p21),以及鼻翼宽度(7p13和20p11)。同时还发现,2q12区域的SNP位点与颏突形态相关,PAX3基因中SNP位点与鼻根位置的相关性与既往研究报道一致。同年,SHAFFER等[53]通过全基因组关联荟萃分析及三维面部图像标志点测量发现与颅面基本宽度(14q21.1、20q12)、眼间距(1p13.3、Xq13.2)、鼻宽(20p11.22)、鼻翼长度(14q11.2)等面部形态相关的基因区域,进一步证明颅面功能相关基因区域内的常见变异与人类生理性面部形态差异相关。2017年,LEE等[54]通过GWAS发现与三处面部区域形态相关的基因区域,其中包括两个新发现的与中面部高度(PARK2)、上唇中高度(FREM1)相关的基因区域。2018年,CHA等[55]基于GWAS分析筛选得到了5个与面部形态显著相关的新位点[OSR1-WDR35(rs7567283)、HOXD1-MTX2(rs970797)、WDR27(rs3736712)、SOX9(rs2193054)和DHX35(rs2206437)],涉及的面部形态主要包括面部前额轮廓、鼻子形状以及眼睛形状。同年,QIAO等[56]基于GWAS分析研究了我国新疆维吾尔族群体与汉族群体的面部形态特征差异,发现6个与面部容貌遗传差异显著相关的SNP位点(rs1868752、rs118078182、rs60159418、rs17868256、rs3920540 和 rs61672954),并基于277个SNP位点构建了容貌推断模型。
目前,通过DNA推断的面部容貌准确性还不足以满足法医常规工作的需要,但随着对人类面部形态遗传机制的深入探索和推断模型的不断完善,通过DNA推断出的容貌特征将会越来越接近其本人的容貌特征。
6 其 他
除了上述研究较为广泛的EVC之外,其他具有显著遗传相关性的表型特征还包括雀斑、眼睑、内眦赘皮、耳垂等,但目前尚未受到法医学研究者的广泛关注。
雀斑是一种小而平的浅棕色斑点,常见于白皮肤和(或)红发的个体,多于幼年时期出现且随着年龄增长而增多,多消散于青年时期。2015年,JACOBS等[57]发表了有关雀斑的GWAS研究结果,证实了4个与色素斑形成具有显著相关性的基因,分别为IRF4、MC1R、RALY/ASIP以及BNC2,与前人的研究基本一致。2018年,HERNANDO等[58]在西班牙群体中验证了8个与雀斑及日光敏感性相关基因的推断效能,发现其中4个基因(MC1R、IRF4、ASIP以及BNC2)与人群中雀斑的发生具有显著相关性,报道了基于多因素回归分析构建的雀斑推断模型,其准确性达到74.13%。
眼睑位于眼球前方,分为上、下眼睑,上睑缘上的一条明显的横行皮肤褶皱称为重睑,无褶皱为单睑。2018年,ENDO等[59]通过GWAS研究发现,EMX2基因附近的SNP位点rs12570134与重睑相关。耳垂与颊部皮肤连成几乎一水平线或耳垂向下悬垂呈圆形为有耳垂,否则为无耳垂。2016年,PENG等[60]发现,人类外胚叶发育不全受体基因与耳垂形状密切相关。2017年,SHAFFER等[61]基于欧裔美国人、拉丁美洲人、中国人及欧洲人4个队列的GWAS研究,发现EDAR、SP5、MRPS22、ADGRG6(GPR126)、KIAA1217及PAX9基因与耳垂形态相关。
7 结 论
目前,年龄、虹膜颜色、发色等表型特征的DNA推断已经具有一定的准确性,对于肤色、容貌、身高等表型特征的DNA推断研究,也获得了一定的进展,基于筛选出的遗传标记构建了相应的推断模型。但总体而言,距离成功将FDP应用于法医学实践,还有如下很多问题需要解决:
(1)多数EVC尚未确定理想的推断位点。除虹膜颜色外,多数EVC的新推断位点时有报道,但尚未形成一套公认的、推断效能较高、适用性较好的标记体系,尚需进一步筛选、优化和验证。
(2)推断模型准确性有限。FDP研究的最终目的是为侦查犯罪和审理案件提供科学的线索与证据,因此推断结果需要具备高度的准确性和可靠性。现有的部分FDP手段,如虹膜颜色推断等,已经可以从一定程度上为案件的侦查提供参考,但远远达不到作为可靠的线索证据使用的程度。因此,尚需结合传统统计学手段与新的机器学习方法,进一步优化推断模型,提高推断结果的准确性。
(3)机制研究不足。目前,我们对于各EVC的机制研究还存在不足,只有加深对各EVC调控机制的认识,充分了解影响各EVC的遗传和环境因素,并运用于位点筛选和推断模型的修正,才能从根本上保证推断结果的准确性。
(4)表型特征的丰富性有待提高。雀斑、重睑或单睑、内眦赘皮、耳垂形态等表型特征同样具有遗传性,对其进行深入探索,进一步丰富FDP的研究内容,有望细化表型推断结果。
(5)充分有效地集成。在单一反应中尽可能测试更多不同的EVC相关的分子标记,将有效减少样本的消耗,节约时间和经济成本。2013年,KEATING等[62]开发了第一个商品化的DNA智能一体式诊断工具:Identitas v1法医芯片,可以同时进行生物地理祖先、眼睛颜色和头发颜色推断以及性别和亲缘关系鉴定。
(6)拓展可利用的检材类型。目前的FDP研究多数采用血液(血痕)作为检测样本进行研究,而从犯罪现场获得的检材还可能是唾液、精液或其他组织,进一步探索现有FDP手段在其他类型检材中的适用性,开发适用于多种类型检材的EVC推断体系,将有利于FDP在法医学实践中的应用。
随着科技的进步,未来的研究将进一步揭示人类外部可见表型特征的分子遗传基础,而分子生物学领域的技术创新,也将会为人类表型特征分子鉴识研究提供强大的技术支持。在此基础上,对更多EVC的准确推断将成为可能,将更多用于EVC推断的分子标记整合于一张芯片或同一个检测体系,使用现场检材准确刻画其来源人的容貌特征,将促进人体表型特征DNA分子鉴识的飞速发展。