法医DNA片段分析软件的研究与应用
2014-04-16孙辉刘冰季安全黎智辉彭思龙厉吉华
孙辉 刘冰 季安全 黎智辉 彭思龙 厉吉华
1. 公安部物证鉴定中心 2. 中国科学院自动化研究所
一、前言
法医DNA检测技术已成为现代法庭科学中必不可少的技术手段,是处置各类案件、重特大事故及自然灾害等重大事件中最有效的个体识别工具。针对DNA片段长度多态性检验的STR技术,是当前国内外DNA检测领域采用的主要手段。国内大量开展的法医DNA检测工作促进了对DNA检测关键设备、配套软件及消耗品的巨大需求,但关键设备与配套软件一直依赖进口,高额费用已经成为制约我国DNA检测和数据库发展、建设工作的瓶颈,限制了该技术更广泛的应用,该技术的持续发展不断拉大了我国与发达国家的技术差距。
法医DNA片段分析软件,正是法医DNA检测的最终环节,可与法医DNA专用检测平台配合,以遗传分析仪的采集软件存储的DNA数据文件为分析对象,通过数据库技术和DNA片段长度多态性分析算法的设计来实现法医DNA检测中DNA片段的分型、检索和比对等功能。目前,我国法医DNA检测领域使用的DNA片段长度分析软件是国外公司的,这些分析软件曾对促进DNA检测技术的应用推广起到了重要作用,但存在价格昂贵的问题,更为严重的是因DNA片段分析软件系统多数由国外公司所垄断,软件的应用还需要与这些公司的机器和试剂配套,操作复杂、成本高,严重影响法医DNA检测技术在基层公安尤其是中西部地区的推广。因此在法医DNA专用分析软件研发上取得技术突破,是建立健全我国独立的相关技术标准体系,发展完善自主相关产业的迫切需求,也是公安工作从依靠经验向依靠科学技术、从人力密集型向科技集约型转变的需求。
因此,公安部物证鉴定中心承担了“法医DNA片段分析软件关键技术研究”课题的研究,该课题是国家“十一五”科技支撑计划项目“法医DNA专用检测平台关键技术研究”的重要组成部分,目前已完成全部研究工作,在实现与项目其他课题成果对接的同时,实现了与国外公司的文件完全兼容,可以对很多遗传分析仪的STR检测数据进行自动分析;覆盖了外国软件中STR分析的全部功能,并在部分功能上进行了改进增强;实现了对现有STR试剂特别是国产DNA试剂的全面支持;实现了CODIS格式的数据结果输出,与全国公安机关DNA数据库对接良好;采用全中文界面,操作习惯符合现有DNA检测技术人员要求。该软件完全满足目前公安机关法医DNA数据分析需求,具有完全自主知识产权。
二、法医DNA片段分析软件的技术分析
法医DNA片段分析软件涉及生命科学、信息科学等专门学科的综合运用,需要生命科学、计算机软件等领域的专家和技术人员协同攻关,通过借鉴生命科学领域专家系统、国外类似软件的模式及开发经验,深入研究国内外公开发表的DNA分子量定值、片段分型方法,建立起一套适用于法医DNA检验现状、符合法庭科学DNA实验室检验规范和DNA数据库入库标准的法医DNA片段分析软件。因此,课题组通过采集大量实验数据,研究了DNA片段长度多态性分析算法,探索不同分析方法对DNA片段分析结果的影响;各种引物对分析结果的影响;寻找最佳分析技术,建立支持分析技术的数据文件,研究DNA片段分子量定值、分型算法,最终根据法医DNA检测业务要求调整关键技术参数和设计方案,掌握算法设计核心内容,以及重点研究解决了法医DNA片段长度多态性分析算法和基因图谱的可视化显示与交互性处理技术两大技术领域的以下关键技术:
(一)荧光信号前处理技术
一般来说,法医DNA荧光检测分析中,基于毛细管电泳(CE)的检测平台的样品进样量少且浓度低,直接读取的原始信号需要进行一些预处理,然后才能进行进一步的准确分析和判读。前处理主要包括基线漂移处理和信号噪声处理两方面,基线漂移相对简单,噪声处理方法则复杂一些。在本课题中,除了采用国外同类软件中使用的平滑方法外,还研究了效果较好的小波去噪方法。
(二)荧光信号的谱峰识别技术
谱荧光信号的峰有效识别是后续分析的基础。谱峰的位置实质上反映了电泳过程中DNA片断经过检测窗口的时间点,谱峰的高度反映了荧光强度。根据给定的半峰宽、峰高,倾斜度等参数确定是否存在峰。谱峰识别又包括有效峰识别和峰值识别:有效峰判断通过设置的峰高阈值、角度阈值、最小半峰宽实现。其中峰高阈值主要是控制噪声干扰数目,通过峰高阈值的过滤,减少噪声对后续分析的干扰。角度阈值控制峰的面积和分离两个相近峰。最小半峰宽主要是进一步检验检测出的峰是否为有效峰。峰值识别就是确定四通道荧光数据中的峰值数据。峰值识别为后续的四色校正做准备,峰值识别得到的峰值数据与后续的四色校正中的串扰矩阵息息相关。峰值识别排除了与确定串扰矩阵无关的数据,极大地减少了数据处理量,有利于实现DNA检测结果的快速分析。
(三)无关峰信号的去除技术
通过分析大量样品发现,在谱峰识别之后样品中仍然包含大量的无关峰,因此,在DNA片段分子量定值之前需要进行无关峰的去除。通过无关峰的去除,可以大大降低分子量匹配的算法复杂度,提高系统分析的效率,达到快速分析的目的。无关峰信号的去除主要包括样品信号前段强干扰峰的去除(峰高是有效峰峰高的5倍甚至10倍以上)、有效峰周围弱干扰峰和与有效峰近似的干扰峰去除三部分。课题组经过努力,建立了有效的无关峰信号去处模型,实现了通过全局自动分析去除、局部分析去除等多种手段,攻克了这一技术。
(四)DNA片段分子量定值算法
DNA片段分子量定值是法医DNA片段分析软件的核心之一,其难点在于考虑不同的实验条件、不同的试剂等对数据的影响。基本的DNA片段分子量定值过程包括两个部分:首先是分子量匹配(Size Matching)、然后是曲线拟合。分子量匹配首先进行条件判定,然后采用局部极大值和重心加权方法进行匹配,在所有峰匹配完成后,需要整体判断本次匹配是否有效。曲线拟合包括最小二乘方法、三次样条插值方法、局部Southern和全局Southern方法。
(五)等位基因分型技术
等位基因分型技术依赖于等位基因分型标准物,即用等位基因分型标准物作为参考,为每一个等位基因提供DNA片段大小参照物,从而保证在不同实验仪器和条件下对同一检测样本得到的结果具有可比性。经研究,课题组使用比例匹配方法成功实现了等位基因分型。比例匹配方法使用相邻峰的间距和峰高来进行分型匹配。由于等位基因分型标准物的分型的数据已知,在得到被检测样本的DNA片段分子量数据后,只需要与等位基因分型标准物的分子量进行比较匹配就可以进行分型。影响分型正确性的重要问题在于分型策略,如容差范围的确定,峰高的影响及判断。
(六)数据质量评估技术
法医DNA片段分析软件工作过程中要进行如下评估:分析条件检测(Analysis requirements checks),在样品分析之前,如果分析条件不满足,则不能进行分析;分子量标准质量检测(Sizing quality assessment);等位基因标准物质量评测(Allelic ladder quality assessment);遗传标记质量评测(Marker-level quality assessment);样品质量评测(Sample-level quality assessment)和基因分型质量评测(Genotype quality assessment)。
三、法医DNA片段分析软件的应用情况及前景分析
我们通过自主创新、集成创新或引进消化吸收再创新,针对法医DNA检验数据加工处理的关键技术,研究建立了一批新的关键技术方法,实现了法医DNA检验中DNA片段的分型、检索和比对。在取得核心技术研究成果的前提下,进一步进行了软件的架构设计和功能设计,形成程序开发的技术方案,先后多次修改完善,研发出了与法医DNA专用检测平台硬件配套的“法医DNA片段分析软件”系统,从而实现了法医DNA检测过程的自动化,进一步摆脱我国DNA检测技术对国外分析软件的依赖;同时还建立起相关技术标准,促进我国法医DNA检测技术标准体系和管理体系的建立健全。
法医DNA检测技术的应用使法医物证检验从只能排除跃升到了直接认定的水平,其革命性的进展使之在侦查破案中发挥了重大作用,为一大批重大疑难案件的侦破提供了科学依据。DNA数据信息的处理已经成为DNA检验质量与效率的制约因素,法医DNA片段分析软件将与法医DNA专用检测平台共同直接服务于公安一线,最终实现法医DNA检测试剂与仪器的全面配套。课题成果的推广应用,一是可以解决因人员与工作量比例严重失衡造成的工作积压问题;二是可以降低各类人为因素而引起的错误和失误;三是可以减少数据处理的中间环节提高整体效率;四是可以避免技术人员主观因素造成的数据处理中的随意性,可增加检验的客观性;五是可以整体上提高DNA检验标准化、规范化的水平;六是可以从根本上解决对国外产品的依赖,打破外国企业设置的技术壁垒,实现对国产DNA检验试剂的全面支持。
成果的推广应用将显著增强我国在打击和防范刑事犯罪方面的快速反应能力、犯罪证据认定能力以及物质条件保障的自给能力,缩短破案周期,节约资本投入,在保障人民群众的生命财产安全、维护社会治安秩序稳定、促进全国犯罪DNA信息数据库的建立以及树立良好的公安队伍形象,提高我国在法医DNA检测领域的国际地位和影响力等方面,将产生重大的社会效益;同时,成果的产品化、商业化还将产生巨大的经济效益。
综上所述,我们成功自主研制了法医DNA片段分析软件,在DNA片段长度分析算法核心技术和DNA数据格式转换技术等方面取得了技术创新,制定了衔接法医DNA检验硬件设备和DNA数据库的相关技术标准,填补了国内空白;为法医DNA检测技术的推广发展和DNA数据库的建设应用提供了物质保障;所取得的技术突破为下一阶段法医DNA专家分析系统的研究提供了技术支撑,所取得的成果具有显著的推广和实用价值。
[1] ABI PRISM®Genotyper®2.5 Software User's Manual, Rev. C[EB/OL]. www.appliedbiosystems.com, 2001.01.
[2] ABI PRISM®Genotyper®3.7 NT Software User's Manual, Rev. C[EB/OL]. www.appliedbiosystems.com, 2001.01.
[3] GeneMapperTMID Software 3.0 User's Manual, Rev. B [EB/OL].www.appliedbiosystems.com, 2002.09.
[4] GeneMapperTMSoftware v3.5 Installation Instructions, Rev. B[EB/OL]. www.appliedbiosystems.com, 2003.09.
[5] GeneMapperTMID Software 3.1 Human Identification Analysis Tutorial, Rev. B [EB/OL]. www.appliedbiosystems.com, 2003.10.
[6] GeneMapperTMSoftware v3.5 User Guide, Rev. B [EB/OL].www.appliedbiosystems.com, 2003.10.
[7] GeneMapperTMID Software Version 3.1Human Identification Analysis User Guide, Rev. C [EB/OL]. www.appliedbiosystems.com, 2003.12.
[8] GeneMapperTMID-X Software Version 1.0 Reference Guide, Rev.A [EB/OL]. www.appliedbiosystems.com, 2007.09.
[9] GeneMapperTMID-X Software Version 1.0 Getting Started Guide,Rev. A [EB/OL]. www.appliedbiosystems.com, 2007.10.
[10] FSS-i3®Introduction [EB/OL]. Http://www.forensic.gov.uk/html/services/analytical-solutions/software/fssi3.
[11] Information on ESR's DNA software systems [EB/OL].Http://www.esr.cri.nz/competencies/forensicscience/Page/Information onESE'sDNAsoftwaresystems.aspx.
[12] GeneMaker®[EB/OL]. Http://www.softgenetics.com/GeneMaker.html.
[13] GeneMaker法医DNA自动分析系统 [EB/OL]. Http://www.todaysoft.com.cn/a/products/biotechnology/2010/0926/52.html.
[14] 法医DNA分析与DNA数据库 [EB/OL]. Http://www.todaysoft.Com.cn/a/products/biotechnology/2010/0926/51.html.