APP下载

化学计量学在物证检测数据分析中的应用研究进展

2022-09-06赵玉霞张显强

化学分析计量 2022年8期
关键词:计量学模式识别物证

赵玉霞,张显强

(贵州警察学院,贵阳 550005)

法庭科学研究的主要目的是为所有参与调查和刑事诉讼的人提供必要的科学证据,以重建犯罪,并作出公正的判决。为了实现这些目标,使用了各种分析方法,即光谱学、色谱法、X 射线及显微镜等。随着现代分析方法及相关检测仪器的快速发展,产生了越来越多复杂和多维的数据[1-2]。有些分析方法甚至可以为单个样本生成大量数据集。对于大量的样本,输出的数据量将大大增加,这使得法庭科学工作人员的任务繁琐、耗时,而且手动检查可能会出现假阳性结果。由于在处理大量数据方面具有自身的优势,化学计量学在法庭科学中发挥着越来越重要的作用,其应用范围也不断扩大。

化学计量学兴起于20 世纪70 年代,用统计的方法分析和模拟化学信息[3]。近年来,化学计量学在法庭科学领域中的应用越来越广。毒品(安非他明、甲基苯丙胺、MDMA、可卡因和海洛因)的检验是化学计量学在法庭科学领域的首次应用[4]。化学计量学可对物证分析的大量数据集进行不同处理,如通过选择数据、数据预处理和计算样本之间的相似度来区分样本。在多数情况下,还能为识别目标化合物提供统计基础和置信水平,从而帮助鉴定专家判断物证分析结果的可靠性。目前,市面上有许多统计和分析软件,如SPSS、R 语言、MATLAB 等。

1 多元数据分析

模式识别可以识别数据集中的一致性,并能将未知样本分类为不同的类别。化学分析得到的光谱、色谱图因样品种类不同而不同,利用化学计量学方法提取不同的信息,对特定类别的样品进行个性化和分类,称其为“化学模式识别”。模式识别分为监督模式识别和非监督模式识别。

1.1 监督模式识别

监督模式识别(SPR)方法目前已广泛应用于各种数据分析,如个性化、分类、鉴别、样品指纹、杂质检测等。在这些方法中,模型是在已知类的样本基础上构造的,且能进一步用于预测未知样本的类别[5]。监督模式识别的方法主要有两种:一是基于类之间的区分,即偏最小二乘判别分析(PLS-DA)、线性判别分析(LDA)、k-最近邻(kNN)和人工神经网络(ANN);二是基于对单个类的建模,即软独立建模类模拟(SIMCA)[6]。

1.2 无监督模式识别

无监督模式识别(UPR)由于在构建模型或进行解释时不需要事先信息,因此在法化学中可用来分析未知来源物证。通常,使用无监督技术的目的是探索可能的聚类,并对样本进行初步分类。主成分分析(PCA)是应用最广泛的无监督技术,尤其是基于数据方差在缩减空间中提取数据集的相关信息方面。需要强调的是,主成分分析是一种探索性技术,而不是一种分类技术。但它可以帮助分类技术建立具有给定置信水平的未知样本的类别[7]。除主成分分析外,聚类分析如k-均值和层次聚类分析(HCA)也被用作无监督模式识别方法以达到分类的目的。

2 化学计量学在物证分析中的应用

总结了目前在法庭科学领域应用的仪器分析结合化学计量学方法的最新发展和趋势。主要从毒物毒品、微量物证、生物物证、文件检验及痕迹物证五种类型分析。

2.1 毒物毒品分析

衰减全反射-傅里叶变换红外光谱(ATRFTIR)[8]、拉曼光谱(RAMS)[9]等因其对样品具有非破坏性而在毒物毒品分析中受到青睐。气相色谱-质谱法(GC-MS)、超高效液相色谱-质谱联用法(UHPLC-MS)和电感耦合等离子体质谱法(ICP-MS)[10]也有一些应用,分析输出的数据采用化学计量学方法进行统计分析,从而得到有效、可靠的结果。

HE Xinlong 等[8]利用ATR-IR 和多元分析对盐酸海洛因和五种常见添加剂(咖啡因、非那西丁、淀粉、葡萄糖和蔗糖)进行分类。采用基线校正、多变量散射校正、标准正态变量和Savitzky-Golay 算法对光谱数据进行预处理。采用径向基函数神经网络(RBFNN)、多层感知器神经网络(MLPNN)和线性拟合分析(LFA)等有监督模式识别方法作为分类器的构建算法。结果表明,区分盐酸海洛因与咖啡因、盐酸海洛因与非那西丁、盐酸海洛因与蔗糖、盐酸海洛因与淀粉、盐酸海洛因与葡萄糖的混合物,准确率分别为100%、100%、88.89%、77.78%和66.67%。当添加剂为非那西丁时,线性模型是最优的;当添加剂为葡萄糖时,二次函数更优越,二次多项式函数的拟合能力优于线性模型。

BEEN 等[9]利用近红外光谱(NIR)和RAMS分析27 种假冒药和6 个不同批次正品药获取的光谱数据,采用UPR(即PCA、HCA)来识别数据集中的类别。通过与NIR 和RAMS 所建立的分类进行比较,可以评估化学计量学方法的鉴别能力。利用SPR(即KNN、PLS-DA、PNN 和CANN)对获得的NIR 和RAMS 数据分析,并与无监督分类器的结果比较。基于近红外和拉曼光谱识别的类别,常规应用的保留策略使用基于距离测量和接收器工作特征曲线(ROC)的分类算法。该模型能够将新样品的光谱与之前分析过的产品光谱进行比较,并确定新样品是否属于现有类别之一,然后与数据库中的其它仿冒品建立联系,从而将27 种可疑药品中成功的区分出6 个批次正品。

卓俊纳等[10]为实现不同品牌酱香型白酒的快速分类和鉴别,以4 种不同品牌的酱香型白酒为研究对象,采用ICP-MS 测定了52 个白酒样品中的16 种元素含量。结果表明,不同品牌的酱香型白酒间16 种无机元素的含量呈显著正相关;CA、PCA 和PLS-DA 能将4 种品牌的酒样进行有效区分,其中偏最小二乘判别分析的区分度最好。利用PLS-DA 分析结合重要性因子(VIP 值)建立验证模型,发现Na、Ca、Al、K 等是造成不同品牌酱香型白酒差异性的主要无机元素,所建立的模型能将验证酒样与实验酒样很好的按照品牌归类。

对以上部分文献涉及的仪器分析技术、化学计量学方法、样品等相关研究总结于表1。

表1 毒物毒品分析化学计量学方法

以上研究与化学计量学结合的基本思路:(1)化学计量学方法在多指标实际问题的研究中发挥着重要作用,它可以优化相关实验的测量过程,有效地提取实验数据,建立合理的数学模型,获得有价值的信息;(2)不同算法比较表明,它们都可以应用于相似类型数据集的建模;(3)以上化学计量学方法应遵循法庭科学实验室的常规工作流程;(4)在多变量分析前必须进行数据的预处理,否则结果会出现假阳性。

2.2 微量物证分析

微量物证案件涉及油漆、纤维、射击残留物、药品包装铝塑片、口红及土壤等,借助仪器分析技术结合化学计量学方法用于检测痕量和未知样品,为鉴定人员正确的判断证物提供可靠的依据。

RISOLUTI 等[11]使用便携式NIR 仪与PCA 和PLS-DA 模型检测人手上的爆炸残留物。通过三个实验验证该方法在实际案例中的应用。在来自25个志愿者的样本中,10 个被纳入训练集,5 个用于模型验证,另外10 个用于预测。采用5 种标准材料(TNT、PETN、RDX 以及复合材料DEMEX 和M75)建立PLS-DA 模型,评价基质效应对爆炸物识别的影响。PLS-DA 验证结果为M75 提供了80%的分类率,DEMEX 为91.7%,TNT 为96.7%,PETN 和RDX 为100%。预测结果显示所有材料的分类正确率为100%。此外,使用该方法检测残留物的能力随着处理时间的增加而降低,与参考方法GC-MS 的分析结果一致。因此,在研究的爆炸物中,DEMEX和M75 在洗手后的持久性最强,而TNT 在日常活动后的抵抗力最差。

MARICET 等[12-15]使用振动光谱(VS)与PCA和LDA 来区分澳大利亚和国际车辆的清漆和底漆,最终将19 种不同类别的车漆区分开,分析结果与汽车制造商、车型以及不同的出厂日期或制造厂家有关。进一步的研究表明,如果涂层长期在环境中暴露,仅分析清漆涂层,可能会导致分类错误,尽管这些样品可能被认定为非典型样品[16-17]。这一结果对于从已知车辆中提取汽车油漆的采样,以及未知油漆与已知比较都有意义。

韩宏福等[18]采用RAMS 结合化学计量学对收集的51 个药品铝塑片样本进行分析。对同一组药品铝塑片样本可借助PCA 对光谱数据进行降维,将数据直接导入SPSS 软件中,共提取了9 个有效光谱成分,累积占原始光谱数据99.54%的有效信息,之后采用组间联接法可将第Ⅳ类样本分为22 组,依据特征峰的相对峰高比进行区分,可将51 个样本分为4 大类,通过相关性比较表明分类结果较好。

MARTA 等[19]采用ATR-IR 区分化学成分相似或相同颜色的口红。在优化的实验条件下,对20家不同厂家生产的38 种红色唇膏进行了测试。为便于鉴别和提供更合理的分析数据,使用了PCA、CA 两种技术,最终将化学成分相近的口红样本区分为9 组。此外,还对6 种不同干涉表面的口红涂片进行了分析,采用光谱减法识别单个样本。该方法建立的ATR 谱库成功地确定了样品的索引号和制造商,对颜色相近的红色唇膏的鉴别和鉴定具有很大的潜力。

CHAUHAN 等[20]探讨了热重分析结合化学计量学对土壤样品的鉴定。通过热技术实现了三个里程碑:(1)用化学解释识别热图中的模式、说明有机质稳定性与其热稳定性关系的指标的发展、以及多元统计分析在土壤地理区域预测中的应用;(2)用ATR-FTIR 观察了土壤样品的热降解过程,对获得的数据集进行标准正态变量归一化,它使不同数量的土壤样品所引起的变化最小化;(3)采用HCA 和PCA 等多元算法对土壤样品进行判别。建立LDA模型实现了对未知土壤样品的地理分类。

对以上文献涉及的仪器分析技术、化学计量学方法、样品等相关研究内容总结于表2。

表2 微量物证分析化学计量学方法

PCA 是目前应用最广泛的一种无监督技术,已成为解决法庭科学研究中分析庞大的调查任务中不可或缺的分析工具,它能将一个高阶数据矩阵变成几个主成分的正交合成变量,其目的是反映现有数据中尽可能多的差异性[21]。另外,PCA 能够在不需要数据先验信息的情况下阐明数据的潜在结构[22],因此有利于数据探索。同时,PCA 的新变体也不断被提出[23-25],以满足特定领域特有数据的需要。

关于PCA 技术方面的文献非常多[25-30],但应用策略仍然非常有限[31-35],使用时要注意以下几个方面[36]:(1)在进行数据分析时,应遵循所有的先决条件;(2)对获得的数据进行交叉验证分析;(3)在其它化学计量学方式使用之前先用PCA 来评估数据集之间的线性关系;(4)PCA 变体可满足特定领域特有数据的需求。

2.3 生物物证分析

法庭科学生物物证包括毛发、体液、骨骼、尿液等相关证据。区分血迹、毛发的来源和老化在法庭科学调查中起着重要的作用。最近的文献表明,化学计量学结合仪器分析方法在血迹及毛发调查中得到了广泛的应用。

WAEL 等[37]的研究表明RAMS 不能区分人类和动物的血迹,但2009 年他们在另一篇文章中克服了壁垒[38]。他们利用先进的统计技术,如PCA 来区分三个物种,但在区分更多的物种上还有待提高。LEDNEV 和他的团队[39-41]进一步利用RAMS 结合PLS-DA 分析,成功地将人类血液与其它11 种动物进行了准确区分。

MISTEK 等[42]利用RAMS 结合先进的统计分析,根据干燥的外周血痕迹区分白人和非裔美国人。光谱采集20 名不同性别和年龄的捐赠者,采用支持向量机判别分析(SVM-DA)对两个种族进行区分。用外循环主体交叉验证方法(CV)评估训练数据集中每个个体捐赠者的SVM 分类器的性能。通过曲线下面积(AUC)度量来评估SVM-DA 的性能,对两个种族的正确分类概率为83%,特异性和敏感性为80%。这项研究初步显示了区分不同种族人类血液的前景。DOTY 等[43-44]研究了血迹的老化时间,研究人员使用PLS 算法建立了回归模型,推断出光谱强度与血迹沉积时间(分别为一周和两年)相关。

以上部分文献涉及的仪器分析技术、化学计量学方法、样品等相关研究内容总结于表3。

表3 生物物证分析化学计量学方法

在上述研究中使用了多个化学计量学方法进行样本分类,这对于分析结果来说很有必要。PLSDA、LDA 和SVM-DA 是监督分类中最常用的分类技术,特别是SVM-DA,通常用于体液分析。

2.4 文件检验

在各类刑事、民事和经济等案件中,鉴定可疑文件(协议、遗嘱、法律文件、印刷材料)、钱币真伪等工作较为常见。随着科技的发展,计算机伪造文件的现象越来越多,也越来越容易发生,开发确定相关文件来源、特性和年代的方法逐渐受到科技工作者的重视。

ASRI 等[45]将RAMS 结 合PCA 和PLS-DA,对387 个打印文档样品(激光打印文件90 个,喷墨打印文件163 个,复印机输出文件134 个)进行了区分。初步通过RAMS 的视觉评估显示,所有碳粉样品中都存在C—C 键、芳香族键和二氧化钛。通过RAMS 光谱库对激光和喷墨打印样品进行比对,发现色素炭黑(CI-77266)用于激光和喷墨打印样品,而色素紫色19 (CI-73900)用于复印机打印样品。PCA 将样本正确划分为3 个聚类,PLS-DA 将样本正确划分为3 类。通过训练后的PLS-DA 模型,可以对15 个未知打印样本进行溯源。

OLIVEIRA 等[46]使 用SIMCA 和LDA-SPA,使用便携式NIR 对100 张真实巴西纸币和227 张假钞进行了分类。对钞票上七个不同的区域,包括两个荧光墨水区域,一个水印区域,三个凹版印刷区域和一个序列号区域进行分析,并制作了真钞和假钞的模型。PCA 显示了真假样品之间的差异,该方法尤其适用于凹版印刷纸钞的分析。SIMCA 和LDA-SPA 均能正确分类真伪钞票,而LDA-SPA 更加简单,变量选择步骤具有去除噪声和非线性的优点。这两种分类技术在常规法庭科学应用方面均具有很大的潜力。

SILVA 等[47]利用ATR-FTIR 分析了来自15 个不同年份(1985 年至2012 年)且自然老化的纸质文件,按不同纸质平均分为每年5 份,建立两个数据集,采用广义最小二乘加权(GLSW)和正交最小二乘(OLS)滤波器建立PLS 模型,以减少同期样本之间的变异性。结果表明,上述方法均能有效地缩减同期文献间的变异。

以上部分文献涉及的仪器分析技术、化学计量学方法、样品等相关研究内容总结于表4。

表4 文件检验化学计量学方法

通过上述文献了解到,初步分析文件检验数据时首选PCA,识别问题鉴定时用不同的分类技术(SIMCA、PLS-DA、SVM-DA 或ICA),PLS 可用于老化研究。

2.5 痕迹物证分析

痕迹物证的类型包括指纹、足迹、工具、枪弹和特殊痕迹。目前,痕迹物证的鉴定还依赖于从现场提取的(被质疑的)和已知的参考样本进行视觉比对。

PETRACO 等[48]利用化学计量学来评估鞋印的独特性与偶然的印记或磨损模式有关。将一个人在30 天内所穿的5 双相同品牌和风格的鞋子所留下的部分印迹,根据任何偶然标记的数量和位置,将其转换为特征向量。然后对116 个印模向量进行PCA 和DA 处理,将每个印模分配给对应的鞋子,交叉验证的准确性达到77%至100%。

PETRACO 等[49]将同样的方法应用到对工具痕迹的统计辨别上。利用图像处理程序将9 个不同螺丝刀留下的条纹标记转换为二值特征向量,再结合PLS-DA 和PCA-SVM 方法,将每个螺丝刀与其对应的印模进行匹配。通过交叉、留置和bootstrap验证来评估每个模型的分类性能,两种分类器的分类准确率均在97%以上。

以上部分文献涉及的仪器分析技术、化学计量学方法、样品等相关研究内容总结于表5。

表5 痕迹物证化学计量学方法

痕迹特征可通过计算机或痕迹专家识别出来,每一个特征都由其特征向量(特征类型、方向、相对于附近特征的位置/形状)来表示。将化学计量学应用于痕迹物证鉴定,最具挑战性的部分是自然发生的变化量(即失真)与描述非匹配源的相关人群中可能预期的变化量的正确比对。

3 结语

近年来随着法庭科学的迅速发展,多种分析技术与统计方法的相互融合显著提高了物证价值,同时新的化学计量学方法的引入有助于物证人员建立新的物证评价体系。

综述了监督模式和非监督模式识别方法在法庭科学领域中的应用,该分析技术具有快速、可靠、成本效益高、重现性好、多元素分析等优点,是可疑文件、生物样品、化学样品及其它痕迹分析的前沿技术。但在应用于实际案例之前,必须充分了解目标数据和所用化学计量方法,满足多元分析的所有前提条件,否则分析结果可能出现假阳性。

猜你喜欢

计量学模式识别物证
生物化学计量学原理在离散生物动力系统的应用
针刺治疗失眠症的文献计量学分析
“演员中心制”戏剧始于北宋的新物证
试论物证在烟草行政处罚中的适用
原野侦探课 第三节 关键物证
浅谈模式识别在图像识别中的应用
第四届亚洲模式识别会议
基于科学计量学的公安院校科研与评价
第3届亚洲模式识别会议
2004-2013年中医药治疗性早熟的文献计量学分析