最近邻法在黑色纤维比对分析的应用研究
2014-09-25吴亚宇严婷赵颖吴国萍
吴亚宇 严婷 赵颖 吴国萍
一、引言
纺织纤维是案发现场上最常见、最直接的物证。法庭科学含义上纺织纤维的比对分析是指通过对纤维样品的仪器分析、数据统计、谱图解析以及结果比对等基本环节,鉴别、判断不同地域提取的个体检材是否来源于同一总体的分析过程。通过对犯罪现场与嫌疑人处提取的纤维及其制品的比对分析,能够为案件侦破提供有力线索,为犯罪认定提供科学证据。现实中,由于受检材数量、仪器设备性能以及谱图解析技术等因素影响,纤维比对分析结果评判具有一定难度,一般只能给出两个或多个检材在某些方面相同或不同的结果。
最近邻算法是化学模式识别中有监督模式识别的一种,其基本思想是以各类样本的重心来代表这个类,计算待分类样本到各类重心的距离,归入距离最近的类。在判别分析中可采用多种距离,如欧氏距离、马氏距离等。红外光谱ATR技术结合化学模式方法鉴别中草药材的来源已取得较好效果,但未见该类方法在纤维比对分析中应用的报道。因此,本文的研究既是刑事鉴定技术理论发展的需要,也是刑事鉴定技术实际工作的要求。
二、实验部分
(一)仪器设备和参数设置
采用美国NICOLET公司的560型傅里叶变换红外光谱仪,OMNIC采样器,测定范围为4000—400cm-1,扫描次数为32次 ,分辨率为4cm-1。
(二) 样品来源
首先收集南京面料市场近500种的不同厂家不同成分的纺织面料进行红外谱图解析,运用聚类分析的方法,挑选出谱图性质很相近的8种样品,分别为黑色贡丝棉601号、604号、605号、606号、607号、608号、609号和610号。红外谱图如图一所示。
(图一:八种黑色贡丝棉纤维样品红外谱图)
(图二:601号样品测定10次红外谱图)
(图三:601号样品的平均红外谱图)
三、数据处理
(一)获取参考光谱库和检验光谱
本文对每组样品分别测定10次,从中随机取8份作为参考图谱,建立平均谱库。图二、三分别是601号样品的10次红外光谱测量图和平均谱图。另2份作为检验光谱,用以进行比较检验,确定阈值。
(二)设置阈值
阈值实际上就是对库中每一条平均参考光谱所定义的一个欧式距离限度。设置这个限度的目的就是为了选取合适的阈值,使同一种物质中所有单独参考光谱同平均参考光谱的欧式距离都小于这个限度,而库中所有其他物质光谱同这个平均参考光谱的欧氏距离都大于这个限度,也就是说阈值给平均光谱定义一个所谓的置信区间。如果代表检材光谱的点落在给定检材的置信区间内,就可认为这份检材与给定检材是相同的,反之,则是不同的。确定阈值后就可以用未知样的光谱与其平均光谱进行比较以进行同一认定。
(三)鉴定未知检材
将未知检材的红外谱图与参考库进行比对,如果未知检材光谱到参考光谱的距离只小于一种参考检材的阈值,则可以被惟一鉴定为此参考检材,也即得出同一认定的结论。
四、结果与讨论
本文随机抽取这八种纤维168张图谱作为未知样本与平这8种样品的平均光谱进行比对认定,结果如表一所示。
各组随机取样与各自的平均谱图的比较结果601组 604组 605组 606组 607组 608组 609组 610组样号 结果 样号 结果 样号 结果 样号 结果 样号 结果 样号 结果 样号 结果 样号 结果601-4 95.90% 601-1 84.76% 601-1 81.13% 601-2 79.97% 601-4 90.22% 601-5 96.90%* 601-2 78.27% 601-10 95.15%601-7 95.51% 601-3 74.85% 601-3 83.05% 601-4 96.68% 601-2 77.31% 601-2 94.16% 601-5 92.17% 601-3 82.43%604-3 94.44% 601-7 84.83% 601-7 83.74% 601-5 93.36% 601-5 93.37% 601-8 84.87% 601-8 94.26% 601-8 93.28%604-5 84.08% 604-4 96.66% 604-10 83.23% 604-1 97.56%* 604-2 93.43% 604-1 92.56% 604-2 92.37% 604-2 94.26%604-9 82.30% 604-7 96.69% 604-3 95.56% 604-3 96.41% 604-6 93.15% 604-3 89.30% 604-4 91.48% 604-5 92.65%605-2 94.99% 605-10 95.07% 604-7 92.11% 604-9 88.21% 604-8 84.36% 604-7 90.52% 604-5 88.25% 604-8 91.78%605-7 94.35% 605-4 94.10% 605-1 97.90% 605-1 96.99% 605-3 70.33% 605-10 96.35%* 605-3 85.90% 605-4 91.87%605-8 91.95% 605-6 95.08% 605-2 97.13% 605-2 95.93% 605-5 79.02% 605-2 91.08% 605-7 94.21% 605-2 84.23%606-3 92.12% 606-3 81.89% 606-3 79.81% 605-9 97.53%* 605-4 79.81% 605-4 85.76% 605-8 92.67% 605-9 94.11%606-5 92.03% 606-5 91.13% 606-6 88.31% 606-6 97.51% 606-5 82.15% 606-6 86.96% 606-10 86.84% 606-2 87.36%606-9 94.32% 606-6 82.74% 606-8 93.16% 606-9 97.73% 606-3 91.38% 606-8 74.19% 606-6 91.57% 606-7 96.23%607-5 77.91% 607-1 94.53% 607-2 88.63% 607-4 94.41% 606-6 92.51% 606-2 93.08% 606-3 92.16% 606-9 86.32%607-8 93.48% 607-2 91.53% 607-4 80.37% 607-5 86.92% 607-3 96.58% 607-4 91.55% 607-2 78.62% 607-3 91.27%607-9 92.88% 607-9 88.33% 607-6 87.85% 607-8 94.69% 607-6 96.91% 607-6 92.72% 607-3 87.25% 607-7 89.67%608-3 91.25% 608-10 86.27% 608-2 78.43% 608-3 90.99% 608-2 79.45% 607-8 96.88%* 607-7 80.75% 607-9 87.25%608-5 89.07% 608-4 79.54% 608-7 89.61% 608-7 86.52% 608-6 91.25% 608-5 96.89% 608-3 91.34% 608-10 86.47%608-7 92.65% 608-6 83.46% 608-5 93.76% 608-2 95.11% 608-8 95.66% 608-9 96.76% 608-6 84.28% 608-6 95.63%609-1 84.57% 609-3 91.28% 609-1 92.17% 609-4 93.56% 609-3 76.98% 609-4 82.60% 608-8 93.16% 608-8 93.78%609-3 93.14% 609-6 91.56% 609-4 95.69% 609-7 91.86% 609-6 90.04% 609-9 90.64% 609-2 95.26% 609-7 87.26%609-6 88.39% 609-7 81.64% 609-8 78.24% 609-3 89.57% 609-7 78.32% 609-1 91.55% 609-7 95.37% 609-2 91.62%
(表1:八种纤维未知样与已知样的比对结果。带*为比对不准确的样品,黑体为同组检验光谱)
(一)不同种类纤维阈值的确定
1.从表一看出,601-4和601-7光谱与平均光谱的相似度为95.90%和95.51%,而其他样品的谱图与平均光谱的比对结果均小于95%,所以就取95%为601号样品阈值。
2.从表一看出,604-4和604-7光谱与平均光谱的相似度为96.66%和96.69%,而其他样品的谱图与平均光谱的比对结果均小于96%,所以就取96%为604号样品阈值。
3.从表一看出, 605-1和605-2光谱与平均光谱的相似度为97.90%和97.13%,而其他样品的谱图与平均光谱的比对结果均小于97%,所以就取97%为605号样品阈值。
4.从表一看出,606-6和606-9的光谱与平均光谱的相似度为97.51%和97.73%,除604-1和605-9外,其他样品谱图与平均光谱的比对结果均小于97.5%,所以就取97.5%为606号样品阈值。
5.从表一看出,607-3和607-6光谱与平均光谱的相似度为96.58%和96.91%,而其他样品的谱图与平均光谱的比对结果均小于96%,所以就取96%为607号样品阈值。
6.可从表一依次推出,608、609和610这三种纤维样品阈值应分别为96.5%,95%,97%。
7.从表一可看出168份未知样只有带*号的4份谱图与已知样本的平均谱图的相似度高于阈值,因而可推断比对的准确性为97.6%
8.阈值确定本文研究的关键,一方面希望设置值应尽可能高,能使已知检材光谱都能够在此阈值之内,只有这样才能进行正确鉴定;但另一方面,也希望设置能够尽可能低,只有这样才能将不属于同一类检材而又具有相似光谱特征的检材区别开来。因此,在设置时,必须在忽略检材本身之间差异和测量过程中误差能够产生误判之间获得一个平衡点,也就是要求每一种检材都必须收集多条单独的光谱,借助多种算法优化阈值。
(二)平均光谱的确定
每一来源检材只要一条光谱,但实际测量中,由于测量技术变化影响,同一检材的光谱也可能会出现细微的差别。因而获得参考光谱库的过程包括得到同一检材不同部位的多条光谱,其中包括对同一部位的多次测量,然后用这些单独光谱来产生一条平均光谱。平均光谱包含同一检材不同部位及每次测量中带来的变异信息,因而它比任何用来产生平均光谱的单独光谱都具有代表性。在下一步的研究工作中要进一步补充表一数据中带*号样品所对应的参考光谱数据即606号和608号样品的代表性,使得该组样品的参考光谱特征更为明显。
五、结论
本文通过对南京面料市场近500种的不同厂家不同成分的纺织面料进行红外谱图解析,运用聚类分析的方法,挑选出谱图性质很相近的8种样品的红外光谱的指纹特征的数据化处理,运用有监督模式识别算法,对分析数据进行数据的空间处理,从中抽出红外指纹特征信息,并转换为参考物的形式,同时确定该物质的阈值。通过实验和大量的数据处理,证实了该方法为纤维种类的鉴别中的准确性达到97.6%以上,这为纤维种类的鉴别提供了新的思路。