基于径向基函数的水性木器漆喇曼光谱鉴别
2020-11-11季佳华王继芬王冠翔卫辰洁高舒娴
季佳华,王继芬,王冠翔,卫辰洁,高舒娴
(中国人民公安大学 侦查学院,北京 100038)
引 言
木器漆是犯罪现场常见的微量物证之一,主要附着在作案工具和犯罪嫌疑人的衣服上,通过对木器漆的同一认定可确定犯罪嫌疑人是否出现在犯罪现场,为侦查活动提供线索和方向,为快速侦破刑事案件提供一种手段。木器漆主要分为水性木器漆[1-2]和溶剂型木器漆[3-4],水性木器漆的成分一般包含水、乳液、颜填料和各种助剂,溶剂型的成分一般包含树脂、颜填料、溶剂和各种助剂[5-6]等。水性木器漆具有低危害、低污染的环保特点;而溶剂型木器漆含苯,甲醛和二甲苯等对人体产生危害的物质[7]。随着人们生活质量的提高,水性木器漆因其绿色环保的优点被广泛使用,溶剂型木器漆逐渐退出市场。然而,在法庭科学领域,关于水性木器漆的研究相对较少,如何快速简单准确的对水性木器漆进行分析鉴别成为物证鉴定工作的重点之一。
傅里叶变换喇曼光谱仪的激发装置是长波近红外激光器,再用迈克尔逊干涉仪调制分光,将近红外激发喇曼技术与傅里叶变换技术相结合。与显微激光喇曼光谱易产生荧光效应不同,傅里叶变换喇曼光谱能有效抑制荧光效应,从而可对某些含荧光或对光不稳定的化合物进行分析,具有光谱范围宽、速度快、谱图重现性好和无损分析的特点[8-10],在激光应用[11-12]、化学[13-14]、生物医学[15-16]和高分子结构研究[17-18]等领域有广泛应用。BUZZINI等人[19]应用喇曼光谱结合多种激光波长对不同颜色的丙烯酸、棉和羊毛纺织纤维进行了有效区分。ZIEBA-PALUS等人[20]将喇曼光谱与红外光谱结合对刑事案件中出现的油漆进行分析,确定参与事故的车辆。WU等人[21]利用喇曼光谱对脐带血红细胞与先天性心脏病患者红细胞进行对比分析,结果表明,两者喇曼光谱之间有较明显的特征差异,为提高新生胎儿先天性心脏病的检出率提供了技术支持。
本文中采集了3种品牌38个样品的光谱数据,通过数据的预处理,结合主成分分析对原始数据进行降维,再利用径向基函数将主成分分析后的主成分分数进行验证分析,选取准确率与召回率最优的维度建立分类模型,并对得到的模型结果进行讨论,以期为水性木器漆的快速有效鉴别提供一定的参考和借鉴。
1 实 验
1.1 实验样本
本实验中选取了市场上常见的晨阳(CHENYANG,CY)、华彩士(HUACAISHI,HC)和雀尚(QUESHANG,QS)三大品牌,其中晨阳样品12个,华彩士样品19个,雀尚样品7个,总共38个样本。表1是从不同品牌随机抽取两个不同型号,共6个样本的基本信息。其它样本数据略。
Table 1 The details of 6 samples
1.2 建模原理
主成分分析(pincipal component analysis,PCA)是一种有效的降维方法[22]。其基本思路是将高维度数据的特征映射到低维度上,且映射后的数据特征具有两两正交的特点,是从原有高维特征的基础上根据数据的特点重新构造出来的,所得到正交的低维特征就是主成分。PCA的工作原理就是在原始复杂的数据基础上,将方差最大的方向作为主成分分数的第1维,再以此维度垂直的平面上确定一个方差最大的方向作为第2维,第3维选择与前两维正交的平面中方差最大的坐标轴。同理,再经过多次重新选择,得到新的数据模型。在新的数据模型上发现,前k个方向上的累计方差无限接近100%,余下的方差和几乎为0。于是,对后面影响极小的特征忽略不计,只对前k维特征作为主成分进行保留。
径向基函数(radial basis function,RBF)是一个实值函数,它的值与到中心点的位移有关,一般RBF使用欧几里得度量及高斯函数,令μi为隐藏层中第i个节点的高斯函数中心点,取:
(1)
式中,x为自变量,σ2为方差。
把(1)式代入高斯函数的公式,则有:
(2)
最终的输出结果为:
(j=1,2,…,P;P (3) 实验中采集的原始光谱数据存在维度较高、部分数据异常(偏离期望值)。为提升数据处理的速度并得到更加容易理解的结果,采用PCA对原始数据进行分析,对高维数据中的重要特征进行保留,降低变量的维度,削弱部分异常数据和噪声的干扰,实现对数据深度挖掘的目的。分析得到38个样品的主成分特征根方差贡献率。 在主成分分析中,一般把特征根大于1,累计方差贡献率大于85%的作为原始变量的主成分分数,特征根是主成分影响力度的重要指标[23],特征根越小,其方差贡献率越低,对数据的整体特征影响可忽略。表2中是PCA分析后的前20个维度的特征根方差贡献率。PCA 1,PCA 2,PCA 3,…,PCA 14的特征根都大于1,其累计方差贡献率为99.604%,即前14个主成分反映了38个样本99.604%的特征信息,说明PCA分析后的数据可作为特征变量建立分类模型。剩余主成分数据略。 Table 2 Total variance explanation of PCA 特征根大于1且累计方差大于85%的主成分可提取并建立分类模型,但并不是绝对的,要根据具体情况进行综合判断。为了检验分类模型的准确度,通过RBF进行验证分析。为保证RBF验证分析的准确性,输入层将主成分分析后前37个主成分PCA 1,PCA 2,PCA 3,……,PCA 37作为变量因子,采用递增方法对隐层的神经元个数进行确定,从零开始,对神经元个数的逐个增加实现最大限度的降低误差,如果不满足网络设计精度则重复上述操作[24],直到满足精度。选择随机生成种子数为229176228,防止过度拟合集合为30.0%,当满足精度或者达到最大神经元个数时,模型终止,构建RBF水性木器漆分类的标准模型。 选取最优维度下这15个主成分作为特征变量进行分析。为了清楚地看出哪些特征变量的重要性相对更高,对这些变量的特征重要性展开分析。特征变量重要性是依据决策树中节点的增益来判断的,某个特征作为节点的次数越多,重要性越高[25]。分析得到该维度下的特征变量重要性(见图1)。 Table 3 Precision and recall in different dimensions 从图1中容易看出15个特征变量在做分类预测时的重要程度。特征12为区分贡献最大的特征,其重要性达0.13;其次为特征6,重要性为0.09;特征9的重要性为0.08;特征11和特征14重要性相同,都是0.07;特征13、特征3、特征8、特征10、特征15、特征5和特征7的重要性相同,都为0.06;特征4和特征1的重要性同为0.05;特征2的重要性最小,重要性为0.04,对模型区分的贡献最低。 Fig.1 Significance chart of characteristic variables 选取特征变量重要性较高的特征12、特征6和特征9做RBF分析,发现正确率也是78.9%,所以只需要对这3个变量构建分类模型,可提升模型的计算速度。为了验证最优变量分类结果的优越性,将基于这3个变量分类结果的准确率与召回率与全波段的进行比较(见表4)。 Table 4 Classification results of all-band data and optimal variable data 从表4中看出,CY在全波段的准确率为75%,召回率为42.9%,最优变量的准确率不变,召回率相比比全波段高32.1个百分点;HC在全波段的准确率为68.4%,召回率为76.5,最优变量的准确率为78.9%,召回率为88.2%;QS在全波段的准确率为85.7%,召回率为0,最优变量准确率为85.7%,召回率为66.7%,分析认为,最优变量数据的分类模型结果理想,比全波段更有说服力。 通过RBF分析,得到37维下的准确率与召回率,选取最优维度(总体正确率最高)下具有代表性的3个特征变量构建RBF分类模型,再把分类结果与全波段数据的分类结果进行对比,发现最优变量的分类效果更好,科学有效地提高了模型的计算速度和准确率,实现了对37个木器漆样品快速有效分类。 本实验中利用傅里叶变换喇曼光谱结合主成分分析和径向基函数神经网络,对水性木器漆进行识别与分类,在快速检验、不损坏检材的前提下,构建RBF分类模型并对获得的数据进行分类鉴别,实现了对水性木器漆的有效分类。同时发现,降维后的总正确率为78.9%,导致正确率较低的原因可能是实验样本量的不足,训练样本集在建立分类模型的过程中不能精准地将相同品牌的特征总结。虽然本实验的样品量有限,但还是为法庭科学领域中水性木器漆的分类研究打开了新的方向。水性木器漆是犯罪现场中常见的物证之一,后期将针对水性木器漆的分类开展进一步研究,从实验方法和数据处理等多个角度寻找突破口,最终实现对水性木器漆的精准分类。2 结果与讨论
2.1 主成分分析
2.2 RBF分析
3 结 论