X射线荧光光谱结合多元分类模型鉴别橡胶鞋底
2022-06-05林凡琦王嘉庚
林凡琦, 姜 红*, 王嘉庚, 满 吉
(1.中国人民公安大学侦查学院,北京 100038;2.北京市公安局丰台分局,北京 100071;3.北京华仪宏盛技术有限公司,北京 100123)
橡胶作为常见的鞋底制作材料,是法庭科学中的常见物证。对现场提取的橡胶鞋底微量物证进行比对检验,可以为划定侦查范围、确定或排除嫌疑人提供依据。橡胶鞋底材料是高分子混合物,其中既含有天然橡胶成分,也含有顺丁橡胶、异戊橡胶、丁苯橡胶等合成橡胶成分[1]。橡胶鞋底成分多样,制造工艺不同导致其内部成分不均匀,这对橡胶鞋底中有机成分的检测造成困难。在生产过程中厂家为了适应不同的使用需求,会在橡胶鞋底制作中加入硫化剂、促进剂、补强剂、填充剂、防老剂等添加剂[2],这使得橡胶鞋底中含有大量金属元素,且具有易检测、出现率高、成分稳定的特点。由于不同鞋种、不同品牌的橡胶鞋底所用的添加剂和其它助剂不同,所含金属元素也就不同,这为利用无机元素检测区分不同橡胶鞋底提供了条件。
目前法庭科学对于橡胶物证的检验方法,主要有红外光谱法[3]、拉曼光谱法[4]、裂解气相色谱法[5,6]、X射线荧光光谱法[2]等。X射线荧光光谱法是利用高能的X射线照射样本,根据发出的具有一定特征的X射线光谱确定元素种类的一种光学检验技术。X射线荧光光谱仪能够根据样本中各元素能量的高低来测定各元素的量,实现对样本中无机元素成分的定性与半定量,在土壤检测[7]、材料成分辨别[8]、矿业勘探[9]等领域都有广泛应用。在公安实践中,因为X射线荧光光谱具备检验过程无损、分析速度快、灵敏度高的特点,被广泛用于文件检验[10]、理化分析[11]、爆炸现场勘查[12]等方面。已有研究针对X射线荧光光谱法检验橡胶鞋底进行实验,但主要停留于定性分析层面,在公安实践中的应用效果有限[13,14]。本实验利用X射线荧光光谱法对50个不同品牌、不同鞋种的橡胶鞋底样本进行检验,并结合多元分类模型实现对不同鞋种样本的有效区分,可为现场快速鉴别橡胶鞋底微量物证提供参考。
1 实验部分
1.1 仪器及条件
X-MET8000能量色散型荧光光谱仪(日本,日立公司)。靶极为Rh阳极靶,工作电压为45 kV,工作电流为40 μA,检测时间为60 s。
1.2 实验样品
不同品牌、不同鞋种的橡胶鞋底样本共50个,其中包括皮鞋样本25个,休闲鞋样本11个,篮球鞋样本5个,跑鞋样本2个、足球鞋样本3个、拖鞋样本4个,共30个品牌。具体样本信息如表1所示。
表1 50个橡胶鞋底样本列表
1.3 实验方法
用手术刀切取厚度在2~3 mm左右,面积约1 cm×1 cm大小的橡胶鞋底碎块,分别进行装袋并编号记录。将处理好的样品分别放置在测试台上,在上述的相同实验条件下,对样品分别进行3次测定后,取平均值。
1.4 实验建模
多层感知器(MLP)神经网络是一种前向结构的人工神经网络,包含输入层、输出层及多个隐藏层。网络数据由输入层向下层传输,由隐藏层中带有激活函数的神经元对输入数据进行计算,同时将信息传递至输出层[15]。MLP作为一种高度并行的信息处理系统,对于系统的参数变化及外界干扰都有很好的鲁棒性,被广泛用于解决各种分类问题[16,17]。
二元logistic回归是一种广义的线性回归分类模型,适合数值型的二值型输出的拟合,常用于疾病诊断、经济预测等领域。其基本原理为:以Y表示二分类反应变量,假设自变量为m个,记为X1,X2,X3,…Xm。设P=(Y=1),则构建logistic模型如下:
(1)
其中,β0为常数项(截距),βi为自变量Xi的回归系数。当e(β0+β1X1+β2X2+…+βmXm)在(-∞,+∞)之间变动时,P在0到1之间变动。可据此分析反应变量和自变量之间的关系,并计算变量取特定值的概率[18]。
Fisher线性判别分析是一种常见的以统计模型进行模式识别的方法。其思想为:将原来在R维空间的自变量组合投影到维度较低的D维空间上,再根据类间差异最大、类内方差最小的原则建立线性判别方程。
2 结果与讨论
2.1 自变量与协变量选择
皮鞋是最常见的检材之一,故主要研究建立的模型对于皮鞋类橡胶鞋底与其他鞋种橡胶鞋底的区分。以X射线荧光光谱检验所得各橡胶鞋底类样本中稳定出现的元素为自变量建立MLP模型,得到样本重要性正态化分布图如图1所示。分析图1可知,Fe、Pb、Zn元素对于模型构建的影响相对较大。
图1 自变量重要性图Fig.1 Importance of independent variables
实验以样本中稳定出现的元素为自变量建立二元logistic 回归模型,对各自变量的显著性进行统计分析。结果见表2,其中1单位Exp表示每增加1个单位目标变量,模型判定为“是”的可能性增加1倍。分析表2可知,Cu、Pb、Zn元素的显著性均小于0.1,可以显著影响模型分类结果。综上所述,实验选择以“是否为皮鞋类样本”作为因变量,Pb、Fe、Zn、Cu元素为协变量构建模型。
表2 自变量显著性分析
2.2 分类模型结果比对
分别构建基于MLP、二元logistic回归和Fisher判别的分类模型,得到橡胶鞋底样本在3种模型下的识别率如表3所示。在MLP模型中,皮鞋类样本实现了全部归类,非皮鞋类样本的识别准确率为88%,总体识别准确率为94%,其分类结果较理想;二元logistic回归模型总体分类准确率达86%,皮鞋类样本归类准确率为84%,而非皮鞋类样本的归类准确率为88%;Fisher判别分析模型对于皮鞋类样本的归类准确率为84%,非皮鞋类样本归类准确率仅64%,总体准确率为74%,分类结果不理想。结果表明,MLP模型对于橡胶鞋底样本种类的区分能力明显高于另外两种。Fisher判别分析的结果则表明,将高纬度特征进行降维处理,按照同一类别投影尽可能靠近,不同类别投影尽可能分离的数据识别方式,难以对皮鞋类橡胶鞋底样本与非皮鞋类橡胶鞋底样本进行有效区分。
表3 不同模型分类结果
3种分类模型的误分样本基本信息如表4所示。分析表4可知,相较于Fisher判别分析与二元logistic回归,MLP模型对于篮球鞋样本与皮鞋样本都有更好的识别准确率。与前者相比,后二者模型对于非皮鞋类样本的分析判别能力较弱,判断这与样本的不平衡有关。非皮鞋类样本种类各样,相互之间存在一定不同,这为模型的识别增加了难度。MLP模型在这类因素的干扰下,显示出更好的鲁棒性。
表4 误分样本信息
2.3 模型误差分析
实验中3种分类模型均无法正确识别26#样本,MLP模型无法正确识别4#、37#样本。这3个样本中,4#与26#样本为跑鞋,37#样本为军用底材质的休闲鞋。上述误分样本的特征元素含量见表5。
表5 误分样本元素含量(μg/g)
分析表5可知,样本4#、26#中含有的Pb元素较少,与皮鞋类样本的Pb元素含量接近,由于Pb元素在模型中的显著性达0.061,对于分类结果的影响大,故判断这是导致分类错误的主要原因。后续可相应增加跑鞋类样本,训练提高模型对此类样本的区分能力。样本37#与其他休闲鞋样本相比Pb元素含量较少而Cu元素含量较高,与皮鞋类样本接近,判断是因为样本37#为军用底休闲鞋,其加工材质与皮鞋类鞋底样本相近。
3 结论
本实验利用X射线荧光光谱技术对50个不同橡胶鞋底样本进行了检验,通过多元分类模型对样本进行准确识别和分类,并依据自变量显著性筛选出了影响皮鞋类橡胶鞋底样本识别的主要特征元素。结果表明,相较于Fisher判别分析和二元logistic回归,多层感知器神经网络对于外界与样本自身因素干扰有更好的鲁棒性,其模型总体识别准确率达94%,皮鞋类样本归类准确率达100%,实验结果理想。本文提出的将X射线荧光光谱与多层感知器神经网络算法相结合构建橡胶鞋底分类模型的方法,可以实现对现场提取的橡胶鞋底微量物证的快速、无损检验,具有一定的实践价值,能为后续的侦查提供方向。在后续实验中,可针对性扩大不同鞋种橡胶鞋底样本的容量,提高识别模型的准确性。