基于多层感知器-Fisher判别分析的车用保险杠红外光谱鉴别
2019-11-15何欣龙王继芬李青山何亚姜晓佳李超彭山珊
何欣龙 王继芬 李青山 何亚 姜晓佳 李超 彭山珊
摘要:利用光谱检测和数据分析实现不同种类汽车保险杠碎片的快速无损检测和精确识别与分类具有重要的意义,采集8个品牌共计38个汽车保险杠碎片的红外谱图,预处理采用自动基线校正、峰面积归一化、多元散射校正和Savitzky-Golay平滑,通过小波阈值进行去噪处理,借助主成分分析(PCA)提取特征變量,建立基于多层感知器(MLP)的Fisher判别分析(FDA)分类模型。实验结果表明:数据在20维矩阵上特征提取最好,包含的信息量足够大,MLP模型对样本种类的识别准确率为74.70%,在20维特征数据上构建FDA模型,求得Z,和Zz判别函数式以及各样本分布散点图,其中35个样本实现了正确的区分和归类,分类准确率为92.1%,相比较单一MLP模型,MLP-FDA区分能力更强、精度更高。综上,将红外光谱技术与MLP-FDA模型结合可以实现对车用保险杠碎片的快速无损鉴别,且模型检测精度高,方法具有普适性和借鉴意义。
关键词:车用保险杠碎片;红外光谱;多层感知器;Fisher判别分析;鉴别
中图分类号:0433.4 文献标志码:A 文章编号:1674-5124(2019)05-0074-05
收稿日期:2018-11-21;收到修改稿日期:2018-12-25
基金项目:中国人民公安大学2019年度基本科研业务费重点项目(2019JKF223);中国人民公安大学2019年拔尖人才培养专
项资助硕士研究生科研创新项目(2019ssky003)
作者简介:何欣龙(1994-),男,甘肃天水市人,硕士研究生,专业方向为刑事技术。
通信作者:王继芬(1964-),女,北京市人,教授,硕士生导师,主要从事微量物证与毒物毒品分析方面的研究。
0 引言
汽车保险杠碎片是交通事故现场常见的微量物证,在诸多交通肇事案件中,通过对保险杠碎片进行比对检验,可为确定或排除有关车辆的事故责任提供依据。因此,在法庭科学理化检验中,利用光谱检测和数据分析实现不同种类汽车保险杠碎片的快速无损检测和精确识别与分类具有重要的意义。
汽车保险杠[1]主要成分有聚碳酸酯(PC)、聚对苯二甲酸丁二醇酯(PBT)和聚烯烃类热塑性弹性体(TPO)等。其中聚碳酸酯分子式为(C15H16O2·CH2O3)x,分子量为290.313,质量轻,强度高,具有高抗冲性和优良的尺寸稳定性[2];聚对苯二甲酸丁二醇酯分子式为(C12H12O4)x,分子量为220.2213,分子结构对称,具有高度结晶性、高熔点、高机械强度和耐化学试剂性[3];聚烯烃类热塑性弹性体具有良好热塑性,耐压缩变形和耐磨耗等较差[4]。针对汽车保险杠的研究目前主要涉及其安全性能和材料研发,缺乏在司法鉴定领域对其种属归类的研究,面对交通肇事案件中嫌疑车辆的认定和识别,车辆保险杠碎片的快速无损检测和精确识别与分类显得尤为重要。
红外光谱分析技术作为物证鉴定领域有力的工具之一,其特征性高,应用范围广,分析速度快,用样量少且不破坏样品[5-6]。将红外光谱技术与化学计量学方法相结合,建立具有高准确预测能力的数学模型,开展对物证的精确识别与分类是当下司法鉴定工作者研究的重点方向。王菊香[7]等借助红外光谱与偏最小二乘法测定了航空润滑油中磷酸三甲酚酯,模型的相关系数为0.997,校正偏差为0.021,具有良好的预测能力。刘猛[8]等借助红外光谱和化学计量法对激光打印文件使用的墨粉种类展开了研究,实验发现模型分类效果可以达到100%,可以实现激光打印墨粉的快速种类鉴别。Cyril Muehlethaler[9]等使用多元统计方法和红外光谱法对3种颜色的74个喷涂油漆进行了鉴别和分类,发现红外光谱可以有效区分样本,借助软独立建模实现了95%的分类正确率,这为喷漆案件中相关物证的鉴别提供了一种研究思路。
汽车保险杠碎片是高分子混合物,不同品牌和型号的碎片在组分和配比上会存在差异,它是多个维度方向上的差异,同时样本数量较多时,借助谱图直接分析不仅主观误差较大而且耗时耗力,此外成分的混杂使得谱图之间交叉混淆现象较多,无法直接实现对样品合理地区分。基于此,本实验借助衰减全反射傅里叶变换红外光谱仪获取汽车保险杠红外光谱,同时以光谱数据为基础,借助化学计量学分析,建立基于多层感知器神经网络的Fisher判别分析(MLP-FDA)的分类模型,以期为红外光谱法对汽车保险杠进行快速无损鉴别提供参考。
1 实验
1.1 仪器及样本
采样时,以“经济、科学和可用”为原则,经济:选择日常使用的乘用车车体,从整体中采集部分做分析鉴定;科学:选择保险杠的前段、左右两侧共计3处位置切取样本,每处选择3块位置,避免任意抽取一部分做分析所带来的误差;可用:获取样本实施操作简便。
采用Nicolet 5700型傅里叶变换红外光谱仪和衰减全反射附件(Thermo Fisher Scientific公司),光谱数据处理软件OPUS德国Bruker公司),AIR样品槽为金刚石晶体,探测器为氖化三甘氨酸硫酸酯(DTGS,Thenno Fisher Scientific公司),分束器为KBr(Thermo Fisher Scientific公司),扫描次数为32次分辨率为4cm-1,光谱采集范围为4000~350cm-1,每个样本采集3次光谱曲线,进行重复性检验,而后取均值作为实验样本光谱数据,实验温度为(28±1)℃,相对湿度为52%。
从汽车制造厂家收集的奥迪(Audi)、福克斯(Focus)、骊威(LIVINA)、雪铁龙(Citroen)、雪佛兰(Chevrolet)、奇瑞(Chery)、福特(Ford)和丰田(TOYOTA)8个品牌,共计38种汽车保险杠碎片,见表1。
1.2 实验方法
获取样本红外光谱数据,实际获得的光谱数据含有大量的冗余信息和噪声,会加大模型的计算复杂度,因此降低精确度,削弱噪声区间和干扰区间的权重尤为重要。对采集到的红外光谱数据进行有针对性的筛选,可以使检测、分析、识别过程更加准确、迅速[10]。针对全波段光谱数据,本实验选择自动基线校正、峰面积归一化和多元散射校正操作,采用Savitzky-Golay算法平滑譜图,光谱波数首尾部分400~350cm-1和4000~3000cm-1噪声较大,将以上部分剔除,剩余部分采取小波阈值去噪的方法进行处理,将光谱曲线分解层数设定为4层,阈值处理方法选定软阈值,阈值估计方法设定为启发式阈值选择法,对小波系数进行阈值处理,并进行信号重构[11]。选择Z标准化方法,消除光谱数据量纲不一致影响,借助主成分分析(PCA)提取特征变量,建立以基于多层感知器神经网络(MLP)分析结果的Fisher判别(FDA)分类模型。
1.3 实验建模
多层感知器神经网络是一种前馈式神经网络,其能够以任意精度逼近任意连续函数及平方可积函数,而且可以精确实现任意的有限训练样本集,包括输入层、隐藏层(一个或一个以上)和输出层,其中输入层是将特征向量输入神经网络,隐藏层即将输入映射到输出,常用 sigmoid函数或者tank函数,输出层即输出模型分类结果,可以理解为是一个多类别的逻辑回归,即softmax函数,一个完整的表达式为:
Y=F2[Wmj·F1(Wjn·X)](1)式中:X——输入向量X=(x1,…,xk,…,xn);
Y——输出向量Y=(y1,…,yk,…,ym);
Wjk——输入层第k个神经元与隐藏层第j个
神经元之间的连接权;
Wij——隐藏层第J个神经元与输出层第i个
神经元之间的连接权;
F1——隐藏层的激活函数;
F2——输出层的激活函数[12]。
Fisher判别是一种较为有效的分类方法,其主要思想是将多维数据投影到某个方向上,将类与类之间尽可能分开,类内尽可能聚合,然后选择合适的判别规则对未知样品进行分类判别[13-14]。Fisher判别函数一般可以表示为:
f(x)=CjTx,j=1,2,…,m(2)式中:CjTx——判别函数系数矩阵;
f(x)——判别函数;
x——判别指标值;
j=1时,f——第1判别函数,依次类推[15]。
2 结果与讨论
表2为PCA方差贡献率摘要,特征根大于1,说明该主成分的解释力度比引入一个原变量的解释力度大,反之则小。方差贡献率一般大于85%才能较好解释原始基本信息。前5个主成分累积方差贡献率为96.142%,表明光谱中存在着严重的共线性现象,其解释变量之间存在精确相关关系或者高度相关关系,会使后期的分类模型预测失真或者不准确,本实验选用PCA降低维度,通过坐标转换,对矩阵中包含的变异信息进行抽取和分离。
借助主成分分析,选择降维后的5维、10维、15维、20维、25维和30维特征数据,应用多层感知器(MLP)构建分类模型,对8种品牌的汽车保险杠碎片展开识别工作,求得不同维度下分类模型的识别准确率(见表3)。
由表3可知,PCA降维提取的20维特征数据结合MLP识别准确率最高,为74.7%,5维特征数据结合MLP识别准确率最低,为21.10%,主要原因可能是原始数据经PCA方法降维后,数据在20维矩阵上特征提取较好,包含的信息量足够大,在5维、10维和15维矩阵上包含的信息量较少,特征信息损失较多,无法准确解释保险杠碎片包含的主要信息,而在25维和30维矩阵上信息的无关特征和冗余特征较多,这增加了训练过程的时间,影响了模型的性能,降低了分类精度。综上,选择20维特征数据,借助Fisher判别分析,构建分类模型,通过计算得到了判别函数摘要,前7维特征数据的函数系数见表4。
由表4可知,实验建立了2个判别函数,1维特征上函数Z1和Z2的系数为0.218和0.713,2维特征上函数Z1和Z2的系数为0.665和0.669,两个判别函数分别是:Z1=0.218X1+0.665X2-0.281X3-1.094X4+0.394X5-0.188X6+0.288X7+0.851X8+1.439X9+0.792X10-0.193X11-0.540X12+0.469X13+0.792X14-0.759X15-0.93X16+0.354X17+0.568X18-1.336X19-0.404X20,Z2=0.713X1+0.669X2+0.591X3-0.18X4-0.543X5+0.686X6+0.015X7+0.282X8-0.158X9-0.454X10-1.17X11-0.537X12-0.347X13+0.095X14+0.713X15+0.818X16+0.458X17-0.098X18-0.322X19-0.236X20,以函数Z1和Z2为判别轴,建立在判别函数上的各品牌保险杠碎片分布图(见图1)和分类模型摘要(见表5)。
图1可以直观看出8类样本的分布情况,各品牌车型保险杠碎片之间有着较为明显的区分,类别1是奥迪车型的保险杠碎片,其分布较为集中,收敛程度较大,类别2是福克斯车型的保险杠碎片,其分布较为分散,且有一个样本(三厢125自动超能风尚型)被分在了类别3,分析原因可能是类别2样本数较少,模型对其区分能力较低,类别3是骊威车型的保险杠碎片,类别4是东风标致车型的保险杠碎片,其与类别2样本之间的区分程度较低,类别5是雪佛兰车型的保险杠碎片,类别6是奇瑞车型的保险杠碎片,类别7是福特车型的保险杠碎片,类别8是汉兰达车型的保险杠碎片,其分布较为集中。在图1中,第1类样本重心坐标为(1.664,-0.838),第2类样本重心坐标为(-0.247,1.379),第3类样本重心坐标为(-3.047,2.962),第4类样本重心坐标为(-0.368,1.066),第5类样本重心坐标为(-4.095,-2.585),第6类样本重心坐标为(7.293,3.434),第7类样本重心坐标为(6.456,-4.554),第8类样本重心坐标为(-1.446,-2.781),当需解决未知样本的归属问题时,借助判别函数Z1和Z2可计算出未知样本的具体坐标,再计算出与各类别重心的距离,便可得知其归属于哪一类别。
表5可知,本分类模型准确率为92.10%,误判率为7.90%,有3个样本(即福克斯三厢125自动超能风尚型、Q72010款技术型和东风标致3082012款MT优尚型)分类错误,分析原因可能是福克斯和东风标致样本数太少,模型对两者的区分能力较弱,针对奥迪Q72010款技术型,借助谱图展开解析以确定其所属类别(见图2)。
图2中,红色曲线为福克斯车型的保险杠碎片,绿色曲线为奥迪Q72010款技术型车的保险杠碎片,橙色曲线为奥迪车型的保险杠碎片,3个车型前保险杠红外谱图在一定波段有相似处,但同一类型吸收峰在强度和位置甚至形状上都有明显的差异,已知本实验是在控制外因基本相同的条件下进行的,由此而产生的红外谱图之间的差距,可以成为用来推断3者在物质的种类和含量上差异的依据。
在2949cm-1到2849cm-1之间,样本均有3个尖峰,均存在C-H的对称伸缩和不对称伸缩振动,其中,福克斯样本和奥迪Q7样本在2949cm-1到2849cm-1等几处的C-H的对称伸缩和不对称伸缩振动强度明显大于奥迪样本,且在福克斯样本中1454cm-1、1369cm-1两处强度略高的吸收峰为甲基及亚甲基吸收峰,并结合前文分析很可能是其含有相同的聚合物。
综上,38个车用塑钢窗样本分类情况见表6。
3 结束语
本实验对8种品牌保险杠碎片的红外谱图做预处理,结合模式识别方法实现了对保险杠碎片种类快速准确地识别,避免了传统鉴定方法中主观判断的干扰和低效率的情况。通过预处理降低谱图中干扰区间和噪声信息的影响,选择PCA降低光谱中严重的共线性现象,同时获取样本的各维特征数据,借助分类算法构建MLP-FDA分类模型,以此实现区分鉴别的目的。实验发现,模型准确率为92.10%,识别能力高,分类结果理想,相比较单一MLP模型,MLP-FDA区分能力更强、精度更高。在后续的研究中,会在增加样本数量的基础之上,尝试结合其他仪器分析技术,如电感耦合等离子体发射光谱[16]等,深究各品牌样本的化学信息,以样本的主要成分为主、辅助添加剂为辅做检验区分,构建更为高效准确的分类模型,实现对各品牌之下样本的进一步细分和归属,力求达到模式识别目的,从而为保险杠碎片在内的其他微量物证实现高效低成本的准确鉴别提供技术支持。
参考文献
[1]宋小娇.红外光谱技术检验汽车保险杠塑料[J].工程塑料应用,2017,45(9):105-110.
[2]陶永亮.聚碳酸酯在汽车灯具上的应用与分析[J].塑料工业,2014,42(4):120-123.
[3]赵丽娟,丁建平,赖宇,等.聚对苯二甲酸丁二醇酯的发展现状[J].塑料工业,2010,38(12):1-3.
[4]肖艳.车用聚烯烃类热塑性弹性体的应用及其未来[J].聚氨酯,2014(11):70-75.
[5]魏福祥.现代仪器分析技术及应用[M].北京:中国石化出版社,2015:59-60.
[6]林先凯,林欧文,胡秀红,等.ATR-FTIR快速识别鞋底材料的方法研究[J].中国测试,2017,43(8):45-49.
[7]王菊香,韩晓,曹文瀚,等.红外光谱结合偏最小二乘法快速测定在用航空潤滑油中磷酸三甲酚酯[J].分析科学学报,2012,28(5):686-690.
[8]刘猛,申思,王楠.可见-近红外高光谱图像技术快速鉴别激光打印墨粉[J].发光学报,2017,38(5):663-669.
[9]CYRIL M,GENEVIEVE M,PIERRE E.Discrimination andclassification of FTIR spectra of red,blue and green spraypaints using a multivariate statistical approach[J].ForensicScience International,2014,244:170-178.
[10]李晓鹤,冯欣,夏延秋.布谷鸟搜索的润滑脂特征红外光谱波段优选技术[J].光谱学与光谱分析,2017,37(12):3703-3708.
[11]任淯,孙雪剑,戴晓爱,等.全谱段光谱分析的块状商品煤种类鉴别[J].光谱学与光谱分析,2018,38(2):352-357.
[12]章浩伟,高燕妮,苑成梅,等.基于多层感知器神经网络的双相障碍早期识别研究[J].生物医学工程学杂志,2015,32(3):537-541.
[13]杜靖媛,葛宏立,路伟,等.基于Fisher判别的层次分类法的森林遥感影像分类[J].西南林业大学学报(自然科学),2017,37(4):175-182.
[14]李进前,王起才,张戎令,等.基于Fisher分析的高速铁路地基膨胀土判别方法[J].铁道建筑,2017,57(8):73-77.
[15]葛磊.中国证券公司规模与效益关系的实证研究[D].安徽:合肥工业大学,2012.
[16]陈晓霞,杨晓华.电感耦合等离子体发射光谱法同时测定奥贝胆酸中硼和钯的含量[J].中国测试,2017,43(2):47-49,54.
(编辑:徐柳)