APP下载

基于主成分分析和K-means 的便利贴显微共聚焦激光拉曼光谱分类

2022-10-18贾成贺

关键词:曼光谱物证类别

陈 壮, 贾成贺, 姜 红

(1.甘肃政法大学司法警察学院(公安分院), 甘肃兰州 730070;2.新疆维吾尔自治区公安厅科技信息化总队,新疆维吾尔自治区乌鲁木齐 830000;3.中国人民公安大学侦查学院, 北京 100038)

0 引言

便利贴是一类常见书写纸张,主要成分是纤维素。 在日常办公及家庭生活中,便利贴使用比较广泛,在各类犯罪现场,常常能够提取到这类物证。 便利贴物证除了可能携带文字信息,还含有成分、厂家、产地等潜在信息,建立对此类物证准确无损的检验分析及识别分类的方法具有一定实际意义。

法庭科学领域中,纸张物证的检验方法主要有显微共聚焦激光拉曼光谱、X 射线荧光光谱等方法[1-2]。 其中,显微共聚焦激光拉曼光谱法是当分子受到激发光的照射后,分子与入射光子碰撞发生能级跃迁,进而产生的一种非弹性散射光谱[3]。 在检验纸张物证时,与其他技术相比,显微共聚焦激光拉曼光谱法具有无需制样[4]、检测速度快、准确度高等优势,能够克服纸张荧光干扰,并且在对纸张物证较小损伤的情况下,获得更高的检测限度,从而获取纸张物证的化学成分等信息。 不同纸张物证成分不同,拉曼光谱具有一定的差异性,这是检验分析及识别分类纸张物证的基础。

研究以36 个产自于北京市、上海市、浙江省等地区的不同厂家生产的便利贴样品为研究对象,利用显微共聚焦激光拉曼光谱法对其进行检验,利用主成分分析和K-means 算法构建便利贴样品分类模型,剔除冗杂拉曼光谱数据,提取关键特征,确定最佳分类,并利用判别分析验证分类模型的适用性和准确性,为基层民警开展侦查工作提供新方法。

1 实验部分

1.1 实验样品

产自于北京市、上海市、天津市、浙江省、广东省、江苏省等地区不同厂家生产的便利贴样品共计36 个。 部分样品信息见表1。

表1 部分样品信息

1.2 实验仪器及条件

所用实验仪器为显微共聚焦激光拉曼光谱仪,采用波段785 nm 激光作为激发光源,测量波段范围100 cm-1~1 400 cm-1,仪器相关信息及实验条件见表2。 该仪器利用激光作为激发光源,提高了样品测定结果的准确度,且测定样品前无需提前制样,具有操作便捷、结果准确等优势[5-6]。

表2 仪器信息及实验条件

1.3 实验方法

首先,在上述实验条件下,采集36 个样品的拉曼光谱数据,进行基线修正、光谱曲线平滑等预处理,保证光谱数据更加严谨;将数据标准化处理,以消除不同光谱数据量纲间的差异对分类模型的影响[7];其次,依据标准化后的拉曼光谱数据,利用主成分分析和K-means 算法建立便利贴样品分类模型,并依据聚类系数确定最佳分类;最后,利用判别分析验证样品分类模型的有效性和适用性。 以上过程由Origin、PYTHON、SPSS 软件实现。

1.4 模型建立

1.4.1 主成分分析

利用主成分分析算法对采集到的拉曼光谱数据提取主成分,降低光谱数据集的维数,将多个数据变量转化为少数几个方差贡献最大的特征,保留数据主要信息,最大限度减少损失,以最少综合指标描述样品拉曼光谱数据集,降低后续数据处理计算量[8]。

主成分分析主要流程及原理如下[9]。

(1)构造样品拉曼光谱数据矩阵X

(4)计算相关系数矩阵C,求解特征值λi(i=1,2,3…m)及对应的特征向量U=(U1i,U2i,U3i,…Umi)T,具体公式为:

式中,各特征值大小关系为:λ1>λ2>λ3,…λm。

(5)构造样品拉曼光谱数据第k个主成分并求解第k个主成分的方差贡献率Rk(k=1,2,3…,m),具体公式为:

在实际应用中,通常提取累积方差贡献率85%以上的主成分或者提取特征值大于等于1 的主成分。

1.4.2 K-means 聚类及聚类系数

K-means 是无监督聚类方法,需要预先设定聚类类别数K。 评价聚类效果的方法主要有聚类系数、轮廓系数等方法。 其中,聚类系数反映了聚类样品间结集成团的程度。 本文利用聚类系数评价K-means聚类性能,确定最佳聚类类别数K值。 利用K-means 聚类达到最佳聚类类别时,反映到聚类系数与聚类类别数K值之间的关系为:最佳聚类类别数K值前后,聚类系数变化趋势大,且变化趋势逐渐趋于缓和,即出现“拐点”[11]。

2 结果与分析

2.1 基于主成分分析和K-means 模型的便利贴样品分类

36 个便利贴样品拉曼光谱经基线校正、曲线平滑得到的光谱图如图1 所示。 便利贴作为纸张的一种,基本成分是植物纤维素,同时也添加有碳酸钙、高岭土等填料,用以提升纸张各项性能,不同厂家生产的便利贴所添加的填料成分和含量不同,在拉曼光谱中特征峰的峰位、峰强及峰的面积表现有一定区别,这是便利贴样品科学准确分类的基础[12]。本工作利用主成分分析法和K-means 聚类将36 个样品进行科学准确的分类。

图1 36 个样品拉曼光谱

将36 个样品的拉曼光谱数据进行标准化处理,消除不同量纲光谱数据对后续样品分类模型效能的影响。 利用主成分分析法对36 个便利贴样品的拉曼光谱数据降维并提取特征值大于等于1 的主成分。 经计算,提取出PC1、PC2 和PC3 共计3 个主成分(见表3),3 个主成分特征值和方差贡献率不同,包含原始光谱数据信息百分比不同。 由表3 可知,PC1、PC2 和PC3 这3 个主成分特征值均大于1,累计贡献率为99.918%,这表明PC1、PC2 和PC3 这3个主成分包含了36 个便利贴样品原始拉曼光谱数据绝大部分信息。

表3 主成分方差贡献率

36 个样品拉曼光谱数据标准化处理后,经主成分分析算法计算并降维得到PC1、PC2 和PC3 共计3 个主成分,将这3 个主成分作为K-means 聚类的初始数据集。 利用K-means 聚类算法对36 个便利贴样品进行聚类分析。 K-means 聚类作为无监督学习算法,需要预先指定聚类类别数K值,考虑到公安机关办案的实际情况,确定的便利贴样品分类数目对于缩小侦查范围具有重要意义,因此,本研究K值选取范围设定为1 ~36。 为确定最佳聚类数K值,描述聚类样品间结集成团的程度,计算不同聚类类别数K值对应的聚类系数,绘制K值与聚类系数关系图(见图2)。

图2 K 值与聚类系数关系图

由图2 可知,随着聚类类别数K值的增大,聚类系数逐渐减小,不同K值所对应的聚类系数变化趋势不同,当聚类类别数K值为6 时,K值与聚类系数曲线出现“拐点”,“拐点”前后聚类系数变化趋势显著不同,当K值大于6 时,聚类系数变化逐渐趋于缓和,因此确定36 个便利贴样品利用K-means 聚类聚为6 类时为最佳聚类类别,36 个便利贴样品K-means聚类结果见表4。 为了使K-means 聚类结果更加清晰的可视化,将6 种不同类别的便利贴样品投影至以主成分PC1 和主成分PC2 为坐标轴构成的主成分得分图(见图3)中。 由图3 可以看出,36 个便利贴样品被聚为6 类时,每个类别样品界限清晰,相似度越高的样品在图中的位置越接近,类别内样品差异较小,类别间样品差异较大,这验证了K-means 聚类结果的准确性和科学性。 由K-means聚类结果可知, 32#、36#(产地为上海市)两个样品被聚为一类。 2#、34#(产地为江苏省)两个样品被聚为一类,产地为浙江省的样品大部分都被聚为一类,同一产地的样品聚合性比较好,这对于公安机关来讲,在面对现场便利贴物证时,利用显微共聚焦激光拉曼光谱法结合主成分分析及K-means 聚类一定程度上可以帮助公安机关做出产地、厂家等信息的倾向性认定,从而缩小侦查范围,提升破案效率。

图3 36 个样品主成分得分图

表4 K-means 聚类结果

2.2 基于判别分析的便利贴样品分类模型验证

在知晓样品分类标签的前提下,将已知的样品数据与实际类别作为训练样本,可以利用判别分析建立若干判别函数,计算样品数据相关指标,判别样品归属类别[13-14]。 在进行判别分析前,需要已知样品的实际分类标签,因此,判别分析是一种有监督的机器学习算法,可以判别样品分类是否正确。

研究利用2.1 中36 个便利贴样品拉曼光谱数据经主成分分析得到的3 个主成分PC1、PC2,以PC3 和K-means 聚类结果作为判别分析建模初始数据集,依据判别分析原理,计算标准化典则判别函数系数(见表5),建立了3 个判别函数f(PC1 ~PC3)1、f(PC1 ~PC3)2和f(PC1 ~PC3)3。

表5 判别函数系数

3 个判别函数如下:

计算3 个判别函数f(PC1 ~PC3)1、f(PC1 ~PC3)2和f(PC1 ~PC3)3的方差贡献率,见表6,判别函数f(PC1 ~PC3)1、f(PC1 ~PC3)2和f(PC1 ~PC3)3的方差贡献率分别为76.5%、13.1%和10.4%,累计贡献率为100%,表明这3 个函数可解释便利贴样品拉曼光谱数据3 个主成分PC1、PC2和PC3 所有信息,3 个判别函数可以用于判别36 个便利贴样品的类别。 基于K-means 聚类结果,对36个便利贴样品分类进行判别分析,结果见表7。 由表7 可知,36 个便利贴样品原始分类正确率为100%,错误率为0。 交叉验证分类正确率为97.22%,仅第6 类的21#便利贴样品分类错误。 这表明本工作所建立的基于主成分分析和K-means 的便利贴样品分类模型适用性和准确性较好。

表6 判别函数方差贡献率

表7 判别分析结果

3 结论

显微共聚焦激光拉曼光谱法作为一种光学检验方法,可以快速准确采集便利贴样品拉曼光谱数据。依据主成分分析和K-means 聚类实现便利贴样品拉曼光谱降维,提取了3 个特征值大于等于1 且累计贡献率85%以上的主要成分并建立了便利贴样品分类模型。 利用K值与聚类系数之间的关系确定36 个便利贴样品最佳聚类数为6 类。 为了检验分类模型的效能,本文利用判别分析建立了3 个判别函数,并对K-means 聚类结果进行判别。 结果表明,36 个便利贴样品聚为6 类时,原始分类正确率和交叉验证分类正确率分别为100%和97.22%,判别结果说明基于主成分分析和K-means 聚类便利贴样品显微共聚焦激光拉曼光谱分类模型有效且适用。

研究中存在实验所用便利贴样品量较少、缺少对便利贴样品拉曼光谱的定性与定量分析、便利贴样品分类不细化、缺乏实际案例应用等问题,这些问题需要在今后深入研究。

猜你喜欢

曼光谱物证类别
火灾调查中物证损坏原因及防范措施探讨
如何防范火灾调查中的物证损坏
论陶瓷刻划花艺术类别与特征
Preoperative maximal voluntary ventilation, hemoglobin, albumin, lymphocytes and platelets predict postoperative survival in esophageal squamous cell carcinoma
一起去图书馆吧
“演员中心制”戏剧始于北宋的新物证
谈刑事侦查中微量物证的作用及常见发现方法
拉曼光谱技术在食品质量安全检测中的应用
实用拉曼光谱引论
拉曼光谱在头颈肿瘤外科中的应用