APP下载

基于主成分分析法对一次性纸杯的拉曼光谱检验研究

2020-10-20朱晓晗胡越宁何歆沂黄国玺陈敏璠

中国造纸 2020年9期
关键词:曼光谱拉曼纸杯

朱晓晗 胡越宁 何歆沂 黄国玺 姜 红,* 陈敏璠

(1.中国人民公安大学,北京,100038;2.北京鉴知技术有限公司,北京,100084)

作为许多家庭和公共场所中常用的饮水工具,一次性纸杯在各类案件现场都有可能会被提取到,为了使公安机关明确此类物证的侦破方向,通过对一次性纸杯进行拉曼光谱(RAMAN)检验和化学计量分析,根据各个纸杯的拉曼特征峰进而推测一次性纸杯的品牌、来源等相关信息。常见的一次性纸杯内壁主要淋膜食品级聚乙烯(PE)薄膜,用来隔水等用途[1-2]。生产厂家在一次性纸杯生产过程中,为了降低生产成本,满足盛装热水、冷水等不同需求,不同品牌、不同用途的一次性纸杯所使用的原料种类与配比存在差异,这就为一次性纸杯的拉曼光谱检验区分提供可能。

为了使拉曼光谱检验一次性纸杯实验的分类结果更加科学合理,对样本拉曼光谱数据进行降维处理,选择主成分分析法,保留了一次性纸杯拉曼光谱数据的大部分信息。本研究以主成分分析法指定提取的因子作为变量进行层次聚类和K-Means快速聚类,对27个不同品牌、不通用途的一次性纸杯进行分类,利用Fisher 判别分析法、聚类方法之间相互验证,在得到最佳聚类数的同时可直观看出样本各类别的类中心在判别分析图中的位置关系,实现对未知样本的类别判断,进而判断未知样本的品牌、来源等信息,该方法可为公安机关检验此类物证提供借鉴[3-5]。

1 实 验

1.1实验仪器及条件

RT2000 便捷式拉曼光谱仪(北京鉴知技术有限公司),实验条件见表1。

表1 拉曼光谱实验条件

1.2实验样本

不同品牌不同用途的一次性纸杯样本27 个(见表2),分别编号为1#~27#。

表2 一次性纸杯样本表

1.3拉曼光谱分析

拉曼光谱(RAMAN)作为一种散射光谱,通过与入射光频率不同的散射光谱进行分析,进而得到所测样本分子振动、转动方面信息,并应用于分子结构研究的一种快速无损简便的分析方法[6-7]。本实验利用拉曼光谱法检测一次性纸杯样本内壁上的平整部分,用指定拉曼光谱检测仪对此处进行数据采集,记录样本检测数据与拉曼光谱图。

1.4因子分析数学模型

因子分析的核心是用较少的互相独立的因子反映原有变量的绝大部分信息。本研究使用因子分析中的主成分分析法对拉曼光谱数据进行降维处理,将大量变量减少为3 个变量。设有k个原有变量x1、x2、x3,…,xk,且每个变量(经标准化处理后)的均值均为0,标准差为1。现将每个原有变量用h(h<k)个因子f1、f2、f3,…,fh(标准化值)的线性组合来表示,见式(1)。

式(1)为因子分析的数学模型,也可以用矩阵的形式表示见式(2)。

式中,F为因子,由于出现在每个原有变量的线性表达式中,因此又称公共因子,fj(j=1,2,…,k)彼此不相关;A称为因子载荷矩阵;aij(i=1,2,…,p;j=1,2,…,k)称为载荷因子,是第i个原有变量在第j个因子上的载荷;ε称为特殊因子,表示原有变量不能被因子解释的部分,其均值为0,独立于fj(j=1,2,…,k)。

1.5层次聚类

SPSS 数据处理软件在层次聚类分析中,需要计算的是个体间的“亲疏程度”,根据个体间相似度和差异性对其进行测量。实验中使用平方欧式距离(SEUCLID)作为层次聚类计算方式,其数学表达式见式(3)。式中,xi是个体x的第i个变量的变量值;yi是个体y的第i个变量的变量值。

1.6K-Means聚类分析

K-Means 聚类分析是将数据看成p维空间上的点,以距离作为测度个体“亲疏程度”的指标,并以牺牲多个解为代价换得高执行效率。首先,指定聚类数目K,再确定K个初始类中心点,根据距离最近原则进行分类,接着重新确定K个类中心点,并判断是否已经满足终止聚类的条件,如满足,则终止聚类[8-10]。

2 结果与讨论

2.1拉曼光谱分析

根据27 个一次性纸杯拉曼谱图(见图1)发现,27 个纸杯样本均在1059、1125、1288 和1429 cm-1处出现特征峰,经分析,该特征峰与聚乙烯(PE)的特征峰分别对应,可确定所检验一次性纸杯淋膜的主要成分为PE[11-12]。由于不同品牌不同用途一次性纸杯的拉曼谱图中特征峰的峰位置和峰强度存在差异,因此可以对其进行区分。如“妙潔”纸杯样本在1380 cm-1和1439 cm-1处有特征峰,而“清清美”纸杯样本没有,因此可以将二者分开。

图1 27个一次性纸杯样本拉曼谱图比较

2.2拉曼数据主成分分析

在进行拉曼光谱分析时,由于拉曼数据信息量庞大,存在信息重叠等问题,使得分析结果出现偏差,因此常常使用降维手段对数据进行处理,减少数据维数。主成分分析是一种常见的降维方法,在保留原数据主要信息的前提下,将多变量问题处理成一组新的相互无关的少数综合变量的问题,可以有效降低多个变量之间的信息重叠,提高分析结果的准确度。

因子fj方差贡献的数学定义见式(4)。

式(4)表明,因子fj的方差贡献是因子载荷矩阵A中第j列元素的平方和。因子fj的方差贡献反映了因子fj对原有变量总方差的解释能力。总方差解释见表3,该值越大说明相对应的因子越重要。

表3 总方差解释

前k个因子的累计方差贡献率定义为式(5),其中,λj代表相关系数矩阵特征值,p代表原有p个变量的总方差。

在表3 中,因子1 的方差贡献为1681.91,解释原有变量总方差的84.10% ,累计方差贡献率为84.10% ;其他数据含义类推。由表3 可知,指定提取3 个因子,3 个因子共解释了原有变量的99.09% 。总体上,原有变量的信息丢失较少,因子分析结果较理想。

2.3基于SPSS分析软件的聚类分析

2.3.1层次聚类和K-Means快速聚类

为了实现对样本的分类研究,确保分类结果的合理性,利用SPSS 分析软件对主成分分析法降维后的样本数据进行层次聚类与K-Means快速聚类分析。利用层次聚类中的凝聚方式聚类,首先,每个观测个体自成一类,再按照某种方法度量所有个体间的“亲疏程度”,并将其中最“亲密”的个体聚成一小类,形成n-1 个类,然后再次度量剩余观测个体和小类间的“亲疏程度”,并将当前最亲密的个体或小类再聚成一类,重复上述过程,不断将所有个体和小类聚集成越来越大的类,直至所有个体聚到一起,形成一个巨大的类为止。K-Means 快速聚类是一个反复迭代的过程,在聚类过程中,观测所属的类不断调整,直至最终达到稳定为止。

层次聚类结果表明,在并类距离为1时,27个一次性纸杯样本被分为8 类。K-Means 聚类分析法证明了层次聚类结果的合理性。表4 显示了K-Means 聚类分析后,8 类变量中心点每次迭代时的偏移情况。共经历3 次迭代。第3 次迭代后,8 类中心点偏移量均小于指定的判别标准0.02,聚类结束。

表4 迭代历史记录

表5显示了8类变量最终聚类中心点的情况。8个最终类中心点的数据分别为(-0.91,2.23,-1.65)(4.02,1.37,1.92)(-0.19,2.85,-0.59)(-1.21,-1.02,-1.99)(1.15,0.39,1.19)(-0.39,-0.54,-0.98)(0.29,-0.17,0.63)(-0.45,-0.58,-0.03),这些中心点的数据展示了每一类样本在因子1、2、3下的最终聚类中心。

表5 K-Means算法最终聚类中心

2.3.2Fisher判别分析

为了验证层次聚类和K-Means 快速聚类的准确合理性,对数据进行Fisher 判别分析,得到了8 类样本在所建立的分类函数上的判别分析图。判别分析是一种经典的多元统计分析方法,用于对分类型变量取值的分析。Fisher 判别分析是先投影再判别,投影是其核心。所谓投影,是将原来p维X空间的观测点投影到m(m≤p)维Y空间中(这里的Y空间称为Fisher判别空间)。图2为8类样本类中心在Fisher 判别分析图中的位置分布情况。由图2 可知,相比函数2 判别轴,函数1判别轴对各类别的区分情况更加明显,如果想区分未知变量,只需要输入相应位置,在图中会显示出新数据的位置,就能区别新数据是哪一类别。8 个类别中心很明显地彼此区别开且各类别观测点分布相对比较集中,从而验证了将27个样本分为8类较为准确合理。

图2 Fisher判别分析图

以上聚类分析方法将27个一次性纸杯样本分为8类,所有一次性纸杯样本的分类结果见表6。其中,第1类样本数量最大,样本普遍为源自北京的中等体积(高度8~9 cm,杯口直径7~8 cm)的热饮杯;第3类样本数量为7 个,样本普遍为中等体积(高度8~9 cm,杯口直径7~8 cm)的纸杯;第4 类样本为冷饮杯;第5类样本为统一高度9.3 cm、杯口直径8 cm的纸杯;第6 类样本为较大体积(高度10.5 cm 以上)的热饮杯。可见,每类样本的用途和大小不尽相同,据此,根据未知样本碎片的拉曼光谱检测结果可对其进行归类研究,进而推断未知样本的品源和来源信息。

表6 一次性纸杯分类结果

3 结 论

本实验利用拉曼光谱仪结合化学计量学对27 个不同品牌、不同用途的一次性纸杯样本进行检验研究。采用主成分分析和聚类方法对拉曼光谱数据进行处理,对纸杯进行聚类。

3.1拉曼光谱结果表明,所得27 个一次性纸杯样本拉曼光谱图中,样本均在1059、1125、1288 和1429 cm-1处出现特征峰,表明样本内壁所测薄膜主要成分为聚乙烯(PE)。通过拉曼光谱特征峰峰位置和峰强度的不同,可以达到区分一次性纸杯检验的目的。

3.2为减少进行聚类分析时所用变量,对拉曼光谱数据进行主成分分析,指定提取3个因子,累计贡献率达到99.09% ,在减少变量的同时,保存了大量信息。

3.3以指定提取的3 个因子作为变量进行层次聚类和K-Means 快速聚类分析,将27 个纸杯样本聚成了8类,并对K-Means 算法下8 类变量最终聚类中心点位置进行描述。根据未知一次性纸杯样本碎片的拉曼光谱检测结果可对其进行归类研究,进而推断未知样本的品牌和来源等信息。

3.4在Fisher判别分析中,将8类变量的类中心位置在判别分析图中进行描绘,8 类变量的类中心可以很好地区分开且各类别观测点分布相对比较集中,证明了聚类结果的科学合理性。

猜你喜欢

曼光谱拉曼纸杯
馆藏高句丽铁器的显微共聚焦激光拉曼光谱分析
Preoperative maximal voluntary ventilation, hemoglobin, albumin, lymphocytes and platelets predict postoperative survival in esophageal squamous cell carcinoma
黑磷的多声子共振拉曼散射*
当心,纸杯可能有毒
拉曼光谱技术在食品质量安全检测中的应用
纸杯提气球
吹奏千年的巴拉曼
纸杯的艺术
实用拉曼光谱引论
拉曼光谱在头颈肿瘤外科中的应用