红外光谱结合化学计量学检验直液式走珠笔墨水
2022-08-23刘新磊韩丹岩杨尚鹏
刘新磊,韩丹岩,肖 强,杨尚鹏
〈红外应用〉
红外光谱结合化学计量学检验直液式走珠笔墨水
刘新磊,韩丹岩,肖 强,杨尚鹏
(中国刑事警察学院,辽宁 沈阳 110035)
检验鉴定书写墨水是法庭科学领域中一项重要的工作。利用傅里叶变换红外光谱仪对市面上常见的20种直液式走珠笔墨水样品进行检验,采取化学计量学实现了对直液式走珠笔墨水的快速检验。对傅里叶变换红外光谱数据做标准化处理,采取自动基线矫正、峰面积归一化、Savitzky-Golay 5点平滑3种方法对谱图做预处理,通过误差平方和指标(sum of the squares errors, SSE)确定分类K的最优取值,对样品进行K-均值聚类分析并解释聚类结果。采取主成分分析方法验证K-均值聚类的结果,利用组均值均等检验考察主成分变量对Fisher判别分析(Fisher discriminant analysis, FDA)模型的贡献程度,构建直液式走珠笔墨水的FDA判别模型。结果表明,K-均值聚类将全部墨水样本聚类为3类,PCA-FDA(principal components analysis-fisher discriminant analysis)模型能够对不同类别直液式走珠笔墨水达到100%的预测分类,经交叉验证后正确率达到100%。红外光谱与PCA-FDA模型结合可用于直液式走珠笔墨水的快速、准确检验鉴定。
直液式走珠笔墨水;傅里叶变换红外光谱;化学计量学;判别分析
0 引言
直液式走珠笔是一种借鉴了钢笔结构的走珠笔,与传统的走珠笔相比,墨水流动性更好,其墨水的性质与钢笔相似,比中性笔的墨水更稀,目前成为了市场上主流书写工具。因此建立直液式走珠笔的油墨种类鉴别方法对于司法鉴定工作具有重大意义。书写墨水的种属鉴定一直是法庭科学领域的研究重点,不仅可以为文件真伪鉴定提供依据[1],还能缩小侦查范围[2],成为认定案件事实的证据。目前国内法庭科学领域区分直液式走珠笔这种新型笔种墨水的文献较少[3],而传统检验笔墨水成分的方法有光学检验法、色谱法、质谱法[4]、光谱法等方法[5]。其中质谱法[6]、色谱法、溶解法均属于有损检验,不符合当今无损检验的主流,破坏了检材案发时的完整性,而光谱法具有快速、无损检验的特点,广泛应用于墨水检验中[3]。
国内外学者针对墨水检验展开了许多实验研究,证实了傅里叶变换红外光谱法结合主成分分析可以检验墨水[7-9],也有学者尝试将化学计量学[10-14]等技术应用于墨水、纸张等物证的检验,然而这些检验方法较为依赖样本标签,大多根据人为预设标签构建模型对样品进行大致分类,且缺少了评估分类变量对模型的贡献程度,难以做到客观、准确地检验墨水。目前K-均值聚类与组均值均等检验具有较好的稳定性,已被用于药物、细菌的检验,并且得到了较好的结果[15-16]。因此本文尝试结合光谱数据与K-均值聚类预先得出分类标签,采集市面上常见的20个直液式走珠笔样品,利用傅里叶变换红外光谱仪对样品进行检验并获得红外光谱谱图[8],采取自动基线矫正、峰面积归一化、Savitzky-Golay5点平滑3种方法对谱图做预处理后,通过误差平方和指标(sum of the squares errors,SSE)确定最优取值,对样品进行K-均值聚类得到样品的初步聚类结果,将聚类结果作为分类标签,采用主成分分析[10]对原始数据降维,对样品进行分类,利用组均值均等检验考察主成分降维后的变量对Fisher判别模型的贡献程度,根据考察结果选取判别函数建立Fisher判别模型,从而为直液式走珠笔油墨的快速鉴定提供一种新的方式。
1 理论基础
1.1 傅里叶变换红外光谱
傅里叶变换红外光谱(Fourier transform infrared spectroscopy, FTIR)是一种通过数学处理将傅里叶变换,结合计算机与红外光谱技术的分析方法。傅里叶红外光谱法首先测量目标干涉图,通过对该图进行傅里叶变换获得对应的红外光谱数据,是一种无损、快速检验样品成分的方法[17]。
1.2 组内误差平方和
组内误差平方和代表数据误差大小的偏差平方和。随着聚类的类别值增加,样品会被归类到更加精细的簇中,SSE会随之减少,期间SSE的下降幅度会骤减形成一个拐点,然后随着值的继续增大而趋于平缓,该拐点就是聚类类别值的最优取值。
1.3 K-均值聚类
K-均值聚类是一种划分样本为个集合的聚类算法,是无监督学习类型的算法,通过迭代找到最佳聚类个数的一种划分方案,使得用个聚类的均值来表示相应各类样本时所得到的总体误差最小,所以K均值聚类是以最小误差平方和为划分集合依据的聚类算法。其原理是根据预先设定的值,将个样本作为聚类的个聚类中心,计算所得其余样品和每个聚类中心的欧几里距离,将其余样品分配给距离最近的聚类中心,通过多次迭代达到最优结果。
1.4 主成分分析
主成分分析(principal components analysis, PCA)是一种降低光谱数据特征维度的方法,通过线性变换把原始数据从原始坐标系统变换到一个新坐标系统中,从而达到降低原始数据特征维度,同时获得对原始数据信息方差贡献最大的特征。可通过主成分分析提取样品光谱数据的最大主成分,进一步构建2维主成分得分图,验证K-均值聚类结果的准确性。
1.5 组均值均等检验
组均值均等检验的目的是评价分组变量对分组模型贡献程度,将分组变量作为因子得出每个自变量的单因素ANOVA(analysis of variance)分析结果,根据分析结果得出对分组模型贡献程度较高的变量,之后用该变量构建Fisher判别模型。
1.6 判别分析
判别分析是在样本分类确定的前提下,按照未知样品特征所反映的信息判别其类别归属的一种统计分析法。按照相应的规则,构建一至多个判别函数,根据已有样品的大量数据信息计算待定系数从而确定判别函数,计算判别指标,进而推断未知样品的归属[18]。
2 实验部分
2.1 实验仪器及条件
实验仪器为NICOLET5700傅里叶变换红外光谱仪,分辨率4cm-1,扫描次数16次,扫描面积为100mm×100mm,扫描范围4000~400cm-1。
2.2 实验样品
从各地收集不同品牌、不同型号样本共20个,均为黑色墨水,其中样品1~样品10为白雪品牌,样品11~样品13为晨光品牌,样品14~样品20为百乐品牌。
2.3 实验方法
用收集到的直液式走珠笔油墨样品制作检材,在上述实验条件下进行检测,为了保证数据的可复现性,每份检测均检测3次,以确保实验结果的可靠性[19]。光谱数据中存在大量冗余信息,会影响后续化学计量学方法的使用,因此采用The Unscrambler X 10.4(挪威CAMO公司)对光谱信号进行自动基线矫正、峰面积归一化、Savitzky-Golay5点平滑处理[20]。下面将通过化学计量学对样品光谱数据进行分析[21]。
3 结果与分析
3.1 K-均值聚类
的取值很大程度上决定了K-均值聚类的准确性,故引入手肘法(elbow method)确定的最优取值,手肘法的核心指标是SSE,如式(1)所示:
式中:C是第个簇;是C中的样本点;m是C的质心(C中所有样本的均值);SSE是所有样本的聚类误差,SSE值越小代表聚类效果越好。
聚类数值的增大会使得样本相应簇的划分更加精准,SSE会逐渐变小。因此从小到大逐渐增加的过程中,SSE会逐渐变小,期间会存在一个真实聚类数的临界点,当值从临界点左侧增加到真实聚类数时,SSE会发生迅速地下降,然后随着逐渐增大趋于平缓。SSE和关系图会有一个拐点,该拐点对应的值就是数据的真实聚类数。从图1可知,从1~3时下降得很快,当取值≥3后,曲线下降逐渐趋于平缓,所以最佳聚类个数为3。
图1 SSE与簇的数量关系图
当=3时,对样品进行K-均值聚类,聚类结果图如图2所示。
由图2可得,当=3时,所有样品在二维平面被显著地分为了3类,且各类样品在红外谱图中存在明显的区别,表现为:第一类样品(7#)中存在CS伸缩振动,CH面内弯曲振动以及C=C伸缩振动,出峰位置分别为1172cm-1,1388cm-1以及1577cm-1;第二类样品(13#)中存在972cm-1的CH的变形振动,以及1353cm-1和1470cm-1的CH的面内弯曲振动;第三类样品(18#)中存在1461cm-1的CH的面内弯曲振动,结果如表1和图3所示。为了验证K-均值聚类这一无监督学习的准确性,根据聚类结果划分样品的类别,采用主成分分析将各个类别的样品投影到二维平面进行验证。
图2 K-均值聚类结果
表1 样品聚类结果
图3 三种样品红外谱图比较
3.2 主成分分析
主成分分析是一种无监督学习的方法,通过将原始多维数据投影到新坐标系统重新组合成一组新的线性无关数据来代替原始数据,同时尽可能地反映原始数据特征信息[21]。PCA共提取了6个PC,图4显示了不同PC的方差贡献率及累计贡献率,其中PC1方差贡献率最大,为80.466%,前6个PC的累计方差贡献率为98.556%,包含了原始数据的绝大多数信息。以PC1、PC2和PC3绘制PCA的2维主成分得分图,如图5所示,样本基于其在PC1、PC2、PC3上的得分被分为了3类,组内距离较小,组间距离较大,验证了K-均值聚类的聚类结果。考虑到实际中需要预测未知样本,本文采用Fisher判别分别建立3类样品的预测模型。
图4 各成分贡献率分布图
3.3 组均值均等检验
为了实现对未知样品的预测,构建Fisher判别模型前,使用组均值均等检验考察分组变量对分组模型贡献程度。组间均方与组内均方的比值为F统计量,两个自由度分别为自由度1(df1)和自由度2(df2),分别表示残差平方和自由度和回归平方和自由度,自由度1为分子,自由度2为分母,两个自由度用来得到观测显著性(Sig值)。显著性(Sig)和Wilks’lambda是评价分组变量的标准。Sig值表示区分不同组别的能力,如果Sig值较小(Sig<0.10)则表明组间差异较为显著,如果Sig值较大(Sig>0.10)则表示组间差异不显著。PC1的Sig值为0.000,表面PC1在各组间的差异不显著。组内平方和与总平方和的比值为Wilks’lambda,值的范围在0~1之间,值越小表示组内有很大差异,值接近1表示没有组内差异。根据K-均值聚类结果划分样品类别,用组均值均等性检验,结果如表2所示,PC3~PC6的Wilks’Lambda均大于0.97,表明这4个变量组内差异很小,对模型影响不显著,且sig值均大于0.10,表明这四者不能充分解释各样本的分类情况。PC1和PC2的Wilks’Lambda均接近0,表明这两个变量对判别模型影响的显著性极高,且Sig值均为0,可表明这两个变量可以很好地解释各样本的分组信息。因此选取前两个变量构建Fisher判别模型。
图5 PCA得分图
表2 各组平均值的均等性检验
3.4 Fisher判别模型
在构建Fisher判别模型中使用前两个典则判别函数1和2,其中1=-0.028PC1-24.94PC2-10.932,2=34.764PC1-39.654PC2-48.976。表3为Fisher判别函数摘要,判别函数1(1)的方差贡献率为81.0%,判别函数2(2)的方差贡献率为19.0%,两者累计方差贡献率达到了100%,表明这两个函数能完全反映样品光谱特征中的信息。1和2的相关性大于0.95,表明不同样本类别与1和2的相关性很强。观察到1和2在函数检验(Function test)中的Wilks’Lambda数值分别为0.002和0.083,均接近0,表明这两个判别函数对模型影响的显著性很高,Sig值均为0,表明这两个判别函数对变量的可解释度很高,具有充分解释样本分类的能力,综上选用1和2这两个函数作为判别函数,构建Fisher判别模型进行分类,用留一法(Leave-One-Out Cross Validation)作为验证模型的方法。选择函数1(1)和函数2(2)绘制判别函数联合分布图,如图6所示。由图6和表4的结果可得,该判别模型对3类样本实现了正确率100%的分类,同时经过留一法验证后模型正确率仍为100%。如果需要区分未知样品,只需将该样品相应的红外光谱数据输入模型,判别函数联合分布图中就会显示出该未知样品位置及与其相距最近的分组质心,从而推断出未知样品属于哪一类别。
表3 Fisher判别函数摘要
图6 判别函数联合分布图
表4 分类结果
4 结论
本文借助了傅里叶变换红外光谱仪对20种直液式走珠笔墨水成分及含量进行了快速无损检验,建立了一种鉴别直液式走珠笔墨水类别的方法。首先对样品的傅里叶变换红外光谱数据进行自动基线矫正、峰面积归一化、Savitzky-Golay5点平滑3种预处理方法。采取组内误差平方和指标得出K-均值聚类的最优取值,对样品进行K-均值聚类,实现了对直液式走珠笔墨水样品初步分类。对各类样品K-均值聚类结果进行主成分分析,绘制主成分二维得分图使各类样品之间的关系更加明确,同时验证了K-均值聚类结果的准确性。使用组均值均等检验评价PCA降维后的分组变量对FDA模型的贡献程度,得到两个具有较高贡献程度的判别函数,用该判别函数构建Fisher判别模型对3类样本进行分类识别,3类样品均被正确地分类为实际对应的3种品牌,分类正确率达到100%,交叉验证后预测正确率为100%。可通过该模型对案件涉及的未知直液式走珠笔墨水物证进行快速分类,为司法检验鉴定提供帮助。
[1] 赵巍, 高树辉. 基于超光谱技术检验添改文件的实验研究[J]. 中国人民公安大学学报:自然科学版, 2019, 25(1):11-15.
ZHAO Wei, GAO Shuhui. Experimental study on inspection of added and modified documents based on hyperspectral technology[J].: Science and Technology, 2019, 25(1): 11-15.
[2] 林建成, 梁鲁宁, 黄建同, 等. 显微激光拉曼光谱技术检验彩色激光打印机打印文件墨迹的实验研究[J]. 光散射学报, 2015, 27(4): 374-378(DOI:10.13883/j.issn1004-5929.201504012.).
LIN Jiancheng, LIANG Luning, HUANG Jiantong, et al. Experimental study on ink marks of documents printed by color laser printer with micro Raman spectroscopy[J]., 2015, 27(4): 374-378.
[3] 国中正, 陈维娜, 王晓宾, 等. 超光谱技术结合化学计量法区分直液式走珠笔墨迹种类[J]. 理化检验(化学分册), 2020, 56(8): 878-882.
GUO Zhongzheng, CHEN Weina, WANG Xiaobin, et al. Hyperspectral technology combined with chemometrical method for distinction of ink type of straight liquid ballpoint pen[J].(Part B:Chemical Analysis), 2020, 56(8): 878-882.
[4] 王舒超, 崔岚, 宋辉, 等. 气相色谱-质谱法分析3种常见品牌喷墨打印机84种墨水制备的墨迹样本中挥发性溶剂成分[J]. 理化检验(化学分册), 2021, 57(9): 781-787.
WAN Shuchao, CUI Lan, SONG Hui, et al. Analysis of volatile solvent components in ink blot samples prepared by 84 inks from 3 common brands of ink-jet printers by GC-MS[J].(Part B:Chemical Analysis), 2021, 57(9): 781-787.
[5] 何海洋, 赵鹏程, 何宁, 等. 基于气相色谱技术研究黑色中性笔字迹中3种溶剂随书写时间的变化规律[J]. 理化检验(化学分册), 2021, 57(9): 769-775.
HE Haiyang, ZHAO Pengcheng, HE Ning, et al. Study on the variation of three solvents in black gel pen handwriting with writing time based on gas chromatography technology[J].(Part B:Chemical Analysis) , 2021, 57(9): 769-775.
[6] 赵历, 冯伟科, 莫少芳, 等. 顶空-气相色谱-质谱法测定记号笔油墨中挥发性有机化合物[J]. 理化检验(化学分册), 2017, 53(12): 1375-1380.
ZHAO Li, FENG Weike, MO Shaofang. Determination of volatile organic compounds in mark pen ink by HS-GC-MS[J].(Part B:Chemical Analysis), 2017, 53(12): 1375-1380.
[7] 牛凡, 黄建同, 张云, 等. 基于拉曼光谱和多元统计学研究蓝色中性笔油墨[J]. 光散射学报, 2017, 29(3): 234-238.
NIU Fan, HUANG Jiantong, ZHANG Yun, et al. Study on blue gel pen inks based on Raman spectroscopy and multivariate statistical[J]., 2017, 29(3): 234-238.
[8] 侯伟, 王继芬. 基于红外指纹光谱的快速鉴别黑色记号笔墨水[J]. 激光技术, 2020, 44(4): 436-440.
HOU Wei, WANG Jifen. Rapid identification of the black marker ink based on infrared fingerprint spectroscopy[J]., 2020, 44(4): 436-440.
[9] LukáGál, Michal Oravec, Pavol Gemeiner. Principal component analysis for the forensic discrimination of black inkjet inks based on the Vis-NIR fibre optics reflection spectra[J]., 2015, 257: 285-292.
[10] 姚付军. 化学计量学方法对蓝色圆珠笔和签字笔油墨的分类研究[D]. 北京: 首都师范大学, 2009: 4-13.
YAO Fujun. Classification of Blue Ballpoint Pen Inks and Blue Gel Pen Inks Using Chemometrics Methods[D]. Beijing: Capital Normal University, 2009: 4-13.
[11] Mohamad Asri Muhammad Naeim, Mat Desa Wan Nur Syuhaila, Ismail Dzulkiflee. Source determination of red gel pen inks using Raman spectroscopy and attenuated total reflectance Fourier transform infrared spectroscopy combined with Pearson's product moment correlation coefficients and principal component analysis[J]., 2018, 63(1): 285-291.
[12] Senior Samir et al. Characterization and dating of blue ballpoint pen inks using principal component analysis of UV-Vis absorption spectra, IR spectroscopy, and HPTLC[J]., 2012, 57(4): 1087-93.
[13] ZHANG Jin, JIANG Hong, DUAN Bin, et al. A rapid and nondestructive approach for forensic identification of cigarette inner liner papers using shift-excitation Raman difference spectroscopy and chemometrics[J]., 2021, 66(6): 2180-2189.
[14] Michal Oravec, Anel Beganović, Lukáš Gál, et al. Forensic classification of black inkjet prints using Fourier transform near-infrared spectroscopy and linear discriminant analysis[J]., 2019, 299: 128-134.
[15] Maione Camila, de Oliveira Souza Vanessa Cristina, Togni Loraine Rezende, et al. Using cluster analysis and ICP-MS to identify groups of ecstasy tablets in Sao Paulo State, Brazil[J]., 2017, 62(6): 1479-1486.
[16] Nurlaila Ika, Irawati Wahyu, Purwandari Kartika, et al. K-means clustering model to discriminate copper-resistant bacteria as bioremediation agents[J]., 2021, 179: 804-812.
[17] 余静, 张云, 庞松颖, 等. 红外光谱技术在物证鉴定中的应用[J]. 光谱学与光谱分析, 2016, 36(9): 2807-2811.
YU Jing, ZHANG Yun, PANG Songying. Application of IR in the field of evidence identification[J]., 2016, 36(9): 2807-2811.
[18] 孙家政, 姜红, 段斌, 等. 差分拉曼光谱结合多元统计学对IC卡的分类研究[J]. 塑料工业, 2021, 49(4): 102-106.
SUN Jiazheng, JIANG Hong, DUAN Bin, et al. Classification of IC cards by differential Raman spectroscopy combined with multivariate statistics[J]., 2021, 49(4): 102-106.
[19] 何欣龙, 王继芬, 张倩, 等. 基于多分类模型的记号笔墨水红外光谱分析[J].化学通报, 2019, 82(2): 169-174.
HE Xinlong, WANG Jifen, ZHANG Qian, et al. Infrared spectroscopy analysis of marker ink based on multi-classification model[J]., 2019, 82(2): 169-174.
[20] 何欣龙, 王继芬, 于佳裔, 等. 基于判别分析的车用保险杠激光拉曼光谱鉴别研究[J]. 激光杂志, 2019, 40(10): 21-25.
HE Xinlong, WANG Jifen, YU Jiayi, et al. Identification Raman spectroscopy of vehicle bumpers based on discrimination analysis[J]., 2019, 40(10): 21-25.
[21] 赵昱萱, 曾乐洋子, 李开开. 红外光谱法结合化学计量学对可擦笔油墨检验的研究[J]. 光谱学与光谱分析, 2021, 41(8): 2420-2426.
ZHAO Yuxuan, ZENG Leyangzi, LI Kaikai. Identification of different brands erasable pens by infrared spectroscopy combined with chemometrics methods[J]., 2021, 41(8): 2420-2426.
Infrared Spectroscopy Combined with Chemometrics to Test Ink Type of Straight Liquid Ballpoint Pen
LIU Xinlei,HAN Danyan,XIAO Qiang,YANG Shangpeng
(,110035,)
The inspection and identification of writing ink are important in the field of forensic science. A Fourier transform infrared spectrometer was used to test 20 types of direct liquid ball pen ink samples, and chemometrics was used to rapidly test the direct liquid ball pen ink. The Fourier transform infrared spectrum data were standardized, and the spectrum was pre-processed using three methods: automatic baseline correction, peak area normalization, and Savitzky-Golay 5-point smoothing. The optimal value of classification K was determined using the sum of squares error(SSE). The samples were analyzed using K-means clustering, and the clustering results were explained. The principal component analysis method was used to verify the results of K-means clustering. The group mean equality test was used to investigate the contribution of principal component variables to the Fisher discriminant analysis (FDA) model, and the FDA discriminant model of straight liquid ball pen ink was constructed. The results show that all the ink samples were clustered into three categories using K-means clustering. The principal components analysis–Fisher discriminant analysis (PCA–FDA) model achieved 100% prediction and classification of different categories of straight-liquid ball pen inks with an accuracy of 100% after cross-validation. Infrared spectroscopy combined withthe PCA–FDA model can be used for rapid and accurate inspection and identification of direct liquid ball pen inks.
ink type of straight liquid ballpoint pen, Fourier transform infrared spectroscopy(FTIR), chemometrics, discriminant analysis
O657.33
A
1001-8891(2022)08-0882-06
2022-01-11;
2022-02-11.
刘新磊(1998-),男,硕士研究生,主要从事刑事科学技术方面的工作,E-mail:492270626@qq.com。
韩丹岩(1965-),女,教授,主要从事刑事技术方面的工作,E-mail:13066585988@163.com。
中国刑事警察学院研究生创新能力提升项目资助(2021YCYB33)。