红外光谱联合主成分分析在貂毛皮鉴别中的应用
2022-07-13袁绪政李鹏妮张红庄莉
袁绪政,李鹏妮,张红,庄莉
(1.嘉兴市皮毛和制鞋工业研究所,浙江桐乡 314500;2.国家纺织服装产品质量检验中心(浙江桐乡),浙江 桐乡 314500;3.桐乡市质量技术监督事务中心,浙江 桐乡 314500)
引言
水貂属于哺乳纲食肉目鼬科鼬属动物,野生状态下有美洲水貂和欧洲水貂两种,目前世界各国人工饲养的水貂均为美洲水貂后裔,共有11 个亚种[1]。水貂皮素有“软黄金”之称,是世界上珍贵裘皮,具有针毛挺直、灵活华丽、绒毛丰厚、保暖性强、皮板轻薄、柔韧结实等优点,已经成为国际裘皮贸易的三大支柱产品之一[2]。依据中国皮革协会官方数据,2020 年全国水貂取皮数量为931 万张,主要分布在山东省、辽宁省和黑龙江省[3],另外还有大量的进口水貂通过丹麦、荷兰等国际拍卖行进入我国。
不同品种、品类的貂毛皮价值差异较大,另外有些与貂毛皮极为相似的其他毛皮,如:黄狼皮、水獭皮、麝鼠皮等[4]常被不法分子用来“以次充好”、“以假当真”。目前,貂毛皮的鉴别方法主要有感官法、PCR 法[5-6]、扫描电镜法[7]、电子显微镜法[8]等。上述各种鉴别方法各有特色、也有不足,要么需要检验人员对各种貂毛皮的特征性有深入了解,并具有丰富的实践经验;要么需要价格高昂的设备投入,无法大规模推广和应用。
文章作者所在团队一直致力于易混毛皮的快速鉴别方法的研究,张红[9-10]等综合运用了傅里叶红外光谱、分别通过高斯分峰拟合和SPSS(Statistical Product and Service Solutions)的数据分析方法(主成分分析、分类判别)研究了牛毛皮和马毛皮的材质鉴别问题并取得了良好的效果。作为上述文献的理论延伸和实践应用,本文将上述方法应用于貂毛皮真假鉴别中,以期获得一种快速、准确、无损的数字化鉴别新方法。
1 实验部分
1.1 主要材料与仪器
1.1.1 试验材料
鞣制的貂毛皮:包括标准水貂(进口标准水貂、国产标准水貂)共2 种;彩色水貂(十字貂、奶牛貂、紫貂、珍珠貂)共4 种。
鞣制的非貂类毛皮:包括麝鼠皮、黄鼠狼、海狸鼠、水獭、艾鼬、青紫蓝、马毛皮、牛毛皮,共8 种。以上毛皮样品均购自桐乡市鑫诺皮草有限公司。
正己烷(上海润捷化学试剂有限公司,分析纯)等。
1.1.2 仪器设备
傅里叶变换红外光谱仪(型号:Nicolet IS 10,Thermo Fisher,配有锗晶体的ATR 附件和OMNI 采样器);扫描电镜(型号:SU-1500,日本日立公司);超声波清洗器(型号:SK2210LHC,上海科导超声仪器有限公司)等。
1.2 试验方法
1.2.1 试样清洁及检查
取毛皮样品,采用正己烷作为有机溶剂,在工作频率为35 kHz、工作温度为60 ℃,工作时间为60 min 条件下超声清洗2 次,取出真空干燥备用。并在使用前通过扫描电镜观察清洁程度,排除杂质对后续红外光谱测定的影响[10]。
1.2.2 红外光谱采集及处理
在400~4000 cm-1范围内扫描样品32 次,分辨率为4 cm-1,采用基线校正等预处理方法对谱图进行预处理,另存为csv 格式数据[10]。
1.2.3 基于Excel 函数的随机数据的抽取
为保证数据分组的随机性,需要对数据序号进行随机不重复的抽取,生成简单的随机数很简单,比如Excel 中的RANDBETWEEN 函数,但是这个函数生成的随机数往往有很多重复的数据,对于实际的数据分析带来不便。
为解决上述问题,提出如图1 的基于Excel 函数的抽取流程。
图1 基于Excel 函数的随机数据的抽取Fig.1 Random data extraction based on Excel function
1.2.4 主成分分析法
主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标。通常把转化成生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能[11]。
通过SPSS 中“分析→降维→因子分析”来实现操作。
1.2.5 分类判别法
判别分析是用于判别样品所属类型的一种方法,它从已知的分类情况中总结规律,并用以判断新样品所属类别。在分析之前就已知道我们研究的数据共分为几个类别,进行判别分析的目的就是从现有已知类别的样本数据中训练出一个判别函数来,以后再有未知类别的数据进入,就利用建立的函数来判别其类别[12]。
通过SPSS 中“分析→分类→判别”来实现操作。
2 结果与讨论
2.1 试样红外光谱的直接分析
14 种天然毛皮的红外光谱图见图2,由图可直观地看出:14 种天然毛皮红外光谱图的主要特征峰无显著差异,仅仅只是特征峰强度略有差别。因此,不对光谱图进行数据处理和统计分析,仅仅通过肉眼对比谱图的差异来进行貂毛皮的材质鉴别,不具有实际意义。
图2 14 种毛皮红外光谱图立体对比Fig.2 Stereoscopic comparison of infrared spectra of 14 kinds of fur
2.2 貂毛皮真假鉴别
2.2.1 主成分分析
选取120 组波数范围在800~2100 cm-1的红外谱图(貂毛皮60 组,非貂毛皮60 组),采用SPSS进行主成分分析,提取主成分,计算各主成分得分。
基于主成分分析过程中取特征值大于1 的规则,提取前8 个主成分见表1。由表1 可以看出,经过主成分分析后得出前8 个主成分的累计贡献率达到99.8%,说明这些主成分已经能够代表原变量所包含的信息,成功的将原来的2696 个波数变量降维到了8 个新的主成分变量。
依据林海明[13]的论证,主成分得分与SPSS 直接输出的未旋转因子得分之间的关系可以用式(1)表达:
其中:式中λi为主成分特征根,见表1,由SPSS直接给出。
表1 主成分及其累积贡献率表Tab.1 Principal components and their cumulative contribution rates
2.2.2 鉴别模型的建立
基于1.2.3 的方法,从2.2.1 的120 组数据中,随机抽取100 组数据作为训练数据(实际抽取结果为52 组貂毛皮数据、48 组非貂毛皮数据),余下20组(8 组貂毛皮数据和12 组非貂毛皮数据)作为验证数据。以各组的前8 个主成分得分为自变量,以貂毛皮(赋值为1)和非貂毛皮(赋值为2)为分组变量,采用SPSS 进行判别分析。
依据软件输出,貂毛皮和非貂毛皮之间的典型判别函数为式(2):
其中xn为第n个主成分得分。
将已知的100 个样本的各主成分得分代入已建立的典型判别函数y2(x),计算结果即为判别得分。以样本编号为横轴,y2(x)为纵轴,得貂毛皮和非貂毛皮判别函数回代验证结果如图3 所示。由图可见,通过典型判别函数可以很好地将貂毛皮和非貂毛皮进行区分,貂毛皮的判别得分<0,而非貂毛皮判别得分>0,分类效果非常直观。但也存在误分的个案,52 组貂毛皮中有2 组被误分,48组非貂毛皮中有1 组被误分,因此典型判别函数分类正确率为97.0%。误分类发生的原因可能是由于红外数据采集过程中毛皮部位差造成的。动物毛皮作为天然产物,其同一张皮的头部、肩部、腹部、臀部都有较大的差异,相似的动物其局部相似度更高,容易混淆。
图3 貂毛皮和非貂毛皮典型判别函数分类结果Fig.3 Classification results of typical discriminant functions of mink and non-mink fur
使用典型判别函数不可以直接确定分类,需要把所有的数据都计算好之后,才可以确定类别的分类条件,但Bayes 判别函数可以直接确定分类。利用Excel 将已知的100 个样本分别代入已建立貂毛皮分类函数y3(x)和非貂毛皮分类函数y4(x),比较计算结果的数值大小,数值较大者即为分类结果。利用Excel 的函数IF,进行数值比较,如果y3(x)>y4(x),返回结果“1(貂毛皮)”,否则返回结果“2(非貂毛皮)”。计算结果见表2。
由表2 可以看出,通过分类函数可以直接确定分类,其100 组样本计算的分类结果与典型判别函数是一致的且个案序号也相同(见表2:样本编号41、45、59),分类正确率同样为97.0%。两种方法互为验证。
表2 Bayes 分类函数计算结果Tab.2 Calculation results of Bayes classification function
2.2.3 鉴别效果的验证
判别函数的鉴别效果常用的验证方法有以下4种:
(1)自身验证法:拿训练数据直接预测验证。存在的问题:对训练样本预测好不代表对新样本预测好;上一节中,分类正确率97.0%,即为自身验证;
(2)样本二分法,一般划分2/3 为训练集,1/3 为验证集。为了减少样本的浪费,本文取5/6 为训练集(100 组数据),1/6 为验证集(20 组数据);
(3)外部数据验证:收集新的数据来验证,这是最客观最有效的。存在的问题:过程麻烦而且两次收集的数据不一定是同质的,故本文未采用;
(4)交叉验证——刀切法(10 分法,数据划分为10 个集合,每次挑选1 个出来做验证集,其余9 个做训练集,可以做10 次,因为验证集可换10 种可能)。SPSS 软件自带此验证功能,通过“留一分类”获得此项结论。
根据以上描述,在自身验证法的基础上,再通过样本二分法及交叉验证对判别函数分类效果进行验证。将20 组验证数据(样本编号101~120)和100 组训练数据放在一起,不预设分类,进行预测,同时勾选“留一分类”进行交叉验证。结果见表3 和表4。
表3 软件输出的20 组验证数据判别结果Tab.3 Discrimination results of 20 groups of verification data
由表3 可见,20 组验证数据,判别得分符合上节所述的“貂毛皮的判别得分<0,而非貂毛皮判别得分>0”,预测结果为:貂毛皮8 组、非貂毛皮12 组,鉴别正确率100%。由表4 可见,全部100 组训练数据,自身验证分类正确率97.0%,与上节判别函数结果一致,交叉验证分类正确率95.0%。综上,鉴别模型用于貂毛皮真假鉴别效果良好。
表4 软件输出的120 组数据分类结果(含交叉验证结果)Tab.4 Classification results of 120 groups of data (including cross validation results)
3 结论
天然毛皮红外光谱图的主要特征峰无显著差异,仅仅只是特征峰强度略有差别。因此,不对光谱图进行数据处理和统计分析,仅仅通过肉眼对比谱图的差异来进行貂毛皮的材质鉴别,不具有实际意义。文章基于红外光谱,联合主成分分析、分类判别等SPSS 软件方法进行貂毛皮和易混非貂毛皮的材质鉴定,成功建立了貂毛皮和非貂毛皮材质鉴别模型。结果表明:主成分分析方法可以从大量光谱信息中提取有用的信息,成功地将原2696 个波数变量降维到8 个新的主成分变量,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,使问题得到简化,提高分析效率;分类判别分析方法得出了貂毛皮与非貂毛皮的典型判别函数y2(x)、貂毛皮分类函数y3(x)和非貂毛皮分类函数y4(x),所建立的典型判别函数、Bayes 分类函数自身验证分类正确率为97.0%、交叉验证分类正确率95.0%,20 组验证数据分类正确率为100%。红外光谱联合主成分分析用于貂毛皮真假鉴别效果良好。