基于近红外光谱及主成分雷达图特征提取的产品质量稳定性研究
2018-11-08秦玉华张海涛
秦玉华, 张海涛, 高 锐, 张 磊
(1. 青岛科技大学 信息科学技术学院, 山东 青岛 266061;2. 云南中烟工业有限责任公司 技术中心, 云南 昆明 650024; 3. 中国海洋大学 信息科学与工程学院, 山东 青岛 266100)
1 引 言
在卷烟生产过程中,及时监控产品质量、保证产品的均质化和稳定性从而避免不合格产品流入市场,对于企业提高产品质量和实际生产指导具有重要意义。以往企业多采用感官评吸、化学成分等方法进行卷烟产品质量一致性检测控制,该方法耗时长,效率低,产品质量难以精确把握。
近年来,随着科技的进步和计算机技术的发展,近红外光谱分析技术在烟草及各行业均得到了广泛的应用[1-2],该技术不但具有简单、快速、准确、无损、重现性好等优点,而且样品的近红外光谱还包含了包括其化学和物理特性的整体信息,目前该技术在卷烟化学成分快速检测[3-4]、真伪鉴别[5]等领域应用较成熟,但在产品质量稳定性分析领域研究相对较少且缺少直观的可视化结果展示。此外,近红外光谱数据还具有高维、小样本的特点[6],样本往往为几十或上百,特征波长数据却高达几千维,包含较多噪声和冗余信息[7-8],导致计算变得复杂,因此,为获得更好的模型性能,分析时需先对其进行特征信息的提取。
针对上述问题,本文以云南某品牌不同批次卷烟产品为研究对象,提出了一种近红外指纹图谱特征提取新方法。首先将卷烟近红外光谱进行主成分降维,并以雷达图可视化形式描述产品质量稳定性趋势,进而提取重心特征对样品内部结构进行了展示,建立了质量稳定性及异常类型判别模型,以期实现对质量异常样本的快速识别,为卷烟产品质量监控提供技术保障。
2 实验与方法
2.1 样品制备
选取云南红塔集团不同批次的某A品牌卷烟150个质量合格烟丝样品,按照企业内部标准,将样品置入烘箱中,40 ℃下干燥4 h,粉碎过40目筛。将样品存放在密封袋中,常温下平衡4 h后进行光谱采集。另外再按同样方法制备120个代表质量异常的A品牌卷烟样品(包括常规化学成分超标、B品牌卷烟、A品牌与B品牌不同比例的掺配样品各40个),在此基础上进行A品牌卷烟产品质量稳定性实验对比分析。
2.2 光谱采集
采用Nicolet Antaris Ⅱ 近红外光谱仪,光谱扫描范围为4 000~10 000 cm-1,扫描次数64次,分辨率为8 cm-1,采用漫反射方式,室温保持在18~22 ℃,将样品置于样品杯中用压样器轻压样品,每个样品均重复装样测定3次,计算其平均值作为最终光谱。
2.3 近红外高维数据雷达图表示
雷达图是一种将多属性数据进行平面综合描述的图形评价方式,能将多维数据与平面图形对应,数据维数不多时可以直观地观察多维数据属性的特点和变化趋势[9]。但近红外光谱数据特征波长往往高达几千维且相邻波长相关程度较高,无法直接用雷达图进行特征空间描述和直观理解,需先进行降维处理。
主成分分析[10](Pricipal component analysis,PCA)是一种常用的数据降维方法,它借助于一个正交变换,将原来具有一定相关性的指标重新组合成一组新的相互无关的综合指标,主成分分析通过选取方差较大的前几个主成分来代替原来的指标,能够保留原始信息的同时降低所研究的空间维数。实践证明,指标间相关程度越高,主成分分析效果越好,因此特别适合相邻波长相关程度较高的光谱数据的特征降维处理。
由此本文提出先对光谱数据进行主成分降维处理,选取前k个主成分(方差贡献率≥90%)作为主要特征属性进行雷达图的绘制,从而直观地表现样本光谱数据的特征,保证了图谱数据整体性与模糊性的统一。
2.4 雷达图重心特征提取
对于选取的k个主成分构成的可视化多边形,因其具有较强的主观性,实际应用中较难规定图形特征的统一标准。研究表明[11-12],图形的重心可能是一种图形辨别的重要特征,因此针对可视化图形的模糊性,本文提出对包含样本全局信息的多边形重心特征进行提取,从而进一步对样本间的内部结构进行展示,进而建立质量一致性判别模型,实现对产品质量的监控。提取的重心特征包括重心矢量幅值和角度[13],其极坐标表示如下:
(1)
3 结果与讨论
3.1 卷烟近红外光谱预处理
选取的150个质量合格卷烟产品的原始光谱如图1所示,可以看到样品光谱在吸光度轴上差异较大,为充分提取有效信息,提高模型性能,需对光谱进行预处理从而消除基线漂移及光散射等干扰的影响。经过比较,本文选用一阶导数+Norris 11点平滑作为预处理方法,经过预处理后的光谱如图2所示,可以看出,预处理后的光谱能有效消除原始谱图的漂移现象。
图1 原始光谱
同时,适当的光谱范围选择也是光谱信息有效提取的重要环节之一,本文选取4 000~8 000 cm-1谱段进行分析。
图2 预处理后的光谱
3.2 卷烟产品雷达图特征表示
选取100个A品牌质量合格卷烟样品作为基准样本集,剩余50个质量合格样品作为测试集1,120个质量异常样品作为测试集2,对基准样本集进行主成分变换,选取前10个主成分归一化后的雷达图如图3(a)所示,对测试集1、2样本按照与基准样本集同样的系数矩阵进行主成分变换后的雷达图如图3(b)、(c)、(d)所示。
图3 主成分雷达图
可以看出,基准样本集与测试集1均为A品牌卷烟,其雷达图形状类似,与代表质量异常的测试集2的卷烟产品的雷达图形状明显不同,基本可以通过可视化图形对产品类别进行辨别,从而达到对质量异常波动的监控。但该方法主观性较强,实际应用中较难规定图形特征的统一标准,只能作为产品鉴别和质量异常波动的参考,因此需对图形特征进行进一步提取。
3.3 重心特征提取分析
对上述所有样本的主成分雷达图按照2.4方法进行重心特征提取,其结果投影图如图4所示,图5为主成分降维后第1、2主成分投影图。
图4 雷达图特征提取投影图
图5 主成分投影图
由图4和图5可以看出,基准样本集与测试集1均为卷烟A质量合格产品,两样本集基本重合,并均与卷烟B能较好地区分,说明两种方法都能较好地实现同品牌卷烟与其他品牌卷烟的识别,可用于卷烟的真伪鉴别中。但在主成分投影图中,质量异常样品(包括化学成分超标、不同比例卷烟A、B掺配样品)与卷烟A合格产品混杂在一起,区分界限不明显,因此无法达到对质量异常样品的较好识别。而雷达图重心特征提取投影图中,代表质量异常的测试集2样本与基准样本集基本能较好地区分,其中化学成分超标、掺配卷烟A比例越高的样品靠基准样本集越近,说明该模型具备识别产品异常波动的能力。
3.4 质量稳定性判别分析模型
选取上述质量合格卷烟A样品和质量异常样品各120个,每类的前80个作为训练集,剩余的样品作为测试集,分别以提取的重心特征、前10个主成分、光谱全波长作为输入指标,建立质量稳定性判别模型,实现对质量异常样品的识别。选取KNN、SVM作为分类器,表1为不同输入特征的分类性能对比。
表1 分类正确识别率对比
可以看出,两种分类模型中,采用提取的雷达图重心特征作为输入特征的正确识别率均最高,明显高于其他2种输入特征的识别率,主成分降维方法次之,全波长作为输入特征模型正确识别率最差,这主要是由于高维光谱数据中含有较多噪声和冗余信息,全波长作为输入特征无法对光谱信息进行有效的提取,而本文所提出的雷达图重心提取的方法能更好地表达样本的全局信息和样本间的内部结构,实现对光谱信息的全局提取,因此能更好地识别卷烟产品生产过程中的质量波动。
3.5 质量异常类型判别分析模型
为了更进一步验证本方法的有效性,分别以提取的重心特征、前10个主成分作为输入指标对质量异常样品的类型(包括常规化学成分超标、不同比例卷烟A、B掺配品、卷烟B)进行了判别分析。选取SVM作为分类器,表2为对不同质量异常类型的正确识别率对比。
表2 质量异常类型正确识别率对比
可以看出,对于卷烟A的3种不同质量异常类型的识别,雷达图重心特征方法的正确识别率均明显好于主成分特征方法,从而进一步表明了该方法的优越性。从对质量异常类型的识别来看,2种方法对卷烟B均能较好地识别,可用于不同品牌卷烟产品的真伪甄别,而对于化学成分超标和卷烟A与B的掺配品这2种质量异常类型的识别要稍差一些,这也与3.3的投影分析结果一致。
4 结 论
本文针对卷烟生产过程中质量稳定性监控效率低及缺少可视化结果展示等问题,提出了以主成分雷达图可视化形式描述产品稳定性趋势并提取图形重心特征进行质量一致性判别。实验结果表明,和其他方法相比,该特征提取方法取得了更好的识别效果。该方法可进一步推广到烟丝等其他状态产品的在线质量监控,这对企业及时了解、提升产品质量,改进生产技术具有重要意义。