基于近红外光谱和OPLS-DA的不同牌号卷烟分类识别方法研究

2020-11-09何昀潞黄伟初邱昌桂

分析测试学报 2020年11期

潘曦，刘辉，王昊，刘静，何昀潞，黄伟初，邱昌桂*

(1.湖北中烟工业有限责任公司，湖北武汉 430040；2.云南瑞升烟草技术(集团)有限公司,云南昆明 650106)

卷烟的风格特征是卷烟产品品质特征的重要组成部分，是卷烟品牌的核心竞争力，是区分卷烟品牌的主要标志。成品卷烟主要通过调配烟叶配方维持卷烟品牌的质量与风格特征。长期以来，卷烟品质和风格特征主要通过烟丝化学成分[1-2]、主流烟气[3-4]和感官质量评价[5]等方法进行判断和鉴别。近年来，近红外光谱技术逐渐成为区分和鉴别卷烟质量和风格特征的重要分析方法[6-7]。卷烟牌号是在卷烟品牌发展的基础上，根据产品的档次、个性和品味，调整卷烟叶组配方、香精香料、卷烟辅料和卷烟焦油含量等，以凸显产品质量的差异，所以不同牌号卷烟具有不同的质量品质特点，这也是区分不同牌号卷烟的依据。卷烟牌号的分类鉴别对于卷烟品牌管理、生产质量评价及卷烟质量维护具有重要意义,探索和明确对不同牌号卷烟的分类有重要影响的因素，可为卷烟品牌维护、叶组配方设计、卷烟生产过程监测提供理论依据。

近红外光谱(NIRS)技术是一种绿色环保、无损分析技术,具有无需样品预处理、无污染、操作简便、检测速度快以及样品的非破坏性等优点[8-9],可与化学计量学方法相结合实现样品的定性和定量分析，已广泛应用于农业、食品、石化和制药行业[10-12]。在烟草行业，近红外光谱法已成功地应用于烟草多种化学成分含量的测定和监测等定量分析[13-16]，同时，近红外光谱还在烟叶类型识别[17]、卷烟配方结构预测[18]、产品质量过程监测[19-21]、卷烟质量识别[6]和卷烟真伪鉴别[22]等模式识别方面得到广泛应用，但在成品卷烟牌号类型鉴别上的应用研究鲜见报道。

本文以相同品牌的5种不同牌号卷烟的成品烟丝为研究对象，采用近红外光谱技术结合主成分分析法(PCA)、偏最小二乘判别分析法(PLS-DA)和正交偏最小二乘判别分析法(OPLS-DA)等模式识别方法建立和优化了5种不同牌号成品烟丝的分类识别模型，以期为不同牌号卷烟的风格及质量特征快速分类鉴别提供参考，为进一步应用近红外光谱技术进行卷烟配方设计、卷烟过程质量监测提供理论依据与指导。

1 实验部分

1.1 仪器与材料

Nicolet Antaris II型FT-NIR光谱仪(配备InGaAs检测器的漫反射积分球、4.78 cm 石英采样杯、样品旋转台)；KBF 540恒温恒湿箱(德国 Binder公司)；TQ Analyst 8.6 数据处理软件(美国Thermo Fisher 公司)；SIMCA-P 11.5+数据处理软件(瑞典Umetrics公司)。

1.2 样品制备

选取湖北中烟武汉卷烟厂黄鹤楼品牌卷烟的5种牌号(分别用JS、RL、JD、RH、DC表示不同的牌号)制丝线上的成品烟丝作为研究对象，在正常工况条件下，于叶丝线的加香工序后的某固定位置采集成品烟丝样品，每批次取样30次，每次取样间隔时间约为90 s，每次取样质量约为200 g，将其置于密封袋中；每个牌号每个月只取1个批次的样品作为近红外光谱测定的样品。其中JS牌号取了2个批次共60个成品烟丝样品，RL、JD、RH、DC牌号各取了1个批次样品，分别为30个成品烟丝样品，总计180个成品烟丝样本。

将每个成品烟丝样品在低温(25～30 ℃)条件下干燥，将成品烟丝样品含水率控制在10%～12%，冷却至室温(20±2) ℃，在恒温恒湿箱(22±2 ℃，60%±5% RH)平衡48 h后装入密封袋低温避光保存。

1.3 样品近红外光谱采集

为保证成品烟丝样品测定的稳定性，实验室相对湿度控制在20%～80%，温度控制在18～26 ℃，成品烟丝样品进行光谱扫描前，近红外光谱仪开机预热不小于1 h。设定近红外光谱仪的主要工作参数为：光谱扫描范围4 000～10 000 cm-1；扫描分辨率8 cm-1；扫描次数64 次。直接将成品烟丝样品依次放置在旋转杯中旋转采集近红外漫反射光谱，为了消除成品烟丝样品不均匀性和其它环境因素的影响，每个成品烟丝样品采集3次光谱，取平均光谱作为成品烟丝样品的最终光谱数据。依次采集从生产线取制的JS、RL、JD、RH和DC牌号的180个成品烟丝样品的近红外光谱。

1.4 样品集划分及光谱预处理

每种牌号成品烟丝样品采用随机的方法进行样品集划分，即每种牌号成品烟丝样品的近红外光谱均按照2∶1的比例随机划分成校正集和测试集，将每种牌号选取的校正集组合成总的烟丝样品的校正集(共120个烟丝样品，其中JS牌号40个样品，其他牌号各20个样品)，用于烟丝分类模型的校正；每个牌号成品烟丝的测试集组合成总的烟丝样品的测试集(共60个烟丝样品，其中JS牌号20个样品，其他牌号各10个样品)，用于烟丝分类模型的验证。

由于成品烟丝成分复杂且由不同特性的片状、丝条状烟草物料在空间上混配而成，测量过程中存在着光谱噪声以及因烟丝结构不均匀性所引起的散射影响，所以在光谱采集过程中，为减少成品烟丝厚度的不一致性和烟丝表面特征不均匀等因素的影响，提高谱图与成品烟丝在化学成分之间的相关性，需对近红外光谱进行预处理，最大程度地去除冗余信息，降低基线漂移和噪声的影响，从而更利于从复杂的光谱中提取有效信息，优化光谱信息，增强光谱的可用性，在一定程度上提高分类模型的稳健性。所以需对烟丝光谱进行预处理，即采用数学方法减弱或消除干扰因素对烟丝光谱的影响，提取有用信息，以提高烟丝分类判别模型分析的准确性和可靠性。本文采用标准正态变量变换(SNV)、多元散射校(MSC)、一阶导数(FD)、二阶导数(SD)、Savitzky-Golay滤波器(SG)及算法组合的预处理方法[23-24]对光谱进行预处理，以此消除烟丝物理结构、环境噪声、光程变化以及特征烟丝不均匀性等因素的影响。

1.5 数据分析

1.5.1 主成分分析(PCA)PCA是一种常用的近红外光谱数据降维方法，通过线性变换来提取近红外光谱数据的主要特征分量，可有效去除近红外光谱数据中的冗余信息以降低光谱数据分析的复杂度[25]。采用PCA结合预处理方法对成品烟丝样品的漫反射光谱进行处理，通过近红外光谱数据主成分的空间分布判断能否区分各牌号成品烟丝样品。

1.5.2 偏最小二乘判别分析法(PLS-DA)PLS-DA是一种广泛应用的基于偏最小二乘法的有监督模式识别方法，是采用已知的烟丝样品近红外光谱数据与烟丝分类变量进行训练，让计算机从这些烟丝样本的近红外光谱数据中“学习”，从而得到一个对同类烟丝近红外光谱数据具有预测功能的判别模型，该方法特别适合于样本数较少、变量数较多的近红外光谱数据集。

1.5.3 正交偏最小二乘判别分析法(OPLS-DA)OPLS-DA是在PLS-DA基础上发展的一种处理高维数据的判别分析算法[26-27]。相较于PLS-DA而言，该方法利用正交信号校正的思想，将烟丝近红外光谱数据集X分解为两部分，即与烟丝因变量Y的正交变量和非正交变量，并将正交变量移除，对修正后的X数据进行PLS-DA分析，从而得到更好的模式识别精度。

本研究以校正集和测试集的分类识别正确率作为模型效果和分析方法的评价指标。分类识别正确率越接近于100%，判别模型的精度越高，说明分类识别模型和分析方法越好。

2 结果与讨论

2.1 光谱预处理

5种牌号成品烟丝样品的原始近红外光谱如图1A所示。从图1A可知，同品牌的5种牌号成品烟丝的近红外光谱无太大差异，吸收峰形和位置均较为相似，无法直观鉴别不同牌号的成品烟丝，需要结合化学计法量学方法进行分析与判别。

本文采用SNV、MSC、FD、SD和SG及算法组合的预处理方法对不同牌号成品烟丝的近红外光谱进行处理。通过比较，采用MSC结合SD预处理后的近红外光谱能够有效减小光谱的噪声，预处理后的近红外光谱如图1B所示。从图1B可以看出，预处理后的光谱图像有效地消除了光谱的基线漂移现象。这主要是因为MSC可消除烟丝片状、丝条状的散射影响，修正光谱因散射所发生的线性变化，增强光谱有效信息;而经SD预处理后的近红外光谱能够有效减小近红外光谱的噪声，有利于分类。

2.2 成品烟丝的主成分分析

PCA方法是一种经典的特征抽取和数据降维方法，它通过将成品烟丝的近红外光谱高维数据降维到低维空间可视化，从而了解不同牌号成品烟丝样本分布的基本情况和主要特点。在全光谱波长范围内，对5种牌号成品烟丝样品的原始近红外光谱及MSC+SD预处理后的光谱进行主成分分析(见图2A、B)。从图2A中可以直观地看出，5种牌号成品烟丝的原始光谱的主成分得分图具有一定的聚类趋势，但光谱点空间分布较为离散，各牌号的烟丝样品相互交织在一起，无法分开。从图2B可以看出，光谱经MSC+SD预处理后，5种牌号成品烟丝的分类聚类趋势更加明显，JS牌号与其他牌号的烟丝能完全区分，说明通过近红外光谱数据预处理方法可提高PCA模型的分辨能力。但其他牌号成品烟丝样品交叉重叠，区分不明显，说明采用近红外光谱结合PCA方法的无监督模式分类方法无法对5种牌号成品烟丝样品进行准确识别，需要采用近红外光谱结合有监督的模式识别方法对成品烟丝光谱进行进一步的分类判别分析。

2.3 成品烟丝的偏最小二乘判别分析

PLS-DA方法是基于PLS方法建立的不同牌号成品烟丝样本分类变量与烟丝近红外光谱特征变量间的回归模型。首先按照不同牌号成品烟丝样本的实际类别特征，赋予校正集样本分类变量值，然后利用PLS-DA方法对120个成品烟丝校正集样本的近红外光谱与样本对应的分类变量进行回归分析，建立成品烟丝光谱特征与分类变量间的PLS-DA模型。将分类识别正确率作为模型分类性能的评价指标，校正集和测试集的分类识别正确数和分类识别正确率结果如表1所示。

表1 不同光谱预处理方法的PLS-DA模型的分类识别结果Table 1 Recognition results of PLS-DA with different preprocessing methods

从表1可知，所建立的PLS-DA模型较好地将不同牌号成品烟丝样品分为5类，其主成分数(nLV)在6～15之间，对于校正集(Calibration set)，各种近红外光谱预处理方法的结果均较好，分类识别正确的样品个数(Accurate number)均为120个，分类识别正确率(Accuracy)均为100%；对于测试集(Test set)，其中效果最差的是“一阶导数”预处理方法，分类识别正确率为90.0%，近红外光谱预处理方法为“MSC+FD”时效果最好，分类识别正确率为98.8%，只有1个RH牌号的成品烟丝样品误分为JD牌号。结果表明，PLS-DA模型能很好地分类识别不同牌号的成品烟丝，但为了提高不同牌号烟丝分类模型的识别正确率，还需进一步采用其他模式识别方法对不同牌号的成品烟丝进行分类鉴别。

2.4 成品烟丝的正交偏最小二乘判别分析

为进一步分析5种牌号成品烟丝的差异性，提高不同牌号成品烟丝的分类识别正确率，采用OPLS-DA方法对原始光谱和经预处理后的近红外光谱数据进行有监督的模式识别，表2为不同近红外光谱预处理方法的OPLS-DA模型的分类识别结果，表3是经MSC+SD预处理后的OPLS-DA模型的统计结果。

表2 不同光谱预处理方法的OPLS-DA模型的分类识别结果Table 2 Recognition results of OPLS-DA with different preprocessing methods

表3 MSC+SD预处理后OPLS-DA 模型的统计结果Table 3 Statistical results of OPLS-DA with MSC+SD preprocessing method

从表2可知，采用OPLS-DA方法所建立的模式识别模型，各预处理方法的结果均较好，对于校正集，除SNV和MSC预处理的分类识别正确率较原始光谱稍有提高外，其他预处理的分类识别正确率(99.2%～100%)均有较大提高；对于测试集，除SNV和MSC预处理的分类识别正确率较原始光谱稍有降低外，其他的预处理方法的分类识别正确率均有较大的提高，特别是MSC+SD预处理方法，其分类识别正确率为100%，可以完全正确地识别出不同牌号的成品烟丝。结果表明，采用OPLS-DA方法所建立的模型可以很好地分类识别5种牌号的成品烟丝。

对校正集120个成品烟丝样品的近红外光谱经MSC+SD预处理后构建的OPLS-DA模型，采用交叉验证法对模型进行验证。从表3可知，随着筛选出的预测主成分(Prediction nLV)和正交主成分(Orthogonal nLV)增加，模型对自变量的拟合指数R2X(cum)，因变量的拟合指数R2Y(cum)和模型预测指数Q2(cum)的值均逐渐增加，当筛选出4个预测主成分和5个正交主成分时，R2X(cum)=0.485，表明5个主成分对烟丝近红外光谱变量变异的解释能力为48.5%(其中预测主成分25.3%，正交主成分23.2%)；R2Y(cum)=0.907，表明模型中4个预测主成分对不同牌号分类变量变异的解释能力为90.7%，有较好的概括解释能力；Q2(cum)=0.748，表明模型对不同牌号成品烟丝样品的预测能力为74.8%。结合表2的结果可知，当筛选出4个预测主成分和5个正交主成分时，校正集和测试集的分类识别正确率均为100%，说明构建的OPLS-DA模型稳定性和预测能力均较好，模型稳定可靠，可用于5种牌号成品烟丝的分类识别。

3 结论

近红外光谱技术结合OPLS-DA方法可用于同品牌不同牌号成品烟丝的快速分类鉴别，成品烟丝的近红外光谱经过多元散射校正结合二阶导数的预处理方法可以有效地提高OPLS-DA模型成品烟丝牌号识别精度，校正集和测试集的分类识别正确率均为100%；OPLS-DA模型对光谱自变量拟合指数R2X(cum)=0.485，对因变量的拟合指数R2Y(cum)=0.907，模型预测指数Q2(cum)=0.748，说明所建立的模型稳定性和预测能力较好，模型稳定可靠。近红外光谱技术结合有监督模式识别方法OPLS-DA模型为不同牌号卷烟成品烟丝分类提供了一种新的高效快速、准确无损的识别方法，同时可用于在线现场监测成品烟丝样品的质量稳定性。