基于规则的深度分类器结合近红外光谱技术判别烟用香精香料

2019-04-04**

分析仪器 2019年2期

* *

(1.陕西中烟工业有限责任公司，宝鸡 721013；2.中国农业大学，北京 100193)

香精香料具有改善卷烟吸味品质，赋予卷烟特征香气的作用，是构成卷烟品牌风格和保证卷烟产品质量的重要因素。目前烟用香精香料质量分析方法主要有理化指标测定(相对密度、折光系数、挥发分总量、酸值、乙醇、丙二醇、丙三醇)与四类指标(外观、混溶度、香气与香味质量)感官评价两大类方法。这些检测方法技术要求高、涉及分析仪器多，且过程非常繁琐，检测周期长、允差范围较大和重复性较差；烟草企业通常需要的香精香料品种繁多，且香精香料质量受到原料、加工等多种因素的影响，加上香料的成分通常又过于复杂，这给原料管理和质量保证造成极大的困难，因此，香精香料种类现场快速识别对于原料确认和卷烟质量保证具有重要的意义。

近红外光谱技术具有速度快、无损、无前处理、成本低、样品损耗量少等特点，非常适合产品质量现场分析，已广泛应用于烟草行业的诸多领域，如在烟草化学指标测定、产地溯源、品种识别、叶片部位和等级鉴定等方面，但在烟用香精香料质量分析上仅有个别定量模型分析的报道。由于近红外光谱特征峰较宽，重叠严重，指纹图谱特征性不够明显，对复杂样品辨识度不足。在香精香料样品中，主要是乙醇、丙二醇等溶剂，天然香气成分含量通常在5%以下，要实现较大种类低含量香精香料的分类识别，无论是分析技术本身还是模式识别算法均存在较大困难。

监督模式识别算法包括k最近邻法[1]、贝叶斯分类器、软独立建模聚类分析(Soft Independent Modelling of Class Analogies,SIMCA)、线性判别分析(Linear Discriminant Analysis, LDA)、非负矩阵分解[2]等。对线性不可分体系，可采用支持向量机、神经网络分类器、随机森林等算法用于解决非线性分类问题，还有些新改进模式识别算法[3]主要是解决收敛过程慢、过程调试参数多的问题。目前较为热门的模式识别算法有最优路径森林算法(Optimal-path Forest)[4]、基于规则深度分类法(Deep Rule-Based Classifier, DRB)[5]等。基于规则深度分类法是一种新型的深度学习分类器，与传统的分类算法不同，其无需设置多个参数，通过自组织学习并建立“类别云”，可有效地对未知样品进行分类。在遥感方面不同属性场地、手写字识别准确率均较好于传统模式识别方法。

综上所述，本实验采用DRB算法结合近红外光谱技术对57类715个香精香料进行种类识别方法研究，并与SIMCA模型结果进行了比较。

2 实验材料与方法

2.1 实验材料

成品烟用香精香料进厂时，根据行业抽样的标准[6]抽取香精香料并将其按行业标准进行存储[7]。共收集715个批次的样品，其中大于5批次的样品共57类。润宝包括润宝-B和润宝-C，归为一类的缘由在于使用ICR-FT-MS(傅里叶变换离子回旋共振质谱仪,Fourier-Transform Ion Cyclotron Resonance Mass Spectrometry)发现其组成成分相似。图1中上半部分为润宝-B的质谱图，下半部分为润宝-C的质谱图。

图1 润宝-B与润宝-C的质谱图

2.2 实验方法

傅里叶近红外光谱仪(ThermoFisher IS5N，美国)；光谱范围10000cm-1～4000cm-1，分辨率为16cm-1，扫描次数为48次，液体漫透射法测试，比色杯厚度为1mm。每个样品重复测试3次。

2.3 DRB算法原理

DRB是由Plamen P. Angelov于2017年提出,主要运用于图像的多分类问题。该算法基于样本数据特征矢量进行模型训练，核心类别判定规则为‘IF OR THEN’模糊尺度；同时，基于图像原型使用‘one-pass’类型训练模型。本实验中数据处理软件为Matlab R2014a，可以把二维光谱数据构造成三维数据，再使用该软件对数据进行类别判定。具体算法实行步骤如下：

(1)近红外光谱数据图像显示；

(2)DRB系统的训练；

(a)系统初始化：将光谱数据进行规范化。对每条光谱数据进行平方并加和，再进行开根号取值，获得规范化数值。接着对该矢量的所有数据点进行规范化数值规范。

(b)数据云及系统升级：数据云的构建主要是基于公式(1)。本实验采用的θ为30°,将定义数据云边缘的最大相似程度。系统升级阶段则是通过两个条件来约束，条件约束如(2)与(3)。约束条件(2)主要检验未知样本是否为新型的密度样本，其中D为数据密度值；约束条件(3)主要用于某一类别训练集样本的更新,当绝对值小于rc,Nc，则表明无需类内更新，反之绝对值大于rc,Nc，则需要模型更新。

(1)

If(D(Ic,k)>max(D(Pc,j)))or
(D(Ic,k)

(2)

If(||Xc,k—pc,n||≤rc,Nc)
THEN(Ic,kisassignedtoPc,n)

(3)

(3)模糊规则的产生：当训练进程结束，系统将是基于原形识别的‘AnYa’模糊规则。规则如(4)：

Rulec:IF(I～Pc,1)OR(I～Pc,2)OR…
OR(I～Pc,Nc)THEN(classc)

(4)

式中：Rulec为类别C的规则。I为未知类别的样本矢量数据。Pc,1、Pc,2……Pc,Nc为C类别的矢量数据。当未知样本符合C类规则，则将未知样本归类到C类。

(3)Lambda的获得：通过已建立的系统对未知样本进行分类。未知样本与系统中的每个类别之间可以产生一个最大的Lambda。Lambda的计算如下公式(5)。式中，x为未知样本向量；Pc,j为系统第C类第j个矢量数据。

LambdacI=argmaxexp-x-pc,j2

(5)

(4)类别决策机制：采用“winner-takes-all”原则进行未知样本的类别判定。即未知样本与不同类别间分别有个最大的Lambda。将这些Lambda进行大小比较，最大的Lambda所对应的类别则将该未知样本归类到此类当中。该算法与传统模式识别算法有较大的区别在于其未训练模型、无迭代训练样本，高度地展现出计算互不干扰能力与计算效率。算法运行示意流程如图2所示。对于判定未知类别样本的类别时，DRB分类器的运行机理如图3所示。

图2 DRB算法运行示意流程图

图3 未知类别样本DRB运行示意流程图

3 结果与讨论

3.1 异常光谱的剔除

为使系统更具有稳定性、提升模型的预测能力，需要对异常光谱数据进行剔除。因此，需要在系统生成之前对异常数据进行检测并剔除。本研究滤去异常值的方法为杠杆值法，滤去高杠杆值的光谱数据，再建立类别判定系统。高杠杆值法主要通过两个参数主成分数和杠杆限制值来测试异常光谱数据。本研究采用的主成分数为1，杠杆限制值为3，剔除后光谱数据1294张，共57类样品。剔除异常光谱图4所示，剔除结果图5所示。可以清晰地看见光谱数据质量有明显提升。两种模式识别算法都以80%作为校正集，20%作为预测集。这就意味着1035张光谱作为校正集，使用259张光谱作为预测集。

图4 剔除异常光谱数据

图5 吸光度VS变量上半部分未剔除异常光谱；下半部分剔除异常光谱

3.2 数据处理结果

上文提到，SIMCA算法拟采用F检验来判定未知光谱类别。置信水平采用6个层次，分别为75%、80%、85%、90%、95%及97%。结果如表1所示，可以发现置信水平达到97%，校正集准确度与预测集准确度都达到最高，分别为87.923%与83.398%。采用DRB算法，校正集准确度与预测集准确度分别为95.07%与88.8%。识别准确度优于SIMCA算法的结果。由于DRB算法是基于原始图像的分类，所以其无须进行迭代与参数优化。因此，训练速度相比于其他模式识别算法快。

图6(A)中是两类相似香精香料的SIMCA样本投影图，其中横坐标为第一主成分，纵坐标为第二主成分，可以发现不同类别香精香料的投影基本不可分。与之相对应的DRB算法给出的结果(图6(B))则正好相反，其中横坐标为样本数目，纵坐标为Lambda值。符号‘+’与‘o’代表的是第16类样本，区别在于符号‘+’为第16类云系统对于第16类样本Lambda值的预测，而‘o’则是第26类云系统对于第16类样本Lambda值的预测。符号‘▽’与‘☆’代表的是第26类样本，区别在于符号‘▽’为第26类云系统对于第26类样本Lambda值的预测，而‘☆’则是第16类云系统对于第26类样本Lambda值的预测。可以发现，第16类云系统计算第26类样品的Lambda值较第26类云系统计算第26类样本的低，反之亦是，说明近红外光谱图相似的两个样品可实现有效判别。实际上，第16类样品与第26类样品的近红外光谱图如图7所示，就谱图峰的形状、吸光度大小可以发现二者非常相似。

表1 不同置信水平SIMCA判定结果

图6 (A)相似香精香料主成分投影图及(B)基于DRB算法的Lambda值

图7 第16类样品与第26类样品的近红外光谱图叠加

3.3 结果的理论分析

对于SIMCA算法来说，主要是为了寻找一个投影面(或称为载荷矩阵)，使得参与建模的样本能尽可能的在这个投影面尽量散开。因此，当光谱比较相似的时候，通过投影面投影很有可能就落在这些样本点中间。第16类样品的第一载荷矢量与第26类样品的第一载荷矢量的标准偏差如图8所示。可以发现标准偏差很小，说明二类的第一载荷矢量很是相似，故导致二者不可分。相反的，DRB则是基于欧式距离分别计算未知样本与不同类别样本的距离，通过公式(3)计算Lambda，再依据Lambda值将未知样本归类，避开了样本投影最大化问题。因此，在分类能力上优越于SIMCA算法，图6(B)即可表明克服SIMCA算法存在的问题。

图8 第16类样品与第26类样品的第一载荷矩阵的标准偏差

3.4 分类器优化

在对光谱矩阵进行模式识别之前，首先需要考虑到近红外光谱除样品自身信息外还包含许多无关信息，有电噪声、样品背景等，而这些噪声或无关信息会降低模型的稳健性。因此，有必要对光谱数据进行预处理以提高模型的稳健性。大量研究结果表明：首先对光谱数据进行预处理再建立起的模型，提升了模型稳健性以及预测类别的准确度、降低指标建模的预测均方根误差。采用的预处理方法包括S-G一阶导数法(5点、7点、9点及11点)、标准正态变量变换(SNV,Standard Normal Variate transformation)、S-G移动窗口法(5点、7点、9点及11点)、多元散射校正算法(MSC, Multiple Scattering Correctionalgorithm)、矢量归一化(NOR)、标准化法(Auto-scaling)。结果如表2所示,从表2中可以发现，不同预处理方法，对结果准确度有较大影响，其中一阶导(S-G,7)效果最佳，校正集与验证集的识别准确度分别为98.74%与98.07%。与无预处理的预测集准确度相比高了近10%。说明采用漫透反射附件，存在谱图基线漂移的现象。因此有必要对数据进行预处理后再进行类别归属。说明为了降低光谱基线对识别准确率的影响，有必要采用的预处理方法为一阶导数法。

表2 不同预处理方法与准确度的关系

4 结论

分别采用了典型模式识别SIMCA算法与新型模式识别DRB算法对不同类别烟用香精香料进行类别判定。首先采用高杠杆值法筛选并剔除异常光谱，光谱数据得到明显改善，可提高模型的稳健性。比对不同模式识别的准确度，由于DRB算法不基于方差最大化，因而算法DRB在不同类别样品的分类效果更为出色。同时，基于DRB算法，采用不同预处理方法，准确度发生明显变化，原因在于其选择漫透反射附件导致光谱基线漂移。采用DRB算法校正集与验证集的识别准确率最优可达到98.74%与98.07%。说明可以基于DRB模式识别结合近红外光谱技术可做到很好的定性分析，近红外光谱技术可达成‘一谱多用’的目标。