基于近红外光谱技术的电子烟油烟碱含量快速检测研究
2020-11-09杨双艳沈彦文杨紫刚张四伟
杨双艳,周 瑾,沈彦文,杨紫刚,费 宇,张四伟
(1.云南巴菰生物科技有限公司,云南 昆明 650000;2.云南财经大学 统计与数学学院,云南 昆明 650000;3.云南省烟草公司文山州公司,云南 文山 663000)
电子烟在传递尼古丁的过程中不需要对烟草进行燃烧,相比传统香烟更加安全且具有更少的有害成分,因此逐渐成为传统香烟新的替代品[1]。烟碱作为电子烟烟油中最主要的成分,其含量决定了电子烟油的风味口感及产品的安全性,一些国家和地区相继将电子烟烟油中的烟碱纳入监管范围。目前,对电子烟烟油中烟碱的检测大多参考卷烟烟草的检测方法,主要采用气相色谱法和液相色谱法进行测定,但这些方法存在检测时间长、样品预处理繁琐、费用高、对操作人员要求高等缺点。因此,研究开发一种准确、快速、无损的检测方法获得电子烟油的烟碱指标对于控制电子烟油的品质和工艺具有重大意义。
近红外光谱(NIR)分析技术具有简便、快速、前处理简单、对样品无破坏性、无污染并可多组分同时测定等优点[2],在农业[3-4]、石油[5-6]、烟草[7-9]等领域有着广泛应用,但目前尚未见采用近红外光谱对电子烟油进行检测的研究。电子烟油中有机组分的化学和物理信息在近红外光谱中均有体现,因此近红外光谱非常适合对电子烟油进行分析检测。
为了解决反向传播算法(Backward probagation)学习效率低、参数设定繁琐的问题,2004年Huang等[10]提出极限学习机(Extreme learning machine,ELM)算法,并发表于当年的IEEE国际交互会议(IEEE International Joint Conference)。ELM是一类基于前馈神经网络(Feedforward neuron network)的机器学习算法,其主要特点是隐含层节点参数可以随机或人为给定且不需要调整,学习过程仅需计算输出权重。ELM具有学习效率高和泛化能力强的优点,被广泛应用于分类[11]、回归[12]、聚类[13]、特征学习[14]等问题中,但尚未见应用于电子烟油近红外光谱分析的相关研究。
本文以近红外光谱分析技术为基础,结合ELM算法对电子烟油的近红外光谱数据和烟碱指标进行定量建模。与现有检测方法相比,本文所提出的方法具有快速准确、绿色无损等优点,能够实现电子烟油烟碱指标的快速准确测量,为电子烟油重要理化指标的实时在线监测和其它质量参数的快速测量奠定了良好的基础。
1 极限学习机算法的基本理论
极限学习机与传统的梯度下降学习算法相比具有较大优势:(1)随机给定隐含层的连接权值,训练过程不需要迭代调整,计算速度非常快;(2)传统的梯度下降算法容易陷入局部极小,而ELM算法由于求解输出权值最小二乘解的过程是一个凸优化问题,因此不会陷入局部最优;(3)参数选择简单,只需选择合适的隐含层结点便可获得良好的性能,而传统的梯度下降算法,如BP网络等,需要选择合适的学习率、训练步长等,选择不当会影响网络的泛化性。
对于一个单隐层神经网络,假设有个任意的样本(ti,Xi),其中:
Xi=[xi1,xi2,…,xin]T∈Rn
(1)
ti=[ti1,ti2,…,tin]T∈Rm
(2)
对于一个有N个隐层节点的单隐层神经网络可以表示为:
(3)
单隐层神经网络学习的目标是使输出的误差最小,可以表示为:
(4)
即存在βi,Wi和bi,使得:
(5)
可以矩阵表示为:
Hβ=T
(6)
其中,H是隐层节点的输出,β为输出权重,T为期望输出。
(7)
(8)
(9)
其中,i=1,…,L,这等价于最小化损失函数:
(10)
传统的一些基于梯度下降法的算法,可以用来求解式(10)中的问题,但是基本的基于梯度的学习算法需要在迭代的过程中调整所有参数。而在ELM算法中,一旦输入权重Wi和隐层的偏置bi被随机确定,隐层的输出矩阵H就被唯一确定。训练单隐层神经网络可以转化为求解一个线性系统Hβ=T。并且输出权重可以被确定:
(11)
2 实验部分
2.1 仪器与样本
样本的近红外光谱采集使用Antaris傅里叶变换近红外光谱仪(Thermo Nicolet,USA),配有透射检测器,采样系统和Result、TQ Analyst等数据处理软件;实验样本由云南巴菰生物科技有限公司提供,共70个样本。实验过程中,按照样本烟碱含量从低到高均匀分布的原则选取40个样本作为训练样本,30个样本作为测试样本;使用气相色谱仪/氢火焰离子化检测器获取电子烟油的烟碱含量,训练样本的烟碱含量范围为1~60 mg/g,平均值为27.98 mg/g,标准差为15.96;测试样本的烟碱含量范围为3~52 mg/g,平均值为27.37 mg/g,标准差为14.80。实验样本的详细信息见表1。
表1 实验样本的详细信息Table 1 Detail information of experimental samples
图1 实验样本的原始近红外光谱数据Fig.1 Original NIR data of the samples
2.2 近红外光谱采集
近红外光谱仪的相关参数设置:光谱采集模式为透射模型,数据格式为Absorbance,扫描次数为32,分辨率为4 cm-1,光纤透射式探头光程为2 mm,以空气为参比,光谱扫描范围为4 000~10 000 cm-1。将烟油样本滴入石英皿中,每个样本重复采样3次,取3次光谱的平均值作为样本的最终光谱。实验样本的原始近红外光谱数据如图1所示。
2.3 数据处理方法与模型性能评价指标
首先对采集的电子烟油的近红外光谱数据进行预处理操作,并选择合适的波段,分别采用主成分回归(Principal component regression,PCR)[15]、偏最小二乘回归(Partial least squares regression,PLSR)[16]和极限学习机回归(Extreme learning machine regression,ELMR)建立近红外光谱数据与烟碱含量之间的定量校正模型。使用决定系数(R2)、校正均方根误差(Root mean square error of calibration,RMSEC)、预测均方根误差(Root mean square error of prediction,RMSEP)为指标优化建模参数,用以考察模型性能,以上参数的计算方法见文献[17-18]。
图2 原始光谱经过多元散射校正和Savitzky-Golay一阶导数(窗口大小为5,3次多项式)滤波后的预处理结果Fig.2 Pretreatment result of spectral data by means of using multiplicative scatter correction and Savitzky-Golay first derivative with a 5-point window and three polynomial order
3 结果与讨论
对近红外光谱数据进行分析和处理时,其中一个重要步骤是对光谱数据进行预处理操作。光谱的预处理操作能够降低或消除非目标因素对光谱信息的影响,通过对其进行适当的数学操作,能够最大程度去除冗余信息,从而更利于从复杂光谱中提取有效信息,在一定程度上提高校正模型的稳健性。本文通过多元散射校正和Savitzky-Golay一阶导数(窗口大小为5,3次多项式)滤波的方法进行预处理操作,处理结果如图2所示。可以看出,经过预处理的光谱图像有效消除了光谱的基线漂移现象。从图2还可以看出,光谱的吸收波长区间主要集中在4 492~7 864 cm-1。因此,随后将主要使用此波长区间对电子烟油的近红外光谱数据与样本的烟碱含量进行定量建模。
分别采用PCR、PLSR和ELMR建立近红外光谱数据和传统化学方法测量所获得的烟碱含量之间的定量校正模型,并以R2、RMSEC、RMSEP为指标优化建模参数,建模结果和测试结果分别如表2和表3所示。其中,使用PCR和PLSR进行光谱建模时,首先对光谱数据进行主成分降维处理,所选用的主成分数为5。设置ELM算法的隐含层神经元数为30,以Sigmoidal函数为隐含层神经元激励函数。由ELM算法的基本理论得知,输入权重Wi和隐层的偏置bi将会在训练过程中随机确定,不需人工设定。
由表2可以看出,使用ELMR算法所建立校正集模型的R2为0.950 0,远高于PCR和PLSR算法;同时,ELMR算法的RMSEC为0.014 9,远低于PCR和PLSR算法。表3显示,在预测方面,ELMR算法预测模型的R2为0.926 2,远高于PCR和PLSR算法;同时,使用ELMR算法的RMSEP为0.026 8,远低于PCR和PLSR算法。因此,ELMR算法在建模效果和预测结果方面,都取得了最高的决定系数和最小的均方根误差。上述结果证明,采用近红外光谱技术快速测定电子烟油的烟碱含量时,使用ELMR算法建立的模型性能优于经典的PCR和PLSR算法。相对于传统方法,ELMR提高了训练集的数据利用率,具有更好的范化性能和更高的回归预测精度,算法的预测精度高,泛化能力强,不容易出现过拟合倾向。
表2 不同建模方法的烟碱训练结果Table 2 Training results of nicotine using different modeling methods
表3 不同建模方法测试样本的预测结果Table 3 Prediction results of testing samples using different modeling methods
4 结 论
本文以近红外光谱分析技术为基础,结合极限学习机算法对电子烟油进行近红外光谱定量建模。与现有检测方法相比,本文所提出的检测方法具有快速准确、绿色无损等优点,能够实现电子烟油烟碱含量的快速准确测量,为电子烟油烟碱含量的实时在线监测和其它质量参数的快速测量奠定了良好的基础。