基于非线性PLS的烟叶中K和Cl近红外光谱建模研究
2016-11-23陆伟宋楠
陆伟,宋楠
1 中国烟草总公司山东省公司,烟草质量监督检测站,济南市高新区龙奥北路1067号 250098;2 山东烟草研究院有限公司,济南市高新区龙奥北路1067号 250098
基于非线性PLS的烟叶中K和Cl近红外光谱建模研究
陆伟1,宋楠2
1 中国烟草总公司山东省公司,烟草质量监督检测站,济南市高新区龙奥北路1067号 250098;2 山东烟草研究院有限公司,济南市高新区龙奥北路1067号 250098
针对烟叶中K、Cl两个无机元素含量与近红外光谱数据之间存在复杂非线性关系、常规的线性模型效果差、预测误差大等问题,在传统偏最小二乘法(PLS)的基础上,将基于核变换的非线性PLS建模方法(NPLS)引入到烟叶无机元素的建模中,建立了K、Cl等指标数学模型,并对模型的可行性和有效性进行了研究,同时与PCR、PLS等其它方法线性建模方法建模准确度和误差分布进行了对比。实验证明,该方法对烟叶光谱与无机元素之间的非线性关系进行了处理,模型的准确率更高,预测误差分布更合理。
近红外光谱;高斯核函数;非线性PLS;校正分析模型
烟叶中总糖、还原糖、总氮、烟碱、钾、氯等主要化学成分含量是评价烟叶质量的基础和重要指标,其研究对烟草工农业生产具有重要的理论与实践意义。目前,烟草行业中常规化学成分的检测主要以化学检测方法为主,存在费时费力、成本高、操作流程繁杂、重复性差等不足[1],难以实现大批量烟叶的快速检测和对烟叶质量的精确把握。近红外光谱分析技术因分析速度快、操作简单、成本低、非破坏性以及多组分同时定量分析等优点,在食品、化工、制药、农业等许多领域得到了广泛的应用[2-4]。国内外许多专家学者也利用近红外分析技术对烟草领域进行了大量研究,特别是对烟草中常规化学成分检测方面。McClure等[5]首次公开报道了利用近红外方法测定烟草中还原糖;秦志强[6]、邓发达[7]等采用偏最小二乘法(PLS)建立了烟草中总糖、还原糖、绿原酸等成分的校正模型;蒋锦锋等[8]研究并建立了烟草中17项主要化学成分的近红外校正模型,实现了烟草中常规化学成分快速大批量的分析。综上所述,对于烟草中糖类、生物碱等有机化合物,其化学成分含量和光谱数据相关性较高,采用偏最小二乘法(PLS)、主成分回归(PCR)等线性建模算法可得到较好的预测效果,可实现预测平均相对误差低于5%[9]。
而对于K、Cl等无机元素的近红外方法测定,学者们研究相对较少。王国庆等[10]研究了烟草中无机元素钾的定量模型;宋怡等[11]研究了卷烟纸中钾和钠的测定;McClure等[12]对烟草中无机元素进行了测定。但通常所建模型效果较差,这主要是因为无机元素对近红外光谱没有明显的吸收,只能通过其与有机基团的结合间接测定其含量,因此无机元素含量与光谱数据之间存在一定的非线性关系,常规的线性模型无法解决此问题,导致预测误差相对较大[13]。针对此问题,本文在传统PLS方法的基础上,将基于核变换的非线性PLS建模方法(NPLS)引入到烟草无机元素的建模中,建立了K、Cl等指标数学模型,并与其它建模方法进行了对比分析。以期为全面、快速、深入的认知烟叶品质特性提供了多样化分析手段。
1 材料与方法
1.1 样品的选取与制备
根据各产区生态条件、种植规模和种植品种的不同,选取山东、广西、云南、四川、湖南等产区的上、中、下部位300个烟叶样品,样品包括B2F、B2L、C3F、C3L、X2F、X2L六个等级。将样品置于烘箱中,40℃条件下干燥4 h,旋风磨粉碎过40目筛,然后将样品密封平衡后进行光谱测量。利用常规化学分析方法进行K、Cl等主要无机元素含量的测定,作为建模的标准值。
1.2 光谱采集
采用FOSS DS2500近红外分析仪,将每个样品进行称重约20 g,放入5 cm样品杯中,采用200 g压样器轻压样品,温度保持在(20±2)℃,湿度<60%,采用漫反射方式进行光谱采集。光谱扫描范围为400~2500 nm,扫描次数64次,分辨率为0.5 nm。为消除样品不均匀性的影响,对每个样品重复装样扫描3次,计算其平均光谱作为该样品光谱。
1.3 基于核函数变换的非线性PLS建模方法
基于核函数变换的非线性PLS建模方法实质是一种拟线性建模方法,它将线性方法延伸到非线性建模中,即对原变量作变换,变换函数有样条函数、多项式函数、核函数等[14]变换后可将原变量间的非线性关系转化为拟线性关系,然后就可以利用线性关系进行求解。本研究采用高斯核函数作为变换函数,对光谱数据的每一维xj(j=1,2,...,n)进行变换xj→zj,具体建模过程如下:
(1)设预处理后的样品光谱矩阵X与浓度向量Y的函数关系式为:
其中n为波长变量,ε为随机误差。
(2)对每一维fj(xj)采用高斯核函数进行变换如下:
式中i为样本数,Sj,l,SY分别为Zj,l,Y的标准差,分别为Zj,l,Y的均值。
(4)综合式(1)(2)(3)可得到光谱数据与待测变量的浓度关系如下:
2 结果与讨论
2.1 数据处理
由于采集的烟叶近红外光谱数据不但包含样品光谱信息,还包含仪器、背景噪声等干扰信息,近红外光谱分析需要从复杂的光谱中提取有效信息。如图1所示,采集的烟叶样品近红外原始光谱图存在基线漂移现象。为消除干扰信息,提高信噪比和模型的性能,建模前需要对光谱数据进行预处理。
图1 烟叶近红外原始光谱图Fig.1 Original near infrared spectrum
经过比较,本文选取二阶导数+Norris 7点平滑作为预处理方法。从图2可以看出,经过预处理后可有效消除光谱的基线漂移现象。
2.2 模型性能验证与对比
从上述制备的样品中按产地、部位、等级、含量等选取220个代表性样品作为建模样品集,剩余80个样品作为测试样品集。本研究选取1120~2400 nm作为建模波长。表1为采用PLS、PCR线性建模方法和基于高斯核函数变换的非线性PLS法建立的钾、氯等无机元素的定量分析模型的性能对比。
表1 不同建模方法性能对比Tab.1 Comparison of different modeling methods
可以看出,基于核函数变换的非线性PLS所建模型总体效果和预测性能明显好于PLS和PCR等法所建模型,而PLS、PCR所建模型性能比较相近,PLS稍好于PCR。虽然PLS是目前应用效果最好、最广泛的建模方法,它综合了多元线性回归、典型相关分析和主成分分析三种方法,与PCR相比,能够消除自变量多重共线性的同时与因变量最大相关,但它只是一种线性的建模方法,对测定烟叶中总糖、总氮等与光谱相关性较高的有机物效果较好,但上述实验可以看出该方法并不适合烟叶中钾、氯等无机元素的测定。这主要是因为无机元素对近红外光谱无直接吸收,烟草中的无机离子是以一定的形式与有机基团结合,只能间接测定其含量,导致烟叶光谱与无机元素之间存在较为复杂的非线性关系,普通的线性建模方法无法得到好的预测结果,因此预测误差较大(钾超过8%,氯超过13%)。
而基于核函数变换的非线性PLS将非线性建模思想引入到PLS建模中,该方法不但能消除建模自变量各波长点存在的共线性问题,而且能解决钾、氯等无机元素与光谱之间的非线性关系,预测误差明显降低(钾为5.6 %,氯为8.9%)。
图3、4分别为基于高斯核函数变换的非线性PLS模型对80个测试样本的钾、氯指标预测值与化学实测值的相关图。可见两指标预测值与实测值之间呈显著的线性相关,样品较集中地分布在中心线附件,说明所建模型预测性能较好。
图3 钾含量预测值与实测值Fig.3 Predicted and actual value of potassium
图4 氯含量预测值与实测值Fig.4 Predicted and actual value of chlorine
表2为选取同一样品重复装样扫描6次预测结果对比。可以看出,所建的钾、氯模型具有较好的测量精度和重复性。
表2 重复性预测结果Tab.2 Prediction results of repeatability
2.3 预测误差结构分析
近红外建模分析中,模型预测误差结构合理与否是验证模型性能的一个重要指标,不同模型的预测误差结构差异会导致模型的性能差异较大。本文选取K为研究指标,对80个测试样本的误差结构进行了分析,图5、6分别为PLS和基于核函数变换的非线性PLS模型的钾的预测误差结构分布图。
图5 PLS模型预测误差结构分布图Fig.5 Prediction errors distribution of PLS
图6 非线性PLS模型预测误差结构分布图Fig.6 Prediction errors distribution of nonlinear PLS
可以看出,PLS方法所建模型的误差分布较广,在0.4%~13.8%之间,误差分布范围较广,而非线性PLS所建模型的误差分布范围相对较小,范围在0.3%~7.8%之间,均匀分布在3.5%左右,误差分布范围比较合理,同时相对PLS模型误差分布范围明显变窄,进一步说明该方法的预测结果优于PLS。
3 结论
本研究针对烟叶中K、Cl等无机元素与近红外光谱数据之间存在复杂的非线性关系,在传统PLS方法的基础上,将基于核变换的非线性PLS建模方法引入到烟草无机元素的建模中,通过核函数将非线性关系转化为线性关系进行求解,所建模型与其它方法相比准确率更高,预测误差分布更合理。本方法可进一步推广到烟叶中其它无机元素的快速测定,这将对烟草主管部门及时了解烟叶品质的变化、提升烟叶质量、改进生产技术等方面提供重要技术支撑。同时本研究对建立近红外校正分析模型也具有普遍的参考意义。
[1] Blanco M, Villarroya I. NIR spectroscopy: a rapid-response analytical tool[J]. Trends in Analytical Chemistry, 2002,21(4):240-250.
[2] 张位春.近红外光谱分析技术在农产品品质检测中的应用[J].光电学院学报, 2010,1(1):1-4.Zhang Weichun. Development of the application of qualitative analysis by near infrared spectroscopy in agricultural product quality inspection. Journal of Optoelectronic College, 2010,1(1):1-4. (in Chinese)
[3] 褚小立,袁洪福.近红外光谱分析技术发展和应用现状[J].现代仪器, 2011,17(5):1-4.Chung Xiaoli, Yuan Hongfu. The research and application status of near infrared spectroscopy analytical technology[J].Modern Instruments, 2011,17(5):1-4. (in Chinese)
[4] 黄富荣,潘涛,张甘霖等. 应用近红外漫反射光谱快速测定土壤锌含量[J]. 光学精密工程,2010,18(3):586-592.Huang Furong, Pan Tao, Zhang Ganlin, et al. Rapid measurement of zinc contents by near infrared diffuse reflectance spectroscopy[J].Optics and Precision Engineering, 2010,18(3):586-592. (in Chinese)
[5] McClure W F, Norris K H, Weeks W W. Rapid spectrophotometric analysis of the chemical composition of tobacco, part1: total reducing sugars[J]. Beitr Tabalforsch,1977, (9):13-18.
[6] 秦志强,蔡绍松,谢豪等.声光可调-NIR法预测烟草中的总烟碱、总糖、还原糖核总氮[J].烟草科技,2007,(2):30-34.Qin Zhiqiang, Cai Shaosong, Xie hao, et al. Prediction of total nicotine, total sugar, reducing sugar and total nitrogen in tobacco with AOTF-NIR. Tobacco Science and Technology, 2007,(2):30-34. (in Chinese)
[7] 邓发达,朱立军,戴亚等.近红外技术测定成品卷烟中总糖和还原糖及绿原酸的含量[J].安徽农业科学,2010,38(12):6181-6182,6188.Deng Fada, Zhu Lijun, Dai Ya, et al. Determination on contents of total sugar, reducing sugar and chlorogenic acid in cigarette by near infrared technique. Journal of Anhui Agricultural Science, 2010,38(12):6181-6182,6188. (in Chinese)
[8] 蒋锦锋,李莉,赵明月.应用近红外检测技术快速测定烟叶主要化学成分[J].中国烟草学报, 2006,12(2):8-12.Jiang Jinfeng, Li Li, Zhao Mingyue. Rapid determination of main chemical components in tobacco leaf by NIR diffuse reflectance spectroscopy. Acta Tabacaria Sinica,2006,12(2):8-12. (in Chinese)
[9] 邱军,张怀宝,宋岩等.近红外光谱分析技术在烟草行业的应用[J].中国烟草科学, 2008,29(1):55-58.Qiu Jun, Zhang Huaibao, Song Yan. Application of near infrared spectroscopic analytical techniques in tobacco industry. Chinese Tobacco Science, 2008,29(1):55-58. (in Chinese)
[10] 王国庆,王芳,陈达.近红外光谱技术用于复杂植物样品中无机离子测定的新方法[J].光谱学与光谱分析,2004,24(12):1540-1542.Wang Guoqing, Wang Fang, Chen Da. A novel method for the determination of inorganic ions in complex plant samples by near infrared spectroscopy. Spectroscopy and Spectral Analysis, 2004,24(12):1540-1542. (in Chinese)
[11] 宋怡,刘巍,丁中涛.近红外光谱法同时测定卷烟纸中的钾和钠[J].分析测试技术与仪器, 2009,15(2):95-100.Song Yi, Liu Wei, Ding Zhongtao. Simultaneous determination of potassium and sodium in cigarette paper by near infrared spectroscopy. Analysis and Testin,Technology and Instruments, 2009,15(2):95-100. (in Chinese)
[12] McClure W F, Williamson R E. Status of near infrared technology in the tobacco industry[J]. Recent Advances in Tobacco Science, 1986, (12):3-53.
[13] 王丽芝,潘存宽,张峻松等.利用近红外快速测定烟草化学成分的研究[J].安徽农学通报, 2009,15(14):48-49,219.Wang Lizhi, Pan Cunkuan, Zhang Junsong. Research on rapid detection of chemical components in tobacco using near infrared spectroscopy[J].Anhui agricultural Science Bulletin, 2009,15(14):48-49, 219. (in Chinese)
[14] 刘玉帮,杨川.基于核函数的非线性PLSR模型在叶水势预测中的应用[J].水资源与水工程学报,2010,21(4):84-88.Liu Yubang, Yang Chuan. Application of non-linear PLSR model to the prediction of leaf water potential based on kernel function transformation[J]. Journal of Water Resource and Water Engineering, 2010,21(4):84-88. (in Chinese)
Establishment of near infrared calibration model of K and Cl in tobacco leaves based on nonlinear PLS
LU Wei1, SONG Nan2
1 Quality Supervision& Test Center, Shandong Provincial Tobacco Company, Jinan 250098, China;2 Shandong Tobacco Research Institute Co., Ltd, Jinan 250098, China
Due to complicated nonlinear relationship between near infrared spectra of tobacco and contents of inorganic elements such as potassium and chloride, which resulted in poor modeling effects and high prediction errors of conventional linear model, this paper introduced nonlinear partial least squares (NPLS) method based on kernel function transformation into calibration. Mathematical models of potassium and chloride were built and their feasibility and effectiveness were studied. The accuracy and distribution of errors were also compared with other linear calibration methods such as PCR and PLS. Results showed that NPLS processed nonlinear relationship between spectra and inorganic elements of tobacco. The model achieved higher prediction accuracy and more reasonable error distribution. It provided an alternative analytical method and technique for cognizing quality of tobacco in a comprehensive, fast and in-depth manner.
near infrared spectra; Gaussian kernel function; nonlinear PLS; calibration analysis model
陆伟,宋楠. 基于非线性PLS的烟叶中K和Cl近红外光谱建模研究[J]. 中国烟草学报,2016,22(3)
中国烟草总公司山东省公司科技重大专项和重点资助项目(合同编号:KN223)
陆伟(1981—),研究生,工程师,主要从事烟草产品质量分析检测,Tel:0531-81218121,Email:luwei@sd-tobacco.com.cn
宋楠(1982—),Tel:0531-81218169,Email:songnan@sd-tobacco.com.cn
2015-11-10
:LU Wei, SONG Nan. Establishment of near infrared calibration model of K and Cl in tobacco leaves based on nonlinear PLS[J].Acta Tabacaria Sinica, 2016,22(3)