烤烟烟碱近红外定量模型的适用性
2019-01-25张辞海彭黔荣邵学广
张辞海,胡 芸,刘 娜,彭黔荣*,邵学广
1.贵州中烟工业有限责任公司技术中心,贵阳市小河经济技术开发区开发大道96号 550009
2.南开大学化学学院,天津市南开区卫津路94号 300071
近年来,随着近红外光谱技术及化学计量学方法的不断发展,近红外光谱技术已在食品、石油、医药、化工和农业等领域得到了广泛应用[1-6]。通常,近红外技术的应用是基于样品光谱的统计分析模型进行的,建模阶段的工作量最大,因此研究人员在建立一个良好的模型后,均希望该模型能够长期使用并能有较宽广的应用范围,以便减少模型维护的工作量[7-8]。目前,烤烟的近红外定量模型主要是根据人为划分的省际界限收集和筛选样品后建立的,应用模型时也仅限于收集样品的行政区划内[9-10]。烟叶的品质特性与生态环境、气候因子密切相关[11-14],因此将烤烟模型划分为不同的省际归属缺乏严谨的科学依据。云南、贵州的大部地区及四川凉山地区同属于西南云贵高原生态区,烟叶的生长环境及气候存在较高的相似性。因此,本研究中以贵州烤烟为代表建立烟碱的近红外定量模型,通过主成分分析(Principal component analysis,PCA)、马氏距离(Mahalanobis distance)及模型预测结果的相对误差来探讨贵州模型对同属西南云贵高原生态区的云南昭通、云南楚雄、云南保山、四川德昌产区的烤烟样品,以及与上述区域存在较大差异的河南宝丰、湖南郴州、广东梅州、福建三明产区的烤烟样品的适用性,并在此基础上考察西南云贵高原生态地区烤烟样品合并后建模的效果,旨在为建模所需样品的代表性及模型预测应用域研究提供参考。
1 材料与方法
1.1 材料和仪器
2015—2016年从各地复烤厂收集的代表性复烤片烟样品566个,包括贵州(全省)样品325个、云南(昭通、楚雄、保山)样品49个、四川(德昌)样品50个、湖南(郴州)样品70个、福建(三明)样品18个、广东(梅州)样品24个、河南(宝丰)样品30个。
AntarisⅡ近红外光谱仪、TQ Analyst软件(美国Thermo公司);FED-240型干燥箱(德国Binder公司);YC-400B-03型烟草粉碎机(成都英特瑞公司);AE100型电子天平(感量0.000 1 g,瑞士Mettler-Toledo公司);Futura型8通道连续流动化学分析仪(法国 Alliance公司);MATLAB 2012a软件(美国MathWorks公司)。
1.2 方法
1.2.1 样品处理
对于所有烟样,均按照烟草行业标准YC/T 31—1996《烟草及烟草制品 试样的制备和水分测定 烘箱法》方法制成烟末,过425 μm(40目)筛后装入密封袋备用。
1.2.2 烟碱含量测定
按照烟草行业标准YC/T 468—2013《烟草及烟草制品 总植物碱的测定 连续流动(硫氰酸钾)法》方法测定样品中的烟碱含量(质量分数)。
1.2.3 近红外光谱采集
将烟粉置于样品杯中,用压块自然下落压实,置于近红外光谱仪上进行漫反射采集。样品采集时入射光斑偏心,光谱扫描范围为4 000~10 000 cm-1,分辨率为8 cm-1,扫描次数为64次。
1.2.4 模型样品集划分
贵州模型:随机挑选305个贵州烤烟样品作为校正集,其余20个贵州烤烟样品作为验证集。
合并模型:从云南和四川烤烟样品中随机挑选云南昭通、云南楚雄、云南保山、四川德昌的烤烟样品各5个(共20个)作为验证集,其余79个烤烟样品及贵州模型的305个烤烟样品作为合并模型的校正集。
1.2.5 近红外光谱预处理与建模
采用偏小二乘法(PLS)方法,在TQ Analyst软件中建立定量校正模型。选择近红外光谱区间为4 000~8 000 cm-1,对光谱图进行均值中心化、多元散射校正、一阶导数、Savitzky-Golay平滑预处理,通过与烟碱测定值的PLS回归,并采用交互检验法预测残差平方和(PRESS)确定最佳因子数。
1.2.6 数据处理
用MATLA 2012a软件对数据进行PCA和马氏距离分析。
1.2.7 评价参数设定
模型评价参数:相关系数(correlation coefficient,r),包括校正相关系数 rc,预测相关系数rp;校正均方根误差(root mean square error of calibration,RMSEC)。模型预测性能评价参数:外部验证集预测均方根误差(root mean square error of prediction,RMSEP)。较好的模型需要符合以下条件:较低的RMSEC和RMSEP值;RMSEC和RMSEP之间的差值较小;较高的r值(接近1)。
2 结果与讨论
2.1 贵州烤烟烟碱近红外定量模型的建立与验证
采用305个贵州烤烟样品作为校正集进行建模,并以20个随机挑选的贵州烤烟样品作为独立测试集对建立的模型进行预测验证,结果如图1所示。可以看出,烟碱的校正模型的选择因子数为8,RMSEC为0.079 9,rc为0.993 2。将独立测试集样品带入校正模型后,RMSEP为0.084 6,rp为0.994 1。说明建立的贵州模型对贵州烤烟样品具有较好的预测效果。
图2是贵州样品校正集和独立测试集的第一与第二主成分分析关系图。可以看出,独立测试集的样品点散布在校正集样品点之间,说明建立模型所用的样品具有较强的贵州代表性。
2.2 贵州烤烟烟碱近红外定量模型的适用性分析
采用不同的分析方法重点考察贵州模型对同属西南高原生态区的云南(昭通、楚雄、保山)和四川(德昌)的烤烟样品的适用性。
2.2.1 主成分分析
建立模型的样品集的主成分空间大小可大体上反映模型预测样品的适应空间。图3是不同产区的复烤片烟样品的三维主成分得分图(利用前三个主成分),从图中可以明显看出云南昭通、云南楚雄、云南保山、四川德昌(图中所有的蓝色样品点)的样品聚类在贵州样品的空间范围内;福建三明(左下角的椭圆区域)、河南宝丰(右边的椭圆区域)的样品聚类在贵州样品分布的空间之外;湖南郴州的样品聚类空间和贵州样品空间有部分重合;广东梅州的样品大部分落在了贵州样品的空间,少数在贵州样品空间外(图中右上角两个黑色的三角Δ)。可见,贵州模型可用于预测云南昭通、楚雄、保山和四川德昌的烤烟样品。
图1 贵州烤烟烟碱含量的模型预测值与测定值的关系图Fig.1 Relationship between model predicted values and measured values of nicotine content in flue⁃cured tobacco from Guizhou
图2 贵州烤烟样品PC1/PC2得分图Fig.2 PC1/PC2 scores of flue⁃cured tobacco samples from Guizhou
图3 不同产区烤烟样品的3D主成分得分图Fig.3 3D principal component scores of flue⁃cured tobacco samples from different growing areas
2.2.2 马氏距离分析
主成分分析(PCA)是通过光谱主成分得分构筑的主成分空间进行样品的簇分布分析,该方法可将复杂的多维空间信息压缩到低维空间进行分析,但其缺点是在图形上最多只能画出三维的得分空间图。从图3可以看出,利用前三个主成分得分画出的3D图只利用了91.95%的信息,部分有用信息仍未被利用。尽管主成分的空间图能大致反映模型预测样品的适应空间,但不易确定具体判别的定量值。徐广通等[15]提出,可将PCA与马氏距离相结合解决校正模型的适用性判断。因此,采用马氏距离对样品的适用性进行了进一步分析。首先用PCA对校正集样品的原始光谱或预处理后的光谱进行处理,然后用各光谱得到的因子得分计算马氏距离。该方法不仅利用了PCA对光谱降维处理信息丢失少的特点,也发挥了马氏距离可对离群值有效识别的优点。
利用PCA降维后得到的前8个主成分得分矩阵(此主成分数与2.1节中建立的贵州烤烟烟碱近红外定量模型的因子数一致)计算不同省份的烤烟样品与校正集(贵州样品)之间的马氏距离,结果如图4所示。可以看出,贵州样品(包含校正集和验证集样品)的马氏距离在1.0~4.5之间,云南昭通、云南楚雄、云南保山、四川德昌的马氏距离在1.5~4.0之间,均处于贵州样品的马氏距离范围内。河南宝丰、广东梅州样品的马氏距离和贵州样品的马氏距离相差较大。福建三明多数样品的马氏距离超出了贵州样品的马氏距离,仅少数样品在贵州样品马氏距离范围的边缘处。湖南郴州部分样品的马氏距离落在贵州样品马氏距离范围内,但多数超出了贵州样品马氏距离的范围。因此,从马氏距离来看,云南昭通、云南楚雄、云南保山、四川德昌这4个产区的烤烟样品可以用贵州模型预测烟碱含量。
2.2.3 预测结果相对误差分析
将贵州的20个样品、云南(昭通、楚雄、保山)的49个样品、四川(德昌)的50个样品、湖南(郴州)的70个样品、福建(三明)的18个样品、河南(宝丰)的30个样品、广东(梅州)的24个样品带入贵州模型验证结果。预测结果的相对误差分布如图5所示,可以看出,云南和四川样品的模型预测结果的相对误差主要集中在-5%~5%之间,与贵州验证集样品的预测结果相对误差分布相似。福建三明、河南宝丰以及广东梅州样品的预测结果相对误差则较大;湖南郴州的部分样品的预测结果相对误差能落在-5%~5%之间,部分样品则超过此范围。从相对误差的角度来看,贵州模型可以适用于云南昭通、楚雄、保山及四川德昌的样品。
2.3 模型对比
图4 不同产区烤烟样品的马氏距离Fig.4 Mahalanobis distances of flue⁃cured tobacco samples from different growing areas
图5 不同产区烤烟样品的相对误差Fig.5 Relative errors of flue⁃cured tobacco samples from different growing areas
通过马氏距离的对比,发现云南昭通、楚雄、保山以及四川德昌的样品的马氏距离完全处于贵州样品的马氏距离范围内。因此,认为这些产区的样品能够合并建模,以完善预测模型。将云南和四川的99个样品随机划分为两部分,一部分为79个样品,将其与贵州模型的305个样品混合,建立合并模型;另一部分为20个样品(云南昭通、云南楚雄、云南保山、四川德昌各5个),将其作为验证集。对比贵州模型和合并模型的参数(表1)可知,合并模型的RMSEC、rc、RMSEP、rp参数均优于贵州模型,该模型对云南和四川以及贵州样品的预测结果均有改善。可见,根据马氏距离将贵州、云南(昭通、楚雄、保山)、四川(德昌)产区的样品合并进行建模是可行的。
贵州模型和合并模型对云南和四川20个验证集样品的预测结果(表2)显示,从相对误差绝对值低于5%的比例来看,贵州模型是70%合格,合并模型是90%合格,说明合并模型的预测效果优于贵州模型。本研究结果有助于改变人们长期根据省际行政区划建模的惯性思维,对模型建立时选取合适样品和预测范围等有重要参考意义。
表1 贵州模型和合并模型的参数Tab.1 Parameters of the Guizhou model and the merged model
表2 两种模型的预测结果Tab.2 Prediction results of two models (%)
3 结论
建立了以贵州烤烟样品为代表的烟碱近红外定量模型,通过主成分分析、马氏距离的判断以及模型预测结果的相对误差分析,发现同属西南云贵高原生态地区的云南昭通、云南楚雄、云南保山、四川德昌的烤烟样品适用于贵州模型,相对误差较小,主要集中在-5%~5%。福建三明、河南宝丰以及广东梅州的烤烟样品不适用于贵州模型。湖南郴州部分样品的相对误差较小,可以适用于贵州模型。在此基础上,通过对比贵州模型和合并模型的建模效果发现,合并模型的各项参数RMSEC(0.072 6<0.079 9)、rc(0.994 1>0.993 2)、RMSEP(0.076 0<0.109 0,0.079 9<0.084 6)、rp(0.991 1>0.979 3,0.995 2>0.994 1)均优于贵州模型;从合并模型对20个验证集样品预测结果的相对误差绝对值来看,合并模型的预测效果也优于贵州模型。因此,将西南云贵高原生态地区的样品合并建模是可行的。本研究结果有助于树立以烟草生态区划建模并以应用效果进行研判的思维,可为提高烤烟烟碱近红外定量模型的适用性提供参考。