茄衣烟叶7 种化学成分近红外预测模型的建立
2023-09-21刘洪剑金红岗黄晓明肖旭斌周乐群字淑慧李枝桦
刘洪剑,金红岗,黄晓明,肖旭斌,周乐群,刘 涛,字淑慧,李枝桦
(1.云南农业大学农学与生物技术学院,云南 昆明 650201;2.西南中药材种质创新与利用国家地方联合工程研究中心/云南省药用植物生物学重点实验室,云南 昆明 650201;3.红云红河烟草(集团)有限责任公司原料部烟叶质检科,云南 昆明 650202)
【研究意义】雪茄烟叶原产于美洲,是茄科属植物,在世界各地广为种植,具有较好的经济效益[1]。雪茄烟是由经过晾制和发酵后的雪茄烟叶卷制而成[2],根据用途可分为茄芯、茄套和茄衣3 种类型[3]。茄衣烟叶的化学成分可作为表征烟叶质量的重要指标,其组成和含量均会影响雪茄烟的风味[4-5],检测茄衣烟叶的化学成分可用于茄衣烟叶的品质鉴定,促进雪茄烟品质提升[6]。因此,化学成分检测在茄衣烟叶质量评价中起重要作用,主要包括对总氮、钾、总糖、还原糖、总碱、氯和镁等化学成分的检测[7]。【前人研究进展】目前,传统的检测方法主要通过化学试剂进行测定[8-9],该方法结果较为准确,但费时费力,效率低下,不适合大批烟叶检测,且破坏烟叶,对茄衣烟叶的外观品质产生严重影响。在无损检测方面,常用的方法有超声检测、磁粉检测和光谱检测等[10-12],而光谱检测中的近红外光谱技术是通过研究物质对光的透射、反射、吸收的能力来确定特定成分含量的一种方法,操作简单、快速、绿色,可满足大批量样品检测,已广泛应用在农业、医药、食品、工业等领域[13-14]。仇逊超等[15]应用近红外光谱分析技术建立了红松籽仁蛋白质含量的检测方法,得到的模型验证集均方差均值为0.5681,验证集皮尔逊相关系数均值达到0.9408,分析结果准确可靠、方便无损;刘佳明等[16]应用近红外光谱技术结合偏最小二乘法和交叉验证法建立了快速测定化橘红中柚皮苷和野漆树苷的定量模型,决定系数(R2)分别为92.08%、91.02%,校正集均方差(RMSECV)分别为0.247、0.050,表明该模型预测效果良好、准确率高。近红外光谱技术在烟草中也有相应研究,王玉真等[17]利用近红外光谱技术评价了打叶复烤片烟的混合均匀性,变异系数为3.86%~8.33%,均匀度为91.67%~96.14%;李华杰等[18]利用近红外光谱技术结合模式识别方法建立模型,分析卷烟烟丝的配方比例,模型外部验证的整体识别率为99%,达到良好效果。这些研究大多针对于烤烟烟叶及其他物质化学成分的快速检测,检测的化学成分较为单一,有关茄衣烟叶化学成分检测的研究较少,利用近红外光谱技术对茄衣烟叶化学成分进行快速检测更是鲜有报道。【本研究切入点】本研究以540 片云南雪茄茄衣烟叶为研究材料,将近红外光谱技术应用于茄衣烟叶内7 种化学成分含量的测定。首先利用常规化学方法测定烟叶内7 种化学成分的含量,采集茄衣烟叶的近红外光谱数据,对近红外光谱数据进行预处理,将光谱数据分别与7 种化学成分含量值关联建立模型,确定模型的最佳预处理方法和最佳主成分数,建立预测效果最佳的模型,并检验模型的可靠性和准确性。【拟解决的关键问题】本研究旨在利用近红外光谱技术,建立适于茄衣烟叶7 种化学成分检测预测效果最佳的近红外光谱模型,同时将建模过程细化,为雪茄茄衣烟叶化学成分含量快速预测模型的建立提供理论指导,也为后期依据茄衣烟叶化学成分含量对烟叶进行快速质量评价奠定基础。
1 材料与方法
1.1 试验材料
在云南省烟草农业科学研究院雪茄烟叶种植基地收集发酵好的茄衣烟叶540片,按产区、品种、年份和部位等级进行分类整理,烟叶收集年份为2020 年和2021 年,样品具体分类情况见表1。在样品中按3∶1 比例选择训练集和验证集,即选取384 片烟叶作为训练集样本,156 片烟叶作为验证集样本,于2022 年对烟叶进行检测。
1.2 仪器设备
所用近红外光谱采集仪器为上海创和亿电子科技发展有限公司生产的烟叶综合测试台GGTM-900 PPro 自带的近红外光谱仪及其配套的光谱采集软件InProcess、Hand 和SPS。波长扫描范围为950~1 650 nm,分辨率2 nm。
1.3 化学成分含量测定
在采集茄衣烟叶近红外光谱前,利用常规化学方法测定烟叶的化学值,总氮含量采用YC/T161-2002[19]方法测定,钾含量采用YC/T217-2007[20]方法测定,总糖、还原糖含量采用YC/T159-2019[21]方法测定,总碱含量采用YC/T468-2013[22]方法测定,氯含量采用YC/T 162-2011[23]方法测定,镁含量采用YC/T175-2003[24]方法测定。以上测定中,由于需要测定7种化学成分,故以6 片烟叶为一组打成烟粉混合,分成7 份,分别测定7 种化学成分含量,由于混合后化学成分是均匀分布的,故分别以每份烟粉测得该化学成分的质量分数作为整片烟叶每种化学成分含量,每种化学成分均测定3次,取平均值。
1.4 近红外光谱采集
为保证茄衣烟叶完整性,选择将整片茄衣烟叶置于烟叶综合测试台GGTM-900PPro 上,使用近红外光谱仪进行光谱扫描,采集光谱数据。在950~1 650 nm 波段,基本涵盖7 种化学成分的光谱特征[13],故使用luanch 软件设置光谱扫描参数:扫描波长范围为950~1 650 nm,分辨率为2 nm,环境温度保持恒定24~25 ℃。由于需要与7 种化学成分关联建立模型,而7 种化学成分的测定来自混合后的6 片烟叶,所以每片烟叶的化学成分含量相同。为保证光谱与化学成分一一对应,需要使6 片烟叶的光谱一致,故每6 片烟叶扫描完毕后得到6 条光谱,取其平均光谱作为6 片烟叶共同光谱,最后扫描的光谱数据以Excel 表格形式导出。
1.5 近红外光谱数据预处理
为提高模型建立的准确性和精确度,减少光谱中掺杂的无用信息,建模前需对原始光谱数据进行预处理,降低噪声和冗余[25-26]。借助软件Matlab R2015b 采用一阶导数和一阶导数+中值滤波的预处理方法处理近红外光谱原始数据。一阶导数主要用来消除基线漂移,减少背景干扰,而一阶导数和中值滤波方法结合既可以消除基线漂移或平缓背景干扰的影响,也可以有效降低随机噪声[27]。
1.6 模型建立与评价
本研究共得到90 条光谱,其中64 条训练集光谱用于与化学成分建立模型,26 个验证集光谱用于评估模型。在Matlab R2015b 软件中,使用偏最小二乘法(Partial Least Squares,PLS)创建近红外模型,并确定最佳主成分数,采用相关系数(r)、交叉验证均方差(Root mean square error of cross validation,RMSECV)和验证集均方差(Root mean square error of prediction,RMSEP)等参数对模型进行评价,以确定最优模型。r值为相关系数,反映预测值与化学值的相关程度,一般来说,r越接近1,说明预测结果越好;RMSECV越小,模型的准确性和可信度就越高;RMSEP越小,模型的准确度越高,预测效果越好[28]。
1.7 模型检验
除将参与建立模型的数据代入模型对模型进行检测衡量外,还需要采用外部验证的方法对模型的实际预测能力进行评价,即随机选取26 份未参与建模的样本进行化学实验检测,测定其化学成分含量,然后将26 份样品的近红外光谱数据代入模型进行预测,比较模型预测值和化学值,并计算相对标准偏差(Relative standard deviation,RSD)对模型的实际预测能力进行检验和分析。
2 结果与分析
2.1 茄衣烟叶7 种化学成分的实测值
从表2 可以看出,每100 g 所测样品7 种化学成分含量的最大值均不高于6.19 g,最小值均不低于0.05 g,平均值范围为0.10~5.01 g,说明样品涉及茄衣烟叶各个等级,7 种化学成分含量涵盖范围较广,代表性较强,适合应用近红外光谱技术建立模型。
表2 雪茄茄衣烟叶中7 种化学成分的测定结果Table 2 Determination results of seven chemical components in cigar wrapper tobacco
2.2 茄衣烟叶原始光谱及预处理后光谱
为提高烟叶近红外光谱数据的准确性,应在光线和温度稳定条件下对烟叶进行光谱扫描。在扫描光谱过程中,为保证茄衣烟叶的完整性,采用全叶扫描,从而得到完整茄衣烟叶的近红外光谱数据,共扫描90 条光谱。光谱在测量过程中往往产生噪声和散射,在建模前需对原始光谱进行预处理。本文的预处理算法包括:一阶导数和一阶导数+中值滤波,最后得到原始光谱和预处理后的光谱如图1所示。从图1 可以看出,在整个光谱波段内,由于茄衣烟叶的物质组成基本相同,近红外光谱总体变化趋势基本一致;但不同样品在同波长下的吸光度有一定不同,说明烟叶化学成分的含量存在一定差异。表明近红外光谱分析技术可用于茄衣烟叶化学成分的定量分析。
图1 雪茄茄衣烟叶近红外原光谱和预处理后光谱Fig.1 Original near-infrared spectrum and pretreated spectrum of cigar wrapper tobacco
2.3 茄衣烟叶化学成分近红外预测模型的建立与评价
茄衣烟叶原始光谱经一阶导数和一阶导数+中值滤波预处理后,选择训练集的64 条光谱利用PLS 方法与烟叶化学成分含量数据关联,建立茄衣烟叶7 种化学成分的近红外模型。在建模过程中,PLS 主成分数是影响模型性能的一个主要参数,需要选择合适的主成分数对模型进行优化。模型建立后,得到的各评价参数如表3 所示。由表3 可知,7 种化学成分分别用原始光谱、一阶导数、一阶导数、原始光谱、原始光谱、一阶导数+中值滤波和一阶导数+中值滤波预处理方法建立的模型预测效果最佳,最佳主成分数分别为20、7、4、24、21、9 和7。此时,7 种化学成分最佳预测模型的相关系数较高,均不低于0.7181,均方根误差较小,均不高于0.3990。建模前进行光谱预处理提高了模型的准确率,在部分模型中得到体现,但由于部分化学成分含量的特殊性,进行光谱预处理也可能降低模型的准确性,即对光谱进行预处理会增加噪声和无关信息等,使模型预测能力下降,所以使用原始光谱建模有较好的预测性能。表明7 种化学成分含量预测模型的拟合效果均较好,模型预测效果最佳,这些模型可用于茄衣烟叶7 种化学成分含量检测。由图2可知,在各模型训练集和验证集中,各点大多分布在直线附近,说明模型的预测值和化学值间差异较小,模型的可信度和准确率都很高。所以,应用近红外光谱可基本实现茄衣烟叶化学成分含量的快速预测。
图2 7 种化学成分建模的预测值与化学值相关性Fig.2 Correlation between predicted values and chemical values of seven chemical components modeling
表3 不同预处理方法下7 种化学成分所建模型主要参数Table 3 Main parameters of the models of seven chemical components under different preprocessing methods
2.4 茄衣烟叶化学成分近红外预测模型的检验
为检验以上各化学成分建立的数学模型,通过外部验证的方法对各模型的实际预测能力进行分析和评价,即随机选取26 个未知样品的光谱代入上述模型,得到预测值,再对26 个样品进行化学检测,测定其7 种化学成分含量,预测结果与化学分析结果见表4。在7 种化学成分预测中,预测值与化学值的平均RSD均小于32%,除氯中部分RSD值偏大外,其他化学成分的RSD值均较小,这可能是由各样品氯的绝对含量偏低且氯含量范围较大导致的,使模型对各样品氯含量不能很好检测。表明,除氯外,其他样品模型的预测值和化学值均具有较高相关性,所建立的化学成分模型基本能达到较好的预测效果,可用于茄衣烟叶化学成分含量的快速测定。
3 讨论
本研究以540 片云南雪茄茄衣烟叶为研究材料,首次将近红外光谱技术应用于茄衣烟叶内7种化学成分含量的测定,即利用近红外光谱结合偏最小二乘法与茄衣烟叶化学成分的化学值进行关联分析,同时对最佳预处理方法和最佳主成分数进行筛选,分别建立7 种化学成分的预测性能最佳的近红外光谱模型,并检验模型的可靠性和准确性。与传统方法相比,本研究所建模型具有快速检测的特点,大大提高了茄衣烟叶7 种化学成分含量的检测效率。本试验中,各茄衣烟叶样本光谱走向趋势基本一致,但吸光度有所差异,说明所有茄衣烟叶样本的化学成分组成基本相同,含量有一定差异,这与段昊等[29]和林云等[30]的研究结果一致。本研究中,通过使用两种预处理算法,分别为一阶导数和一阶导数+中值滤波,部分模型预测性能在预处理算法下有一定提升,表明在建模之前进行光谱预处理具有一定的必要性,这与卫青等[31]的研究结果一致。此外,部分模型会出现原始光谱预测效率大于预处理后光谱预测效率的现象,即任何预处理均会降低模型的预测能力,这可能是所取波数的原始光谱区分度较大,化学值跨度也比较大,且测定的化学值偏小,导致光谱未经预处理建模就能够实现化学成分含量的快速预测,也可能是光谱经过预处理后会增加一些干扰信息,导致预处理后的光谱对模型性能影响较大,这与宋白玉等[27]和徐杰等[32]的研究结果一致。本研究所建模型的相关系数均大于0.7181,均方根误差均小于0.3990,说明模型的预测性能较好。刘燕德等[33]利用近红外光谱技术建立了柑桔叶片可溶性糖的检测模型,结果显示,RMSEP皆在4.93 以上,进一步表明本研究预测的模型具有较高的准确度。在进行外部验证时,氯的平均相对标准偏差为31.82%,其余化学成分的平均相对标准偏差均在15%以下,说明所有模型中除氯预测模型外预测效果均较好,而氯的部分预测值数据异常,且RSD偏大,这可能是因为样品比较特殊或进行化学值测定时误差较大,使测定的氯含量偏低且含量范围较大,导致模型预测性能不佳,对模型的适用范围还有待研究,这与包铮等[34]的研究结果一致。
4 结论
本研究建立的近红外光谱模型可基本实现茄衣烟叶内7 种化学成分含量的快速检测,预测效果良好,提高了检测效率。所建模型最佳预处理算法分别为原始光谱、一阶导数、一阶导数、原始光谱、原始光谱、一阶导数+中值滤波和一阶导数+中值滤波,最佳主成分数分别为20、7、4、24、21、9和7,7种模型的训练集r值分别为0.9441、0.8589、0.7664、0.9511、0.9547、0.9031 和0.8620,RMSECV值分别为0.1288、0.2846、0.0280、0.0096、0.1894、0.2965 和0.0795;验证集r值分别为0.8958、0.7675、0.7181、0.7928、0.7282、0.8062和0.7980,RMSEP值分别为0.1789、0.3011、0.0324、0.0193、0.3855、0.3990 和0.0999,外部验证显示,7 种化学成分预测值与化学值的平均RSD值皆小于32%,表明此时建立的7 个模型预测效果最佳。