一种基于近红外光谱技术的不同品种及掺假三七的无损鉴别分析研究
2021-10-17李尚科戴雪婧蒋立文
余 梅,李尚科,戴雪婧,郑 郁*,李 跑,3*,蒋立文,刘 霞
(1.湖南师范大学 医学院,湖南 长沙 410013;2.湖南农业大学 食品科学技术学院 食品科学与生物技术湖南省重点实验室,湖南 长沙 410128;3.湖南省农业科学院 湖南省农产品加工研究所,湖南 长沙 410125)
三七为五加科植物三七(Panax notoginseng(Burk.)F.H.Chen)的干燥根和根茎,广泛种植在广西、云南、四川及湖南等地,在我国已有400多年的种植历史[1]。三七作为一种名贵的中药材,富含氨基酸、皂苷、黄酮苷等活性成分,在止血、活血化瘀及降血压、降血脂方面有重要作用。然而,受地理环境气候条件的影响,不同品种三七在组成及含量上有所差别,功效也有较大的不同,价格相差甚远。三七呈块状,但常以粉末状入药,现阶段,市场上出现了以玉米淀粉和红薯淀粉掺假三七粉的不法现象[2]。当前关于不同品种和掺假三七的鉴别主要为感官评价法和理化分析法,其中感官检测易受到主观因素和客观环境的影响,结果准确度有待考察;理化分析法主要是通过测定三七成分组成和含量来实现三七品种的鉴别分析,但此类方法需要对样品进行破坏性前处理,影响样品的二次销售,且操作复杂,检测成本较高。开发一种快速无损鉴别三七品种及掺假的方法对解决三七真伪鉴别难的问题具有实际意义。
近红外光谱技术是一种光谱波长介于可见光谱区和中红外光谱区之间的电磁波技术,其波长为780~2526nm,波数为10000~4000cm-1,主要包含含氢基团化学键伸缩振动倍频及合频信息[3]。近年来,近红外光谱技术因绿色无损、分析速度快、操作简单的特点在食品、医药、化工等行业得到了广泛应用[4-6]。本课题组[7]采集了不同年份陈皮的近红外光谱数据,利用单一和组合预处理方法对光谱数据进行预处理,结合线性判别分析方法实现了不同年份陈皮的鉴别分析。李运等[8]采集了来自云南省12个产地的96个三七样品的近红外光谱数据,通过一阶导数、二阶导数结合Savitsky-Golay平滑方法对数据进行预处理,实现了三七及其野生近缘种的亲缘关系分析。钟玉兰等[9]采集了三七粉末以及混有三七叶或淀粉的三七粉末样品的近红外数据,运用一阶导数法结合九点平滑处理优化光谱数据,采用独立软模式簇类判别分析法建立了定性鉴别模型,该模型对于真品和掺假比例高于10%的伪品的识别成功率为100%。然而,在实际分析中,由于存在样品物理性状的不均匀性以及仪器自身问题,导致采集的近红外光谱存在谱带较宽、重叠较严重、吸收信号强度弱等干扰,因此仅用原始光谱数据较难实现对复杂样品的定性定量分析,需采用预处理方法消除光谱中的干扰。而每一种预处理方法针对的问题有所不同,如何选择合适的预处理方法是研究的重点与难点。去偏移(De-bias)[10]和去趋势(DT)[11]常被用于消除光谱中存在的基线漂移;标准正态变量变换(SNV)[12]和多元散射校正(MSC)[12]常被用于消除固体颗粒大小、表面散射以及光程改变对漫反射光谱的影响;最大最小归一化(Min-Max)[13]用于消除光谱的绝对吸收值及多余信息,提高模型的稳健性和预测能力;一阶导数(1st)和二阶导数(2nd)等导数方法[14]和连续小波变换(CWT)[15]常被用于扣除仪器背景或漂移对信号的影响。在实际情况中,光谱中往往存在多种干扰,仅用一种预处理难以得到理想的结果。卞希慧等[16-17]发现,采用合适的预处理组合方法可以提高建模效果,对于不同数据集,得到的最佳预处理组合也不相同,对已有预处理方法按照预处理目的进行分类再排列组合是选择最佳预处理方法的一种有效途径。因此,本试验采集了不同品种完整、粉末及掺假三七样品的近红外光谱数据,采用单一和组合预处理方法对数据进行处理,筛选出最优预处理方法,并结合主成分分析法构建了不同品种以及掺假三七样品的鉴别模型,以期实现对不同品种三七完整、粉末以及掺假样品的鉴别分析。
1 实验部分
1.1 实验材料
从本地药店购买四川的景天三七、河北的菊三七、陕西的血三七和云南的田三七完整样品及粉末样品,每个品种样品分别取10份。现阶段市场上掺假三七粉大多是不良商家用毫无药用价值的淀粉、毛根、三七茎叶磨出来的粉,三七茎叶掺假的三七粉中存在少许磨不碎的植物叶脉纤维,较容易鉴别,而淀粉掺假的三七粉较难鉴别。因此,以田三七为掺假对象,将淀粉按照1∶0.25 、1∶0.5 、1∶0.75 及1∶1的质量比例加入田三七中得到掺假样品,每个比例制备3份样品,共12份掺假样品。
1.2 仪器与光谱采集
采用赛默飞世尔科技AntarisⅡ傅里叶变换近红外光谱仪漫反射模式得到近红外光谱数据,在MATLAB R2010b(The Mathworks,Natick,USA)软件中实现光谱数据的预处理和鉴别分析。
试验在室温条件下进行,波数为10000~4000cm-1,最小间隔约为4cm-1,共采集1557个数据点,采集方式为漫反射。为保证光谱测量的准确性,每一样品重复3次,取平均值作为该样品的原始光谱。
1.3 光谱预处理与聚类分析
40份样品数据按照Kennard-Stone方法以8∶2的比例分为32个校正集和8个预测集。受样品、环境和仪器的干扰,光谱往往存在基线漂移及谱峰重叠的现象,如直接使用原始数据建立的模型易出现精确度不高、稳定性差等情况。本试验采用De-bias等8个单一预处理方法对光谱数据进行预处理,提取有效信息,提高模型的精确度与准确度;考虑到光谱的复杂性,采用组合预处理方法对光谱数据进行进一步处理。表1给出了详细的单一和组合预处理方法。最后利用主成分分析(PCA)方法建立不同品种完整、粉末及掺假三七样品的鉴别模型,得到不同品种及掺假三七的鉴别率。
表1 47种预处理方法Table147 pretreatment methods
2 结果与讨论
2.1 不同品种三七完整样品的原始光谱及聚类分析
通过近红外光谱仪采集4个品种三七完整样品的光谱信息,图1A为4个品种三七完整样品的原始光谱,绿色、红色、蓝色和紫色分别代表了景天三七、菊三七、血三七和田三七。图中谱线趋势大致走向一致,说明不同品种三七具有相似组成成分。光谱中存在明显的谱峰重叠、基线漂移等干扰,可能是由于固体样品表面凹凸不平的原因,故仅采用原始光谱无法找到不同品种三七的差异信息。为了实现对不同品种三七的鉴别分析,采用PCA对光谱数据进行处理,由于第一主成分(PC1)与第二主成分(PC2)的累计方差贡献率之和在90%以上,因此选用PC1及PC2绘制PCA图。图1B为完整样品原始光谱的PCA图。图中实心表示校正集,空心表示预测集,横坐标代表PC1的方差贡献率,纵坐标代表PC2的方差贡献率。由图可知,4个品种三七完整样品的置信椭圆呈重叠交织状,4个品种中仅有景天三七中2个校正集样本与血三七中1个校正集样本被成功鉴别,鉴别率仅为9.38 %。因此通过完整样品原始光谱无法实现对不同品种三七的准确鉴别分析。
图1 完整样品的原始光谱图(A)及PCA图(B)Fig.1 Original spectra(A)and PCA plots(B)of the complete samples solid:calibration set;hollow:verification set
2.2 不同品种三七粉末及掺假粉末样品的原始光谱及聚类分析
图2A为4个品种三七粉末及掺假样品的原始光谱,绿色、红色、蓝色、紫色和黄色分别代表了景天三七、菊三七、血三七、田三七和掺假样品。相较于完整样品光谱,粉末样品光谱中的背景干扰和基线漂移得到了明显改善。此外,粉末状样品与完整样品光谱具有相似的特征峰。然而,直接采用原始光谱依旧无法实现对粉末与掺假样品的鉴别分析。因此采用PCA方法对数据进行聚类分析。图2B为粉末及掺假样品原始光谱的PCA图,由图可知,4个品种粉末样品的置信椭圆得到完美分离,鉴别准确率为100%。此外,掺假样品的数据点未落入4个品种粉末样品的置信椭圆中,表明掺假样品与粉末样品实现了100%的鉴别。
图2 粉末及掺假样品的原始光谱图(A)及PCA图(B)Fig.2 Original spectra(A)and PCA plots(B)of powder and adulterate samples
2.3 基于预处理方法优化三七光谱数据的鉴别分析
为进一步提高鉴别准确率,采用预处理方法对光谱数据进行处理以消除干扰。图3为采用单一预处理后完整、粉末样品原始光谱数据的鉴别率,黑色线表示原始光谱数据的鉴别率。图3A、B分别为完整样品校正集与预测集的鉴别准确率,完整样品原始光谱鉴别率仅为9.38 %,然而采用预处理方法后,鉴别准确率得到了显著提高,其中以CWT预处理方法的结果最佳,鉴别准确率为93.75%,说明预处理方法可在一定程度上扣除光谱存在的干扰,提高鉴别准确率。对于预测集的分析,原始数据鉴别率仅为0%,采用1st与CWT预处理后鉴别准确率达到了100%。图3C、D为粉末样品校正集与预测集的鉴别率。由图3C(校正集)可知,粉末样品采用原始光谱数据即可实现100%的鉴别分析。由图3D(预测集)可知,经MSC预处理后鉴别率有所下降,说明预处理方法选择不当会扣除光谱中的有用信息,从而导致鉴别准确率下降。
图3 采用单一预处理方法得到的鉴别准确率Fig.3 Identification accuracies with single pretreatment method
为了进一步提高对完整样品的准确鉴别分析,采用组合预处理方法对光谱数据进行预处理。表1中给出了详细的38种组合预处理方法。图4A、B为完整样品校正集与预测集采用组合预处理后的鉴别准确率,灰色的线表示单一预处理后的最优鉴别率(93.75 %)。由图4A(校正集)可知,38种组合中仅有De-bias+1st、De-bias+CWT与2nd+SNV3个组合预处理的鉴别准确率与单一预处理最优鉴别率保持一致,鉴别准确率为93.75%。同时,考察了同一种预处理不同组合顺序对结果的影响,结果表明,采用1st+De-bias组合预处理后鉴别准确率为78.13%,CWT+De-bias预处理后鉴别准确率为75%,SNV+2nd预处理后的鉴别准确率为43.75%,表明预处理的组合顺序对结果会产生不同影响。由图4B(验证集)可知,De-bias+1st和De-bias+CWT及2nd+SNV3个组合预处理鉴别准确率为100%。综上所述,采用多种预处理组合方法会扣除光谱中存在的多种干扰,但是,不准确的预处理组合会降低鉴别准确率,可能是由于多种预处理组合在进行无效信息去除的同时也扣除了有用信息。
图4 采用组合预处理方法得到的完整样品的鉴别准确率Fig.4 Identification accuracies of complete samples with combined pretreatment methods
3 结 论
近红外光谱技术结合化学计量学方法可有效实现不同品种以及掺假三七的鉴别分析。粉末样品鉴别结果明显优于块状样品。预处理可以消除光谱中的多种干扰,显著提高鉴别率;预处理方法的组合顺序对结果也有影响;预处理方法选择不当会扣除光谱中的有用信息,导致鉴别率下降。在未来研究中,我们将针对其它品种三七掺假田三七以及多头数三七粉冒充少头数三七粉的鉴别进行进一步深入研究。