APP下载

基于近红外光谱分析技术的栽培香菇产地快速鉴别

2020-11-09夏珍珍姚晶晶王胜鹏仇建飞

分析测试学报 2020年11期
关键词:香菇产地正确率

夏珍珍,郑 丹,夏 虹,姚晶晶,王胜鹏,仇建飞

(1.湖北省农业科学院农业质量标准与检测技术研究所 农业部农产品质量安全风险评估实验室(武汉),湖北武汉 430064;2.湖北省农业科学院果树茶叶研究所,湖北 武汉 430064;3.吉林省农业科学院农业质量标准与检测技术研究所 农业部农产品质量安全风险评估实验室(长春),吉林 长春 130033)

香菇(Lentinuseduodes,Shiitake)是药食同源的食用菌品种,富含多种营养物质,如人体必需氨基酸、蛋白质、维生素、多糖、核苷酸等。现代医学研究发现香菇子实体和菌丝中含有大量生物活性物质,具有防癌、抗癌、降低血压血脂等医药保健价值[1]。我国是香菇的发源地,早在4 000年前就有食用记载。由于香菇的附加产值较普通农作物高,近年来香菇种植更是成为山区产业扶贫的重要模式之一[2]。目前我国的香菇主产区可分为东南(福建、浙江)、华中(湖北、河南)、东北(辽宁、吉林)和西南(四川、重庆、云南)等。随着香菇种植范围的扩大,其产量也随之增加,2018年我国香菇产量达1 043.12万吨,占我国食用菌总产量的16.4%,是名副其实的主要品种[3]。

现有香菇的产品标准有两项,分别为国家标准《GB/T 38581-2020 香菇》[4]和行业标准《GH/T 1013-2015 香菇》[5]。标准中的质量评价指标主要包括感官要求(形态、色泽、气味等)、理化指标(水分、砷、铅、汞、镉等重金属指标)。感官指标的描述多为无法量化的文字描述,理化指标则是重金属含量的要求,属于安全要求。标准对于香菇中的多糖类物质、蛋白质类物质、小分子挥发性风味物质这类品质指标暂无规定。但是这类有机物与香菇的口感和营养价值密切相关,从而影响着消费者的购买习惯。栽培香菇的生长环境如光照、气温、水源等差异会造成香菇中有机物的累积差异,因而香菇的品质跟种植的产地环境有很大的相关性。我国香菇种植范围广,不同产地间的香菇品质参数差异很大[6]。随着饮食结构的调整,人们对食物的营养价值要求提高。香菇品质的高低不仅影响其内含的有机物组成和含量,且不同品质香菇间的售价也存在较大差异。有些不法商家更是为了经济利益,混淆产地,以次充好。针对这一问题,建立快速、准确的香菇产地鉴别方法成为分析工作者的一项重要任务,且对保障香菇品牌和消费者利益具有实际意义。

目前用于产地鉴别的分析技术包括光谱法、质谱法、分子生物学等[7]方法,但对于香菇产地的研究报道较少,仅有朱哲燕和王升等[6,8]分别利用中红外光谱法和气相色谱-质谱法的香菇产地研究。由于中红外光谱法和气相色谱-质谱法自身的特点,如对样品的制备周期长、提取方法复杂耗时、有机溶剂消耗量大、分析速度长等,制约了其在快速分类领域的应用。近红外光谱技术因具有快速、无损、测量方便、成本低等特点已经在食品、医药、石油领域广泛应用[9-10]。近年来,近红外光谱也广泛用于小麦、芝麻、茶叶等农产品真实性溯源方向[11-13]。但由于近红外光谱吸收带宽,光谱重叠严重,因而必须结合化学计量学才能实现定性、定量分析。本文采集不同产地干香菇样品的近红外漫反射谱结合不同的光谱预处理方法和波长选择方法,建立了香菇产地鉴别模型,可为香菇的质量控制提供新的评价方法。

1 实验部分

1.1 仪器设备

采用美国Antaris型傅里叶变换近红外光谱仪(Fourier transform near infrared spectrometer,FT-NIR),测量选用积分球漫反射光学仪器,光谱扫描区间4 000 ~ 10 000 cm-1,光谱分辨率2 cm-1,InGaAs检测器。光谱数据处理采用Matlab R2017b(The Math Works,Natick,USA)软件。

1.2 样品来源及光谱的获取

采集吉林、湖北、福建不同产地的栽培香菇干样共计113个,香菇分别购于基地和市场。在低温4 ℃冷库中避光保存。其中吉林香菇样品58个,湖北香菇31个,福建香菇24个,香菇产地信息列于表1。采用粉碎机将样品粉碎,过100目筛供光谱测试用。将样品倒入与仪器配套的旋转杯中充分压实后采集光谱,每条光谱扫描64次取平均作为最终光谱。

表1 香菇样本数和产地分布情况Table 1 Sample numbers and origins of the shiitake samples in the research

1.3 光谱数据处理

由于香菇样本颗粒不均、获得的近红外光谱信息复杂,且存在一些噪声、基线漂移、背景干扰等问题,需对光谱进行一定的预处理,以提高模型的效果。运用到的预处理方法有求一阶导数(First order derivative,1st)、小波变换(Continuous wavelet transform,CWT)、多元散射校正(Multivariate scatter correction,MSC)、标准正态变换(Standard normal transformation,SNV)等[14-17]。

由于近红外光谱的谱峰宽,特征吸收不明显,存在大量冗余信息,因此需进行必要的波长筛选,挑选出特征波长进行建模。随机测试(Randomization test,RT)是由邵学广课题组提出的一种变量筛选方法,随机检验通过建立大量随机模型,利用随机模型与真实模型的统计值之间是否具有统计性差异确定有效参数[18],已经广泛应用于近红外数据的有效波长选择[19],本文采用该方法进行特征光谱信息的筛选。

1.4 模型校正方法

偏最小二乘判别分析(Partial least squares discriminant analysis,PLSDA)是一种广泛应用的分类方法[20],分别建立了3种香菇产地的判别模型。通过优化最佳因子数得到最优的判别模型,并通过模型预测的正确率评价3个产地的模型分类效果,模型的训练集和预测集样品信息如表2所示。

表2 训练集和预测集样品信息Table 2 Varieties of calibration set and prediction set of samples

2 结果与讨论

2.1 不同产地香菇的光谱及其预处理

不同产地香菇的近红外原始谱如图1A所示,各近红外光谱的变化趋于一致,分别在8 400、6 786、5 764、5 159、4 709、4 281 cm-1附近有较宽的吸收峰,主要为香菇中有机物的C—H、N—H、O—H振动的倍频峰。在7 000 cm-1后香菇样品的光谱出现漂移,因而需对上述光谱进行一定的前处理。选取的光谱预处理方法包括CWT、1st、MSC和SNV,处理后的光谱如图1(B~E)。可观察到,经光谱预处理后可消除光谱间的漂移,增加光谱的分辨率。但由于不同产地香菇光谱间的差异较小,仍无法从谱图信息上直接区分,需进一步借助化学计量学的方法解析不同产地间香菇的近红外光谱差别。

2.2 不同产地香菇的主成分分析

主成分分析(Principal component analysis,PCA)是一种常用的聚类分析方法,通过将多变量的光谱空间转换为新变量空间来减少信息的冗余,从而最大限度的保留和发掘原光谱数据的特征。对栽培香菇的原始光谱进行主成分分析,得到的前两个主成分得分图如图2A所示,其中蓝色圆点表示吉林省的香菇样品,红色点表示湖北省的香菇样品,黑色点表示福建省香菇,前两个主成分的贡献率达到98.3%,包含了绝大部分的样品信息。分别观察各色圆点,发现各色圆点均有一定的聚集,整体看三色圆点有较大范围的重合,且在第一主成分(PC1)上的重叠较第二主成分(PC2)严重。两两考察,黑色点与红色点、黑色点与蓝色点的重叠部分较大,而红色点与蓝色点的重叠范围相对较小,总体看原始光谱的PCA聚类效果不好,未能发现各省份香菇的区分特征。为了提高PCA的分类效果,采用不同的光谱预处理技术以减少光谱的背景漂移和分辨率差等问题。经不同的光谱预处理后的PCA得分图如图2(B~E)所示。

图2B和C为经CWT和1st处理后的前两个主成分得分图,前两个主成分方差贡献率分别为91.9%和91.7%,相比原始光谱的贡献率有所下降但仍代表了绝大部分的样品信息。相比原始光谱的得分图,经过处理后各色散点间的相互覆盖程度有一定减少,尤其是红色点与蓝色点的重叠范围进一步减少,因而经CWT和1st处理后光谱的PCA区分效果相对原始光谱变好。图2D和E为经MSC和SNV处理后的前两个主成分得分图,前两个主成分方差贡献率分别为76.5%和77.6%,与原始光谱和经CWT和1st处理后光谱相比,经MSC和SNV处理后其方差贡献率进一步下降,但依然解释了大部分的样品信息。且经MSC和SNV处理的黑色和红色圆点的聚集较原始光谱和CWT和1st处理的紧凑;蓝色圆点的聚集程度也较原始光谱紧凑,但相比于CWT和1st的处理有所分散。观察蓝色点和红色点的覆盖程度(覆盖程度越大表示各省类别相差越小,反之则越大),表明其覆盖程度相对于原始光谱有明显减小,但相较于CWT和1st处理,从其对角线的角度观察,两色圆点覆盖程度略有减小。综上可知,经过预处理的光谱PCA分类效果较原始光谱有较大改善,因而可以确定对原始光谱进行预处理的必要,但不同预处理方法的改善效果差别不明显。由于基于PCA只能定性的分析香菇产地,无法实现对未知香菇产地的鉴别,因而需对样品进一步建立各省份香菇的产地判别模型。

2.3 全谱段的香菇产地判别模型

通过PLSDA方法将每类产地的香菇样品按照3∶1比例随机分为建模集和预测集两部分,建模集用于建立PLSDA判别模型,预测集用于考察已建立模型的判别效果,预测结果列于表3中,预测结果通过预测正确率表示,其中分省预测正确率和总预测正确率按照下列公式计算:

其中,与实际情况相符的样本数量包括两部分:样本实际是属于该省份且模型预测为“是”的情况和样本实际不属于该省份且模型预测为“不是”的情况。

以表3中Raw+PLSDA结果为例,吉林省的预测集样本共有33个,其中属于吉林省的样本为17个,预测属于吉林省样品17个,不属于吉林省样本16个,预测不属于吉林省样本13个,因此与实际情况相符的样本数量为30个,则吉林省的分省预测正确率为90.91%。同理,湖北省和福建省的分省预测正确率分别为93.94%和96.97%,最终的总预测正确率为93.94%。

从表3还可以看出,通过CWT、1st、MSC、SNV预处理后光谱的PLSDA的分省预测正确率较原始光谱的分省预测正确率有所变化,如吉林省的预测正确率得到提高。分析湖北省PLSDA的预测率,CWT处理后预测正确率略有提升,1st和MSC处理后的模型正确率维持不变,SNV处理后的模型正确率略有降低。分析福建省PLSDA的预测率,除MSC方法处理后预测率较原始数据持平,其他处理方法的预测率均略有下降,但也均为93.94%。比较3个省的总预测正确率,发现CWT处理较原始光谱和其他处理方式的光谱的模型预测正确率高,达到95.96%。因而选择CWT预处理方法对光谱数据进行后续处理。

表3 不同预处理的PLSDA的分类结果Table 3 The results predicted of PLSDA by different preprocessing method

2.4 选择波长的香菇产地判别模型

全波长范围的近红外光谱存在大量冗余信息,采用全波长进行分类建模,会增加计算量。为了选择有效的变量需要进行波长选择,选择RT方法来进行模型优化。选择波长后的模型预测结果见表4。将Raw+RT+PLSDA的预测结果与表3中Raw+PLSDA结果进行比较,发现选择波长后,吉林、湖北、福建的预测正确率较原始光谱有所提高,总预测正确率由93.94%提高到95.96%。其中福建省的预测正确率提高最明显,达到100%;吉林省的模型预测正确率提到93.94%;而湖北省的模型预测正确率维持不变,推测可能是由于此处建模样品数量较少造成,但通过减少参与建模的波长,客观上降低了模型的冗余度,提高了模型的解释性,因而选择波长是必要的。

经CWT预处理和RT选择特征波长后,PLSDA的总预测正确率也有所提高,达到96.97%。其中,吉林省的模型预测正确率提高最明显,达到100%,湖北省的模型预测正确率达96.97%,福建省的模型预测正确率下降至93.94%,但CWT+RT+PLSDA模型预测的总预测正确率还是较Raw+RT+PLSDA模型的预测正确率提高了近1%。因而得出,CWT结合RT得到的香菇产地模型预测效果优于原始光谱结合RT,对原始光谱进行预处理十分必要。另外,通过RT波长选择后,原始光谱的3 112个变量,缩减到1 200个变量以下,极大地降低了运算的数据量,其选择的具体波长分布见图3。

表4 波长选择后的PLSDA的分类结果Table 4 The results predicted of PLSDA by different wavelength selection methods

3 结 论

本文研究了利用近红外光谱结合化学计量学方法快速区分香菇地理起源的可行性,为香菇产地的快速无损判别提供了一种新方法。对于地理特征,采用PLSDA分别建立了吉林、湖北、福建等香菇主产省份的产地判别模型,然后通过4种光谱预处理方法和波长选择方法进行优化。判别分析模型效果均由预测集中的样本预测正确率进行评估。结果发现,CWT和RT的组合具有更好的预测结果。本方法为香菇产地的真实性溯源提供了一种新方法,在香菇产业发展具有一定的实际意义,但由于文中建立的香菇产地判别模型仅覆盖吉林、湖北、福建3个香菇主产省份,并未覆盖全国样品,无法实现除此之外其他省份的香菇产地判别,后续将继续扩大样品覆盖范围,从而扩大香菇产地判别模型的应用省份。

猜你喜欢

香菇产地正确率
Modeling and Verification of a Sentiment Analysis System Using Aspect-Oriented Petri Nets
香菇接种三招
门诊分诊服务态度与正确率对护患关系的影响
警惕“洗产地”暗礁
食物离产地越远越好
测定不同产地宽筋藤中5种重金属
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
加强产地检疫实现以检促防