基于可见/近红外光谱的蓝莓新鲜度快速评价
2022-11-02曾明飞朱玉杰冯国红朱金艳刘思岐
曾明飞,朱玉杰,冯国红,朱金艳,刘思岐
(东北林业大学 工程技术学院,黑龙江 哈尔滨,150040)
蓝莓,一种蓝色小浆果,归属于杜鹃花科越橘属,有浆果之王的美誉[1]。其酸甜可口,风味独特,并且营养丰富,富含维生素C、花青素和多种人体所需矿物质。蓝莓鲜果自身含水量大,容易受到挤压等损伤,且集中成熟于6~8月的多雨高温时节,果实采后极其不易保存、容易失水干皱和腐烂。随着贮藏时间的延长以及新鲜程度的快速变化,其品质也会发生快速改变。对蓝莓的新鲜度进行快速准确评价可以更好地为之品质分级,判断何时将其制成果酱、含片以及提取化合物等加工品提供参考,以更好提高其利用价值。
传统对于蓝莓新鲜度分级评价主要依靠人工感官评定,不仅费时费力且效果因人而异。可见/近红外光谱技术凭借分析速度快、成本低、无污染等优点,在食品快速无损检测中被广泛应用。其结合化学计量学方法在物质含量预测[2]、食品品质检验[3]等当面多有研究。对于蓝莓无损检测而言,目前国内外已经基于近红外光谱技术实现了对其硬度[4]、可溶性固形物[5]、花青素[6]和总酚[7]的无损检测,但以往对蓝莓的研究主要是针对个别指标预测,尚缺乏对新鲜度这一综合指标的研究。不少学者利用光谱无损检测技术对肉质品[8]、水产品[9]和蛋类[10]的新鲜度进行了分析,但对果蔬尤其是蓝莓的新鲜度研究还较少,主要原因是对于果蔬类样本的新鲜度判定仍缺乏明确的行业标准,其中李昆[11]采用近红外光谱技术对不同放置天数的苹果、白梨和香梨的新鲜度进行了探究,建立了偏最小二乘(partial least squares,PLS)和反向传播神经网络(back-propagation neural network,BPNN)模型,并取得了一定的预测效果。孙红等[12]利用其设计的可见光/近红外鲜切果品新鲜度快速检测装置对红富士苹果进行了测试,以切开时长2 h为分界线,将苹果样品分为2个新鲜等级,建立的支持向量机模型准确率为86.81%。以上研究表明,可见/近红外光谱技术可被应用于水果新鲜度的快速检验和评价,但在对样品的新鲜度划分上仅以放置时长为判断标准,划分方法较为主观且单一。
本文以绿宝石蓝莓为研究对象,测得其可见/近红外光谱数据以及与蓝莓新鲜度变化相关的6个理化指标,通过这些理化指标计算新鲜度综合得分,将样品划分为新鲜、次新鲜、不新鲜3个类别。不同新鲜度类别的蓝莓原始光谱数据采用Savitzky-Golay(S-G)卷积平滑进行预处理,再运用主成分分析提取特征信息,建立支持向量机和随机森林2种新鲜度快速评价模型,比较2种模型的评价效果,以期为蓝莓新鲜度的快速准确评价提供参考。
1 材料与方法
1.1 仪器与材料
实验仪器:LabSpec 5000型光谱仪,美国ASD公司;LYT-330型手持式折光仪,上海淋誉公司;Universal TA型质构仪,上海腾拔公司;UV-1801型紫外分光光度计,北京北分瑞利公司;PX-70BⅢ型生化培养恒温箱,天津泰斯特公司。
实验材料:蓝莓选用的品种为绿宝石,2021年6月采于辽宁省米粒生鲜(丹东)商贸有限公司蓝莓种植基地,挑选大小均匀、无损伤的成熟新鲜蓝莓当天低温贮藏运回实验室,分组放置于专用包装盒内避免挤压,再贮藏于恒温箱内,恒温箱内温度设置为10 ℃。
1.2 实验方法
随着贮藏时间的延长,由于蒸腾作用、呼吸消耗以及受到纤维素酶、果胶酶等影响,蓝莓果实外观色泽质地改变、质量减少、硬度下降、可溶性固形物在相关酶的作用下含量增加、内部维生素C等被氧化[13-14]。基于上述考虑,研究测定了与新鲜度相关的6个理化指标:外观、贮藏天数、质量损失率、硬度、可溶性固形物、维生素C,以此6个理化指标作为蓝莓新鲜度指标,参考谢忠红等[15]对菠菜新鲜度的划分方法,以各指标的标准差除以标准差之和为每个指标赋予权值,求得每组蓝莓新鲜度综合得分,并据此划分蓝莓样品新鲜度类别,以新鲜度类别作为分类标签,进而基于可见/近红外光谱数据建立新鲜度评价模型。
挑选大小均匀、无损伤的成熟新鲜蓝莓分成300组,6个每组,装于聚对苯二甲酸乙二醇酯专用水果包装盒内,于10 ℃恒温箱中贮藏。每次实验前取30组蓝莓,邀请15名接受过培训的同学作为专家进行外观打分,待样品恢复至室温后采集其可见/近红外漫反射光谱,之后进行相关理化指标的测定。样品从贮藏当天开始测定,其间每天测定1次,每次30组样品,共测定了10次。
1.3 光谱采集
采用ASD公司LabSpec 5000型光谱仪采集光谱,该仪器波长范围为350~2 500 nm,在700 nm处光谱分辨率为3 nm,在1 400、2 100 nm处为10 nm。使用二分光纤及其探头作为光谱检测附件,光斑直径为5 mm,检测方式为漫反射,单波长快速扫描32次,使用配套软件IndicoProVersion 3.1采集光谱,采集间隔为1 nm。采集样品光谱前,先将机器预热30 min,之后将二分光纤探头对准聚四氟乙烯标准白板进行校正。扫描光谱时,先将蓝莓表皮轻轻擦拭干净,侧放在垫有黑色植绒布的样品盒内。由于蓝莓果实较小且大小形状存在一定差异,为保证每个样本光谱采集情况一致以及减少反射光散射外露,扫描样品时光纤探头与蓝莓样品表面直接紧密接触,在样品果腹赤道处每隔约120°位置扫描光谱 3次,以3次所得平均结果作为该单果样品的可见/近红外漫反射光谱,以每组中6个样品的平均光谱代表该组样本光谱,每采集完成1组样品进行1次白板校正,光谱扫描时尽量避开表皮缺陷部位。
1.4 理化指标测定
1.4.1 质量损失率测定
采用电子天平称量法测定,称取每组样品初始质量w0,测量时质量wt,单位为g,质量损失率计算如公式(1)所示:
(1)
1.4.2 硬度测定
质构仪探头采用P5型号,下压距离为7.0 mm,测前、测试和测后速度分别为:2.00、1.00、2.00 mm/s,接触力设为0.5 N。以第1次下压曲线上最大力量值作为其硬度值,每组所有蓝莓全部测定取平均,结果以N表示。
1.4.3 可溶性固形物含量测定
用研钵将6个果实捣碎均匀,纱布滤出几滴汁液,使用手持式折光仪测定。重复测量3次取平均值,作为该组蓝莓可溶性固形物实测量。
1.4.4 维生素C含量测定
维生素C测定参考黄绵佳[16]的方法。取2 g左右上述捣碎蓝莓加入2 mL质量分数1% HCl研磨均匀,加蒸馏水定容至25 mL。用滤纸滤出滤液2 mL,加0.2 mL质量分数10% HCl后加水稀释至10 mL。以蒸馏水为空白对照,使用紫外分光光度计在423 nm 处测待测液吸光度值,并查标准曲线(C=15.12A+0.122 2,R2=0.983 3,由抗坏血酸标准液测得)计算得出。
1.5 评价模型建立
通过6个理化指标计算样品新鲜度综合得分,将蓝莓样品划分为新鲜、次新鲜、不新鲜3个新鲜度类别,依次标记为1、2和3,作为新鲜度评价模型的分类标签。原始光谱数据首先应用S-G卷积平滑进行预处理,进而采用主成分分析提取光谱特征信息。以最佳主成分得分为输入变量,新鲜度类别为输出量,利用支持向量机和随机森林2种方法建立蓝莓新鲜度快速评价模型。
1.6 数据处理软件
光谱导出和预处理软件为The UnscramblerX 10.4,数据计算处理在matlab 2019a和Execl 2019软件进行,绘图软件为Origin 2021,建模软件选择为matlab 2019a。
2 结果与分析
2.1 理化指标结果分析
2.1.1 质量损失率和硬度
蓝莓贮藏前期,果实饱满水分充足,而随着贮藏时间的延长,果实中的水分不断减少,营养物质不断被消耗,贮藏第9天时,果实表皮已严重皱缩。由图1可知,0~9 d蓝莓质量损失率逐渐增加,截至最后1次测量时,果实质量减少了13.40%。果实硬度不仅影响其外观形状,还对其口感有较大影响,如图2所示,果实硬度值在贮藏期间不断下降,至第9天时,硬度下降到最低值。硬度的变化可以反映其细胞壁构成物质、细胞间结合程度以及相关分解酶的变化。质量减少和硬度降低主要表现出果实呈现萎蔫、疲软或腐烂形态,表皮光泽降低且变得不均匀。
图1 质量损失率变化图Fig.1 Mass loss rate change diagram
图2 硬度值变化图Fig.2 Diagram of hardness value change
2.1.2 可溶性固形物和维生素C含量
可溶性固形物是反映蓝莓品质的重要指标,极大地影响其食用口感。可溶性固形物测定结果见图3。由图3可知,贮藏期间可溶性固形物含量总体呈上升趋势,前6 d可溶性固形物含量增长迅速,然后增长速度放缓,这与李洋等[17]在10 ℃贮藏条件下贮藏前期的测定结果具有一致性。经分析,可溶性固形物含量上升的主要原因是贮藏期间蓝莓内淀粉、纤维素和果胶被淀粉酶、纤维素酶和果胶酶分解,从而产生了大量可溶性固形物[18],贮藏前期可溶性固形物产生速度大于其消耗速度,表现为其含量在贮藏期间不断上升。虽然继续贮藏时,可溶性固形物含量会达到峰值然后下降,但此刻蓝莓早已肉眼可见的不新鲜,再利用光谱无损检测技术判断蓝莓新鲜度并无意义。
维生素C又称抗坏血酸,能增强人体免疫能力,具有防治坏血病的作用,广泛存在于各类果蔬中,是果蔬中的一种重要营养物质。由图4可知,随着贮藏时间延长,维生素C含量逐渐下降,至贮藏第9天时减少了30.66%。维生素C具有还原性,在空气中易被氧化。据分析,蓝莓采后内部维生素C含量下降主要是由于其被不断氧化分解[19],且贮藏时间越长,维生素C含量降低越多。
实验结果发现,10 ℃恒温贮藏下绿宝石蓝莓在0~9 d贮藏期内,花青素含量总体在0.745 5~1.330 7 mg/g波动,变化不明显。在评价蓝莓样品的新鲜度类别时,由于指标测量误差的不可避免,过多的指标可能会使评价效果下降。因此,最终考虑质量损失率、硬度、可溶性固形物、维生素C、外观得分和贮藏天数作为新鲜度评价的指标。
图3 可溶性固形物含量变化图Fig.3 Diagram of variation of soluble solid content
图4 维生素C含量变化图Fig.4 Changes in vitamin C content
2.1.3 外观评价
蓝莓外观评价参考了王培[20]对菠菜外观评定的方法,采用专家打分法,邀请15名接受过培训的同学对蓝莓外观新鲜度进行评定。外观评定时选取了3个和蓝莓外观密切相关的子指标,分别为色泽、香气和质地形态[21],3个子指标评价标准如表1所示。蓝莓样品按外观标准划分为新鲜、次新鲜、不新鲜3个类别,并量化为3、2、1分。将3个子指标两两对比并由专家进行打分,确定3个子指标权重,外观3个子指标权重结果见表2。外观评定结果见表3(此处仅展示第1组结果)。
表1 蓝莓外观新鲜度评价标准Table 1 Evaluation criteria for appearance freshness of blueberries
表2 二元对比排序法确定外观各指标权重Table 2 Weight of every appearance decided by binary comparison sort
表3 第1组外观评价结果 单位:人次
由表3可知,对该组蓝莓外观评价时,以色泽为标准,15人均判定为新鲜;以香气为标准,14人认为新鲜,1人认为次新鲜;以形态质地为标准时,15人均认为新鲜。该组蓝莓的模糊关系矩阵M如公式(2)所示:
(2)
指标权重向量Z乘以模糊矩阵M,再乘以分值向量Y,得出该组样品最终外观得分F,如公式(3)所示:
F=Z·M·Y=
(3)
2.2 新鲜度综合得分
本次研究综合考虑贮藏天数、外观、质量损失率、硬度、可溶性固形物、维生素C含量这6个指标。参考谢忠红等[15]对菠菜新鲜度的划分方法,采用各指标标准差占标准差之和的比值给每个指标赋予权值,计算出每组蓝莓的新鲜度综合得分,并根据综合得分情况将样品蓝莓合理划分为新鲜、次新鲜和不新鲜3个类别。
2.2.1 综合得分
每组蓝莓得到外观、贮藏天数、可溶性固形物、硬度、质量损失率和维生素C含量6个关于新鲜度的指标数值,将每个指标值归一化到[0,1]并求标准差,再将各指标的标准差分别除以6个指标的标准差之和,得到各指标的指标权重bj,每组蓝莓的新鲜度综合得分为每个指标值aij与权重bj乘积的和。综合得分计算如公式(4)所示:
(4)
式中:i,蓝莓样品编号;j,新鲜度6个理化指标;aij,第i组蓝莓第j个指标数值;bj,第j个指标的权重;当j取贮藏时间、可溶性固形物、质量损失率3个和新鲜度是负相关的指标时,k取1,其余取0。
为使综合得分保持正值,其结果仍进行归一化操作。各组样品蓝莓新鲜度综合得分由高到低排序,并重新编号,得出蓝莓新鲜度综合得分曲线如图5所示。由图5可知,综合得分曲线存在2个突变点,根据这2个突变点将蓝莓样品划分为3组:[1,0.760 4]为新鲜,(0.760 4,0.331 9]为次新鲜,(0.331 9,0]为不新鲜。最终300组蓝莓划分为新鲜88组,次新鲜114组,不新鲜98组,分别标记为1,2和3。
图5 蓝莓新鲜度综合得分曲线Fig.5 Blueberry freshness composite score curve
2.3 划分样本集
样本集依照新鲜度综合得分进行排序,采用隔三选一法[22]划分为训练集和测试集。结果表明,训练集共计225组样本,包含新鲜66组、次新鲜86组、不新鲜73组;测试集总计75组,包含新鲜22组,次新鲜28组和不新鲜25组。
2.4 光谱分析与处理
2.4.1 波段选择和预处理
蓝莓光谱两端噪声较大,去掉此部分光谱数据可使模型达到更好效果,本文选取500~2 300 nm光谱进行分析。
光谱数据的准确性及有效性受到传感器灵敏度、环境温度和光照强度等因素的影响[23],合适的预处理手段可显著提高信噪比,使模型的准确率大为提升。此处选择三次多项式、平滑点数为15点的S-G卷积平滑算法[24]对光谱数据进行预处理,预处理前后的反射光谱如图6所示。从图6可看出,相比于原始光谱,预处理之后的光谱曲线更加平滑,系统噪声更低、信噪比更高。
a-原始光谱;b-S-G平滑预处理后光谱图6 预处理前后蓝莓反射光谱图Fig.6 Reflection spectra of blueberries before and after pretreatment
2.4.2 主成分分析
每一个样本的光谱信息都有上千维的数据,若直接使用其建立模型,计算量大,耗时长,且会导致建立的模型性能差、准确率低。主成分分析是一种常用的光谱数据降维和特征提取方法,能最大限度保留原始光谱信息,并加快模型训练速度,提高预测精度和鲁棒性。绘制前3个主成分得分的三维散点图如图7所示(为避免图中数据点堆积,仅展示测试集数据得分)。由图7可看出,同一种新鲜类别数据点具有一定聚集性,但不同类别之间存在交叉部分,仅依靠主成分得分难以对不同新鲜类别样本准确划分。
图7 主成分得分三维散点图Fig.7 Three - dimensional scatter diagram of principal component scores
2.5 新鲜度评价模型
2.5.1 支持向量机模型及其参数寻优
支持向量机(support vector machine,SVM)是一种强大的模式分类方法,常用于解决小样本情况下的分类问题。其主要思想是将数据展开成高维,建立一个分类超平面来使支持向量间距最大化,并以此进行分类工作。SVM模型计算简单,具有很强的通用性,能够很好地预防欠学习与过学习的发生,具有十分强大的分类和回归预测能力。台湾大学林智仁教授等研发的LIBSVM工具箱,可快速有效地实行SVM模型的建立。应用该工具箱时需对核函数、惩罚因子c及核参数g进行选择,此处以径向基函数为核函数,惩罚因子c及核参数g利用粒子群算法(particle swarm optimization,PSO)进行寻优。
PSO对SVM模型参数寻优前,需首先确定模型输入变量维数,即主成分个数。主成分个数太少,不能很好提取光谱数据的主要信息,过多则降低模型的运算效率和准确率。为使最佳主成分选取更合理,在使用粒子群算法寻优SVM参数时,对主成分数在[1,20]范围内进行了测试,结合5折交叉检验下验证集平均准确率最佳值,确定最佳主成分个数。不同主成分个数下的5折检验平均准确率最佳值如表4所示。
由表4可以看出,不同主成分个数对模型识别效果有较大影响,主成分个数为5时效果最佳。此时PSO寻优参数c和g的适应度曲线如图8所示。从图8可以看出,最佳惩罚因子c=5.053 1、核参数g=1.800 5,5折交叉检验下的最佳判别准确率为97.78%。
表4 不同主成分个数5折交叉检验下的最佳值Table 4 The optimal value of 5 fold cross test for different principal components
图8 PSO寻优SVM参数适应度曲线Fig.8 PSO optimizes SVM parameter fitness curve
2.5.2 随机森林模型
随机森林(random forest,RF)是基于统计学习和集成学习的一种算法,最早由BREIMAN和CUTLER提出,其采用Bootstrap法从数据集中有放回地随机重采样,训练产生多棵决策树,多个相互独立的决策树进行独立评价,最终统计判别结果,以多数决策树的判定结果为最终类别值。科罗拉多大学博尔德分校JAIANTILAL开发的RF工具箱,常用于进行RF模型的建立。RF中决策树个数ntree对模型效果有一定影响,通常树的个数越多,模型预测效果越好,但计算量也会逐步增加。经实验反复测试,当ntree≥250以后,各分类情况的袋外数据误差变化不大,因此将ntree设置为250。
2.5.3 模型效果比较
为比较SVM模型和随机森林模型的分类效果,使用前5个主成分得分为输入变量,蓝莓新鲜度类别为输出量,以径向基函数为核函数、惩罚因子c=5.053 1、核参数g=1.800 5,以决策树个数Ntree=250,建立SVM和RF 2种蓝莓新鲜度评价模型,并对2种评价模型的预测效果进行验证。
研究表明,SVM模型和RF模型训练集的平均分类准确率分别为97.78%和100%,SVM和RF模型测试集的分类统计结果如表5所示。对于测试集的75个样本,SVM模型有9个被误判,RF模型有12个样本分类错误,总体识别准确率分别为88%和84%。由表5可知,SVM模型对测试集“新鲜”、“次新鲜”、“不新鲜”3个新鲜度类别的识别准确率分别为95.45%、89.29%和80%,RF模型的识别准确率分别为95.45%、85.71%和72%,相比RF模型,SVM模型每一新鲜度类别测试集的识别准确率提高0%、3.58%和8%。此外,两者对于“新鲜”类别的识别准确率均高于其他2个新鲜度类别,造成这种现象的原因可能是由于后两类别的部分样本新鲜程度接近,从而造成两者之间的误判。以上研究结果表明,SVM新鲜度评价模型准确率更高,稳定性和泛化能力均优于RF模型,更适合蓝莓新鲜度模型的建立。分析认为,在光谱这种噪音较大的数据集上,RF的模型容易陷入过拟合,而SVM模型具有很好的非线性映射能力,并且采用结构风险最小化准则,在处理小样本分类问题上具有更大优势。
表5 模型识别结果统计Table 5 Model recognition result statistics
3 结论
蓝莓果实贮藏期间,新鲜度是反映果实品质的一个重要的综合指标,快速准确评价蓝莓果实新鲜度是一项重要的工作。为实现对蓝莓新鲜度的快速准确评价,利用可见/近红外光谱仪采集不同贮藏天数蓝莓样品的光谱信息,使用S-G卷积平滑方法和主成分分析对光谱数据去噪和提取特征信息。综合考虑6个理化指标:贮藏时间、外观、质量损失率、硬度、可溶性固形物和维生素C含量,计算新鲜度综合得分,将所测300组蓝莓样品划分为新鲜、次新鲜和不新鲜3个类别。在使用PSO寻优SNM参数时,对主成分数在[1,20]范围内进行了测试,结合5折检验下验证集平均准确率最佳值,确定最佳主成分个数为5个。以前5个主成分得分为输入变量,建立SVM和RF新鲜度评价模型,获得的识别准确率分别为88%和84%。相对于RF模型,SVM模型具有更高的准确率和鲁棒性,可以更好地区分蓝莓新鲜度的3个类别,研究表明可见/近红外光谱技术结合SVM方法在蓝莓新鲜度的快速评价方面具有良好的应用潜力。