近红外无损检测技术在水果成熟度判别中的应用研究
2021-02-22黎丽莎刘燕德朱向荣周新奇
黎丽莎,刘燕德,胡 军,宋 烨,朱向荣,黄 敏,周新奇
(1.华东交通大学智能机电装备创新研究院,江西 南昌 330013; 2.中华全国供销合作总社济南果品研究院,山东 济南 250220;3.湖南省农产品加工所,湖南 长沙 410125; 4.江南大学物联网工程学院,江苏 无锡 214122;5.杭州谱育科技发展有限公司,浙江 杭州 310056)
水果是生活中基本营养物质的来源, 对人体健康有明显的有益影响,如维生素、抗氧化剂、多酚和矿物质。 水果在运输过程中,由于细胞的呼吸作用导致水果内部品质出现变化, 从而影响水果的最终口感, 而水果的采收期以及储存方式对这一过程的变化起着关键性的作用。 水果的成熟期按照其阶段特性可以划分为3 类:可采成熟期、食用成熟期和生理成熟期, 不同成熟期对应的生理阶段不同,所体现的水果内部品质也有所不同[1-4]。处于可采成熟期的水果已经完成了生长和营养物质的积累,达到了水果的采收期,但此时水果的口感和外部品质还未达到最佳,不完全适用于鲜食,适用于长途运输和储存; 食用成熟期则是指此时水果的食用口感以及外观均已达到最佳状态,但此时不再适用于长途运输和储存, 可用于加工制作罐头等; 而生理成熟期的水果内部种子已充分成熟,此时的果肉已经开始腐烂变质,不宜食用,更不适合运输储藏[5-7]。 水果成熟期无损检测的研究对提高果实的质量和贮藏寿命都具有至关重要的作用[8-11]。
红外光谱是由于不同分子吸收的红外线波段不同从而产生的一种吸收光谱。 在不同化合物的分子中,由于组成分子的化学键、基团或官能团不同从而在红外区内的吸收频率也不同,在红外光谱图上会出现不同位置的吸收峰,可以通过红外光谱对化合物进行定性分析。 由于有机分子中的含氢基团(如O-H、C-H、N-H)的振动吸收频率对应的波长正好在近红外光谱区,所以近红外光谱 (near infrared spectroscopy,NIRS) 常用于有机化合物中含氢基团结构的检测。 利用破坏性技术虽然可以精确地预测果实的成熟情况,然而这些技术费时费力并且会损坏样品,所以无法对每一个样品都精确检测。 近年来,各种无损检测技术快速发展,如比色法、可见成像、光谱学和光谱成像等[12-14],其中,近红外无损检测技术就被广泛应用于水果成熟期的研究中[15]。Walsh 等[16]便实现了利用短波近红外光谱仪器对树上未采摘的芒果的干物质(dry matter,DM)进行了检测,并以此作为田间芒果采收决策的数据支持。 Sripaurya 等[17]则自主设计研发了一种便携式6 数字通道NIR装置,用于预测GrosMichel 香蕉的质量,此外,还结合了平均光照强度和果皮颜色提出了一种新的香蕉成熟水平分类方法, 并通过实验证明该装置可以有效地按成熟水平分类, 其准确率近乎100%。 Yap 等[18]同样也开发了一种经济、快速、无损的油棕果成熟度预测系统, 该系统主要采用Levenberg-Marquardt 算法对人工神经网络(artificial neural network, ANN)进行训练和验证分析,成功建立6 个隐神经元的神经网络, 均方根误差RMSE 和相关系数R2分别为6.844 9 h 和0.841 8,证明了该系统的可行性。 Weronika 等[19]同样采用了人工神经网络算法建立了不同品种的葡萄成熟度预测模型,并且预测平均准确率可达95.2%。Yonemoto 等[20]通过建立的果园智能化管理系统将果园数据实时共享, 开发了果园的在线决策工具(www.fruitmaps.com),目前在澳大利亚的部分地区使用。 此工具在农场地图上会显示各个区域NIR设备测量的DM 含量、 与农场管理区域相关的值以及各属性的统计数据和增长率,如图1 所示,点表示选取的测试样本, 块的颜色表示该区域平均DM 含量。
图1 芒果果园的线上采收决策地图Fig.1 Online harvesting decision map of mango orchards
1 水果成熟度分类指标
根据果实成熟过程中的生理变化,多种评价水果成熟度的理化指标也相继被提出, 常用的有:硬度(Firmness)、干物质、可溶性固形物含量(soluble solid content,SSC)[21]。 果实硬度是评价果实成熟度的重要标准之一, 主要受细胞壁原果胶含量的影响。 在成熟前,原果胶含量较多,果实硬度大,随着果实逐渐成熟,细胞壁中的原果胶在果胶酶的作用下分解成果胶酸,导致果实硬度下降[22]。干物质是指有机物质在60~90 ℃的恒温下进行充分干燥,高温蒸发掉样品水份后余下的有机物质。 水果在成熟过程中,果实的淀粉含量会随着水分流失,导致干物质含量发生变化[23-24]。 可溶性固形物主要指可溶性糖类,包括单糖、双糖、多糖。 水果在成熟阶段,可溶性固形物含量变化显著,常用于判别果实成熟度。
不同水果在成熟期表现出的特征不同,因而不同水果最具代表性的成熟度评价指标一般不同。 除了常见的可溶性固形物含量、干物质、硬度以外,还有果皮颜色、可滴定酸(titratable acid,TA)、单宁、淀粉指数、光谱指数等都可作为水果成熟水平的评价指标。 单宁是一种酚类化合物,单宁含量可体现水果的干涩程度,在柿子中含量较多,在成熟过程,单宁含量逐渐降低,果实涩度下降。 果实在成熟之前含有大量的叶绿素,当果实逐渐成熟,叶绿素会被慢慢代谢分解导致果皮颜色发生变化。 光谱指数是一种多光谱参数,它由通过线性或非线性组合的选定光谱波长点的光谱值组成[25]。 光谱指数不同于全波长或特征波长反射光谱的反射值的变化, 更强调不同成熟度光谱的形态差异和变化, 可以定性或定量地反映水果的生长和成熟情况。 淀粉是高分子碳水化合物, 是由单一类型的糖单元组成的多糖。 水果在成熟过程中,果实的淀粉含量会随着水分流失, 淀粉指数同样也可以作为水果成熟度的评价指标。
但果实在成熟过程中会伴随着多种理化性质的变化,若只用单一理化指标进行评价,预测准确性可能并不能满足需求, 有学者根据果实成熟过程的理化性质变化规律提出相应的综合评价指数(comprehensive evaluation index,CEI),即将水果多种理化指标结合,根据变化规律提出指数的计算公式。 利用综合评价指数能够实现对水果成熟水平的客观分类,解决不同果园管理员的水果采收评判标准不一致问题,从而建立科学的水果采收决策系统。 如Streif 指数(Streif index)[26-27]、FQI 指数(factor quality index)和SIQI 指数(simplified internal quality index)[28]等。
2 国内外主要研究进展
2.1 果实硬度
Alenazi 等[29]分别对标记的番茄样品的硬度、番茄红素、β 胡萝卜素、 总酚含量和总黄酮含量进行分析测定, 对比发现果实硬度随番茄成熟度变化最为明显, 说明对于番茄而言利用果实硬度对番茄成熟水平进行分类的效果最佳。Huang 等[30]则利用可见和近红外光谱预测番茄的果实硬度参数,验证了利用近红外光谱分析技术无损检测果实硬度的可行性。 而Alhamdan 等[31]同样对比了海枣的果实硬度、 粘结性和咀嚼性共3 种理化特性的主成分回归分析 (principle component regression,PCR)模型的决定系数R2和均方根误差RMSE 分别为0.924 和0.725。 结果证明,近红外光谱技术是一种有效的无损检测果实硬度的手段。
2.2 干物质
Clark 等[32]使用漫反射方式采集了不同采收期的鳄梨,得到的干物质预测模型R2为0.88,同时实验结果也为近红外光谱在水果成熟度无损检测领域的应用提供了一定的数据支持。 Subedi 等[33]使用短波近红外光谱建立了偏最小二乘回归(partial least squares regression,PLSR)模型成功预测了芒果DM 含量。 从DM 模型的B 系数的相似性来看,DM的PLSR 模型在果实成熟期的任何阶段都能很好地验证芒果的成熟水平 (R2=0.94,RMSE=0.90);Neto等[34]则是比较了芒果的DM 和SSC 的近红外光谱预测模型,其R2为0.87,结果证明DM 含量作为芒果的成熟度评价指标更具有准确性。 Watanawan 等[35]同样也根据开花时间(days from full bloom,DAFB)划分芒果成熟水平,采用DM 含量作为成熟度评价指标,并通过芒果的理化特性分析出芒果的最佳采收期DAFB 为91~105。 Polinar 等[36]同样采用DAFB划分芒果的成熟水平, 并验证了DM 含量与DAFB的相关性, 再使用主成分线性判别分析(principal component analysis-linear discriminant analysis,PCA-LDA)模型对果实进行DAFB 分类,其分类的准确率可达87.8%。 结果表明,近红外光谱在芒果成熟度和质量参数无损预测中具有潜在的应用价值。
2.3 可溶性固形物
Li 等[37]通过对樱桃内部品质的分析证明SSC会随樱桃的成熟逐渐升高,说明SSC 可以作为樱桃的成熟水平分类指标, 还利用PLSR 模型建立了NIR 光谱预测SSC 模型 (R2=0.882,RMSE=1.125),呈现出较好的预测效果,证明了NIR 光谱无损预测SSC 含量的可行性。 根据水果成熟过程内部理化性质变化特点发现,SSC 同样可用作香蕉[17]、葡萄[38]、西瓜[39]、枣[40]、石榴[41]的成熟水平分类指标。 Mahayothee 等[42]还通过研究发现了在成熟过程中,芒果不同部位的理化特性不同,茎部附近的SSC 最高且该部位成熟最快,果核两侧的成熟较缓,尖端的TA 和柠檬酸含量最高成熟最慢。
2.4 果皮颜色、单宁、淀粉指数等
Nagle 等[43]探究比较了灌溉种植的芒果的成熟期评价指标与非灌溉种植的芒果评价理化指标, 结果证明TA 对灌溉种植的芒果成熟期预测效果最好。 比较Neto 等[34]的研究,结果说明水果的种植环境会对其成熟阶段的理化特性产生一定影响。
单宁是一种酚类化合物,单宁含量可体现水果的干涩程度,在柿子中含量较多,在成熟过程,单宁含量逐渐降低,涩度会下降。 Munera 等[44]则通过研究说明了柿子成熟度与单宁含量的相关性,使用LDA、二次判别分析(quadratic discriminant analysis,QDA)和SVM 方法建立分类模型,最后通过统计数据得到3 个分类器的正确分类率均达到92%以上, 收敛时,QDA 正确分类率在95%以上,模型R2达到0.80。
由于果实在成熟之前含有大量的叶绿素,而当果实逐渐成熟,叶绿素会被慢慢代谢分解导致果实颜色发生变化。 刘燕德等[45]和Bertone 等[46]通过实验证明了果实内部叶绿素含量也是果实成熟过程中的一个明显特征。 而对于成熟阶段果皮颜色变化明显的水果而言,果皮颜色是一个有效的成熟度分类指标,如甜瓜[47]、芒果[48]、椰枣[49]、柚子[50]、番茄[51]。 Huang 等[51]便是根据番茄颜色将番茄分成6 个成熟阶段(即绿色、破碎、转弯、粉红色、浅红色和红色),建立了支持向量机判别分析(supportvectormachinediscriminantanalysis,SVMDA)模型,最后获得了优良的分类结果,平均分类准确率为98.3%。
光谱指数是一种多光谱参数, 它由通过线性或非线性组合的选定光谱波长点的光谱值组成[52]。光谱指数不同于全波长或特征波长反射光谱的反射值的变化,更强调不同成熟度光谱的形态差异和变化,可以定性或定量地反映水果的生长和成熟情况。 Zhang 等[53]则根据光谱指数将苹果分成3 个成熟阶段, 并使用最小二乘支持向量机LSSVM 建立了定性模型和连续投影算法SPA 提取了11 个特征波长, 预测集样本分类精度可达90.11%。
淀粉是高分子碳水化合物, 是由单一类型的糖单元组成的多糖。 淀粉指数同样也可以作为水果成熟度的评价指标,Zhang 等[54]利用淀粉指数将846个苹果分为3 类成熟度水平(未成熟、收获成熟度和可食用成熟度),建立了基于15 个特征波长的RF-SPA-LSSVM 预测模型, 预测集分类准确率为89.05%,3 类成熟水平的RDC 曲线下面积(AUC值)均大于0.921 0。
2.5 综合评价指数
早在2001 年,Peirs 等[55]分别采用(硬度、可溶性固形物含量、淀粉阶段的组合)、可溶性固形物、硬度与苹果成熟度进行建模预测苹果最佳采收期,统计结果表明依据Streif 指数建立的分类模型具有很好的预测精度, 得到的验证相关性为0.85~0.90,Streif 指数公式为
式中:F 为果实硬度;S 为可溶性固形物含量;R 为淀粉含量。
Peirs 等[26]又发现,对于自然变异后的苹果,依旧可以利用Streif 指数对其成熟水平进行有效分类。Robbe 等[27]同样也建立了苹果Streif 指数与苹果成熟度的预测模型,并研究了近红外漫反射装置中光源与探测器的最佳距离以及探测器的最佳尺寸。而赵娟等[28]则利用通过“二审”回收算子法剔除异常样本后的数据进行随机蛙跳(RF)提取样本的特征变量,并分别建立了两种评价指标:成熟度评价指标ISIQ和综合评价指标IFQ, 再利用偏最小二乘法分别建立偏最小二乘预测模型, 结果表明ISIQ的模型预测效果更好, 模型R2和RMSE 分别为0.938 和0.216,其中成熟度评价指标ISIQ和综合评价指标IFQ的计算公式如下
式中:L*为亮度;C*为色度;h*为色相角;a 为色泽a分量;b 为色泽b 分量。
Yang 等[56]提出了新的生长指数——GS 指数,并建立以GS 值为分类指标的PLSR 分类模型,得到模型的R2在0.91~0.92 之间。 结果表明,基于GS指数建立的预测模型可以直接用于番茄果实生长期及采收时间的预测,有助于未来园艺机器人自动采摘的实现。 GS 指数IGS计算公式如下
式中:X1为果实的当前生长时间;X2为果实采收时的生长时间。
Jha 等[57]则是根据芒果的理化特性(尺寸、SSC、DM、TA 等) 计算得到的成熟度Im指数与芒果近红外光谱建立偏最小二乘预测模型,得到模型R2为0.74,结果证明该成熟度指数建立的模型同样具有很好的预测效果。 其中Im计算公式如下
式中:IDM和ITA分别为果实的干物质和可滴定酸的含量值;η 为修正系数。
Mahayothee 等[58]研究了芒果在成熟过程中的理化特性: 果皮和中果皮的颜色随a*和b*值的增加而变化,总可溶性固形物(TSS)和pH 上升,而硬度和可滴定酸度(TA)下降;并根据这些理化特性提出了成熟指数IRP,公式如下
式中:ITSS为总可溶性固形物含量值。
3 模型的建立
一般成熟度分类模型建立的分为3 个步骤:①光谱数据预处理;②建立预测模型;③模型性能的评价。
3.1 光谱数据预处理
光谱预处理的主要目的是把数据转换成便于观察分析、传送或进一步处理的形式。 一些比较常用的NIR 光谱预处理方法包括:①平滑方法(如高斯滤波、 移动平均、 中值滤波和Savitzky-Gola、平滑);②推导方法(通常为一阶和二阶导数);③多元散射校正MSC;④正交信号校正OSC;⑤标准正态变换SNV;⑥小波变换;⑦标准化和缩放;⑧消除频谱中的基线漂移 (如detrend 函数、 多项式拟合、BEADS 算法等)。 此外,应用这些方法的不同组合也可以用于信号处理Lorente 等[59]和Wang 等[60]都介绍了这些预处理在近红外光谱的应用。
3.2 建模方法
选择合适的建模方法来开发校准模型,可以保证对水果成熟度水平的准确预测。 根据研究目标,往往需要采用定性分析的方法处理数据,基于模式识别方法对样本进行成熟度分类。 用已知类别的训练样本集建立分类模型,然后用未知类别的测试样本集对模型进行评估。 许多定性分析的方法可以实现 成 熟 水 平 的 分 类,如LDA[37],PLSDA[54],ANN[61],LSSVM[53]和SVM[62]等。 PLSDA 是一种采用偏最小二乘回归的判别分析策略, 其数学基础是主成分分析,往往对数据共线性不敏感,允许大量变量,在近红外光谱分析中得到了广泛的应用。 通过将样本的光谱变量投影到最优判别向量空间中,LDA 可以实现不同类样本的分离,使同类型样本的投影点距离尽可能小, 不同类样本的投影点距离尽可能大。PNN 是一种结合径向基函数神经网络和经典概率密度估计原理的前馈网络模型,与传统的前馈神经网络相比,PNN 在模式分类方面具有显著的优势。 LSSVM 是一种改进的SVM 算法,它通过求解线性方程组而不是SVM 算法中的二次规划问题来降低求解模型的难度,并广泛应用于光谱数据建模和分析。
3.3 模型性能的评价
对于分类模型往往采用混淆矩阵、准确率(A)、精确率、召回率、F1值和受试者工作特征(ROC)曲线和AUC 值(ROC 曲线的面积)对模型的总体性能进行评价。
混淆矩阵是将模型的预测结果可视化的特定矩阵,是机器学习中总结分类模型预测结果的情形分析表。 以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总,定义形式如表1 所示。
表1 混淆矩阵定义Table.1 Confusion matrix definition
其中:TP表示真正类的数量,即分类为正类,实际也是正类的样本数量;FP表示假正类的数量, 即分类为正类, 但实际是负类的样本数量;FN表示假负类的数量,即分类为负类,但实际是正类的样本数量;TN表示真负类的数量,即分类是负类,实际也负类的样本数量。
准确率(A)可以用于判断分类模型是否有效,指的是分类正确的样本数量占样本总数的比例,定义如下
式中:N 为样本总数;ncorrect为分类正确的样本数。 但存在一个问题,在类别不平衡的情况下,准确率无法有效评价模型的泛化能力, 在模型类别不平衡的时候, 占比大的类别将会影响模型的准确率。
精确率(P)、召回率(R)和F1值通常用于评价模型对各类样本的分类性能。 精确率,也被称作查准率,是指所有预测为正类的结果中,TP的比例;召回率,也被称作查全率,是指所有正类中,被分类器找出来的比例;F1值是精确率和召回率的调和平均值。 各指标计算公式如下
ROC 曲线是反映分类问题敏感性和特异性的连续变量的综合评价指标。 通过将样本类别转换为两类,可以为每类样本绘制一条ROC 曲线。 在ROC 图中,曲线越靠近图的左上边缘,分类模型的性能越好。 其中AUC 值是指ROC 曲线下的面积,表示一个正样本排在一个负样本前面的概率。 面积越大,样本的分类性能越好。 如图2 所示,Zhang等[54]利用平均ROC 曲线评价PNN 和LSSVM 两种模型的分类性能,研究中进行了500 次迭代,以生成3 类样本(未成熟Immature,可采成熟期Harvest maturity,食用成熟期Eatable maturity)的平均ROC曲线。 每次迭代过程中,随机选择70%的样本进行训练,30%进行预测,最后,根据500 次迭代生成的预测数据得到平均ROC 曲线。两种模型中3类成熟水平的苹果AUC 值均大于0.879 5。从AUC 值与判别准确性的关系来看,两种模型在判别3 类苹果时均表现出优异的性能。 此外,LSSVM 模型的3 条ROC 曲线的AUC 值均大于PNN 模型,说明LSSVM模型对3 类成熟度水平的预测性能优于PNN 模型。
图2 PNN 和LSSVM 模型的平均ROC 曲线(500 次迭代,预测集)Fig.2 The average ROC curves of the PNN and LSSVM models(500 iterations, prediction set)
4 讨论
在上述对水果的成熟水平分类指标的研究中发现,不同水果在成熟期的理化特征不同,用于表征其成熟度的理化指标也不尽相同。 如表2 所示,表中总结了几种常见水果的成熟水平分类指标:硬度适用于成熟期间果肉细胞内原果胶变化明显的水果,如芒果、猕猴桃、梨等;而DM 则主要跟水分相关, 适用于期间含水量变化明显的水果; 而SSC适用于糖含量较高的水果成熟度预测,对于较酸的水果如柠檬,则不适用;而单宁含量主要体现的是水果的涩度,可用于柿子这种成熟期间涩度变化明显的水果。 但是同一种类的水果在成熟期间会伴随着多种理化性质的变化,如芒果成熟期时的SSC、硬度、DM、叶绿素等变化都较明显,且这些理化性质都可用于芒果成熟度的预测。
表2 各类水果成熟水平分类指标Table.2 Classification indexes of maturity level of fruits
虽然目前国内外学者对水果成熟度无损预测的研究较为广泛,但在成熟度预测模型的建立上大多还局限于使用单一理化指标。 而果实生长过程内部会伴随着多种理化特性的变化,根据果实的生理变化而提出的综合评价指数会比根据单一理化成分进行分类更加全面科学。
要实现近红外光谱分析技术在水果采收决策领域的应用,往往需要采用更加便携的设备,传统的台式光谱仪设备是无法实现的。 自过去十年以来,已经开发和商业化了多种近红外便携式光谱仪设备,这些设备尺寸紧凑,重量轻,易于操作。 但实际上,在利用传统的台式光谱仪对大量商业化便携式设备进行测试后,多数便携式仪器的测试效果都略低于常规台式仪器的性能,并且在型号相同的两台仪器之间也会出现一定的台间差[74-77]。 检测环境(温度、光照、湿度等)会对光谱仪检测的信号产生较大的影响,而便携式仪器大多使用在室外,检测环境存在不可控性,若将主仪器上校正好的模型直接传递给从仪器使用便会出现一定的误差,导致台间差的出现[78]。所以,模型的通用性问题会是阻碍便携式仪器商业化推广的主要因素,而模型通用性问题的解决可以从3 个方面入手:①对便携式仪器内部硬件进行优化,尽量减少环境给仪器硬件带来的影响。 从开发商的角度来看,由于仪器硬件组件也在快速发展,这一方法是经济且可行的;②在算法上进行优化,通过改进算法或者使用模型传递算法可以有效解决主、从仪器的台间差问题;③果园的智能化管理,实时监测果园内部的环境数据,使用先进的非线性方法如ANN,它们能够模拟复杂的生物、环境和仪器变化,从而开发具有有限样本的鲁棒模型。
5 结束语
综述了NIRS 在水果成熟度无损检测中的研究进展。
1) 与传统方法相比, 该技术具有检测精确度高、速度快等突出优点,被广泛应用于水果的内部和外部质量属性的无损检测,模型的通用性和鲁棒性是该光谱技术在水果成熟度检测领域有效应用的重要评价标准。
2) 研究发现, 在建立水果成熟度预测模型时,水果成熟水平的分类指标是影响预测模型分类效果的关键因素之一,综合评价指数可以对水果成熟度更加科学合理地分类。
3) 解决便携式仪器台间差问题同样是提高模型通用性的关键,提高仪器的硬件性能和利用模型传递算法都是有效的解决方法。
4) 果园的智能化管理,实时监测果园的环境和果实的理化信息,建立数据共享平台,开发能够模拟复杂生物、环境和仪器变化的模型,这将会极大地促进近红外光谱技术在水果采收决策领域的应用,也是未来果园的发展方向。