APP下载

光谱分析在西甜瓜内部品质无损检测中的研究进展

2020-07-08马本学喻国威王文霞罗秀芝李玉洁李小占雷声渊

光谱学与光谱分析 2020年7期
关键词:西甜瓜哈密瓜光谱

马本学, 喻国威, 王文霞, 罗秀芝, 李玉洁, 李小占, 雷声渊

1. 石河子大学机械电气工程学院, 新疆 石河子 832003 2. 农业部西北农业装备重点实验室, 新疆 石河子 832003

引 言

西甜瓜(西瓜和甜瓜)[1]味甘多汁, 营养丰富, 深受广大消费者的青睐。 近年来虽然西甜瓜的产量和销量大幅增加, 但是其内部品质参差不齐, 难以辨别, 主要原因在于传统检测方法检测时间长, 成本高且为有损检测, 无法满足现代生产的需要。 随着光谱分析技术的快速发展, 近红外光谱分析(near-infrared spectroscopy, NIRS)和高光谱成像(hyperspectral imaging, HSI)[2-3]以快速、 绿色、 无损等优势广泛应用于西甜瓜内部品质无损检测中。 西甜瓜内部品质的评价指标主要包括可溶性固形物含量(soluble solids content, SSC)、 总可溶性固形物(total soluble solids, TSS)、 坚实度(firmness, FM)、 水分(moisture)、 总酸含量(total acid content, TAC)、 成熟度(maturity)等食用指标和类胡萝卜素(carotenoids)等营养指标[4]。

为跟踪国内外最新研究进展, 综述了近红外光谱分析和高光谱成像在西甜瓜内部品质无损检测中的应用; 同时, 简要介绍了近红外光谱分析和高光谱成像的技术特点和系统组成, 并归纳了常用的光谱信息解析方法; 最后, 从技术难点和实际应用两方面综合分析了光谱分析技术在西甜瓜内部品质无损检测中的发展趋势。

1 光谱分析技术简介

1.1 近红外光谱分析技术

近红外光(near-infrared, NIR)是人们最早发现的非可见光区域, 它的波长范围为780~2 526 nm, 波数范围为12 500~4 000 cm-1。 近红外光谱属于分子振动光谱, 利用分子含氢基团(C—H, O—H 和N—H等)的倍频与合频的吸收特性来获取复杂的光谱信息。 典型的近红外光谱分析系统一般由光源、 光谱仪、 载物台、 光纤、 计算机等部分组成, 如图1所示。

1.2 高光谱成像技术

高光谱成像技术兴起于20世纪80年代末, 结合了光谱学和传统成像或计算机视觉技术, 可以有效地获取样品“图谱合一”的三维数据信息, 包括二维的样品空间图像信息和一维的光谱信息[5-6]。 典型的高光谱成像系统一般由成像光谱仪、 CCD相机、 光源、 计算机、 传输机构等部分组成, 如图2所示[7]。

近红外光谱分析技术和高光谱成像技术的区别与联系[8-10], 如表1所示。

图1 近红外光谱分析系统示意图

图2 高光谱成像系统示意图

表1 近红外光谱分析和高光谱成像的区别和联系

2 光谱信息解析方法

2.1 光谱信息解析流程

在光谱信息解析过程中, 因光谱系统采集的光谱信息会受到采集环境、 光学条件和仪器性能等因素的影响, 故原始光谱信息除含有被测样品属性的信息外, 还包含大量无关信息, 如噪声、 背景干扰、 杂散光等。 为消除光谱冗余信息, 提高模型的预测精度, 对光谱信息进行预处理并提取有效信息是模型建立前的重要环节。 一般的光谱信息解析步骤主要包括光谱信息的采集、 光谱信息的预处理、 变量的筛选、 预测模型的建立、 模型的评价等, 其流程图如图3所示[11]。

图3 光谱信息解析流程图

2.2 光谱信息预处理

光谱信息解析首要环节就是对采集的光谱信息进行预处理, 常用光谱信息预处理方法[12]主要有平滑(smoothing), 包括移动平均法(moving average, MA)和卷积法(savitzky-golay, SG)等、 导数修正(derivative correction), 包括一阶导数(first-order derivative, 1stD)和二阶导数(second-order derivative, 2ndD)、 归一化(normalization, NOR)、 标准正态变换(standard normal variable transformation, SNV)、 多元散射校正(multiplicative scattering correction, MSC)、 小波变换(wavelet transform, WT)等, 其作用效果如表2所示。

表2 光谱预处理方法及其作用效果

2.3 光谱信息变量筛选

光谱信息中存在的大量冗余信息会降低预测模型的准确性和稳定性。 为提高模型运算速度和精度, 进行光谱信息变量筛选是十分必要的。 常用变量筛选方法[13]主要有变量区间选择算法, 包括移动窗口偏最小二乘法(moving windows partial least squares, MWPLS)和区间偏最小二乘法(interval partial least squares, iPLS)等、 无信息变量消除算法(uninformative variable elimination, UVE)、 遗传算法(genetic algorithm, GA)、 连续投影算法(successive projections algorithm, SPA)和竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)等, 其特点如表3所示。

表3 变量筛选方法的特点

2.4 光谱信息模型建立

建立样品待测指标的数学模型是光谱信息解析过程中关键的一步, 不同的建模方法会直接影响模型的准确性和稳定性。 常用的建模方法[14]主要有多元线性回归(multi linear regression, MLR)、 主成分回归(principal component regression, PCR)、 偏最小二乘回归(partial least squares regression, PLSR)、 支持向量机(support vector machine, SVM)、 最小二乘支持向量机(least square support vector machine, LS-SVM)等, 其特点如表4所示。

2.5 光谱信息模型评价

在样品待测指标的预测模型建立后, 需对模型进行评价, 常见的模型预测性能评价标准[15]主要有预测集相关系数(correlation coefficient of prediction set,RP)、 校正集相关系数(correlation coefficient of calibration set,RC)、 决定系数(coefficient of determination,R2)、 预测标准偏差(root mean square error of prediction, RMSEP)、 校正标准偏差(root mean square error of calibration, RMSEC)、 剩余预测偏差(residual predictive deviation, RPD)等。 质量较高的模型具有较高的RP,RC,R2和RPD, 较低且较为接近的RMSEP和RMSEC[16]。

表4 建模方法的特点

通过对常用光谱信息解析方法的总结可以看出, 机器学习算法已逐渐应用于光谱信息的变量筛选和模型建立, 虽然提高了模型精度, 但是模型的普适性和实用性仍不能满足实际需要。 现阶段, 深度学习作为机器学习的分支迅速崛起, 深度网络的规模和精度也在不断提高, 并且持续成功地应用于各类实际问题。 为进一步提高模型的精度和泛化能力, 使其能够满足现代生产的需要, 应用深度学习算法进行光谱信息解析将是今后发展的必然趋势之一。

3 光谱分析在西甜瓜内部品质无损检测中的应用

3.1 近红外光谱分析的应用

表5列举了近红外光谱分析在西甜瓜内部品质无损检测中的应用。

SSC含量作为西甜瓜内部品质的重要评价指标, 其定量分析一直是研究热点。 介邓飞等[18]以“麒麟”西瓜为样品, 研究了不同变量筛选方法(等间隔平均光谱法、 等间隔抽取光谱法、 SPA)和不同建模方法(PLSR, MLR和PCR)对SSC含量预测模型精度的影响。 结果表明, 采用等间隔抽取光谱法结合SPA建立的PLSR模型精度较高(RP为0.828, RMSEC为0.589, RMSEP为0.611)。 西甜瓜的SSC含量在不同部位存在明显差异, 检测部位差异是影响西甜瓜SSC含量预测模型精度的重要因素。 为探究西甜瓜SSC含量的最佳检测部位, 介邓飞等[19]分别利用瓜梗、 赤道和瓜脐部位的近红外漫透射光谱信息结合PLSR和LS-SVM建立了西瓜单一检测部位的SSC含量预测模型。 结果表明, 瓜脐为最佳单一检测部位(LS-SVM模型:RP为0.768, RMSEP为0.731、 PLSR模型:RP为0.823, RMSEP为0.652)。 Zhang等[26]以哈密瓜为研究对象, 选用不同变量筛选方法(CARS, UVE, CARS-SPA和UVE-SPA), 对比分析了线性PLS和非线性LS-SVM建模方法对基于单一检测部位的哈密瓜SSC含量预测模型的影响。 结果表明, 无论是线性模型还是非线性模型, 基于赤道部位光谱信息建立的哈密瓜SSC含量预测模型性能最佳(UVE-SPA-PLS 模型:RP为0.914 3, RMSEP为0.835 9、 CARS-SPA-LSSVM模型:RP为0.913 4, RMSEP为0.895 8)。 由此可见, 不同品种西甜瓜的最佳检测部位不同。 为减小检测部位差异对西甜瓜SSC含量预测模型性能的影响, 钱曼等[22]利用“京秀”西瓜三个检测部位的近红外漫反射光谱信息结合CARS和PLS, 建立了西瓜SSC含量的混合(赤道-瓜脐-瓜梗)预测模型(RP为0.905, RMSEP为0.629), 其性能优于单一(瓜脐)预测模型。 上述研究表明, 对于不同品种的西甜瓜选择适宜的近红外光谱检测部位并结合变量筛选方法, 可以有效提高西甜瓜SSC含量预测模型的性能。

表5 近红外光谱分析在西甜瓜内部品质无损检测中的应用

Note: “MC” is Monte Carlo; “FW” is fresh weight; “RMSECV” is root mean square error of cross validation; “SMLR” is stepwise multiple linear regression; “C-RPP” is corrected-ratio of peaks method; “CCR” is correct classification rate

研究开发西甜瓜内部品质快速无损检测设备对西甜瓜的质量管理和市场竞争起着至关重要的作用, 国内外应用近红外光谱分析已构建多种西甜瓜内部品质快速无损在线检测系统。 Jie等[20]采集697~920 nm范围内西瓜瓜脐部位的近红外漫透射光谱信息, 利用基线偏移校正(baseline offset correction, BOC)进行光谱预处理, 建立了MC-UVE-SMLR预测模型(RP为0.70, RMSEP为0.33), 构建了西瓜SSC含量在线检测系统。 Tamburini等[23]采集900~1 700 nm范围内的完整西瓜的近红外漫反射光谱信息, 利用导数修正和SNV进行光谱预处理, 建立了PLS模型, 构建了西瓜内部品质在线检测系统, 可实现对番茄红素(R2为0.877, RMSECV为15.68), β胡萝卜素(R2为0.822, RMSECV为0.81)和TSS(R2为0.836, RMSECV为0.8)的检测。 少数公司研发的西甜瓜内部品质在线检测设备已达到工业化标准, 如日本三井金属矿业株式会社的西瓜糖度无损检测生产线(效率为120 pcs·min-1, 误差为±0.5 °Brix), 意大利萨克米公司研发的西甜瓜内部品质(糖度、 酸度、 成熟度和空心度)在线检测系统(效率为300 pcs·min-1)等[27]。 上述系统及设备均为大型装置, 不便于小型商户和消费者使用, 开发基于智能移动终端的快速检测系统是未来发展方向之一。

3.2 高光谱成像技术的应用

表6列举了高光谱成像技术在西甜瓜内部品质无损检测中的应用。

近些年来利用高光谱成像技术对西甜瓜SSC、 FM的定量分析较多, 李锋霞等[28]以哈密瓜为对象, 选取500~820 nm波段范围内的高光谱图像信息, 分别研究了不同光谱预处理方法(1stD, 2ndD, MSC和SNV)和不同建模方法(PLS, SMLR和PCR)对哈密瓜SSC和FM预测模型的影响。 结果显示, 1stD和SNV结合PLS建立的哈密瓜FM预测模型的预测效果最佳(RC为0.873,RP为0.646, RMSEC为4.18, RMSEP为6.4)。 高光谱成像所获取的光谱信息冗余度较大, 与被测组分无关的信息会削弱模型的预测精度。 因此, 选择包含相对较多有效信息的变量来建立预测模型是十分必要的。 Sun等[7]分别比较了基于不同变量筛选方法(SPA, CARS和GA)结合PLS建立的哈密瓜SSC, FM和TAC预测模型的精度。 结果表明, CARS-PLS模型实现了对哈密瓜SSC(RP为0.960 6, RMSEP为0.381 6, RDP为3.598)、 FM(RP为0.867 1, RMSEP为20.05, RPD为1.996)和TAC(RP为0.912 5, RMSEP为0.026 3, RPD为2.445)的准确预测。 Sun等[30]利用PLSR, PCA, SVM和人工神经网络(artificial neural network, ANN)分别建立了甜瓜SSC和FM预测模型, 其中PLSR模型的预测性能最佳。 为进一步提高模型精度, 采用加权回归系数法筛选变量后结合PLSR重新建立了甜瓜SSC和FM预测模型。 结果表明, 经变量筛选后建立的甜瓜SSC模型(R2为0.775 5, RMSEP为1.187 1)和FM模型(R2为0.355 5, RMSEP为525.293 2)的预测精度均得到了提高。

表6 高光谱成像在西甜瓜内部品质无损检测中的应用

上述研究均是对内部品质的单一指标进行检测, 忽略了各指标间的相关性, 因此可能会对西甜瓜内部品质的综合评判造成影响。 SSC和FM作为西甜瓜成熟度的关键表征因子, 孙静涛等[29]分别采用MSC和SNV对光谱信息进行预处理并选择SPA, CARS和SPA-CARS对变量进行筛选后, 对比分析了基于全光谱、 SSC或FM单一特征和基于PCA特征融合的哈密瓜成熟度SVM判别模型的准确率。 结果显示, 基于CARS-PCA-SVM特征融合和全光谱SNV-SVM的哈密瓜成熟度判别模型的准确率较高, 其校正集和预测集的判别准确率分别为95%和94%。

研究表明, 利用变量筛选方法可有效降低高光谱信息冗余度, 简化模型, 提高模型预测精度。 建立特征信息融合的成熟度判别模型为今后利用高光谱“图谱合一”的特性综合评判西甜瓜的内部品质提供了理论依据。

4 研究与展望

光谱分析作为一种现代无损检测技术, 与传统检测技术相比具有快速、 绿色、 无损等优势, 在西甜瓜内部品质无损检测中具有广阔的应用前景。

(1)光谱分析所获取的信息量较大, 其中包含的许多与被测组分无关的冗余信息会增加光谱信息处理时间, 降低模型精度。 获取光谱有效信息、 优化预测模型一直是光谱分析技术未来发展的重要方向, 而机器学习则是实现模型优化的重要手段。 深度学习作为机器学习的分支在挖掘庞大数据集的有效信息方面发展迅猛, 为解决光谱分析模型鲁棒性和适应性差等问题提供了新的思路和方法, 应用深度模型预测西甜瓜的内部品质将是未来技术发展的必然趋势。

(2)目前对于西甜瓜内部品质的无损检测多是针对单一指标(大多数为影响口感风味的食用指标的定量检测), 针对综合指标(如成熟度)的研究较少。 研究西甜瓜内部品质评价指标间的内在联系, 提取各指标相对应的变量建立多特征信息融合的西甜瓜内部品质综合评价模型将是今后的研究重点之一。

(3)尽管国内外部分学者都构建了基于光谱分析的西甜瓜内部品质无损在线检测系统, 但目前大多停留在实验室阶段, 应用于商业化生产线较少且多为大型装置, 不利于加工企业和消费者使用。 随着人工智能、 大数据、 移动互联网和云计算的不断发展, 研究开发基于人工智能与移动终端深度融合的西甜瓜内部品质快速无损检测系统将成为新的研究方向之一。

猜你喜欢

西甜瓜哈密瓜光谱
陕西渭南蒲城县:拓展宣传路径 擦亮西甜瓜品牌
基于三维Saab变换的高光谱图像压缩方法
“甜蜜产业”
高光谱遥感成像技术的发展与展望
我最喜欢吃哈密瓜
我最喜欢吃哈密瓜
滴灌西甜瓜套种玉米模式栽培技术
哈密瓜:乡间蜜罐
山东省西甜瓜生产现状及新技术应用
星载近红外高光谱CO2遥感进展