基于高光谱成像技术的小白杏成熟度判别模型
2022-08-05刘金秀贺小伟罗华平徐嘉翊楚合营申丽丽
刘金秀,贺小伟,罗华平*,徐嘉翊,楚合营,申丽丽
(1.塔里木大学机械电气化工程学院,新疆 阿拉尔 843300;2.新疆维吾尔自治区教育厅普通高等学校现代农业工程重点实验室,新疆 阿拉尔 843300)
新疆杏果种植历史悠久,种植规模和产量均居于全国第一。截至2020年,杏果年产量超过1.5×106吨[1]。其中小白杏最为出名,产自阿克苏地区库车县和轮台县[2],营养价值高,富含多种氨基酸、消化酶、杏仁苷、维生素等16种营养成分[3],大多以鲜食为主,深受人们的喜爱。杏果属于典型的呼吸跃变型果实[1],采收后呼吸作用旺盛,杏果采收期比较集中,刚好是夏季高温季节,极易出现果皮和果肉褐变、后熟软化、易腐烂等品质问题,不易贮藏,一般贮藏期只有3 d~5 d。杏果的含糖量、有机酸含量和香味等也都会随着贮藏时间的延长而下降[4],大大降低了小白杏的鲜食品质和价值。新疆地域宽广,新鲜杏果需经远距离输送,在运输、贮藏和销售过程中也容易出现损伤、软化和腐烂问题,造成极大的损失。杏果的大量集中采摘与货架期较短的矛盾突出,严重影响了新疆小白杏产业的发展。
果蔬的成熟程度是影响其采收期、采收品质、贮藏、运输、加工、销售等环节的关键因素之一[5]。同一棵杏树上不同光照位置,杏果成熟度是不相同的。果农通常对杏果进行大量集中收获,使不同成熟度、不同品质的杏果混在一起,而后续的人工分级工作量大,并存在较大的主观性,误差大。只有在合适的成熟期进行采摘,并进行快速、准确的品质分级,才可以筛选出满足鲜卖、贮藏和加工等需求的高品质杏果。因此,亟需开展小白杏成熟度判别模型研究,可以确定杏果成熟程度,对杏果采收和品质分级等具有十分重要的意义,从而有利于开拓杏果市场,增加果农利润。
目前,对水果成熟度的研究方法主要以高光谱图像技术无损检测为主。Özdogˇan等[6]研究认为高光谱系统结合分类模型用于检测食品的缺陷和成熟度可获得较高的准确度。Singh等[7]使用无人机高光谱相机获得油菜从豆荚形成到接近收获成熟的5个生长阶段光谱数据进行油菜种子成熟度研究。Benelli等[8]使用可见光/近红外高光谱相机获取葡萄园光谱信息,并通过偏最小二乘法(partial least squares,PLS)判别分析模型对未成熟和成熟的葡萄样品进行分类识别,正确率为86%~91%。Cho等[9]对半成熟度和完全成熟度的草莓光谱数据使用PLS回归建立Pelargodin-3-葡萄糖苷的预测模型,结果发现短波红外区域的半成熟度预测准确率最高为86%。Xuan等[10]分别使用有效波长、纹理特征及其融合建立了支持向量机(support vector machine,SVM)模型库对新鲜黄秋葵果实的成熟度进行判别,结果使用融合数据集的SVM模型在交叉验证中的准确率达到91.7%。Rajkumar等[11]利用高光谱图像技术得出结论,香蕉的可溶性固形物(soluble solids content,SSC)、含水率随着成熟度呈线性变化趋势。薛建新等[12]计算得到沙金杏的SSC和成熟度之间的相关系数为0.938 6,为使用SSC对沙金杏的成熟度进行划分指明了方向,然后依据沙金杏的光谱特征波段、图像纹理指标、图像颜色指标这三类特征数据建立极限学习机(extreme learning machine,ELM)模型对沙金杏进行成熟度分类判别。张晶晶[13]采用9种预处理方法对沙金杏近红外光谱进行预处理并建立PLS判别模型,结果表明多元散射校正(multiplicative scatter correction,MSC)方法效果最好,然后对使用MSC方法预处理后的光谱的全波段、主成分、特征波长分别建立PLS、主成分回归、SVM、ELM判别模型,结果发现基于全波段的SVM模型准确率为94.17%。张学豪[14]对不同成熟度李果实的SSC含量和硬度值,分别使用箱图分布和建立PLS模型来判别成熟度,最后对两种方法进行比较分析。孙静涛[15]的研究发现哈密瓜的SSC、总酸含量、硬度与其成熟度之间存在显著相关,其中SSC与成熟度的相关性最高,可以作为哈密瓜成熟度表征因子。杨小玲[16]的研究发现,和单独的特征波段图像相比,波段比图像可以更有效识别成熟和未成熟的玉米种子。李丽丽等[17]的研究发现基于特征波长对不同成熟度的李果实建立的PLS模型判别准确率最优,综合准确率高达91.25%。蒋浩等[18]的研究发现基于高光谱图像技术,建立多光谱参数实现对草莓的成熟度自动分类判别,准确率高达95%以上。袁佩佩[19]的研究发现基于主成分分析、核主成分分析(kernel principle component analysis,KPCA)两种特征提取方法,分别建立4种定性判别模型,对西瓜的成熟度进行判别,结果表明基于高斯核函数的KPCA-ELM模型的准确度和效率都比较高。潘思慧[20]的研究发现基于全光谱变量和联合区间-偏最小二乘法筛选的光谱变量分别建立SVM模型对番茄的成熟度进行判别,结果用较少的光谱变量可以达到和全光谱变量等同的识别率。
综上可知,国内外学者基于光谱信息建立定性判别模型研究果品的成熟度时,并没有将所有的因素综合起来进行对比分析,来获得最佳的成熟度判别方法。为实现对小白杏成熟度的快速、准确判别,本研究基于不同成熟度小白杏的高光谱信息,通过对比全波段和特征波段、不同的预处理方法、不同样本集划分方法、不同建模方法的判别效果,为建立小白杏的成熟度最优判别模型和品质分级提供参考,对促进小白杏产业的发展和新疆经济提升具有积极意义。
1 材料与方法
1.1 试验材料
小白杏:采自新疆维吾尔自治区阿拉尔市十团果园,采摘时间为2020年6月份。杏果的采收成熟度主要依据果皮颜色,一般杏果颜色由绿向黄转变即可采收,但是不同的品种具有不同的颜色变化。按照生产实际中对杏的成熟程度划分采集七成熟、八成熟、九成熟、十成熟4个等级的小白杏,划分依据如下。
七成熟:果实呈深绿色,果肉较硬,果实偏小;八成熟:果实发育基本成熟,绿色减退,果肉偏硬;九成熟:绿色基本消失,大部分呈白色或者浅黄色,果肉稍微变软;十成熟:果实呈全黄色,果肉变软,易受损伤。
选择果实大小均匀、形状规则、无病虫害、无机械损伤、成熟度基本一致的小白杏为试验样品。样品采摘后立即运回新疆维吾尔自治区教育厅普通高等学校现代农业工程重点实验室进行样品筛选、清洗和擦干水分,在暗箱内采集高光谱信息。不同成熟度的小白杏样本见图1。
图1 不同成熟度的小白杏样本Fig.1 Little white apricot with different maturity
1.2 仪器与设备
高光谱分选仪(Gaia Sorter):北京卓立汉光仪器有限公司;近红外高光谱相机(Image-λ-N17E-N3):四川双利合普科技有限公司,光谱范围900 nm~1 700 nm,256个波段,光谱分辨率5 nm。
1.3 数据采集和处理
1.3.1 高光谱图像采集
高光谱分选仪参数设置为相机高度42 cm、曝光时间11.5 ms、物距10 mm、传送带移动速度2.0 m/min,每次扫描20个样本。
首先为了消除采集高光谱信息时杂散光的影响[21],需要使用Spectral View软件对高光谱图像进行黑白校正,黑白校正公式如下。
式中:I为样品漫反射原始图像;B为关闭暗箱内光源并装上镜头盖获得的全黑图像;W为采集标准白板的漫反射图像获得的全白图像;R为校正后的漫反射高光谱图像。
经过黑白校正的高光谱图像,使用ENVI软件从中选择感兴趣区域(region of interest,ROI),从中提取光谱信息,ENVI提取感兴趣区域见图2。
图2 ENVI提取感兴趣区域Fig.2 Region of interest extracted by ENVI
由图2可知,ROI为5×5大小像素点的正方形。
1.3.2 光谱噪声去除和界外样本剔除
在采集样本光谱数据时由于光程不一致以及随机噪声的产生,会影响数据的正确采集,导致样本平均光谱曲线在某些波段波动幅度较大,对于这些波段需要予以删除。同时还可能出现异常样本,这些异常样本参与建模时会影响结果准确度和可靠性[22],需要予以剔除,本研究使用马氏距离法(Mahalanobis distance,MD)剔除界外样本。
1.3.3 光谱预处理
采集的光谱不仅包含样品自身信息,还包含电噪声、样品背景和杂散光等无关信息。为了能够在最大程度上挖掘样本光谱信息中的有效信息,需要对光谱数据进行预处理,旨在消除光谱无关信息的影响,常用的方法有均值中心化(mean centering,MC)、Savitzky-Golay卷积求导法(Savitzky-Golay derivative,S-G)、多元散射校正(multiplicative scatter correction,MSC)、标准正态变量变换(standard normal variate transformation,SNV)、归一化等。
1.3.4 提取特征波段
原始光谱数据包含波段范围宽,有些波段反映样品品质信息丰富,而有些波段反映信息较少。在以光谱信息为原始特征变量的模式识别中,特征信息的提取是直接影响分类和识别的关键步骤。因此,建模时需要筛选出特征波长变量,从而减少建模时间、简化建模过程、提高模型的稳定性[23]。本研究使用连续投影法(successive projections algorithm,SPA)筛选特征波长变量,结果见图3和图4。
图3 不同波长变量下的均方根误差Fig.3 Root mean square error under different wavelength variables
图4 参加建模的特征波段数Fig.4 Characteristic wavelength numbers participating in modeling
图3中横坐标是参与建模的特征波长的数量,纵坐标是均方根误差(root mean square error,RMSE)。RMSE从19以后逐渐趋于平缓并接近于0,RMSE=0.044 022,所以最终选择19个特征波长来参与建模。图4是选取的19个特征波段数,横坐标表示233个特征波段,纵坐标表示其反射率。
1.3.5 样本集的划分
参与建模的样本需要具有代表性,可以提高建模速度,减少模型存储空间,而不同的样本集划分方法会影响模型的性能。本研究使用光谱-理化值共生距离算法(sample set partitioning based on joint x-y distance,SPXY)、K-S法(kennard-stone,K-S)、双向算法(Duplex)、交叉验证、随机法来划分样本校正集和验证集,对比建模效果。
1.3.6 建立定性判别模型
通过光谱数据对不同成熟度样本进行分类识别属于定性分析问题。本研究建立ELM、SVM、PLS、K最邻近法(K-nearest neighbor,KNN)、贝叶斯 5种定性判别模型,对比不同模型的成熟度识别效果。
以上,光谱的噪声去除、界外样本剔除、光谱预处理、特征波段提取、样本集划分、定性模型建立均借助MATLAB软件完成。
2 结果与分析
2.1 光谱噪声去除
4种成熟度杏果实的原始光谱曲线见图5。
图5 原始光谱Fig.5 Original spectrum
由图5可知,光谱曲线在1 700 nm附近存在大量噪声,将此噪声波段删除,得到去除噪声后的光谱曲线见图6。
图6 去除噪声后的光谱Fig.6 Spectrum after noise removal
由图6可知,4种不同成熟度的杏果实光谱曲线在900 nm~1 300 nm之间有较大差异,可能是由于杏果实在不同成熟度时内部碳水化合物、糖、氨基酸等成分含量不同所引起的。
2.2 ELM模型准确率
对比全波段和特征波段高光谱数据分别建立的ELM模型,见表1和表2。
表1 全波段-ELM准确率Table 1 The accuracy of ELM model with full-wave band%
表2 特征波段-ELM准确率Table 2 The accuracy of ELM model with characteristic bands%
由表1和表2可知,相同点是除了MC方法预处理后的光谱的准确率偏低,其他4种方法预处理后的ELM模型的准确率较高,训练集和验证集的准确率均在93%以上;MSC预处理方法效果最佳,不论如何划分样本,训练集和验证集准确率均保持在100%。对于全波段光谱,S-G方法预处理的光谱,准确率高达98%~100%,仅次于MSC,优于特征波段光谱建模效果。总之,全波段和特征波段光谱数据建立的ELM模型准确率相差不大,MSC预处理方法最佳,且不同的样本集划分方法对ELM模型的判别效果没有影响。
2.3 PLS模型准确率
对比全波段和特征波段高光谱数据分别建立的PLS模型,见表3和表4。
表3 全波段-PLS准确率Table 3 The accuracy of PLS model with full-wave band
表4 特征波段-PLS准确率Table 4 The accuracy of PLS model with characteristic bands
由表3和表4可知,对于全光谱和特征波段光谱数据,除了MC方法预处理后的光谱建立的PLS模型准确率和决定系数偏低,其他预处理方法和各类样本集划分方法对应的PLS模型准确率和决定系数都比较高,训练集的准确率均在96%以上,决定系数在0.95以上;其中,MSC方法效果仍旧是最佳,准确率保持在100%,决定系数在0.99以上。总体来看,基于全光谱的PLS模型和基于特征波段的PLS模型相比,准确率和决定系数相差不大,但前者更优;MSC预处理方法最佳;不同的样本集划分方法对模型效果影响可忽略不计。
2.4 SVM模型准确率
SVM模型的建立是借助软件Unscrambler完成,所有样本均参与建立模型,不涉及样本的划分;模型的准确率不仅和光谱预处理方法有关,还和核函数(Kernel type)、SVM类型有关,表格仅展示每种预处理方法对应的SVM模型最高准确率及其对应的核函数类型和SVM类型。基于全波段和特征波段光谱数据建立的SVM模型准确率见表5和表6。
表5 全波段-SVM准确率Table 5 The accuracy of SVM model with full-wave band
表6 特征波段-SVM准确率Table 6 The accuracy of SVM model with characteristic bands
由表5和表6可知,对于全波段和特征波段光谱数据建立的SVM模型,MC方法预处理后的光谱的准确率远远低于其他4种预处理方法对应的模型准确率;MSC-SVM的准确率仍是100%,适于所有类型的核函数,对应的SVM类型为nu-SVC。在全波段光谱下,对于S-G预处理方法,当SVM类型选择nu-SVC,核函数选择线性核时,准确率可以达到99%;对于SNV-SVM,当SVM类型选择c-SVC,核函数选择线性核时,准确率可以达到97%。结果表明,基于全波段光谱建立的SVM模型准确率要高于基于特征波段建立的SVM模型;MSC方法预处理效果仍是最佳。
2.5 KNN模型准确率
基于全波段和特征波段光谱数据建立的KNN模型准确率见表7和表8。
表7 全波段-KNN准确率Table 7 The accuracy of KNN model with full-wave band%
表8 特征波段-KNN准确率Table 8 The accuracy of KNN model with characteristic bands%
由表7和表8可知,MC方法预处理后的光谱准确率远远低于其他4种方法预处理的光谱准确率,MSC预处理方法效果最佳,正确率保持在100%。总之,全波段和特征波段光谱数据建立的KNN模型判别效果相差不大;MSC方法预处理效果最佳;对于Duplex方法划分的样本集建立的KNN模型效果偏低于其他4种方法。
2.6 贝叶斯模型准确率
基于全波段和特征波段光谱数据建立的贝叶斯模型准确率见表9和表10。
表9 全波段-贝叶斯准确率Table 9 The accuracy of Bayes model with full-wave band%
表10 特征波段-贝叶斯准确率Table 10 The accuracy of Bayes model with characteristic bands%
由表9和表10可知,对于贝叶斯模型,特征波段光谱的判别效果远远高于全波段。在全波段和特征波段光谱下,只有在随机法划分样本时,除了MC预处理后的光谱的模型准确率较低,S-G、MSC、归一化、SNV预处理后的光谱的准确率均达到100%。基于特征波段光谱数据,对于任一种样本集划分方法,MSC预处理方法对应的贝叶斯模型准确率保持100%。结果表明,基于特征波段光谱建立的贝叶斯模型准确率要高于基于全波段建立的贝叶斯模型;MSC方法预处理效果仍是最佳;随机法样本集划分方法最优。
3 结论
5种预处理方法中,只有MC方法预处理后的光谱准确率很低,其他方法预处理光谱准确率都比较高,其中MSC方法,当使用全波段建立贝叶斯模型时,准确率很低,其他情况都保持在100%。5种样本集划分方法,准确率都相差不大。5种判别模型中,对于全波段,ELM、PLS、SVM 3种模型的准确率较优,均高于93%,其中PLS的效果最好,高于98%;KNN模型准确率受个别预处理和样本集划分方法影响,准确率会降至85%;贝叶斯模型只有在使用随机方法划分样本时才会出现较高的准确率;对于特征波段,ELM、PLS两种模型的准确率最好,高于94%,其他3种模型的准确率也普遍较高,因受预处理和样本集划分方法的影响,个别情况准确率稍微低于90%。综上,对于小白杏成熟度判别模型,有以下几种最优组合:全波段+MSC+SPXY/Duplex/K-S/交叉验证/随机法+ELM/PLS/KNN/SVM、全波段+S-G/MSC/SNV/归一化+随机法+贝叶斯、全波段+S-G+SPXY/Duplex/K-S/交叉验证/随机法+ELM/PLS/KNN/SVM、全波段+归一化+SPXY/Du plex/K-S/交叉验证/随机法+PLS、特征波段+MSC+SPXY/Duplex/K-S/交叉验证/随机法+ELM/PLS/KNN/贝叶斯/SVM、特征波段+归一化+SPXY/Duplex/K-S/交叉验证/随机法+PLS。