APP下载

融合分数阶微分与PIMP-RF算法的集成学习模型预测成熟期苹果可溶性固形物含量

2023-10-09库尔班古丽都力昆曾繁琳玛依热麦麦提阿瓦古丽麦麦提买地努尔汗艾则孜郭俊先

光谱学与光谱分析 2023年10期
关键词:微分波段波长

黄 华,刘 亚,库尔班古丽·都力昆,曾繁琳,玛依热·麦麦提,阿瓦古丽·麦麦提,买地努尔汗·艾则孜,郭俊先

1. 新疆农业大学数理学院,新疆 乌鲁木齐 830052 2. 新疆农业科学院综合试验场,新疆 乌鲁木齐 830013 3. 新疆农业大学机电工程学院,新疆 乌鲁木齐 830052

引 言

苹果是一种常见的水果,富含丰富的糖类、花青素、维生素和矿物质等营养物质,容易被人体吸收,素有“活水”之称,可以溶解硫元素,促使皮肤光滑柔嫩,深受人们喜爱。可溶性固形物含量(soluble solids content,SSC)是反映和决定水果品质和成熟度的主要指标之一,SSC测定是林果产品加工和食品营养研究中的基础问题之一[1]。传统的SSC含量测定有湿化学酸碱滴定法和折光仪法[4],这些方法需要对样品部分抽样并进行切割、压榨等前处理,既耗费材料和药品,又耗时费力,效率低下,难以普及推广,不适宜现场快速个体检测和工厂化大批量水果品质分级。此外,在水果生长过程中,由于光照、水分和肥料营养供给的不均衡性,导致水果采摘时,水果内部化学物质成分存在巨大差异,以部分样本的抽样测量代替总体样本,存在一定的误差。因此,研究一种快速、准确、无损的SSC检测方法对监测苹果个体的品质和成熟状况,指导苹果采收后分级加工和提升苹果商品化效益具有重要意义。

可见/近红外光谱技术是利用可见/近红外光谱区有机分子中的含氢官能团的倍频和合频吸收原理,依据官能团的吸收强度对被测物质进行定量和定性分析的一种现代、无损测试技术。它具有快速简便、无试剂、过程无污染、多组分同时测定等优点,已被广泛应用于农业、食品等领域[2-3]。国内外学者已经开展了大量可见/近红外光谱苹果内部品质检测的研究。其中,采集模式方面有使用漫反射[4]、半透射[5]、漫透射[6]及多模式[7]获取光谱信号,用于检测苹果SSC;应用光谱成像技术,获取具有样本空间位置信息的光谱信号,建立有效的预测模型[8];也有从研究减少苹果着色、个体大小差异、测量位置、果皮,以及不同天气采摘等外部不确定因素对苹果SSC预测的影响[9-10],以提高模型的稳定性和适应性。此外,诸多学者从波长选择和光谱建模角度进行了广泛研究,包括主成分回归[11]、最小二乘支持向量回归[12]、改进无信息变量消除法[13]、CARS-SPA 算法[14]、CARS-Bipls算法[15]、SAE-BPNN模型[16]、区域组合建模[17]、机器学习[18]、深度学习[19]等。

当前,利用可见/近红外光谱进行苹果品质检测的研究多针对成熟采摘后的果实,而关于生长成熟期内苹果SSC的光谱无损检测研究较少,且SSC与苹果成熟度有一定的相关性。因此,本工作以成熟期内苹果为研究对象,以等间隔采摘周期,采摘一定数量的苹果,采集这些苹果可见/近红外光谱数据,测定SSC,然后,结合分数阶微分(fractional differential,FD)及置换重要性-随机森林(permutation importance-random forest,PIMP-RF)算法,构建成熟期苹果SSC预测的集成学习模型,以期提高预测模型的鲁棒性和精度,实现光谱在水果成熟期大田管理、采摘期预测、内部多品质检测和成熟度判别等方面的应用。

1 实验部分

1.1 材料

试验区位于新疆阿克苏市红旗坡农场(41°15′N,80°18′E),选择新疆阿克苏冰糖心红富士苹果为试验样本,采摘和光谱测定时间为2015年8月20日至10月30日,这段时间为苹果果实膨大定形期至果实成熟的采收期。研究试验地选择苹果集中连片种植区的一户果园,果园面积5 300 m2,果树共有264株,树龄9年,选择其中30株枝条、树干、挂果量、位置以及生长状况基本一致的果树编码,用于苹果采摘。编码完成后,从8月23日开始,间隔3 d采摘1株果树上的24个苹果。苹果采摘和处置原则:①果树冠层上、中、下3层,东、西、南、北4个方位,树冠外围和内部的24个方位作为采摘点;②苹果样品由人工采摘完成,采摘时,采集大小基本一致、无病虫害的苹果,保留果梗,套塑料自封袋;③采摘后,用软纸巾清除苹果表面灰尘和杂物,粘贴标签,室温放置3 h,供后续采集光谱数据和SCC含量测定,所有数据均于当天在当地测定完成。

1.2 设备

选用美国海洋光学公司的Maya 2000 Pro可见/近红外光纤光谱仪(波长范围198~1 118 nm,波长数2 068个,光学分辨率0.035 nm,采样间隔0.42 nm),并配以高能量连续宽波段HL-2000型20 W卤钨灯,通过光纤连接光源与光谱仪,样品放置于支架的样品池中进行光谱采集。可溶性固形物含量测定选用ATAGO PR-101型数字折光仪(Tokyo,Japan,精度±0.1°Brix)。数据分析用MATLAB R2019b软件和R4.1.2软件。

1.3 方法

1.3.1 光谱采集

光谱采集前,开机预热30 min,之后在配套Ocean Options SpectraSuite采集软件上选择反射测量模式,开启软件的电子暗噪声校正和杂散光校正,用标准聚四氟乙烯漫反射白板为背景进行参考光谱校正和遮光方式进行暗场校正,校正完成后采集光谱。光谱采集参数:平滑度3,平均次数10,波长范围:380~1 100 nm;采集环境参数:室温(22±2)℃,湿度50%±3%;采集光谱时,选取果实赤道面上120°均匀分布且无缺陷的3点,每个测点采集3条光谱曲线,最终将其平均光谱作为单个苹果的光谱曲线。本试验共采集552个苹果的可见/近红外光谱曲线。

1.3.2 SSC测定

光谱采集后,按NY/T2637—2014《水果和蔬菜制品可溶性固形物的测定折射法》,逐个测定每个样品的SSC。测定时,分别剜取3个光谱采集位置的体积为15 mm×15 mm×15 mm的果肉组织(含果皮),通过榨汁器获取汁液,滴于ATAGO PR-101型数字折光仪的样液池中,测定苹果的可溶性固形物含量。测定过程中,每次使用榨汁器和数字折光仪前,用纯净水和吸水纸清洗干净,取3次测量的平均值作为单个苹果可溶性固形物含量值。

1.3.3 分数阶微分技术

基于Grünwald-Letnikov分数阶微积分定义进行光谱数据的分数阶微分处理。该定义具体描述为

(1)

(2)

(3)

根据上述公式,可以实现光谱数据的分数阶微分处理。

1.3.4 PIMP-RF算法

随机森林是一种以决策树为基学习器的集成算法,它采用套袋法(Bagging)进行采样并构建多棵决策树,通过组合多棵独立的决策树后根据投票或取均值的方式得到最终预测结果。该算法主要应用于回归和分类问题,且具有较高的精确度、泛化能力和可解释性,是一种极为流行的机器学习算法。随机森林基于变量重要性评分(Gini、VIM等)可以实现变量筛选,Altmann等[20]提出了一种修正随机森林Gini指数偏差的启发式方法——置换重要性-随机森林(permutation importance-random forest,PIMP-RF)算法。该算法可以有效校正变量重要性度量指标,且大多数情况下,其准确性优于随机森林。

1.3.5 集成学习模型

结合分数阶微分技术与PIMP-RF算法进行集成,构建一种集成学习模型。具体流程如图1所示。基本思路为:(1)采用不同阶次(取0-2阶,步长为0.1)的分数阶微分预处理训练集光谱;(2)利用偏最小二乘(partial least squares,PLS)模型优选分数阶阶次(假设优选的分数阶阶次为α1、α2、…、αn);(3)基于αi阶微分光谱及PIMP-RF算法构建基学习器,并输出相应的预测结果;(4)将基学习器的预测结果组成一个新训练集,并采用K近邻(K-nearest neighbors,KNN)回归算法完成集成,得到最终的KNN回归预测模型;(5)采用对应优选阶次的分数阶微分技术预处理测试集光谱,然后基于已建立的基学习器,输出相应的预测结果;(6)将测试集的基学习器预测结果构成一个新测试集,并基于已建立的KNN回归预测模型,输出最终的预测结果。

图1 集成学习模型流程图Fig.1 The flow chart of ensemble learning model

2 结果与讨论

2.1 可见/近红外光谱分析

成熟期内苹果的可见/近红外光谱如图2示,在380~1 100 nm范围内反射率值差异较大,变化趋势基本一致。在可见光400~700 nm波段,光谱反射率较低,并呈现低—高—低的走势,即蓝光波段430~500 nm低,黄绿波段520~590 nm高,橙红波段600~680 nm低;在短波近红外波段,740~930 nm波段反射率较高,在930~1 040 nm波段出现吸收峰,在1 040~1 100 nm波段具有较高的反射率。此外,波段430~450和640~665 nm是叶绿素的吸收峰,波点550 nm是花青素的吸收峰,波点950 nm是水分的吸收峰。

图2 苹果样本的可见/近红外光谱Fig.2 Visible/near infrared spectra of apple samples

2.2 苹果SSC统计分析

试验期间,苹果SSC的测定时间周期为3 d,实测23 d,每天测定24个苹果,552个苹果样本的SSC范围为8.8~19.4°Brix,均值±标准差等于(13.333±1.999)°Brix。同时,由图3可知,苹果果实膨大定形期至果实成熟采收期的前20 d,其SSC逐渐递增,在成熟期末(第21~23天)SSC基本稳定,这与实际相符。

图3 成熟期苹果可溶性固形物含量的小提琴图Fig.3 Violin plot of soluble solids contents of apples at ripening stage

2.3 利用PLS优选分数阶微分阶次

在进行集成建模前,需要优选分数阶微分阶次。首先,按照7∶3的比例随机划分训练集和测试集,然后利用分数阶微分(选取0-2阶,步长取0.1)对原始光谱进行分数阶微分预处理,最后利用PLS模型对训练集进行拟合,再对测试集进行预测。共进行200次重复实验,如图4示,为训练集和测试集的相关系数r、均方根误差RMSE的箱形图。

图4 基于不同阶分数阶微分光谱的PLS模型结果(200次重复实验)Fig.4 Violin plot of soluble solids contents of apples at ripening stage (200 repeated experiments)

由图4可知,基于所有阶次(0-2阶,步长为0.1)的分数阶微分处理,建立的PLS模型均具有一定的预测能力,也说明利用分数阶微分技术对可见/近红外光谱进行预处理是可行的。同时,结合训练集和测试集的r、RMSE以及集成学习的同质异构思想,最终优选分数阶微分阶次为0阶、0.4阶、1.1阶和1.6阶。

2.4 不同分数阶微分光谱的特征变量重要性及可解释性分析

基于优选的分数阶微分阶次,分别对原始光谱训练集进行分数阶微分预处理,然后利用PIMP-RF算法建立基学习器。在构建基学习器的同时,可以计算出不同特征波长的特征变量重要性,同时,利用Altmann方法计算出变量重要性的统计显著性检验p值。

如图5(a)所示,未经分数阶微分处理(0阶)时,p值小于等于0.01的特征波长区间为525~565和650~685 nm,分别对应可见光波段的黄绿波段和橙红波段,且特征波长重要性排序为第一的是波长535 nm;如图5(b)所示,经0.4阶分数阶微分处理,p值小于等于0.01的特征波长区间为520~565和635~685 nm,分别对应可见光波段的黄绿波段和橙红波段,且特征波长重要性排序为第一的是波长645 nm;如图5(c)所示,经1.1阶分数阶微分处理,p值小于等于0.01的特征波长区间为440~720 nm,对应可见光波段,且特征波长重要性排序为第一的是波长615 nm;如图5(d)所示,经1.6阶分数阶微分处理,p值小于等于0.01的特征波长区间为443~695 nm,也对应可见光波段,且特征波长重要性排序为第一的是505 nm。综合上述分析结果可得,利用可见/近红外光谱技术预测成熟期苹果可溶性固形物含量,其关键波长主要是可见光波段。

图5 特征变量重要性分析示意图红色*表示特征变量重要性的统计显著性检验p值≤0.01;绿色·表示特征重要性的统计显著性检验p值>0.01(a):0 order;(b):0.4 order;(c):1.1 order;(d):1.6 orderFig.5 Violin plot of soluble solids contents of apples at ripening stagered* indicates the p-value of the statistical significance test for the feature importance≤0.01;green · indicates the p-value of the statistical significance test for the feature importance>0.0.1(a):0 order;(b):0.4 order;(c):1.1 order;(d):1.6 order

2.5 集成学习模型实现成熟期苹果可溶性固形物含量预测

在基于0阶、0.4阶、1.1阶和1.6阶分数阶微分光谱和PIMP-RF算法构建完成基学习器的基础上,进一步利用KNN回归完成元学习器的模型构建,从而完成苹果可溶性固形物含量的集成学习模型建立。为比较集成学习模型的优劣,同时给出融合0阶、0.4阶、1.1阶、1.6阶微分预处理及PIMP-RF算法(分别简记作FD0-PIMP-RF、FD0.4-PIMP-RF、FD1.1-PIMP-RF、FD1.6-PIMP-RF)的预测结果,如表1所示。

表1 不同模型用于苹果可溶性固形物含量预测的结果对比Table 1 Comparing the prediction results of different models for SSC in apples

由表1可知,对于训练集而言,集成学习模型的相关系数r、平均绝对误差MAE、均方根误差RMSE和平均绝对百分误差MAPE分别等于0.989 2,0.241 2,0.309 1,0.018 3,都优于其他模型;对于测试集而言,集成学习模型的相关系数r、平均绝对误差MAE、均方根误差RMSE和平均绝对百分误差MAPE分别等于0.903 8,0.549 9,0.740 8,0.043 4,其中评价指标r、RMSE均优于其他模型,指标MAE和MAPE略高于FD1.6-PIMP-RF模型,但优于其他三个模型。同时,图6给出不同模型的SSC估测值与SSC实测值之间的关系图。综合上述分析结果表明,融合分数阶微分技术与PIMP-RF算法构建的集成学习模型预测成熟期苹果可溶性固形物含量具有可行性。

3 结 论

结合可见近红外光谱技术,融合分数阶微分技术与PIMP-RF算法构建集成学习模型,实现新疆阿克苏冰糖心红富士苹果的可溶性固形物含量估测,得到如下主要结论:

(1)利用分数阶微分技术预处理可见近红外光谱数据,可以通过计算光谱曲线不同阶次的分数阶微分挖掘出分数阶微分层面的更多深层次信息,且基于分数阶微分光谱建立的PLS模型均具有一定的预测能力。

(2)在优选分数阶微分阶次的基础上,基于预处理后的分数阶微分光谱,利用PIMP-RF算法构建基学习器,并实现特征波长的筛选。结果表明,利用可见近红外光谱技术预测成熟期苹果可溶性固形物含量的关键波长主要是可见光波段,这为今后新疆阿克苏冰糖心红富士苹果的快速无损检测设备研发提供科学依据。

(3)结合可见近红外光谱,基于分数阶微分技术和PIMP-RF算法构建的成熟期苹果可溶性固形物含量集成学习模型,取得了预期的预测效果。结果表明,集成学习模型是最优的,其中,训练集的相关系数r等于0.989 2,平均绝对误差MAE等于0.241 2,均方根误差RMSE等于0.309 1,平均绝对百分误差等于0.018 3;测试集的相关系数r等于0.903 8,平均绝对误差MAE等于0.549 9,均方根误差RMSE等于0.740 8,平均绝对百分误差等于0.043 4。

猜你喜欢

微分波段波长
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
拟微分算子在Hp(ω)上的有界性
上下解反向的脉冲微分包含解的存在性
双波长激光治疗慢性牙周炎的疗效观察
借助微分探求连续函数的极值点
M87的多波段辐射过程及其能谱拟合
日本研发出可完全覆盖可见光波长的LED光源
日常维护对L 波段雷达的重要性
对不定积分凑微分解法的再认识
便携式多用途光波波长测量仪