APP下载

基于深度学习的西瓜可见/近红外光谱可溶性固形物预测模型研究

2021-01-06李国建介邓飞

食品与机械 2020年12期
关键词:校正光谱西瓜

吴 爽 李国建 介邓飞

(福建农林大学机电工程学院,福建 福州 350002)

目前,人们对水果内部品质的要求随经济水平的不断提高变得越来越严格[1],而传统的水果品质检测方法往往属于有损检测,已无法满足对水果内部品质无损检测、实时分级的发展需求。水果内部品质检测过程中,常用可溶性固形物(soluble solid content,SSC)表示其糖度[2-3]。近红外光谱无损检测技术无需使用化学试剂,具有操作简单、快速无损在线实时检测的特点,已被广泛应用于水果糖度等内部品质检测[4-7]。韩东海等[8]利用Kubota K-BA100R近红外光谱仪以漫透射光谱检测方式分别获取了西瓜顶部和赤道部位的光谱信息,结合偏最小二乘法(PLS)及主成分回归法(PCR)建立了关于含糖量的预测模型,该模型在预测集顶部和赤道部位采集信息的相关系数分别为0.952,0.929,预测集均方根误差(RMSEP)分别为0.666,0.732 °Brix。何洪巨等[9]选取639.3 nm处的光谱反射率与其糖度构建了一次线性模型,其决定系数达0.951,相对均方根误差为6.78%。Zhang等[10]采用可见/近红外光谱技术构建了适用于厚皮甜瓜的快速、高鲁棒性波段优选模型,该模型预测集相关系数为0.914 3,RMSEP为 0.835 9 °Brix。钱曼等[11]分别采用连续投影算法(SPA)和竞争性自适应重加权算法(CARS)筛出西瓜SSC近红外光谱变量特征波长,利用PLS得到最佳建模结果为瓜顶处光谱信息,预测集R2为0.905,RMSEP为0.629 °Brix。

传统的光谱建模分析方法往往采用线性建模方法或机器学习中的核算法将部分非线性问题转化为线性问题。实际上,水果果实的结构特性和果皮对光的反射和散射是非常复杂的,对自变量间非线性关系的深度探讨可能有助于进一步提高模型的预测准确率。近年来快速发展的深度学习神经网络[12-13]也普遍应用于可见/近红外光谱建模分析。Zhou等[14]针对生菜叶片的可见/近红外高光谱图像,使用了支撑向量回归(SVR)结合小波变换—堆栈自编码机(WT-SAE)建模训练,其预测集的最高决定系数达0.959 0,RMSEP为0.055 87 mg/kg。Yu等[15]采用堆栈自编码机(SAE)处理梨的可见/近红外反射高光谱图像(380~1 030 nm),并结合全连接神经网络(FNN)实现了SSC含量的预测,其预测集的果实SSC含量决定系数为0.921,相较于PLSR提高了0.089,相较于LS-SVM提高了0.114。

目前,光谱建模研究往往使用线性模型或基于深度学习模型的简单应用,但近年来深度学习在图像领域的研究中,通过改变模型结构、变换卷积顺序使模型变得更快速、更准确,但在一维光谱建模研究中应用相对较少,往往停留在简单的卷积模型应用上,并未对先进的图像处理模型结构进行学习。因此,为推测图像处理深度学习模块是否同样适用于一维卷积神经网络,试验拟选取不同时期、不同糖度的大批量西瓜作为模型建模对象,分别采用K最近邻法回归、随机森林回归以及两种不同深度卷积神经网络模型对西瓜糖度构建预测模型,其中针对深度卷积神经网络,选取同样计算复杂度下的常规卷积神经网络CNN与带有残差块结构的卷积神经网络Res-CNN进行探讨,旨在为西瓜糖度无损快速检测装置的开发以及提升深度学习结构一维化的模型性能提供依据。

1 材料与方法

1.1 试验样本

选取6~7月不同成熟期西瓜(购买于杭州余杭地区,品种为“麒麟瓜”)共510个样本,并于当日送回实验室,去除形状不规则样品后剩余500个样本,并对样本进行编号,22 ℃实验室环境下放置24 h,分别采集西瓜样品的漫透射光谱和测定可溶性固形物含量。

1.2 光谱检测装置

光谱采集装置(图1)由微型光谱仪、笔记本电脑、光纤、光源等组成。检测器采用美国海洋光学公司的USB400商用微型光谱仪,光谱分辨率为 1 cm-1,采样范围为 220~1 020 nm,数据点为 1 044。对西瓜样品瓜脐位置采用漫透射方式采集光谱,样本相对检测器和光源的角度为120°。光源采用8盏150 W卤钨灯,总功率1.2 kW,积分时长200 ms,采用SpectraSuite(Ocean Optics Inc, USA)软件进行光谱采集。

1.3 可溶性固形物含量的测定

1. 透镜 2. 托盘 3. 光源 4. 西瓜 5. 光照箱 6. 计算机 7. 微型光谱仪 8. 光纤

使用数字式糖度计(PR-101型,日本ATAGO公司)进行测定,仪器精度为0.1 °Brix,测量范围为0~45 °Brix。去除西瓜样本非可食部分,将可食部分切碎后榨汁,滤纸过滤得西瓜样本汁液,测定汁液可溶性固形物含量。

1.4 数据处理与分析方法

西瓜校正集与预测集样本分布及对应糖度值见表1,校正集与预测集比例为7∶3。针对K最近邻法回归和随机森林回归,对原始数据中680~920 nm范围的采用PCA算法降维,采取不同主元素数量保留最佳建模结果。对于神经网络选取原始数据中680~920 nm范围的采用式(1) 进行标准差标准化处理。

表1 校正集/预测集样本分布Table 1 Sample allocation in calibration-set/ prediction-set

(1)

式中:

x*——标准化后的数值;

x——输入光谱;

u——自变量x的平均值;

σ——自变量x的方差。

1.4.1 CNN模型的构建 常规卷积神经网络结构示意图如图2所示,该模型由3个卷积层、3个批归一化层、2个全连接层及1个池化层组成,共含有533 217个训练参数。

图2 卷积神经网络结构Figure 2 Architecture of convolution neural network

1.4.2 Res-CNN模型的构建 Res-CNN模型结构示意图如图3所示,该模型由4个卷积核、5个批归一化层、2个全连接层及1个池化层组成。Resnet等[17-18]提出bottleneck会导致经Res-block的特征数急剧上升,因此试验使用的Res-block为轻量级开发网络的Inverted Residual[19],其结构包含1×1卷积、1×3卷积以及shortcut连接。残差结构在神经网络中的使用可以提高模型的学习效率,减缓模型因深度或迭代轮次造成的网络退化,1×1卷积核则可以改变通道数量并加强通道间信息的交互,该模型共含有545 505个训练参数。

图3 含有残差块的卷积神经网络结构Figure 3 Architecture of convolution neural network added Residual-block

1.4.3 KNN回归 KNN[20-21]是一种既可以用于分类又可以用于回归的算法。对于给定测试样本,基于距离度量找出校正集中与选定测试样本最靠近的K个训练样本,试验所选近邻评价标准为欧式距离[式(2)],K值为10,然后基于这K个“邻居”的信息来进行预测。在回归任务中可使用平均法,将K个样本的实值输出标记的平均值作为预测结果。由于KNN的KD树展开方法为对每个输入变量求方差做节点展开并不断递归,因此使用PCA降维减小计算量。

d(x,y)=

(2)

1.4.4 随机森林回归 随机森林[24]为集成学习中的一个算法,其思想为使用多个弱学习器对样本学习后共同预测结果。随机森林算法不仅可以用于分类,还可以用于回归。使用弱学习器为分类与回归树(CART),该算法以方差作为评价指标,假设输入样本含有m个特征,将样本通过某一特征的特定数值划分为方差较为小的两个含有(m-1)个特征的子集,并使用同样的方法对两个子集进行迭代,每次将一个子集划分为两个方差最小的子集,以此通过划分子类空间的方式将数据划分到预测更准的叶节点中,最后输出的回归值为叶节点平均值。

2 结果与分析

由表2可知,KNN在PCA降维数为8时效果最好,此时8个主成分贡献率高达99%。KNN回归使用了保留超过99%信息的主元素进行建模,但无论是在相关系数、RMSEC以及RMSEP的表现上都差强人意,校正集中Rc为0.697 7,RMSEC为0.965 0 °Brix,该算法在校正集中难以实现较好的收敛效果,可能由于输入数据维度不足导致无法实现有效回归,但由于KNN法是一种依赖距离选取邻居的算法,过多的维度会导致维度灾难同样不利于模型训练。随机森林模型出现了较大的过拟合现象,校正集中Rc为0.962 5, RMSEC为0.629 3 °Brix,但预测集中Rp=0.676 5且RMSEP接近1.000 0 °Brix,可能是随机森林回归算法中的CART弱学习器在bagging过程中每次选取不同训练样本导致模型的误差期望难以收敛,并且未进行剪枝操作导致模型出现过拟合现象。CNN模型与Res-CNN模型在校正集中的相关系数均>0.8,分别为0.813 2,0.875 0,校正集和预测集中的相关系数比较接近,CNN差值为0.042 7,Res-CNN差值为0.018 2,均方根误差也比较稳定,其差值分别为0.008,0.564 °Brix,其中Res-CNN的表现均优于CNN,两个模型的计算量近乎相等,说明通过改变模型结构,Res-block在一定程度上提高了模型性能。

表2 不同模型采集光谱建模预测结果Table 2 Prediction result of different model

3 结论

试验主要利用可见/近红外光谱结合K最近邻法回归、随机森林回归以及卷积神经网络与含有残差块的卷积神经网络两类深度学习卷积神经网络对西瓜可溶性固形物含量进行定量分析,并建立模型。其中含有残差块的卷积神经网络的校正集均方根误差为0.654 0 °Brix,预测集均方根误差为0.710 4 °Brix,其相关系数分别为0.875 0,0.893 2。后续将进一步深入研究图像深度学习结构一维化,并不断优化其光谱建模算法。

猜你喜欢

校正光谱西瓜
基于三维Saab变换的高光谱图像压缩方法
基于3D-CNN的高光谱遥感图像分类算法
高光谱遥感成像技术的发展与展望
劉光第《南旋記》校正
大小西瓜
建立在校正系统上的强大实力Sonance所能士i12
在Lightroom中校正镜头与透视畸变
机内校正
当夏天遇上西瓜
巧切西瓜