基于小波变换-遗传算法-偏最小二乘的草莓糖度检测研究
2020-03-21张娟原帅张骏
张 娟 原 帅 张 骏
(1.烟台汽车工程职业学院电子工程系山东烟台 265500;2.烟台大学文经学院山东烟台 264005;3.烟台大学光电信息科学技术学院山东烟台 264005)
草莓口感酸甜,营养丰富,是一种人们普遍喜爱的水果。草莓糖度是决定口感和营养的重要因素。传统的水果糖度检测的方法多采用理化分析法,检测时间长、步骤繁琐、成本高。随着近红外光谱测量技术和近红外光谱仪器的快速发展,近红外光谱技术现已广泛应用于无损检测领域[1]。新型便携式近红外光谱仪具有体积小、低功耗、高性能、高稳定性等优点,适合现场检测和在线分析,越来越广泛应用于水果生产中的管理监测、产后加工和质量评判中[2,3]。基于便携式-近红外光谱测量分析技术可实现水果内部品质的简单、快速、无损检测,具有成本低、重现性好、分析效率高等优势[4]。
近年来,国内外利用近红外光谱技术对草莓糖度的检测和分析进行了大量的研究工作,其中光谱数据预处理和预测模型的建立方法是研究热点。金同铭等[5]采用一阶导数逐步回归的方法获取定量分析定标方程,对草莓的糖度、酸度等多指标进行分析;牛晓颖等[6]采用偏最小二乘法提取的潜在变量作为最小二乘-支持向量机和反向传播人工神经网络的输入变量,建立了草莓糖度的近红外定量模型;ITO[7]将草莓原始近红外光谱数据进行二阶导数处理,利用多元线性回归法建立预测模型。为了获得精确度更好、预测能力更高的红外光谱模型,本研究采用小波变换(WT)去噪预处理,以遗传算法(GA)并结合偏最小二乘法(PLS)实现波长优化选择,建立草莓糖度的近红外光谱模型,并进行分析和验证。
1 实验部分
实验所用的样品为市场购买的草莓,共选择了果形均匀的55个样本。将40个样本分为校正集,15个样本为预测集。为减小环境温度和湿度对草莓样品光谱测量的影响,将样品放置在环境温度为25 ℃,相对湿度为65%的实验室中5 h后测量。
1.1 实验仪器及测量条件
草莓近红外光谱数据的采集使用Avantes公司的AvaSpec-2048TEC便携式光纤光谱仪,使用与仪器配套的AvaSoft7.0软件。数据采集时光谱仪探头距离草莓样品正上方高度为5 mm。光谱检测系统的参数设置为:测量波段范围为600~1 100 nm,积分时间5 ms,光谱采样间隔0.28 nm,光谱平滑阶数为3阶。为减小实验测量误差,每一样品的不同位置进行3次光谱测量,取其平均值,得到的光谱数据以excel形式导出。
1.2 糖度测定
将采集完红外光谱的草莓样品榨汁,使用手持WZ113折射仪测量其糖度值。表1为校正集和预测集样本的糖度测量值。
表1 校正集和预测集样本糖度测量值Table 1 The measure results of calibration and prediction samples
1.3 校正模型
采用具有较强抗干扰能力的偏最小二乘法(PLS)[8]建立校正模型,对草莓糖度进行定量分析和预测。选择校正集相关系数RC、预测集相关系数RP、校正集均方根误差RMSEC和预测集均方根误差EMSEP作为模型的评价指标[9]。
2 光谱数据预处理
2.1 数据规范化[10]
对每一条光谱数据运用极差标准归一化公式进行计算变换。
(1)
其中,i=1,2…n,n为校正集样品数;j=1,2…m,m为波长点数。
采用极差标准归一化处理后的光谱数据在(0,1)之间,分布更均衡[11]。目的是一方面降低同一草莓样品多次测量之间的差别,减小因草莓大小差异引起的光散射和微小光程差变化带来的影响,为后续分析提供可靠的数据源;另一方面,消除冗余信息,加快模型收敛速度,提高模型的稳健性和预测能力。
2.2 小波去噪
由于受到各种因素的影响,检测获得的近红外光谱信号夹杂噪声干扰。利用小波变换多分辨率方法[12],对近红外光谱信号进行不同分辨尺度的变换分解。通过调节尺度因子,将原始信号c0(n)(n=1,2,…,N)分解成某尺度的锐化信号(d1(n),d2(n),…,d1(n))和平滑信号(c1(n),c2(n),…,c1(n))[11]。最大限度的去除掉高频噪声元素,提取各尺度下的有效细节信息特征,然后再进行小波系数反变换,重构得到需要的光谱。本实验采用Daubechies5滤波器5尺度分解,对草莓近红外光谱信号进行分解、重构[13],实现滤波预处理。
2.3 波长选择
利用具有自适应的全局、快速搜索的遗传算法(GA)[12]与最小二乘法(PLS)有机结合[14],对草莓光谱进行波长优化选择。遗传算法是模拟生物进化机制随机优化的算法,应用于波长选择的实现主要包括染色体参数编码、群体初始化、适应度函数设计、遗传操作设计和评价六个基本步骤[15]。GA-PLS波长优选的思路是通过交互验证法评价模型的预测能力来选择适应度函数[16]。实现方法是以所选特征波长变量建立偏最小二乘回归校正模型,得到交互验证均方根误差RMSECV最小作为遗传算法的适应度函数,通过遗传算法的选择、交换和突变等算子的操作,不断的遗传迭代,剔除不相关或非线性变量,选取最优的有效特征波长[17]。在保证精度的前提下,简化校正模型,提高校正模型的预测能力和稳健性[18]。
(2)
其中,yi表示校正集中样品含量的真实值,y′i表示模型的预测值,n表示对应校正集的样本数目。
3 结果与分析
3.1 数据预处理与分析
图1为随机抽取的一个草莓样品的原始近红外光谱图。在600~1 100 nm整个光谱区都有较高的信噪比,影响校正模型的精确性和稳定性。故首先对光谱数据进行极差归一化处理,为后期光谱预处理提供可靠数据源。然后利用Daubechies5滤波器多尺度小波分析,对原始光谱进行各个尺度下的分解重构。图2是草莓光谱小波分解第5阶信号。可以看出,变换后的光谱很好的消除了高频噪声,光谱轮廓清晰平滑,在700、760 nm附近特征峰明显。
图1 草莓的原始近红外光谱Fig.1 Original near infrared spectrum of strawberry
图2 小波分解第5阶信号Fig.2 The fifth order signal of wavelet transform
3.2 遗传算法波长优选
采用Visual C++编写遗传算法程序。便携式光谱仪测量波长范围600~1 100 nm,共有2 001个波长数据。以草莓近红外光谱全部2 001个波点数作为选择对象,考虑其有效特征波长的个数,经过多次实验验证,确定遗传算法的控制参数:群体初始化为80,选择算子为转轮法,交叉概率pc为0.5,变异概率pm为0.01,选取遗传迭代次数为100。迭代终止,选取累计贡献率高于50%的201个波点数建立草莓糖度校正模型。
3.3 草莓糖度校正模型建立及预测
分别利用偏最小二乘法建立草莓糖度原始光谱全光谱模型(FS-PLS)、小波变换全光谱模型(WT-PLS)和小波变换与遗传算法波长选择模型(WT-GA-PLS),通过Matlab编程实现。表2列出了三种校正模型的预测结果。由表2可见,FS-PLS模型预测精度最低,WT-GA-PLS模型精度明显优于FS-PLS和WT-PLS。由于全光谱数据比较复杂,含有冗余信息和噪声,因此FS-PLS模型误差较大,预测能力较低。利用小波滤波去除了其他干扰信息,采用遗传算法选用包含重要信息的特征波长建立WT-GA-PLS模型,明显提高了模型的精确度和预测能力。
表2 草莓糖度的不同偏最小二乘校正模型结果Table 2 PLS calibration models for prediction of different methods
图3是WT-GA-PLS模型40个校正集样本的预测值与实测值的散点图。从图中可以看出各点均匀的散布在回归线两侧,预测值与实测值有很好的相关性。该模型校正集的相关系数RC为0.9395,校正集均方根误差RMSEC为0.1615,具有较高的精度。
图4是15个预测集样本的预测值与实测值的散点图。预测值与实测值同样有很好的相关性。模型预测集相关系数RP为0.9652,预测集均方根误差EMSEP为0.5042。表明校正模型具有较好的稳定性和可靠性。WT-GA-PLS模型采用的波点数由2 001减少到201个,在保证精度、稳定度的前提下简化了建模变量,可见遗传算法是一种有效的近红外光谱特征波长选择方法。
图3 校正集糖度预测值与实测值的散点图Fig.3 Predictive and actual value of calibration set sugar degree
图4 预测集糖度的预测值与实测值散点图Fig.4 Predictive and actual value of prediction set sugar degree
4 结论
采用小波滤波、遗传算法和偏最小二乘回归法三者有机结合,建立了草莓糖度的近红外光谱的小波变换-遗传算法-偏最小二乘(WT-GA-PLS)校正模型。该模型校正集的相关系数RC为0.9395,校正集均方根误差RMSEC为0.1615,预测集的相关系数RP为0.9652,预测集均方根误差EMSEP为0.5042,模型具有良好的稳定性、可靠性和预测性能。研究表明,利用便携式光谱仪检测草莓糖度,不仅满足品质的检测需求,还为长期监控果实动态变化,实现果园生产中的管理提供了可能性。