APP下载

基于近红外光谱和支持向量机回归参数调优的羊肉含水量检测

2022-06-29张立欣杨翠芳张晓张楠楠王亚明

食品与发酵工业 2022年12期
关键词:预处理光谱建模

张立欣,杨翠芳,张晓,张楠楠,王亚明*

1(塔里木大学 信息工程学院,新疆 阿拉尔,843300)2(南京理工大学 理学院,江苏 南京,210094)

由于新疆南疆绵羊生长于独特的气候、土壤、水源等环境,其羊肉具有膻味较轻、脂肪与胆固醇含量较低等优点,深受各族人民群众的喜爱,是老百姓餐桌上不可或缺的健康养生美食,供不应求。在羊肉的加工、贮存过程中,水分含量直接影响其口感,因此,对羊肉含水量的检测具有十分重要的意义。

传统的实验室测定肉类水分的方法费时费力,且具有破坏性,较难实现大批量的快速检测。近红外光谱分析技术以其速度快、成本低和易于实现等特点,广泛用于肉制品的检测,有对肉制品掺假的检测[1-2]、产地鉴别[3]、品种的识别[4]、嫩度的检测[5]、新鲜度的检测[6]、肌红蛋白含量的研究[7]、pH值和颜色检测[8]、水分含量[9]的预测等。陈杰等[10]采用不同的预处理方法对羊肉水分含量建立了偏最小二乘回归偏最小二乘回归(partial least squares, PLS)模型进行检测,但是水分含量的测量范围偏窄。张立欣等[11]建立了羊肉含水量的极限学习机极限学习机(extreme learning machine, ELM)预测模型,运算速度比较快,但是没有将光谱预处理方法和变量选择方法结合起来考虑。

在近红外光谱应用中,为消除噪音的干扰,需要对光谱数据进行预处理[12],常用方法有一阶导数(first derivative,1-DER)[13]、标准正态变换(standard normal transformation,SNV)[14]、多元散射校正(multivariate scatter correction,MSC)[15]、SG平滑变换(Savizkg Golag smooth transformation,SG)[16]、小波变换(wave transformation,WT)[17]等。由于全波段光谱中不可避免地含有大量无信息甚至是干扰信息,影响模型的预测性能,因此,建模时需要选取特征波长变量[18],特征变量的选取方法有主成分分析(principal component analysis, PCA)[19]、连续投影算法(successive projection algorithm, SPA)[20]、竞争自适应重加权算法(competitive adaptive reweighted sampling, CARS)[21]等。在模型建立方面,有PLS[10]、支持向量机回归(support vector regression, SVR)[22]、BP神经网络(back propagation neural network)[23],ELM[24]等。

不同的研究对象在结构、成分含量上的差异,导致光谱响应和敏感波段也不尽相同。神经网络建立模型时,参数的随机赋值,也会影响模型的稳健性。因此,本文在总结前人研究的基础上,基于近红外光谱技术和参数优化的SVR算法,以新疆阿拉尔的绵羊肉为研究对象,依据光谱数据和水分含量的实测数据,建立水分含量的最佳预测模型,为研制羊肉水分含量的无损检测装置提供理论参考。

1 材料与方法

1.1 数据材料

选用新疆阿拉尔市九团10月龄左右的绵羊,新宰杀后取后腿肉。剔除筋和膜,分割修整成6 cm×6 cm×4 cm规格的样品,编号分装入食品保鲜袋,放置于冰箱进行冷藏(4 ℃)。实验前逐次拿出,待其恢复到室温后开始实验。

使用北京凯元盛世公司的JDSU-MicroNIR 1700便携式近红外光谱仪(900~1 700 nm),在室温20~25 ℃环境下进行实验,样品与光谱仪镜头保持2 mm的距离,对准中心位置,每个样品间隔5 s扫描3次,取平均值作为样品的光谱数值,通过自带Micro NIR软件导出为 Excel数据。

羊肉忠水分含量的测定采用国标法GB/5009.3—2016《食品安全国家标准 食品水分的测定》标准中第一法直接干燥法进行测定,每块样品测3次,取其平均值作为水分含量值。

1.2 研究方法

1.2.1 光谱数据的预处理

在光谱检测的过程中,会受到样品背景等随机因素的影响,导致光谱数据中含有噪声,为提高模型的准确性和稳健性,需要对数据进行预处理。本文中的采用的光谱数据预处理的方法有1-DER、SNV、MSC、WT、SG、傅里叶变换(Fourier transformation,FT)。

1.2.2 特征波长的提取

光谱能够体现物质所含成分及含量,但同时包含大量的冗余信息,为降低模型的复杂性,需要提取特征波长。本文采取的方法有SPA和CARS。

1.2.3 建模方法

PLS法集主成分分析、典型相关分析和多元线性回归分析3种分析方法的优点于一身,可以避免数据非正态分布、因子结构不确定性和模型不能识别等潜在问题。并且能较好地解决样本个数少于变量个数等问题,特别当各变量内部高度线性相关时,用PLS法更有效。

SVR法是基于支持向量基的函数逼近回归问题的学习方法,可用于小样本问题的学习,计算速度快,预测能力强。

1.2.4 模型验证

SPXY(sample set partitioning based on joint X-Y distance)算法在划分训练集和测试集时,将自变量和因变量间的距离同时考虑在内,使样本更加均匀。按照SPXY算法划分训练集和测试集,以测试集的均方误差(mean square error, MSE)、拟合优度(goodness of fit,R2)作为标准来评判模型的优劣,计算如公式(1)和公式(2)所示:

(1)

(2)

2 结果与分析

2.1 样本划分

所分割的每份羊肉样品在 900~1 700 nm的波段范围内原始光谱如图1所示。

图1 原始光谱图Fig.1 Original spectrum

表1 训练集和测试集Table 1 Training set and test set

由表1可以看出,最大值和最小值都出现在训练集中,因此,数据的划分是合理的。

2.2 数据预处理

在近红外光谱应用时,经常会受到背景等随机因素的干扰,因此需对光谱数据作预处理。分别采用1-DER、SNV、MSC、WT、SG、FT 6种方法对光谱数据预处理,对原始光谱数据(ORI)和预处理之后的光谱数据,分别采用PLS算法、SVR算法建立水分含量的预测模型。PLS算法建模时,以交叉验证的均方误差最小确定潜变量个数,SVR算法建模时,惩罚参数c和核函数参数g采用网格法在{2^(-10),2^(-8),...2^(10)}范围内选取,结果如下表2所示。

表2 不同预处理下的建模效果Table 2 Modeling effects under different pretreatment

以测试集的MSE、相关系数为评价指标,可以看出,采用PLS算法建模,比较而言,SNV预处理的效果较好,训练集的MSE为0.875 4,R2为0.869 4,测试集的为2.924 8和0.448 2,存在过拟合。采用SVR算法建模,1-DER预处理的效果较好,测试集的MSE为1.874 9,R2为0.672 7。为提高模型的预测效果,以下均采用1-DER和SNV预处理后的光谱数据。

2.3 波长选择

光谱能够体现所含物质的成分及含量,但也包含大量的冗余信息,为提高模型稳健性,需要选取特征波段建模。分别采用SPA算法、CARS算法选取特征波段。

采用SPA算法,以1-DER预处理之后的光谱数据为例,特征波段的选取过程如图2所示。

图2 变量的选取过程Fig.2 Variable selection process

由图2可以看出,随着参与建模的变量数目的增加,均方根误差(root mean square error,RMSE)整体呈现衰减的趋势,当变量数为13时,均方根误差达到最小值1.328,之后随着所选变量个数的增加,均方根误差并无减少的趋势,因此,选取13个波长变量,选取的波长变量如图3所示,图中小方块对应的横坐标为所选取的波长,即:908.10、932.88、945.27、951.47、970.05、976.24、988.63、1 001.02、1 007.21、1 013.40、1 019.60、1 180.65、1 242.60 nm。

图3 选取的变量Fig.3 Selected variables

采用CARS算法进行变量选择,以标准正态变换预处理之后的光谱数据为例,变量的选取过程如图4所示。

a-变量优化过程;b-RMSE变化趋势;c-回归系数变化图4 CARS 选取变量结果Fig.4 Variable selection results

由图4可以看出,在第18次迭代时,交叉验证的RMSE达到最小为1.573 1,此时选出的变量对应的波长为:932.88、939.08、945.27、982.44、988.63、994.82、1 001.02、1 013.40、1 038.19、1 044.38、1 081.54、1 093.93、1 124.90、1 143.49、1 162.07、1 168.27、1 186.85、1 354.09、1 366.48、1 378.87、1 385.07、1 391.26、1 416.04、1 447.01、1 453.20、1 471.79、1 521.35、1 539.93、1 552.31、1 589.48 nm。

2.4 模型建立

基于预处理之后选出的特征变量作为输入量,建立PLS模型和SVR模型,对羊肉中的水分含量进行预测,结果如表3所示。

表3 不同预处理方法下不同的波长选择方法的建模效果Table 3 Modeling effects of different wavelength selection methods under different pretreatment methods

由表3可以看出,1-DER-CARS-SVR模型的预测性能最佳,预测的MSE为1.461 6,R2为0.718 3。优于PLS模型的,这是因为羊肉内部成分结构复杂,除了线性结构外,还存在其他非线性结构。

2.5 SVR模型的参数调优

SVR做预测时,需要设置惩罚参数c和核函数参数g。一阶导数预处理后数据,采用CARS方法选出特征变量建模,若随机生成[0,1]范围内的参数c和g,并利用这些参数训练SVR模型,最后进行预测,10次运行的结果如表4所示。

表4 随机选取参数的建模结果Table 4 Modeling results of randomly selected parameters

由表4可以看出,随机选取的参数无法保证最后测试集的拟合效果。在实际操作中,可以先在大范围内粗略寻找参数c和g,让c和g的取值变化都为2^(-10),2^(-8),...2^(10),计算对应参数的5折交叉验证的均方根误差,均方误差的等高线如图5所示。等高线表示c和g取相应值时,对应的5折交叉验证的的MSE,3D视图效果如图6所示。

图5 参数选择的等高线图Fig.5 Contour map with parameters selection

图6 3D视图Fig.6 3D view

由图5和图6可以看出,在保证均方误差最小的情况下,c的范围可缩小到[2^(-5),2^(5)],g的范围可缩小到[2^(-10),2^(3)],这样在上面粗略参数选择的基础上进行精细的参数选择,逐步缩小参数c和参数g的搜索范围,对参数进行精选。最后确定参数c和参数g的取值范围分别为[2^(-1.5),2^0]和[2^(-5),2^(-3)],在此精细的参数范围内确定最佳的参数c和参数g的值,此时,1-DER-CARS-SVR模型的拟合效果如表5所示。

表5 1-DER-CARS-SVR的拟合效果Table 5 Fitting effect of 1-DER-CARS-SVR

3 结论

(1)将羊肉近红外光谱数据分别进行1-DER、SNV、MSC、WT、SG、FT 6种预处理方法,采用PLS算法和SVR算法建立预测模型。结果表明,SNV和1-DER 预处理方法分别让2种预测模型达到最优。

(2)分别采用SPA算法、CARS算法选取特征波段,建立PLS和SVR模型。最佳预测模型为1-DER-CARS-SVR模型,预测的MSE为1.461 6,R2为0.672 7,优于PLS模型。

(3)SVR算法进行建模时,惩罚参数c和核函数参数g的可以在大范围内粗选,借助于等高线图和3D视图,逐步缩小参数的取值范围,再进行精选,最终选出最佳参数c为0.701 1,g为0.088 4,此时1-DER-CARS-SVR模型预测的MSE为1.216 2,R2为0.739 5,优于随机选取参数的预测效果。

本文研究了1种预处理方法、1种变量选择方法下不同建模方法的预测效果,后续研究中可以进一步将多种预处理联合用于原始光谱数据预处理,多种变量选择方法相结合采用不同的算法建立模型,比较分析模型的预测效果。

猜你喜欢

预处理光谱建模
基于三维Saab变换的高光谱图像压缩方法
求解奇异线性系统的右预处理MINRES 方法
高光谱遥感成像技术的发展与展望
污泥预处理及其在硅酸盐制品中的运用
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
求距求值方程建模
基于PSS/E的风电场建模与动态分析
基于预处理MUSIC算法的分布式阵列DOA估计
基于膜过滤的反渗透海水淡化预处理
基于GPU的高光谱遥感图像PPI并行优化