APP下载

潜变量机器学习方法在咖啡NIR定量分析中的应用

2021-05-11陈华舟许丽莉乔涵丽洪绍勇

光谱学与光谱分析 2021年5期
关键词:定标咖啡光谱

陈华舟,许丽莉,乔涵丽,洪绍勇

1.桂林理工大学理学院,广西 桂林 541004 2.大数据处理与算法技术研究中心(桂林理工大学),广西 桂林 541004 3.北部湾大学海洋学院,广西 钦州 535011 4.广州华商学院数据科学学院,广东 广州 511300

引 言

随着生活质量的提高,食品的生产质量和品质安全直接关系到人们的健康,越来越多地受到人们的密切关注。咖啡是最流行的非酒精饮料之一,咖啡成分复杂,包含多种化合物,矿物质含量丰富,其中蛋白质是咖啡为人类提供能量的主要成分[1-3]。由于生长环境和加工方法的影响,不同种类的咖啡中的蛋白质含量存在一定差异,对于咖啡蛋白质含量的检测已经有比较成熟的实验室方法[4],然而化学检测技术成本高、耗时长,需要化学试剂,容易造成污染,不能满足当今社会快节奏的生活和高质量的检测需要,同时,速溶咖啡粉末成品的制备和包装过程中不可避免地添加了一些食品添加剂,这对于蛋白质成分的提纯和检测增加了复杂度。因此,寻求一种快速检测技术来完成对咖啡蛋白质的检测具有重要的社会意义。

随着计算机和信息技术的发展,光谱快检技术广泛应用于农业、食品、生态环境、生物医学等领域[5-7]。近红外(NIR)光谱以其快速无损、无试剂、实时在线、多组分同时分析的特点得到相关行业认可[8-10]。而近红外光谱的分析过程是多变量定标校正过程,需要结合化学计量学方法的研究和应用。近些年,NIR分析技术在食品行业的应用逐渐趋于成熟,利用近红外光谱分析进行食品安全和品质检测的精度要求越来越高,如多元回归(MLR)、偏最小二乘法(PLS)等常规的线性分析方法已经不能满足建模定标需求[11-12];大数据和智能计算技术的不断更新,涌现出一系列非线性计量学分析方法,如支持向量机(SVM)、神经网络(ANN)、极限学习机(ELM)等,用于NIR光谱建模,在定量分析方面取得良好的预测效果,能够提高模型预测精度的同时还肯定了机器学习方法在NIR分析中的可行性[13-15]。

针对速溶咖啡粉末的蛋白质快速定量检测的NIR光谱建模分析,提出利用SVM和ELM方法结合潜变量技术进行建模,讨论两种方法的参数优选和潜变量提取的联合优化模式,结合简单的建模前预处理,以达到提高NIR光谱分析精度的目的。与常用的PLS方法进行对比,验证潜变量机器学习方法在近红外定量分析中的应用优势。

1 实验部分

1.1 样品采集与检测

收集174份咖啡粉末样品,采用常规食品蛋白质检测技术(GB/T 5009.5—2003)测定每个样品的蛋白质含量,作为NIR分析的参考化学值。所有样品的蛋白质百分比含量最小值为46.55%,最大值为73.35%,平均值为60.00%,标准偏差值为4.97%。使用FOSS NIR Systems 5000光栅型光谱仪采集咖啡粉末样本的近红外光谱,以空气作为背景,每测一个样品伴随着测量一次背景,用于光谱数据的基线校正。实验环境温度为(25±1) ℃,湿度为45%±1%RH的情况下,设置仪器内置光学系统对每个样品(包括背景测量)自动扫描32次,波长范围设置为1 000~2 500 nm,光谱分辨率为2 nm。光谱数据经过基线校正处理,消除光谱漂移影响,所得174个咖啡样本的NIR光谱如图1所示。

图1 174个咖啡粉末样本的NIR光谱Fig.1 NIR spectra of 174 coffee powder samples

1.2 潜变量机器学习方法

采用SVM和ELM两种机器学习方法,结合潜变量分析技术,对174个咖啡蛋白质的NIR光谱快速检测进行建模优化。潜变量是通过分析光谱数据的信号分布情况,提取出来的包含特定待测成分信息最大的综合变量[16]。潜变量分析常用的方法有因子分析(FA)、主成分分析(PCA)、隐马尔可夫模型(HMM)等;本工作利用PCA算法思想提取潜变量,并将潜变量提取过程与SVM和ELM进行联合优化,形成操作方便的新型数据优化分析模型。

(1)潜变量支持向量机(LV-SVM)模型

LV-SVM的基本思路是采用PCA潜变量技术,将原光谱数据X通过潜变量提取形成光谱特征的潜变量特征数据LX,进一步利用非线性映射核函数将潜变量LX映射到一个更高维的特征变量空间,使得原来变量之间的非线性对应关系转换成高维空间中的线性关系;加入松弛变量ξ,在特征空间中基于线性最优化理论构建目标函数,

s.t.f=wTφ(lxj)+b+ξj,

lxj∈LX,j=1,2,…,p

其中γ为正则化参数,ξj为松弛变量,lxj为潜变量矩阵LX的向量元素,b为偏差因子。此为凸二次规划问题,可用Lagrange乘子法求解,经整理可以得到LV-SVM算法针对NIR光谱定量分析的预测模型为

其中yi为样本待测成分含量,αj是Lagrange乘子,lxj为潜变量变换之后的特征光谱,bi为基线校正偏差。

(2)潜变量极限学习机(LV-ELM)模型

ELM算法是基于单一隐藏层的反馈式神经网络(SLFN)权值优化理论提出的一种机器学习方法,它可以为SLFN系统提供更优化的模型训练机制,以便更快速地确定最佳优化权值和最小训练误差,使其具有更好的泛化应用能力[17-18]。LV-ELM的基本思想是将PCA提取的潜变量(LX)作为SLFN的输入变量,执行ELM算法过程,构建潜变量极限学习机模型,使得反馈式神经网络极限学习的模式完全作用于待测成分特征的光谱数据。

其中aj∈Rn和bj∈R(1,2,…,k)表示第j个隐含节点的学习参数,βj∈Rp表示隐含层的第j个节点到输出层的连接权值,g(aj,bj,lxi)表示第j个隐含节点输出值与输入样本特征变量lxi之间的关系。

Hβ=T

其中H={hij=g(aj,bj,lxi)}为隐含层的输出矩阵,β=(β1,β2,…,βk)为输出权重矩阵,T=(t1,t2,…,tn)为目标输出矩阵。于是,SLFN系统方程转化为线性模型,则输出权重可通过最小二乘法来确定,即可以得到β的估计值为

其中H-1为H的广义逆矩阵。利用ELM优化估计的值来预测样本待测成分的含量。

1.3 数据划分与模型评价指标

咖啡蛋白质定量检测的NIR建模采用定标—验证—测试的模式进行,将全部174个样本按照大约2∶1∶1的比例随机划分为定标集、验证集和测试集,其中定标集样本用于构建定量模型,验证样本用于对定标模型进行对比验证和参数优选,然后将优化模型应用于测试集样本进行模型评价。经过划分之后的三个样本集的统计数据如表1所示。

表1 定标集、验证集和测试集样本的咖啡蛋白质含量基本统计数据Table 1 The statistic data of coffee protein content for the calibrating, validating and testing sets

模型评价体系包括对验证集样品的评价和对预测集样品的评价,评价指标有均方根偏差(RMSE)和相关系数(r),通过以下公式计算

2 结果与讨论

分别采用LV-SVM和LV-ELM两种方法对咖啡粉末的NIR光谱建模,定量预测蛋白质含量,有利于人们选择咖啡蛋白能量的摄取。针对84个定标集样本建立LV-SVM模型进行训练,首先基于全谱段数据提取潜变量信息,由于不同潜变量个数将影响建模效果,调试前30个潜变量,结合SVM学习过程进行联合优化,设置正则化参数的调整范围为γ=1,2,…,20,将每一个参数组合所对应的模型应用于45个验证集样本蛋白质含量的预测,通过比较不同潜变量个数(LV)、不同正则化参数(γ)取值,依据模型评价指标(RMSEV)确定建模优化参数。双参数调试的LV-SVM建模验证结果如图2所示,其中图2(a)为双参数联合调试任一参数组合的预测偏差,图2(b)和图2(c)分别为该预测结果分别对应r和LV两个变量方向的最小预测偏差投影。依图2可以选择优化的r为14,LV为15,对应LV-SVM模型的优化RMSEV为6.797,对应的RV为0.877。

图2 LV-SVM定标验证模型的RMSEV优选Fig.2 The optimization of RMSEV for the LV-SVM calibration models

利用LV-ELM模型针对定标集样本进行训练,基于全谱数据提取潜变量LX,调试潜变量数量为1,2,…,30,结合ELM的学习优化过程,设置SLFN网络的隐含层节点数量可变,调试取值为k∈{5,10,15,20,25,30,35,40,45,50},通过反馈式迭代确定各个隐含节点的参数,利用最小二乘回归计算SLFN隐含层至输出层的权值β,进而完成对验证集样本的蛋白质含量预测。通过比较不同潜变量个数(LV)、不同隐含层节点个数(K)的取值,依据RMSEV确定建模优化参数。双参数调试的LV-ELM建模验证结果如图3所示,其中图3(a)为双参数联合调试任一参数组合的预测偏差,图3(b)和图3(c)分别为该预测结果分别对应K和LV两个变量方向的最小预测偏差投影。依图3可以选择优化的K为40,LV为18,对应LV-ELM模型的优化RMSEV为6.118,对应的RV为0.908。

图3 LV-ELM定标验证模型的RMSEV优选Fig.3 The optimization of RMSEV for the LV-ELM calibration models

利用上述定标和验证过程得到的最优建模参数,即15个潜变量、正则化参数为14的LV-SVM模型和18潜变量、40个隐含层节点的LV-ELM模型,分别对测试集的45个咖啡样本的蛋白质含量进行预测,计算对应的RMSET和RT,所得结果列于表2中;同时将常规PLS定标的优化模型预测结果也列于表中进行比较。对比可知,LV-SVM和LV-ELM方法在咖啡蛋白的NIR光谱快速定量分析中能够取得比常规PLS方法更优的预测精度,且LV-ELM模型取得相对于LV-SVM模型更好的预测结果。经过定标—验证—测试结果可知,潜变量提取结合机器学习的方法在近红外定量分析中具有一定的应用优势,比常规的线性建模方法更有应用前景。

表2 LV-SVM,LV-ELM和PLS方法对咖啡蛋白质的NIR建模预测结果Table 2 The NIR model prediction results for coffee protein based on the LV-SVM, LV-ELM and PLS methods

3 结 论

采用NIR光谱快速检测技术实现对速溶咖啡样本中蛋白质含量的定量检测,在建模方法上采用潜变量结合机器学习的联合优化方法,建立LV-SVM和LV-ELM定标预测模型,形成SVM或ELM关键参数和潜变量优选的双参数联合调试模式,使建模预测偏差结果形成三维随动优选结构。该方法能够在实现变量降维的同时优选建模参数,对咖啡蛋白质的定量分析取得良好的预测效果,经过定标—验证—测试三个环节的建模对比,该方法普遍优于常规PLS的建模预测。结果表明,潜变量结合机器学习联合参数优化方法能够为NIR快速检测技术提供良好的建模分析手段,有望推广应用于其他类型的咖啡样本进行快速品质鉴定。

猜你喜欢

定标咖啡光谱
基于三维Saab变换的高光谱图像压缩方法
关于咖啡的9个真相
我国为世界大豆精准选种“定标”
下午三点的咖啡
基于恒星的电离层成像仪在轨几何定标
基于角反射器的机载毫米波云雷达外定标实验
咖啡
4m直径均匀扩展定标光源
星载近红外高光谱CO2遥感进展
苦味酸与牛血清蛋白相互作用的光谱研究