APP下载

基于MC-UVE-VIP两步波长筛选实现近红外光谱模型的无标样传递

2023-02-20张站鸽倪力军张立国栾绍嵘

分析测试学报 2023年2期
关键词:波长光谱阈值

张站鸽,倪力军,张立国,栾绍嵘

(华东理工大学 化学与分子工程学院,上海 200237)

近红外光谱(NIRs)技术是一种绿色、无损、快速的检测方法。随着化学计量学理论方法和计算机技术的快速发展,NIRs技术已被应用于农产品[1]、中药[2]和烟草[3-4]等领域。该技术以样品的近红外光谱数据为自变量,样品的待测性质为因变量,利用多元分析方法建立定量或定性的NIRs分析模型,并对验证集样品进行预测。研究表明[5-9],建立一个预测效果良好的模型未必需要所有的波长信息,因此需对波长进行筛选。常见的波长筛选方法有遗传算法(GA)[10]、连续投影算法(SPA)[11]、无信息变量消除算法(UVE)[12]以及变量稳定性竞争自适应重加权抽样算法(SCARS)[13]等,但这些方法大都以单台仪器上模型的预测误差最小为目标进行优化,建立的模型未必能在多台仪器间共享。

本课题组基于不同仪器间光谱的差异提出的方差分析[5,14]和光谱比值分析[6]方法,通过筛选出主、从机间光谱信号一致且稳定的波长变量,在主机上建立的NIRs定量模型对从机玉米中主要成分和黄芩中黄芩苷的预测误差比分段直接校正(PDS)[15]算法更小或接近。同时基于仪器间光谱响应信号一致且稳定的波长,结合相关系数法、无变量信息消除[16]以及变量重要性投影[17]算法等波长筛选方法,建立了烟叶中总植物碱的定量模型,该模型对从机样品总植物碱含量的预测误差满足企业内控要求[7]。文献[18]也报道了基于主、从机间光谱信息的波长筛选方法,该方法通过对主、从机光谱在不同波长下进行相关分析,筛选出主、从机间光谱信号响应一致性好的波长,基于这些波长建立的定量模型对从机玉米样品中主要成分的预测误差与主机样品预测误差相当。上述研究结果表明,基于主、从机间光谱信号并和不同波长筛选方法结合可以建立稳健的近红外光谱模型,实现模型在多台仪器间的直接共享。但这些方法在波长筛选时仍需要用到若干从机样品的光谱信息,不是严格意义上的无标样模型传递。

研究表明[19-21],将不同波长筛选算法结合的多步波长筛选方法可充分利用各波长筛选算法的优点,基于其建立的NIRs模型的预测性能优于单一算法所建模型。由于蒙特卡洛-无信息变量消除(MCUVE)算法可剔除无信息或信息量较少的波长,变量重要性投影(VIP)算法可挑选对因变量解释能力最强的波长,因此本文将MC-UVE法与VIP算法结合筛选有信息的重要波长来建立玉米中蛋白质含量的近红外光谱模型,并考察了其对从机样品预测的准确度,以期实现无标样模型传递。

1 算法与原理

1.1 MC-UVE算法原理

MC-UVE算法是基于蒙特卡洛(MC)和无变量信息消除(UVE)算法提出的一种变量选择方法。该方法通过随机选择的校正集样本建立大量的模型,然后根据相应的回归系数对每个变量的稳定性进行评估。稳定性较差的变量被当作无信息的变量,并予以剔除。变量的稳定性公式如下:

式中,mean(bi)和std(bi)分别表示第i个波长变量的平均值和标准方差;Si表示第i个变量的稳定性。由公式可知bi的平均值越大、方差越小时,第i个变量就越稳定。

1.2 VIP算法与原理

VIP算法是基于偏最小二乘回归的一种变量筛选方法,它描述了自变量对因变量的解释能力,并根据解释能力的大小进行波长筛选。第j个变量的解释能力(VIPj)大小根据公式(2)计算:

公式(2)中,k表示自变量数,ch表示相关自变量间提取出的第h个新变量(主成分),m表示主成分数,r(y,ch)表示因变量与主成分间的相关系数,反映了主成分对因变量的解释能力,Wij表示自变量在主成分上的权重。

1.3 技术路线

图1为本文MC-UVE-VIP两步波长筛选的技术路线。首先用MC-UVE算法对全波长集合U进行波长筛选,挑选出Si大于Mthreshold,u的波长,得到有信息的波长集合UUVE;然后采用VIP算法对波长集合UUVE做进一步波长筛选,挑选出VIPj大于阈值Vthreshold,u(该阈值为UUVE中所有波长下VIP值的均值)的波长,得到波长集合UUVE−VIP;采用VIP算法从全波长中筛选VIPj大于阈值Vthreshold,w(该阈值为全部波长下VIP值的均值)的重要波长,得到波长集合UVIP。分别以波长集合UUVE−VIP、UUVE、UVIP建立预测玉米中蛋白质含量的偏最小二乘回归(PLSR)模型,简称MC-UVE-VIP模型、MC-UVE模型与VIP模型,比较各模型对主、从机样品的预测均方根误差(RMSEP)、平均相对误差(MARE)及相关系数R,并与全波长模型、文献报道的其他模型的预测结果进行比较。

图1 建立NIRs模型的两步波长筛选方法技术路线图Fig.1 Technical route to establish NIRS models by two-step wavelength selection method

2 实验部分

2.1 样品数据集

本文采用的玉米近红外数据来自http://software.eigenvector.com/Data/Corn/index.html。该数据集由80个玉米样品在3台近红外光谱仪M5、MP5、MP6上测试的近红外光谱以及样品的水分、油脂、蛋白质和淀粉含量组成,近红外光谱数据集的波长范围为1 100 ~ 2 498 nm,波长间隔为2 nm,波长总数为700个。玉米样品在主机和两台从机上的原始近红外平均光谱如图2所示。

图 2 玉米样品在主机和两台从机上原始光谱的平均光谱Fig.2 Original average spectra of corn samples in master and two slaves

2.2 近红外光谱定量模型的建立与评价

对玉米近红外光谱数据进行标准正态变换(SNV)结合一阶导数(光滑点数为11)的处理,以消除背景漂移、减小光散射以及噪声的影响。采用PLSR方法建立近红外定量分析模型。本课题组前期的研究表明,PLS模型中的潜变量(LV)个数会对模型的预测性能产生很大的影响[22],本文的LV数由累积贡献率达到99.9%确定(表1)。以SPXY法[23]划分样品数据集,对于玉米数据,选择前3/4(60个样本)作为校正集,剩下1/4(20个样本)作为验证集。由图2可知,仪器M5上玉米样品的平均光谱与MP5和MP6上的差异较大,而MP5和MP6两台仪器上的平均光谱差异较小。因此,本文选取M5作为主机M;MP5、MP6分别作为从机S1、S2。

以MARE对模型的预测性能进行评价,评价指标的计算公式:

式中,m表示样品数,yi,actual和yi,predicted分别表示第i个样品的实际含量和预测含量。对于含量在1% ~ 100%范围的物质浓度检测,一般认为MARE小于5%是可以接受的。

偏最小二乘(PLS)在进行回归分析时,将前n个潜变量所代表的方差之和与所有潜变量方差之和的比值η称为累计贡献率,计算公式如下:

式中,λi表示第i个潜变量的方差,p表示所有不为零的方差的潜变量数,p≤ min{样品数,波长点数}。被前n个潜变量接受的方差可根据累积贡献率进行判断,潜变量的重要性可根据其能解释的方差大小来判断。随着潜变量个数的增大,后面潜变量所能解释的方差变小,意味着这些潜变量在不同样本中变化不大,在模型中可以略去。

本文所有算法和画图操作均在Matlab R2020a上完成。

3 结果与讨论

3.1 基于MC-UVE及VIP算法的两步波长筛选

首先利用MC-UVE算法进行初筛。MCUVE算法的阈值太小,则弱信息变量无法剔除;阈值太大则会剔除掉有信息变量。因此,本文将MC-UVE算法的阈值设定为1 ~ 7,间隔为1,采用MC-UVE法在不同阈值下筛选出7个UUVE集合,并基于这7个波长集合分别建立PLS模型,得到各阈值下的校正均方根误差(RMSEC)(图3)。由图3可知,阈值为4时,对应的RMSEC最小,故选定4作为MC-UVE算法的阈值Mthreshold。在此阈值下挑选出有信息的波长变量集合UUVE,然后再在UUVE基础上利用VIP算法作进一步的波长筛选,得到有信息的重要波长集合UUVE−VIP;同时利用VIP算法对全波长进行筛选,得到重要波长变量集合UVIP。波长集合UUVE、UVIP、UUVE−VIP在全波长的分布如图4所示。由该图可知,UUVE−VIP中的波长点只有143个,约为UUVE的三分之一、UVIP的二分之一。UUVE−VIP中1 980、2 048、2 054、2 056、2 060、2 160、2 470 nm处为蛋白质的近红外光谱特征吸收峰位置[24]。

图3 不同Mthreshold阈值下的RMSECFig.3 RMSEC under different thresholds of Mthreshold

图4 主仪器样本光谱的平均SNV+一阶导数光谱Fig.4 Average spectra of primary samples after SNV plus first derivation pretreatment

3.2 不同波长筛选方法所建模型对玉米中蛋白质含量的预测结果

潜变量个数对PLSR定量模型的预测性能有很大影响[9]。因此,本文比较了分别基于累计贡献率达到99.9%准则(ACR)和留一交叉验证(LOOCV)确定的潜变量数(LV)所建立的全波长模型的预测结果,如表1所示。由表可知,虽然基于LOOCV建立的模型预测主机样品的MARE比基于ACR所建模型小,但该模型传递到从机后的MARE比ACR模型的对应指标高,尤其是对S2仪器样品的预测误差是ACR模型的2倍。而LOOCV的潜变量数是ACR的几倍,易导致基于LOOCV建立的模型过拟合。因此,本文根据累积贡献率达到99.9%确定潜变量数。

表1 基于不同的潜变量确定方法所建全波长模型的蛋白质预测结果Table 1 Protein prediction results of whole wavelength calibration model based on latent variables selected by different methods

表2给出了分别基于波长集合UUVE、UVIP、UUVE−VIP和全波长建立的PLS模型预测主、从机样品蛋白质含量的结果,表中还列出了PDS方法对从机样品的预测结果以及文献[5]报道的蛋白质含量预测结果。在本文所建模型中,全波长模型预测主机样品蛋白质含量的MARE小于其它模型。但全波长模型转移到从机后,预测从机样品蛋白质含量的MARE均大于5%,且约是主机样品预测误差的6倍,即全波长模型对从机样品的预测误差偏大。MC-UVE-VIP模型预测从机样品蛋白质含量的MARE为1.64% ~ 1.88%,小于全波长模型的6.05%、也小于MC-UVE模型与VIP模型的5.19% ~ 7.16%,但略大于PDS的1.41% ~ 1.47%和SWCSS[5]模 型 的1.41% ~ 1.79%。由 于MCUVE-VIP完全基于主机样本筛选波长,无需从机样本的光谱信息[5],模型传递到从机时不需像PDS方法那样根据转移集样本的光谱及蛋白质含量信息校正从机样本的预测结果,也不需像SWCSS方法那样采用若干主、从机光谱信息,其预测从机样本的误差虽然略高于PDS和SWCSS方法,但其建模及模型传递过程比这两种方法简单、易行。

由表2可知,MC-UVE-VIP模型的变量(波长)个数显著小于全波长模型,也比单一MCUVE和VIP方法的变量少,这使得该模型的运算效率及解释能力得到显著提升。基于MC-UVE和VIP结合算法的两步筛选方法,能够筛选出有信息的重要波长,使得基于这些波长建立的玉米蛋白质模型具有更好的稳健性,故模型对于主、从机样本蛋白质含量的预测误差均处于可接受水平。

表2 不同近红外模型对蛋白质含量的预测结果比较Table 2 Protein prediction results of different NIRs calibration models

4 结 论

两步波长筛选方法MC-UVE-VIP能够根据主机样本光谱筛选有信息的重要波长变量,无需从机光谱信息。基于该方法筛选出的波长所建立的玉米蛋白质近红外光谱定量预测模型可以直接传递到从机,模型对主、从机样品蛋白质含量预测的MARE均小于5%,实现了玉米样品中蛋白质含量近红外光谱模型的无标样转移。该模型的稳健性、传递效果及精简程度均优于全波长模型以及一步波长筛选法MC-UVE和VIP建立的模型。MC-UVE-VIP两步波长筛选方法对于其他数据的适应性有待进一步研究。

(续表2)

猜你喜欢

波长光谱阈值
基于三维Saab变换的高光谱图像压缩方法
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
比值遥感蚀变信息提取及阈值确定(插图)
基于频域分析方法的轨道高低不平顺敏感波长的研究
室内表面平均氡析出率阈值探讨
日本研发出可完全覆盖可见光波长的LED光源
星载近红外高光谱CO2遥感进展
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量
便携式多用途光波波长测量仪