APP下载

基于最小角回归结合一元线性直接校正法的近红外光谱模型传递方法

2019-01-22路皓翔吴鹏飞杨辉华刘振丙

分析测试学报 2019年1期
关键词:汽油波长校正

路皓翔,吴鹏飞,杨辉华,3*,刘振丙

(1.桂林电子科技大学 电子工程与自动化学院,广西 桂林 541004;2.桂林电子科技大学 计算机与信息安全学院,广西 桂林 541004;3.北京邮电大学 自动化学院,北京 100876)

自20世纪90年代起,近红外光谱分析技术在石油化工、食品药品监督以及农业等领域有了广泛应用[1-4]。然而在实际应用中,由于仪器老化、基线漂移和吸光度波动等原因,会造成以一台仪器测得的样品光谱数据建立的定量分析模型不能直接应用于其他光谱仪上测得的样品光谱数据的分析。为了提高定量分析模型的通用性,近红外光谱的模型传递技术应运而生。

近红外光谱的模型传递又称近红外光谱仪器的标准化[5],主要是用数学运算的相关知识求解出两台或两台以上的光谱仪测得的光谱数据之间的转换矩阵,进而实现不同仪器上测得的光谱数据的标准化,提高近红外光谱定量分析模型在不同仪器上的通用性。当前模型传递中转换矩阵的求解主要有标样法和无标样法两种[6-7]。其中,标样法需要在主、从仪器之间测得的光谱矩阵上选择一定数量的标样集,并通过标样集建立主、从仪器之间模型传递的数学模型,主要包括直接校正算法[8]、分段直接校正算法[9]、Shenk's[10]及一元线性回归直接校正法[11]等。无标样法则不需要标样集,主要包括有限脉冲响应算法[12]等。最小角回归(Least angle regression,LAR)算法是由Efron等[13]于2004年提出的一种既可以用于特征变量筛选又可以用于线性回归的机器学习算法,然而在近红外光谱分析领域该方法应用相对较少[14]。

针对近红外光谱分析技术中的模型传递问题,本文提出了一种最小角回归结合一元线性回归直接校正(Least angle regression combined simple linear regression direct standardization,LAR-SLRDS)的模型传递方法。为了验证LAR-SLRDS算法的性能,采用LAR实现药品样品和汽油样品近红外光谱数据全谱区特征波长的筛选,然后结合SLRDS实现从仪器测得光谱数据的校正,并与未经过筛选的一元线性回归直接校正法(Simple linear regression direct standardization,SLRDS)、直接校正法(Direct standardization,DS)、分段直接校正法(Piecewise direct standardization,PDS)进行对比。实验结果表明,LAR-SLRDS可以很好地解决不同光谱仪器之间的差异,提高PLS定量分析模型的通用性和准确性。

1 原理与方法

1.1 LAR算法

LAR算法通过引入一阶惩罚函数将无效变量的系数置为0,从而实现变量的筛选。其线性回归模型如下:

(1)

在式(1)中,(xi1,xi2,…,xip)代表第i个样本的自变量,yi代表第i个样本的响应变量,βj表示第j个自变量系数,t代表约束值,通常设置t≥0。

1.2 SLRDS算法

一元线性回归的表达式是y=a0+ax,式中x和y分别代表自变量和因变量,a0和a为回归系数。假设近红外光谱样本中不同波长的吸光度不相关,采用SLRDS对从仪器上测得的近红外光谱分析校正[13]。设主、从仪器上测得的第i个样品在第j个波长点上的吸光度Xm(i,j)和Xs(i,j)满足如下一元线性回归方程:

Xm(i,j)=a0(j)+a(j)Xs(i,j) (i∈1…n,j∈1…p)

(2)

式(2)中,第j(j∈1…p)个波长点对应的回归系数分别为a0(j)和a(j)。把式(2)写成矩阵形式如下:

(3)

其中,1n×1表示n×1的列向量且元素全为1。由式(3)可得:

(4)

(5)

第j(j∈1…p)个波长点对应的回归系数a0(j)和a(j)可以通过公式(4)求出。从仪器上测得的未知样品光谱Xunknown(n′×p)通过公式(5)转换为与主仪器上测得的光谱一致的光谱Xstd,其中n′为未知样品数。最后由主仪器建立的校正模型计算结果。

从内部网络中的打印机和多功能一体机上收集工作日志,然后生成对管理员和管理层有用的报告。能保存所有用户的打印、复印、扫描、传真记录,并可以随时搜索,可以追踪及监视用户用量,可以生成各种报表(列表,图形)制作及分析。包括以下:服务类型、色彩模式、纸张尺寸、单/双面选择、什么时间、输出设备型号等信息。

1.3 LAR-SLRDS算法

由于样品的光谱特征波长数量较多,而这些波长中部分与预测结果的相关性较低,反而会影响预测结果和模型传递的准确性和可靠性[15-16]。本文采用LAR以最小化池化信息准则(Akaike information criterion,AIC)作为回归系数,将相关性较低的系数置为0,相关性较高的系数置为非0,从而实现样品近红外光谱特征波长的筛选。然后利用SLRDS对筛选出的波长进行校正,从而提高模型的通用性。LAR-SLRDS算法的具体步骤如下:

(1)预处理:利用墨西哥帽小波变换对主、从仪器上测得的样品近红外光谱数据进行预处理;

(2)波长筛选:将小波变换预处理后的光谱数据作为LAR算法的输入,根据AIC最小的原则实现全谱区波长点的筛选,并利用筛选出来的特征波长点建立对应的偏最小二乘回归(Partial least squares regression,PLS)分析模型;

(3)转换矩阵计算:利用K-S算法从主、从仪器测得的样品光谱数据中筛选出最具代表性的光谱数据样本,结合步骤(2)中筛选出的波长点,利用SLRDS算法实现转换矩阵的求解;

(4)验证:在从仪器上测得验证集样品的光谱数据,并结合步骤(2)中筛选出的波长点信息,利用求解出的转换矩阵对验证集的光谱数据进行校正,将校正后的样品光谱数据送入到主仪器上建立的PLS回归分析模型,利用预测标准偏差(Standard error of prediction,SEP)对模型的性能进行评估。

2 实验部分

2.1 实验样品

为了验证LAR-SLRDS算法的有效性,在汽油和药品两个近红外光谱数据集上进行相关实验并与DS、PDS和SLRDS进行对比。数据集1采用石油化工科学研究院提供的汽油样品的近红外光谱数据集,该数据集包含两台NIR-3000型近红外光谱仪(分别记作m1和s1)上测得的88个汽油样本的近红外光谱,其波长范围为700~1 100 nm,波长间隔为0.2 nm,每个样本共有2 002个特征波长点,此外还测定了C7、C8、C9和C10 4种成分的含量值。数据集2采用国际漫反射会议提供的药品样品的近红外光谱数据集(http://www.eigenvector.com/data/tablets/index.html),该数据集包含两台Foss NIR-Systems近红外光谱仪(分别记为m2和s2)上测得的655粒药片样本的近红外光谱,其采样的波长为600~1 898 nm,采样的间隔为2 nm,每个样本共650个特征波长点,并分别测定了药片样本活性、重量和硬度3种成分的参考值。

2.2 数据预处理

由于实验用到的药品样本和汽油样本的近红外光谱数据存在基线漂移、漫反射和随机噪声等,首先采用标准正态变量变化消除样本漫反射以及光程变换造成的样本近红外光谱数据之间的差异,然后采用数据平滑化消除样本近红外光谱数据存在的随机噪声,最后采用墨西哥帽小波变换(尺度值scale设为3,母小波波长设为32*scale)消除样本近红外光谱数据存在的基线漂移。预处理后药品样本和汽油样本主、从仪器的光谱图如图1所示。

2.3 标样集的选取

由于LAR-SLRDS算法本质上是有标样法,因此在实现模型传递的过程中需要选择合适数量的标样集,本文采用K-S算法实现药品样本和汽油样本两个近红外光谱数据集标样集的选取,其中设置标样集的上限为25,下限为3。

2.4 PLS模型及评价标准

本次实验采用偏最小二乘法(PLS)建立定量回归分析模型,其主成分数由交互验证法确定。采用光谱平均差异(ARMS)、光谱校正率(Prcorrected)及预测均方根误差(RMSEP)作为LAR-SLRDS算法的评价指标。其中,ARMS的值越大,表明不同仪器间测得的光谱数据差异越大;Prcorrected可显示不同仪器间光谱差异的扣除率,其值越大表明算法的模型传递效果越好。RMSEP作为PLS回归模型的评价准则,其值越小说明算法的传递性能越好。其中,ARMS和Prcorrected计算公式如下:

(6)

(7)

3 结果与分析

3.1 模型建立及波长数对模型的影响

首先将药品样本和汽油样本的成分含量参考值按照升序排列;然后采用隔三选一的方式在汽油样本数据集中挑选预测集60个,校正集28个;在药品样本数据集中挑选预测集460个,校正集155个;最后利用PLS分别在两台主仪器上建立定量模型。

图2 汽油C7成分RMSECV随变量数变换情况Fig.2 RMSECV of gasoline C7 component with variable number conversion

由于样品近红外光谱数据维度较高,特征波长数量较多,而这些变量中存在很多与PLS回归模型预测结果相关性较低甚至无关的变量,如果过多引入这些变量,会降低模型传递的效果和PLS模型预测结果的准确性,因此需要对样品光谱数据中的有效变量进行筛选,对无关变量进行剔除。以汽油样本C7成分含量为例,采用LAR算法对其变量进行筛选,然后利用PLS建立回归分析模型。本次实验采用交叉验证均方根误差(Root mean square error of cross validation,RMSECV)作为PLS回归模型的评价指标,通常RMSECV值越小,PLS回归模型的效果越好。汽油C7成分的RMSECV随变量数变换的情况如图2所示,从图中可以看出特征波长数的选取对PLS模型的预测会产生影响。随着样品波长数目的增加,汽油样品C7成分的RMSECV值逐渐变小,当样品波长数为45时,C7成分的RMSECV取得最小值,表明PLS模型的预测效果最好。当样品波长数大于45时,随着样本波长数的增加,C7成分的RMSECV值逐渐处于摆动状态,但均高于样品波长数为45时的RMSECV值,表明当波长数超过一定数量时反而会降低PLS模型的预测效果。

3.2 模型传递前后的光谱差异分析

为了验证模型传递的效果,利用LAR-SLRDS算法对汽油和药品的近红外光谱数据集进行模型传递实验,实验结果如图3所示,其中图3A(左)给出了汽油样本C7成分选择标样集时,测试集在主、从仪器上的平均光谱,图3B(左)给出了药品样本重量成分选择标样集时,测试集在主、从仪器上的平均光谱。从图中可以看出汽油、药品两个数据集在主、从仪器上测得光谱数据的平均光谱均存在明显的差异。图3(右)给出了LAR-SLRDS算法校正后汽油样本和药品样本测试集在主、从仪器上的平均光谱。从图中可以看出经LAR-SLRDS算法校正后,两个数据集在主、从仪器上的平均光谱之间几乎不存在差异。

LAR-SLRDS算法校正前后两个数据集的光谱平均差异(ARMS)和光谱校正率(Pr)的计算值如表1所示。以药品中重量性质为例进行相关说明,从表1中可以看出,从仪器的标样集大小设为4,光谱传递前主、从仪器上测得的近红外光谱的光谱差异为0.109 1,经LAR-SLRDS算法传递后主、从仪器上测得的近红外光谱的差异仅为0.031 8,校正率达到91.59%。与图3B的结果一致。由此可以得出,LAR-SLRDS算法能够消除主、从仪器上光谱之间的差异性,很好地实现模型传递。

表1 LAR-SLRDS算法传递前后仪器间的光谱差异(ARMS)Table 1 ARMS before and after calibration transfer by LAR-SLRDS

3.3 与DS、PDS及SLRDS模型传递光谱差异的比较

本文将DS、PDS和SLRDS与LAR-SLRDS算法模型传递进行对比。前3种算法校正过程中标样集大小的选取以及PDS算法窗口的选择与LAR-SLRDS算法相同,均遵从SEP最小原则,仅缺少波长筛选环节。表2给出了DS、PDS、SLRDS和LAR-SLRDS传递后测试集主、从仪器上光谱差异的计算值。从表2中可以看出,与DS、PDS、SLRDS传递后的光谱差异相比,汽油和药品两个数据集经LAR-SLRDS算法传递后主、从仪器上的光谱差异均明显降低。以药品数据集的重量性质为例说明,经DS、PDS和SLRDS算法传递后,主、从仪器上的光谱差异分别降为0.074 7、0.039 5和0.049 5,然而经LAR-SLRDS算法传递后,主、从仪器上的光谱差异降为0.031 8,证明LAR-SLRDS模型传递的效果最好。

表2 经DS、PDS、SLRDS和LAR-SLRDS传递后主、从仪器间的光谱差异(ARMS)Table 2 ARMS between master and slave devices after calibration transfer by DS,PDS,SLRDS and LAR-SLRDS

3.4 与DS、PDS及SLRDS预测结果的比较

表3给出了DS、PDS、SLRDS和LAR-SLRDS算法模型传递以后从仪器测试集预测标准差(SEP)的变化情况。以汽油数据集中C7成分含量为例进行相关分析,从表3中可以看出,未经过校正的从仪器上C7成分的SEP为2.783 2,经过DS、PDS、SLRDS和LAR-SLRDS算法模型传递后,其预测标准偏差均明显降低,其中本文提出的LAR-SLRDS算法的模型传递效果最好,从仪器上测得的汽油样本光谱数据经LAR-SLRDS算法模型传递并进行PLS回归后,预测标准差仅为0.410 6。

表3 DS、PDS、SLRDS和LAR-SLRDS传递前后的预测标准差(SEP)Table 3 SEP before and after calibration transfer by DS,PDS,SLRDS and LAR-SLRDS

4 结 论

近年来,近红外光谱技术研究融入人们生活的方方面面,然而模型传递问题尚未得到很好地解决。本文提出了一种新的模型传递方法——最小角回归结合一元线性回归直接校正法(LAR-SLRDS),利用LAR算法进行样品光谱信息中有效特征波长点的筛选,同时剔除无关或非线性变量,使得样品的光谱矩阵维度降低,结合SLRDS算法所求参数少、传递效果好等优势,提高了近红外光谱定量分析模型在不同仪器之间的通用性。最后,采用汽油和药品样本两个光谱数据集评估LAR-SLRDS算法的性能,并与DS、PDS和SLRDS算法的模型传递效果进行对比。实验结果表明,LAR-SLRDS算法可以消除仪器间的光谱差异,实现模型传递,提高定量分析模型的准确性以及稳定性,较DS、PDS和SLRDS算法具有所求参数少、模型传递效果好等优点,能够实现药品和汽油样本的近红外光谱模型传递。

猜你喜欢

汽油波长校正
劉光第《南旋記》校正
在Lightroom中校正镜头与透视畸变
机内校正
日本研发出可完全覆盖可见光波长的LED光源
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量
便携式多用途光波波长测量仪
大数据是“原油”,不是“汽油”
汽油直接喷射系统
一种基于eNode B的主动式频偏校正算法
适用于波长交换光网络的波长旋转图模型设计