在线自适应波长选择方法及其在汽油调和过程中的应用
2021-03-06汪恺杜文莉隆建
汪恺,杜文莉,3,隆建
(1 华东理工大学信息科学与工程学院,上海200237; 2 华东理工大学化工过程先进控制和优化技术教育部重点实验室,上海200237; 3 化学工程联合国家重点实验室(华东理工大学),上海200237)
引 言
近年来,近红外光谱分析技术已被广泛应用于各个领域的在线过程分析中,如煤矿[1]、医疗[2]、食品[3]、石油[4]等行业。例如,在汽油调和过程中,近红外光谱已被用于评估产品研究法辛烷值(research octane number,RON)、马达法辛烷值(motor octane number,MON)、最终沸点(final boiling point,FBP)、密度和烯烃含量等[5−6]。使用这种方法最大的优势是它能够实时记录光谱来捕获过程属性,并用于分析化学混合物中的物质成分。校准模型通常是由光谱与参考浓度的成分共同构成的定量预测关系。然而,在某些情况下模型性能可能发生恶化,例如过程特性的变化[7−8]。传统的波长选择方法大多只能离线建立模型,在汽油属性的在线检测过程中,这些方法所选择的波长结构将保持不变;而在实际生产过程中,受到仪器误差、调和配方、原油种类等改变的影响,原先建立的近红外光谱模型的预测性能也会发生改变。而且在不同工况下,由于参调组分油种类及属性等因素的影响使得相同波长区间所包含的信息量不同。在在线检测过程中使用固定的波长结构将会导致模型的预测性能随着时间推移而降低[9]。本文提出了一种在线自适应近红外波长选择方法,可以根据新测量的光谱数据实时更新最优波长区间,并给出了在实际汽油工业应用中的有效性。
近红外光谱数据通常包含多达几百上千的变量,变量间具有较强的相关性,而且相比于维数较高的变量数,有标签样本数量较少,对于这种问题具有潜变量提取功能的方法如主成分分析(principal component regression, PCR)[10]和偏最小二乘(partial least squares,PLS)[11−12]回归方法被广泛应用于近红外光谱定量分析中,这些方法即可降低变量维数,也可消除变量间的相关性。另外研究人员也提出了消除无信息变量的波长选择方法,这些方法主要可以分为两类:(1)单个波长选择,如Monte Carlo 无 信 息 变 量 消 除[13];遗 传 算 法[14];粒 子 群 算法[15];重要变量投影法[16];变量迭代空间收缩法[17];动态联合互信息[18]和局部线性投影法[19];(2)区间波长选择,此类方法的目的是找到包含丰富信息的光谱带,相较于单个波长选择,区间波长选择方法可以使得模型更加稳定,间隔偏最小二乘是一种非常典型的区间波长选择方法,这种方法将光谱分成等宽的光谱带,在每一个谱区建立PLS子模型,并根据交叉验证均方根值进行区间选择[20]。但是选择单一区间且对区间宽度没有进行优化。后向区间偏最小二乘[21]和协同区间偏最小二乘[22]是基于区间偏最小二乘的改进对区间组合进行了优化。除此之外还有移动窗口偏最小二乘[23],间隔变量迭代空间收缩法[24]以及一些改进算法[25−26]。
上述波长选择方法在实际应用中都取得了很好的效果,但是均为离线建模方法。这类方法离线构建波长结构,在实际应用过程中所构建的波长结构保持不变。在汽油调和过程中,汽油属性检测的准确性至关重要,要求近红外模型可以根据现场工况进行实时调整。为了弥补现有建模方法的不足,本文提出一种自适应波长选择方法,并应用于实际汽油辛烷值属性实时分析中。在利用该技术对汽油辛烷值属性实时分析的过程中,将分为离线与在线两个部分。在离线过程中将样本库中样本光谱的波长等间隔地分成若干波长区间,之后在每个波长区间上建立局部高斯过程回归(Gaussian process regression,GPR)模型;在在线过程中,当采集到新的待测样本时,根据离线过程中的分区方式将待测样本分成若干波长区间,并将每一区间的光谱数据分别代入离线过程中建立的局部GPR 模型中计算变量重要性指标,且根据该指标选择一个或者多个波长区间作为最优波长选择范围,并在此最优波长选择范围下建立汽油辛烷值近红外光谱模型。该方法可以根据实际工业情况实时更新波长区间结构和汽油辛烷值属性模型。
1 问题描述
汽油近红外光谱中包含了大量的汽油的物理和化学信息,对于不同的属性并不是所有波长点的贡献都相同,含有无效信息的波长点可能会引入噪声等干扰,导致模型的性能和解释性降低,并且增加了计算的复杂度。因此波长选择是建立可靠的近红外光谱模型的至关重要的步骤。针对特定的样品,通过对波长的适当选择可以尽可能地取出无信息变量对校正模型的影响,并且简化模型、提高模型的预测精度和鲁棒性。
传统的波长选择方法是离线进行的,在模型维护的间隔波长结构保持不变。然而,在应用于汽油调和过程中的近红外分析系统中,需要对汽油的相关性质进行在线监测,传统静态的波长选择方法往往导致模型无法较好地跟踪工况和环境的变化,造成模型的预测精度下降,模型的适应性较差。为了提高近红外光谱模型的适应性和使用寿命,波长结构的实时更新是具有重要意义的。本文提出一种基于高斯过程回归的自适应波长区间选择方法,该方法根据待测样本的特性自适应地选择波长区间,提高模型的工况跟踪能力和适应性。
2 在线自适应区间GPR 波长选择方法
2.1 高斯过程回归模型
高斯过程回归是一种有监督的机器学习算法,它通过提出许多概率预测函数来插值观测值,并对观测值进行验证。一些研究表明GPR 在小样本和非线性等复杂回归问题上有较好的表现[27−31]。
对于训练数据集X ∈Rn×m和y ∈Rn,其中X =[x1,x2,…,xn],xi是输入数据即m 维的光谱数据,y 为输出数据即汽油属性值。高斯过程回归模型可以在X 和y 之间建立函数关系y = f(x),而回归函数y = f(x)服从均值为0的高斯先验分布:
式中,GP(0,C)表示均值为0 且协方差函数为C的高斯过程。C是n×n协方差矩阵,其第ij元素定义为Cij=(xi,xj)。为了计算GPR 模型,可以选择不同的协方差函数,本文使用了一种常用的协方差函数表述形式:
其中:
ynew的后验概率为:
其中:
2.2 基于高斯过程回归的变量重要性分析
在近红外光谱定量分析中多元校正方法发挥着不可或缺的作用,多元校正方法的质量取决于对象和变量的质量。近红外光谱通常由宽、弱、非特异性和重叠带组成[14]。此外,近红外数据集维度较高可达到数千个波长。因此,可能存在一些不相关的变量进行多元校正。消除非信息变量可以简化模型,提高模型的准确性和鲁棒性。通过选择包含特定样品或组分特定信息的特征波长而不是全光谱,可以获得更好的定量校准模型。而传统的波长选择方法大多都为离线选择方法,即仅利用已有样本集进行分析,所选波长区间不会根据待测样本不同而进行改变。
本文基于高斯过程回归方法进行变量重要性分析,可根据待测样本的特性调整优选波长区间。如2.1 节中所述,在高斯过程回归方法中,对于待测样本xnew,其回归预测目标值ynew的表示形式为一服从高斯分布,而ynew的最佳估计值为该分布的均值= μynew。由上节可以看出估计值的不确定性可以通过该概率分布的方差进行表示:
而估计值ynew的不确定性同时也反映了最优估计值-ynew的可信度,如果预测值ynew的方差越大,ynew的不确定性越强,则-ynew的可信度越低,即模型可以准确预测待测样本xnew的能力越弱;反之,当ynew的方差越小,则表示模型可以准确预测待测样本xnew的能力越强。以此为基础,将其应用于近红外光谱分析的波长选择过程中。
基于高斯过程回归的变量重要性分析方法首先将全部光谱分成不同的若干区间,在每一个波长区间上都建立高斯过程回归模型,当获得待测样本xnew时,需按照相同划分规则将待测样本xnew划分成若干个变量子集xnew=[x1,new,x2,new,…,xk,new],并将所有变量子集代入对应的局部高斯过程回归模型中,可得到一组方差数据
式中,FS(xi,new)表示对应变量子集xi,new的波长区间中包含的有用信息量。FS 越大,波长区间内包含的有用信息越多;反之,FS 越小,波长区间内包含的无用信息越多。式(7)中引入了新样本xnew的信息,因此本文提出的变量重要性指标可以根据待测样本实时调整。
2.3 在线自适应区间GPR波长选择方法
为了降低在线过程中的计算成本,本文所提出的在线自适应区间GPR 波长选择方法分为离线和在线两个部分。如图1 所示,该方法的离线过程中将波长等距离的划分成若干个波长区间,并且在每个波长区间下基于样本库中的样本建立局部GPR模型。在线过程中将采样得到的新的待测样本根据离线过程的分区方式进行分区,之后代入到对应GPR 模型中计算波长区间重要性指标,实时更新波长区间。方法的详细步骤如下所示。
离线过程:
(1)收集样本的近红外光谱及其对应的浓度信息,建立样本库,并对所有样本的光谱进行基线校正,浓度信息进行标准化处理;
(2)将样本库中样本的光谱等间隔的划分成k个波长区间,间隔步长为z个波长点;
(3)基于样本库中的样本对每一个波长区间建立局部GPR模型hi(i = 1,2,…,k)。
在线过程:
(1)获取待测样本的近红外光谱,并对该光谱进行基线校正得到xnew;
(2)根据离线过程步骤(3)中的划分规则将待测 样 本 xnew分 割 成 k 个 区 间 光 谱 xnew=[x1,new,x2,new,…,xk,new];
(3)将待测样本xnew分割后的区间近红外光谱数据xi,new代入到对应的离线过程步骤(4)得到的局部GPR 模型hi中,计算波长区间重要性指标FS(xi,new);
(4)根据计算得到的波长区间重要性指标FS(xi,new),选择重要性指标最大的j 个波长区间作为最终的最优波长区间。
本文所提出方法的伪代码如下所示:
算法:在线自适应区间GPR 波长选择方法——离线过程
输入:光谱数据X =[x1,x2,…,xn],汽油属性数据y,区间个数k
开始:
将光谱数据等间隔的划分成k个波长区间
for i=1:k do
图1 在线自适应区间GPR波长选择方法Fig.1 Online adaptive interval GPR wavelength selection method
在第i 个区间Xi上建立局部GPR 模型hi(i =1,2,…,k)
end
算法:在线自适应区间GPR 波长选择方法——在线过程
输入:待测样本的近红外光谱xnew,区间个数k,局部模型集合[h1,h2,…,hk]
开始:
While
将光谱数据等间隔的划分成k 个波长区间xnew=[x1,new,x2,new,…,xk,new]
for i=1:k do
将xi,new代入局部模型hi中计算得到=C(xi,new,xi,new)−KT(xi,new)C−1K(xi,new)
end
对FS 进行排序并与FS(x1,new)> FS(x2,new)> …>FS(xj,new)> …> FS(xk,new)
更新的最优波长区间Xbest=[X1,X2,…,Xj]
end
3 实验分析
3.1 实验数据
本研究中使用的所有样本来自国内一家炼油厂的在线汽油调和最优控制生产线。使用Guided Wave 光栅型在线近红外光谱仪采集汽油样本的光谱,其波长范围为1000~1600 nm,实际使用的波长范围为1100 ~1300 nm,共包含201 个变量。数据集包含486 组样本,其中172 组数据作为训练数据,294组数据作为测试样本。本研究以汽油RON值作为估计值,数据集中的RON 值通过离线实验室分析获得。
3.2 实验结果
实验验证了波长区间实时更新的必要性和所提出的在线自适应区间GPR 波长选择方法的有效性。为了证明AIGPR 的优势,另外与2 种方法进行了比较,具体如下:
(1)重要变量投影法(VIP)[7]利用重要变量投影法进行波长选择,并建立PLS 模型。该方法是一种离线的波长选择方法,在预测过程中用于建模的波长结构保持不变;
(2)改进的相关系数法(RV)[16]利用改进的相关系数法对波长进行选择,并建立局部PLS 模型。在应用过程中,每一个待测样本都对波长结构进行更新。因此,每个新获得的待测样本均对应一个局部模型;
各个模型的预测效果如表1 所示,模型的性能由均方根误差RMSEP和拟合优度R2证明,R2的取值范围为0 式中,n 为样本个数;yi为第i 个样本的实验值;为第i个样本的预测值;为实验值的平均值。 从表1 中可以看出:AIGPR−PLS 与RV−PLS 方法的预测效果相近,而其中AIGPR−PLS 的拟合优度为三个模型中最大,且均方误差RMSEP为最小。三种波长选择方法中,VIP−PLS 拥有最低的均方根误差和最大的决定系数。 表1 模型预测结果Table 1 The prediction results of three methods 对比VIP−PLS、RV−PLS 与AIGPR−PLS,可以发现后两种算法的模型性能比前一种算法的性能优越。这说明在实际应用中波长区间实时更新是十分必要的。VIP−PLS 的波长结构是固定的,而RV−PLS 和AIGPR−PLS 两个算法的波长结构是根据待测样本的光谱做出调整,使得模型具有更好地跟踪工况的能力,并且提高了模型的适应性。对比RV−PLS 与AIGPR−PLS 两种方法,可以发现在汽油辛烷值预测实验中,这两种方法的预测效果相近,这是因为两种方法都可以根据待测样本的光谱特性实时更新所选的波长范围。而AIGPR−PLS 的预测效果要略优于RV−PLS 方法是因为AIGPR−PLS 方法是一种区间组合选择方法,该方法可以较好地考虑波长组合效应并提高模型的稳定性。表1也展示了RV−PLS和AIGPR−PLS两种在线自适应波长选择方法的单个样本的平均计算时间。在实际应用中,汽油近红外光谱的采样间隔为10 min,为两种方法的计算时间均在5 s 以内,符合实际的在线应用的需求。 图2 三种方法的波长选择结果Fig.2 Wavelength selection results of three methods 图3 两个待测样本的波长选择结果Fig.3 Wavelength selection results of two samples 图2(a)、(b)和(c)分别为VIP、RV 和AIGPR 三种波长选择方法对于同一光谱所选择的最优波长组合,从图中可以发现三种方法选择的波长组合都相对比较集中,其中相比于VIP−PLS 方法,RV−PLS和AIGPR−PLS 两个方法所选择的最优波长结构更为相似,这可能与这两种方法都考虑了待测样本的特性有关,也证明了AIGPR−PLS 方法的实际有效性。 图3(a)和(b)分别为第1 个待测样本和第50 个的待测样本两个不同阶段的AIGPR 波长区间选择结果。由图中可以看出在两个阶段都对1180~1220 nm 区间的谱图进行选择。第50 个待测样本对1160~1180 nm 和1220~1240 nm 区间的谱图进行了选择,而第1 个待测样本并没有选择这一部分,这可能是因为在调和过程中,两个阶段的调和配方出现调整,使得第50 个汽油样品中出现了新的物质,原始的波长区间已经无法满足之后的建模要求。这个现象也证明了波长区间实时调整是十分必要的。 本文提出的方法中将光谱等距离地分割成k 个波长区间,并建立局部GPR 模型。这里的参数k 的变化对模型有较大的影响,当参数k 取值过大时会增加计算成本,可能造成延迟,当参数k 取值过小时,每个波长区间包含过多的波长点,其中可能包含冗余信息,使得模型中引入噪声等干扰信息。表2 和图4 展示了随着步长z 的改变模型的预测能力的变化趋势。当步长从5 增加至25 时,随着步长z的增加,模型的预测误差RMSEP 降低了51.9%;当步长从25 增至50 时,RMSEP 从0.2035 逐渐增加至0.2979。经过多次试验本文最终选择步长为25。 本文提出一种可应用于近红外光谱模型在线更新技术中的波长选择方法。该方法基于高斯过程回归方法,利用不同波段建立的GPR 子模型对待测光谱的预测结果的方差选择最优波长区间。该方法为一种区间选择方法,因为官能团在相对较短的波长范围内吸收,相对于单个波长点选择,区间选择更有意义,并且具有更好的预测稳定性。本文提出的方法可以根据待测样本的特性自适应的更新波长区间结构,提高模型的跟踪性能。在汽油近红外光谱预测汽油辛烷值的实验中验证了该方法的有效性。在后续的工作中将对方法中步长的自适应选择进行进一步的研究。 表2 不同步长的近红外模型预测结果Table 2 The prediction results of NIR model with different step size 图4 不同步长的近红外模型的预测结果Fig.4 The prediction results of NIR model with different step size3.3 参数分析
4 结 论