APP下载

基于局部线性嵌入的测地线流式核多工况软测量建模方法

2020-05-15杜宇浩阎高伟李荣王芳

化工学报 2020年3期
关键词:流形源域标签

杜宇浩,阎高伟,李荣,王芳

(太原理工大学电气与动力工程学院,山西太原030024)

引 言

软测量技术的基本思想是根据某种最优准则,利用已知历史数据,选择一组与主导变量有密切关系的辅助变量,构造某种数学关系来估计主导变量。然而在实际生产过程中,由于工况容易发生变化,导致传统的软测量模型性能恶化、模型失准等问题出现[1-2]。

针对多工况条件下软测量模型失准问题,文献[3-4]基于即时学习的思想,依据相似度量准则从带标签的历史数据中选择与当前样本最相关的样本集,利用机器学习方法建立回归模型解决多工况软测量问题。然而当历史数据集中缺乏当前工况的数据时,所建立的模型无法与当前工况数据适配,造成模型失准。文献[5]在此基础上,将无标签数据与带标签数据合并为历史数据集,训练基于即时学习的半监督极限学习机,增加了软测量模型的鲁棒性。文献[6-7]对历史数据建立多个子模型,评估每个子模型的软测量结果,依据模型输出置信度的高低对多个子模型进行加权融合,最终得到集成回归模型。但各子模型的输出置信度难以估计,存在较大的结构风险。文献[8]从提取多工况数据的潜在信息角度出发,采用深度置信网络对带标签数据和无标签数据进行深层提取,利用最小二乘支持向量机建立软测量模型,并结合bagging 算法提高了模型的可靠性,实现对工业聚合过程中熔融指数的软测量。从本质上讲,不同工况的数据具有不同的分布[9],数据分布不同是导致多工况工业生产过程中原有软测量模型失准的原因。上述方法在一定程度解决了多工况的软测量问题,但出现新的未知工况数据时易发生数据分布失配而模型失准问题。

迁移学习[10-13]的提出为解决上述多工况软测量问题提供了思路。迁移学习放宽了训练数据和测试数据须满足独立同分布的假设。迁移学习利用已知源领域的信息,解决与源领域相关但未知的目标领域中仅有少量甚至无标签样本的机器学习问题,在没有足够的带标签训练数据时也能够建立较好的机器学习模型。文献[14]将半监督的域适应ELM 算法引入化工过程软测量领域,利用源域和少量的目标域带标签样本构建数学模型,实现了多工况条件下工业聚乙烯过程中熔融指数的软测量。文献[15]在域适应ELM 的基础上引入流形正则项,保证了域适应前后数据结构的不变性,在多工况下湿式球磨机关键负荷参数软测量上取得了较高的精度。上述半监督学习方法要求在目标域具有少量带标签数据。但实际生产过程中,普遍存在目标域无带标签样本问题,半监督算法不再适用。

针对目标域缺乏带标签样本问题,基于流形的无监督迁移学习[16-18]成为迁移学习的研究热点。流形学习将数据映射为可靠的嵌入投影,即寻找数据投射到低维的子空间表示[19]。流形学习可以将不同工况数据映射为潜在连续流形空间上的不同点,相较于欧式空间能更好地体现不同工况样本数据间的内在特性和规律。文献[20]针对跨域图像分类问题,提出一种基于测地线流的无监督迁移学习方法,将目标域与源域数据映射为格拉斯曼流形空间上的两个点,并在这两个点的测地线方向上选取若干个中间点依次连接,实现了从源域到目标域经测地线的逐步域迁移。文献[21]在此基础上引入核方法,模拟了测地线上经所有点的连续迁移过程,避免了中间点个数选择的问题,在跨域图像分类问题上取得更高精度,结果进一步表明相较于欧式空间,在流形空间下进行域迁移更能寻找出不同域间数据的内在规律。

在上述基于流形的无监督迁移学习算法中,均采用对原始数据进行PCA 作为投影到流形空间的方法,PCA 处理得到的是数据对方差贡献最显著的特征,保持了两个域各自的特征,其体现的是两个域的分明性而忽略了域间存在的公共模式信息。从迁移学习的出发点来考虑,需要在不同域中寻找共有的模式进行迁移建模,将有助于提高所建立的模型在不同工况下对数据的适应性。因此本文先抽取各工况数据的公共模式信息,然后将公共模式信息映射到格拉斯曼流形空间,利用GFK 框架进行数据迁移变换,最后利用偏最小二乘回归(partial least squares regression, PLSR)方法对迁移后的数据建立回归模型,实现多工况参数软测量。

1 相关理论与算法

1.1 基于局部线性嵌入的公共模式信息提取

局部线性嵌入(locally linear embedding,LLE)算法对数据的局部结构特征具有保留能力[22],LLE 算法的原理如图1 所示。文献[23]利用局部线性嵌入研究了公共模式信息的提取方法,本文借鉴该方法实现多工况公共模式信息的提取。

图1 LLE算法示意图Fig.1 Locally linear embedding

选取经过预处理之后的M 个工况的数据合并为一个整体的样本集X,用局部线性嵌入来提取不同工况中的公共模式信息,各个工况的样本数量可以不同,最终要提取到公共模式信息Z。

其 中X =[X1,X2,…,XM],X ∈RL×N,N = N1+N2+ …+ NM。

对于整体样本集X,每个样本xi在全局X 中寻找的K 个最近邻组成δi={xi1,…,xiK},用xi的K-1 个邻域对多工况数据进行线性重构:

根据式(1),可得最小化误差:

将其矩阵化并利用拉格朗日乘子法求解W。

根据式(3),可得最小化误差:

写成矩阵形式,并根据拉格朗日乘子法,则优化函数式(4)等价为:

其中tr(·)表示矩阵的迹,S =(In- W)T(In-W)。因此,式(5)可以通过对SZT= λZT进行特征值分解求解。最后选取S 的最小的d 个非零特征值所对应的特征向量Z =(z1,z2,…,zd)T∈Rd×N作为重构后的数据。将Z按照原工况样本对应关系划分可得最 终 的 公 共 模 式 信 息 集 合Z =[Z1,Z2,…,ZM]∈Rd×N。

1.2 测地线流式核(GFK)算法

假设已知工况数据即源域数据为Zs,未知工况数据即目标域数据为Zt。

测地线流式核方法概括为三个步骤,构建测地线;计算测地线流式核;建立预测模型[24]。

令PS∈RD×d与PT∈RD×d为源域数据Zs和目标域数据Zt分别PCA 处理后的两个正交矩阵,测地线函数定义为:

从源域移到目标域,即代表式(6)从H(0)迁移到H(1)的过程,新的特征可以用v = g(x)= H(t)Tz表示[25]。定义测地线流核表达式为:

G ∈RD×D是 一 个 半 正 定 矩 阵,可 通 过 式(9)求解:

其中Λ为对角阵,其对角元素为:

进而可得将原始样本特征z 沿测地线方向迁移后的样本v:

即求出Zs映射后的样本vs与Zt映射后的样本vt,对源域已有标签样本vs进行学习建模,以实现对样本vt标签的预测。

2 基于局部线性嵌入的测地线流式核多工况软测量建模方法

在多工况软测量建模问题上,本文考虑到工况改变后的数据分布差异和不同工况之间潜在的关联关系,有针对性地引入基于流形的迁移学习框架。利用LLE 算法对局部结构特征保留的优点,有效提取不同工况间的公共模式信息,利用GFK 框架在流形空间沿测地线连续迁移的特性,提出基于局部线性嵌入的测地线流式核(locally linear embedding-geodesic flow kernel, LLEGFK)多工况软测量建模方法。

图2为LLEGFK算法的示意图。

钼矿石标准样品GBW07239(武汉综合岩矿测试中心研制):w(Re)=120ng/g;水系沉积物标准样品GBW07449(地球物理地球化学勘查研究所研制):w(Re)=2.10ng/g;水系沉积物标准样品GBW07453(地球物理地球化学勘查研究所研制):w(Re)=0.45ng/g;钨矿石标准样品GBW07241(地质矿产部湖北地质实验研究所研制):w(Re)=80.0ng/g。

图2 LLEGFK算法示意图Fig.2 Locally linear embedding-geodesic flow kernel

其中LLE(· )代表基于局部线性嵌入的公共模式信息提取算法。特别地,为了保证后续迁移软测量模型的精度,需要保留尽可能多的公共模式信息,所以经重构之后各工况数据的特征维度仍保留为L。将Zs∈RL×Ns和Zt∈RL×Nt拆分至各自工况,即Zs为相对于源域Xs的公共模式信息,Zt为相对于目标域Xt的公共模式信息。

随后,利用PCA 将提取后的Zs和Zt映射到格拉斯曼流形空间,使得每个工况数据分别投影到流形空间的同时兼顾到不同工况间的公共模式信息,将其作为GFK 框架中的子空间PS、PT,结合式(6)构建测地线方程,进而求得分布适配后的数据。

最后,利用适配后的源域样本与源域标签建立软测量模型,实现目标域标签的预测。

算法1 LLEGFK算法流程

输入:已知工况(源域)数据Xs和对应标签Ys,未知工况(目标域)数据Xt,最近邻个数K。

输出:目标域标签Yt。

(1)数据预处理;

(2)合并Xs、Xt,根据式(11)求得公共模式信息Z,拆分到各自工况得Zs、Zt,并投影到流形空间得PS、PT;

(3)结合式(6)、式(7)构建测地线,根据式(9)得G并结合式(10)求得迁移后的数据vs与vt;

(4)利用vs与源域标签Ys训练PLSR 软测量回归模型f;

(5)根据f与vt,求得目标域标签Yt。

3 算法评估及应用

3.1 TE过程实验

为了验证软测量算法的有效性,实验数据采集于TE 过程仿真平台[26-27]。TE 过程是由Tennessee Eastman 化工公司提出的化工仿真平台,现已被学者广泛用于进行测试过程变量监控,变工况故障诊断以及质量预测等方面。整个化工过程主要有4个反应过程,其中反应物包括进料气体A、C、D、E,以及进料液体B,生成的主产物为G 和H,以及反应副产物F。TE过程根据主产物G/H比率的不同可以分为6种操作模式[28]。整体过程包含41个测量变量和12个操作变量。

本实验通过改变TE过程的生产操作模式,在每个操作模式下的化工过程模拟运行5 h,保持相同采样间隔,采集到3 种不同工况下的数据样本各1000个,作为算法验证数据集。当工况选做源域时选用1000个样本数,当样本用作目标域时,选取其中400个样本作为目标域数据。其三种工况数据相对应的产物G/H比例如表1所示。

表1 三种工况数据Table 1 Data of three working conditions

采集TE 仿真过程中的41 个测量变量用于测试,其中包含22 个连续的测量变量和19 个成分测量变量。实验将易测的22 个测量变量归一化预处理后作为模型输入,分别对每一个工况下的19个成分变量中的成分A 变量、成分B 变量和成分C 变量迁移到其余工况进行软测量。对某一工况作为源域进行迁移时,其余两个工况作为目标域,不含任何带标签数据。

3.2 实验结果分析

本文采用均方根误差(root mean square error,RMSE)作为衡量模型准确性能的评价指标。

用PLSR算法、LLE加PLSR算法、GFK算法和本文的LLEGFK 算法分别对A、B、C 三种成分含量进行软测量。实验对比结果如表2所示。其中“1—2”表示从工况1迁移到工况2。

图3、图4、图5、图6分别给出了4种方法对不同工况下成分A含量的软测量对比结果图。其中各图中的图(a)表示对历史数据用PLSR 建模,并直接对新工况数据进行测量的结果。图(b)代表由LLE 提取不同工况间的公共模式信息之后,再用PLSR 进行建模后软测量的结果图,图(c)代表GFK 算法软测量结果图,图(d)为LLEGFK 算法的结果图。可以看出在测试样本中,LLEGFK 的精度相较于LLE 和GFK算法均有不同程度提高,验证了该算法的有效性。

以图3 为例,图3(a)将原始数据经预处理之后直接建模进行预测,可以看出当工况发生改变时,由于工况变化前后数据分布产生差异,所以用历史模型预测新工况数据时存在较大误差,图3(b)利用LLE 提取不同工况间的公共模式信息之后建立PLSR 回归模型,在一定程度上降低了误差,图3(c)的GFK 方法,采用PCA 方法将不同工况的数据映射到子空间,在流形学习框架下映射到格拉斯曼空间解决域迁移问题,较明显地改善了测量精度。图3(d)在解决跨域软测量问题时,先经过LLE 提取源域和目标域的公共模式信息,对这些具有公有信息的数据再进一步地采用GFK 迁移方法,可以明显地看出LLEGFK算法提高了模型的精度。

为了直观阐述LLEGFK 算法的有效性原因,图7(a)为工况1、工况2 的原始数据经PCA 投影后保留前三维特征的分布情况,图7(b)为经LLE 提取公共模式信息后再进行PCA 降维并保留前三维特征的分布情况,经LLE 对不同工况数据进行处理之后有效地得到了不同工况之间的公共模式信息,一定程度上降低了不同工况的分布差异。图7(c)为对原始数据经过GFK 迁移之后,经PCA 降维并选取前三维特征的分布情况,图7(d)为经过LLEGFK 算法之后再进行相同处理的分布图,可以直观地看出,迁移之后不同工况的数据分布更加趋于一致。本文算法区别于PCA 对不同工况数据的分别映射,由于考虑到不同域之间的公共模式信息,更进一步缩小了不同工况间数据的分布差异。因此,LLEGFK 较其他三种算法可以取得更高的精度。

表2 各工况下不同算法参数软测量均方根误差对比Table 2 Comparison of RMSE of soft sensor of different algorithm parameters under different working conditions

图3 工况1迁移到工况2对成分A含量软测量结果Fig.3 Predicted results of 1—2 component A

图4 工况1迁移到工况3对成分A含量软测量结果Fig.4 Predicted results of 1—3 component A

图5 工况2迁移到工况1对成分A含量软测量结果Fig.5 Predicted results of 2—1 component A

图6 工况2迁移到工况3对成分A含量软测量结果Fig.6 Predicted results of 2—3 component A

3.3 湿式球磨机实验

为了验证LLEGFK 算法的有效性,另一数据来自实验采集的湿式球磨机数据。湿式球磨机是选矿、化工领域的高耗能设备,准确检测磨机负荷是实现选矿过程安全运行和节能降耗的关键[29]。实际工业过程中,球磨机介质充填率通常在0.3~0.5之间变化,选用规格为φ602 mm × 715 mm 的小型实验室球磨机作为实验设备,并通过改变介质填充率来模拟实际中存在的球磨机工况变化。

工业中常用的表征磨机负荷的关键磨机内部负荷参数包括:充填率(charge volume ratio,CVR)、矿浆浓度(pulp density, PD)、料球比(material to ball volume ratio,MBVR)[30]。实验通过设定5种不同的介质充填率来模拟5 种实际的工况,各工况设置方法和实验次数如表3所示。实验中不同工况间球磨机滚筒内的钢球和水的质量均相同,通过连续添加物料,相应的球磨机负荷参数随之改变,将CVR、PD、MBVR作为软测量的标签。

图7 不同工况提取公共模式信息前后分布Fig.7 Distribution of common feature before and after extraction under different working conditions

表3 各工况参数与实验次数Table 3 MFR and number of experiments under different working conditions

数据预处理时,将每组振动信号平均分为28个样本,每个样本覆盖长度大于湿式球磨机旋转一周所用时间,然后将每个时域信号样本通过快速傅里叶变换(fast Fourier transformation,FFT)转化至频域。

将数据集中的工况1 作为源域数据,分别迁移到其他4个工况来验证算法。对于球磨机的三种负荷参数软测量结果的均方根误差对比如表4所示。

图8、图9、图10分别展示了四种算法均以工况1为源域,迁移到工况2、3、4后对料球比的软测量结果对比图。

由上述结果可见,当数据不满足独立同分布假设的前提条件时,PLSR 算法进行软测量误差显著,LLE考虑到公共模式信息后可以在一定程度上降低误差,最终LLEGFK 算法在考虑不同工况的公共模式信息的同时又在流形空间进行数据域适应迁移,与其他三个算法相比显著降低了测量误差,较好地解决了多工况下球磨机关键参数的软测量问题。上述实验结果说明本文方法在多工况无监督情况下的有效性。

表4 各算法软测量均方根误差对比Table 4 Comparison of RMSE of soft sensor of different algorithm parameters under different working conditions

图8 工况1迁移到工况2料球比软测量结果Fig.8 Predicted results of 1—2 MBVR

图9 工况1迁移到工况3料球比软测量结果Fig.9 Predicted results of 1—3 MBVR

图10 工况1迁移到工况4料球比软测量结果Fig.10 Predicted results of 1—4 MBVR

4 结 论

本文针对流程工业中由于工况改变导致原有模型失配而新工况中又缺乏带标签样本难以建立模型的问题,引入一种局部线性嵌入和测地线流式核相结合的无监督软测量建模方法。首先,用LLE 提取不同工况的公共模式信息;然后将其映射为格拉斯曼流形上的两个点,嵌入GFK 框架计算新的测地线流式核,最终用PLSR 得到回归模型。本算法在考虑到提取源域和目标域公共模式信息的同时,将其投影到流形空间从而挖掘出隐藏在高维空间上的低维流形,有效地解决了由于多工况产生数据分布不一致而导致的软测量模型失准问题。在TE 过程和湿式球磨机下的实验结果表明,LLEGFK 算法提高了多工况软测量结果精度。

下一步工作将进一步研究迁移学习在软测量领域的应用,探究工业过程中多工况条件下不同工况间更深层的公共知识和基于迁移学习并利用多个历史源域集成的在线软测量方法,以提高软测量模型的准确率和鲁棒性。

符 号 说 明

f——回归模型

PS,PT——分别为提取公有信息之后的源域、目标域数据在流形空间的投影

W——线性重构权值矩阵

X——各工况数据合并后的样本集

Xs——源域数据

Xt——目标域数据

xi——X中的第i个样本

Ys——源域数据标签

Z——公共模式信息

Zm——第m种工况中所提取的公共模式信息

δi——xi在X中搜索得到的邻域集合

猜你喜欢

流形源域标签
多重卷积流形上的梯度近Ricci孤立子
基于参数字典的多源域自适应学习算法
局部对称伪黎曼流形中的伪脐类空子流形
无惧标签 Alfa Romeo Giulia 200HP
对乘积开子流形的探讨
不害怕撕掉标签的人,都活出了真正的漂亮
从映射理论视角分析《麦田里的守望者》的成长主题
让衣柜摆脱“杂乱无章”的标签
科学家的标签