APP下载

基于混合准则的软测量建模辅助变量选择方法

2019-08-29

计算机测量与控制 2019年8期
关键词:子集准则辅助

(浙江工业大学 信息工程学院,杭州 310013)

0 引言

近年来,在现代生产过程中,对产品质量的要求越来越高,必须对与产品质量密切相关的关键变量进行实时检测。但是,在线分析仪表价格昂贵、维护保养复杂;而通过离线实验室分析结果存在滞后大等原因,将导致控制质量的性能下降,难以满足生产要求。为了解决这个问题,以推断控制为基础的软测量建模方法及其应用技术取得了广泛的关注[1-3]。

软测量建模的基本思想就是选择一组与主导变量相关的且易测量的辅助变量,并构造关于辅助变量和主导变量的数学模型,实现对主导变量的在线估计[4-5],其中最为关键的问题之一就是如何选取合适的辅助变量。目前,国内外对辅助变量选择进行了大量的研究。其中,基于统计技术的变量选择方法被较多的采用。2006年,Emet等人[6]提出了一种直接优化 AIC准则,将变量选择描述成一个混合整数非线性(MINLP, Mixed Integer Nonlinear Programming)优化问题,该方法可以找到具有较优建模效果的辅助变量子集,但是由于目标函数为非线性且非凸,当候选辅助变量过多时,会导致求解时间过长,甚至难以找到最优解;2017年,Jian等人[7]在MINLP优化问题的基础上,提出了一种基于BIC准则的嵌套式MIQP的变量选择方法,该方法大大缩短了求解时间,但是该方法的求解结果容易陷入局部最优。

除此之外,建立具有出众预测性能的软测量模型仍然是一件困难的工作。一方面,现代工业通常存在很强的非线性,导致主成分回归[8-9],偏最小二乘[10-11]等线性软测量模型的预测精度下降[12];另一方面,现代生产过程中,通常存在多个重要且难以测得的主导变量。因此建立有非线性解释能力的多输出软测量模型极为重要,而神经网络凭借网络拓扑结构和非线性计算能力,广泛应用于软测量建模、模式识别、预测等领域[13-14],2018年,Qiu等人[15]提出了一种基于深层神经网络的多输出软测量建模方法,其核心在于通过VIP方法进行辅助变量选择,然后将所获得辅助变量子集代入深度神经网络进行多输出软测量模型建立,该方法所建立污水处理模型具有较优的预测性能,但是通过VIP方法选择辅助变量需要选取一个合适的VIP阈值,阈值过小,使得选取辅助变量过多,会导致模型过拟合;而阈值过大,使得选取辅助变量太少,从而导致模型欠拟合。

本文在嵌套式MIQP的基础上进一步简化,将MINLP问题分成内外两层结构,外层采用启发式算法(本文采用遗传算法(GA, Genetic Algorithm)对二元整数变量进行寻优,内层在整数变量固定之后退化成了最小二乘求解(LS, Least Square),进一步分析提出了基于GA和LS的变量选择方法(GA-LS),实验结果表明,该方法能够较好地避免局部最优的情况方法,而且当候选辅助变量过多时,该方法能够以更快的速度获得更优的辅助变量子集。但是,实验结果表明该方法存在精度不够的问题,即使用BIC准则虽然能够较好的估计预测误差,但是在某些数据集中与真实预测误差仍存在较大差距。在后续研究中,为了更好的估计预测误差,本文通过耦合训练集的BIC准则以及验证集的MSE准则用于更精确的估计预测误差,并且仍将其描述为MINLP优化问题,并进一步分析提出了基于混合准则的变量选择方法(GA-NLP),该方法能够获得更优的辅助变量子集。从而建立预测性能更好的模型。

综上所述,本文在基于BIC准则的MINLP优化问题的基础上,提出了GA-LS和GA-NLP两种辅助变量选择方法。并且将所得到的辅助变量子集通过BP神经网络建立软测量模型,实验结果表明:通过GA-LS方法能够以较快的速度获得能够具有较优预测性能模型的辅助变量子集;而通过GA-NLP虽然求解时间较长,但是所获得的辅助变量子集能够建立预测性能更优的模型。

1 MINLP以及MIQP原理

1.1 MLR模型及评价准则

多变量统计分析方法,如主成分回归[12-13],多元线性回归,偏最小二乘[14-15]等,是最常用的软测量模型。其中,MLR模型基于其简便的分析表达式的特点[14],被广泛用于辅助变量选择。MLR模型表示如下:

Y=Xβ+ε

E(ε)=0

Cov(ε)=σ2I

(1)

其中:

对于软测量模型,其主要任务是预测未知数据。建立模型的质量应根据其泛化性能进行评估。因此,在评估预测模型时,需要关注的应该是测试数据的预测误差,而不是训练数据的误差[7]。但是精确地测量测试数据的预测误差是不可能的,只能通过其它方法对测试数据的预测误差进行估计。其中一种方法就是计算模型的复杂性,然后将其添加到模型训练误差中。而对于线性模型,模型中变量的数量可以表征模型的复杂性。因此,本文选取上述BIC准则作为软测量评价准则,其定义如下:

BIC=-2lnL+plnn

(2)

其中:L为似然函数,由于本文使用MLR模型用于变量选择,似然函数L定义如下[7]:

(3)

1.2 MINLP及MIQP方法

辅助变量选择旨在选择出主导变量密切相关的辅助变量子集。Emet等人[6]为了实现这个目的,引入一组0-1决策变量zj,j=1,2,…,m用于选择辅助变量,若第j个变量被选中,则zj=1,否则zj=0。然后,通过引入大M约束可以实现变量选择的目的:

-Mzj≤bj≤Mzj(j=1,2,…,m)

(4)

其中:M为一个足够大的正数,-M和M分别为回归系数向量bj的上下界。

由于BIC是一个估计真实预测误差的有效指标,故将BIC准则作为模型的目标函数,最小化BIC/AIC准则,可以将变量选择问题表示为如下MINLP问题:

(5)

值得注意的是,由于MINLP优化问题中的目标函数是一个非线性且非凸的函数,当候选变量数量过大时(m>40),将难以找到最优解。2009年,Hastie等人的研究[1]表明随着模型复杂度的增加,测试误差会先降低;但当复杂度高于某一临界值时,测试数据的预测效果却越来越差。Jian等人基于这个原理在MINLP优化问题基础上,进一步简化,提出了一种嵌套式MIQP的变量选择方法,表示如下:

minJ=GIC

-Mzj≤bj≤Mzj(j=1,2,…,m)

(6)

该优化问题通过外层目标函数,参数化所选变量个数k,并在内层中,持续求解一个MIQP 问题,直至外层目标函数结果变差为止。

2 GA-LS及GA-NLP方法

2.1 GA-LS

本文将MINLP问题分成内外两层结构,外层采用启发式算法(本文采用遗传算法(Genetic Algorithm, GA))对二元整数变量进行寻优,内层在整数变量固定之后退化成了较易于求解的非线性规划问题(Nonlinear Programming, NLP)。在此基础上经过进一步分析提出了基于GA和最小二乘(Least Squares, LS)的变量选择方法(GA-LS)。

首先,通过固定每一次进行建模的辅助变量子集时,原MINLP优化问题进一步简化为NLP问题,而该NLP问题的本质就是最小二乘求解;然后,通过搜索算法找到具有最优预测性能(GIC)的辅助变量子集,而GA[17]具有直接对结构对象进行操作的特点,正适合用来搜索最优辅助变量子集。GA-LS的计算步骤总结如下:

1)数据预处理,对数据集进行归一化处理,并将数据集按照7:3的比例分为训练集和测试集,训练集用于辅助变量选择,测试集用于验证所选子集效果;

2)随机生成种群,即等概率0、1编码的标准化矩阵,矩阵中行向量代表候选变量个数m,列向量代表遗传算法种群大小N。并指定遗传算法最大迭代次数500。

3)对于一组给定的有m个候选辅助变量的数据集,通过遗传算法种群个体固定了一个有p个辅助变量的子集时,原MINLP优化问题进一步简化为一个NLP问题:

(7)

4)其中p已知,故式(7)中的p*lnn是一个常数。故该NLP问题实质为均方误差最小化问题:

(8)

即简化为最小二乘法求解,其求解结果如下:

β=(XTX)-1XTY

(9)

当目标数据集为多输出数据集时,即主导变量为H=(Y1,Y2,…,Yh),则此时的求解结果为:

β=(XTX)-1XTY

(10)

5)建立子集模型后,通过式(4)计算个体的适应度值,表达如下:

(11)

用于评价该子集模型的预测性能。

6)计算出种群中各个个体的适应度后,保留适应度最优个体,共R个。

7)对其余个体进行交叉和变异操作,其中选交叉算子为0.85,变异算子为0.02。

8)一轮遗传迭代结束后,求出最佳个体,并与上一轮求得的最佳个体比较,较优个体留下。转到第1)步,开始新一轮的迭代。

9)达到GA设定迭代次数,则迭代结束。

2.2 GA-NLP

上述GA-LS方法中的广义信息标准(GIC)虽然能够较好的估计预测误差,但是不够精确。于是本文通过耦合训练集的BIC准则和验证集的MSE准则用于更精确的估计预测误差。进一步提出了GA-NLP方法,该方法在GA-LS方法基础上对步骤1、2、4、5进行改进,改进如下:

1)数据预处理,对数据集进行归一化处理,并将数据集按照5:2:3的比例分为训练集、验证集和测试集,训练集、验证集用于辅助变量选择,测试集用于验证所选子集效果;

2)通过耦合训练集的BIC准则和验证集的MSE准则用于更精确的估计预测误差,仍表达为MINLP优化问题,其表达如下:

-Mzj≤bj≤Mzj(j=1,2,…,m)

zj∈{0,1} (j=1,2,…,m)

(12)

式中,n1,n2分别为训练集和验证集的过程数据长度,ε1,ε2分别为训练集和验证集的模型预测误差。

4)对于一组给定的有m个候选辅助变量的数据集,通过遗传算法种群个体固定了一个有p个辅助变量的子集时,原MINLP优化问题进一步简化为一个NLP问题:

(13)

当目标数据集为多输出数据集时,即主导变量为H=(Y1,Y2,…,Yh),则需要多次求解NLP问题。

5)通过求解NLP问题建立子集模型,通过式(14)计算个体适应度值;

(14)

式中,J(i),i=1,…,h是H中每个主导变量Y,i=1,…,h对应的NLP求解结果。

3 结果与讨论

3.1 实验数据

本文从UCI数据库中选取了3组数据集以及1组废水处理数据集[18](WWTP)进行了仿真实验。其中,数据集WWTP有四个输出变量可以被预测(生物需氧量、化学需氧量、悬浮固体和沉积物)。

对于CCPP[19]数据集,本文在原始数据集的基础上生成了二阶多项式特征,对于数据集Crime[20]和WWTP数据集,原始数据集中包含缺失值的变量被剔除。在辅助变量选择前,对所有实验数据进行标准化处理,即它们的列均值(每一个过程变量的均值)都为0,方差都为1。

3.2 单输出测试

本文使用CCPP及Crime两个数据集作为单输出测试用例。为了评估GA-LS和GA-NLP的性能,本文对该算法进行了实验仿真及分析,并与MINLP-MLR、MIQP-MLR两种方法进行比较,其中MINLP-MLR使用BARON求解器进行求解;MIQP-MLR使用CPLEX求解器进行求解。求解的结果通过BP模型进行建模,并且采用测试集的均方根误差RMSEP和测试集的模型决定系数R2P两个指标对模型的性能进行评价。两个指标定义如下:

(15)

(16)

在表2中,显示了4种方法的预测效果。其中,p表示最终辅助变量子集的变量个数;RMSEP和R2P为预测模型评价指标,其中,RMSEP的值越小越好,R2P的值越接近1越好。CPU(s)代表该方法进行变量选择所使用的时间。所有比较方法的最佳fval/R2P/RMSEP值和最小时间成本用粗体字表示。

由表2可得,本文所提出两种方法所得预测精度优于MINLP以及MIQP两种方法。其中又以GA-NLP方法所得预测精度最高。

综上所述,通过GA-LS方法能够以较快的速度获得能够具有较优预测性能模型的辅助变量子集;而通过GA-NLP虽然求解时间较长,但是所获得的辅助变量子集能够建立预测性能更优的模型。

3.3 多输出测试

本文使用WWTP数据集作为多输出测试用例。为了评估GA-LS以及GA-NLP方法的性能,本文对该算法进行了实验仿真及分析,并与VIP方法进行比较。三种方法比较结果如表3所示。

在表3中,显示了3种方法的预测效果。其中,p表示最终辅助变量子集的变量个数;RMSEP和R2P为预测模型评价指标,其中,RMSEP的值越小越好,R2P的值越接近1越好。所有比较方法的最佳R2P/RMSEP值用粗体字表示。

由表3可得,本文所提出两种方法所得预测精度优于VIP方法。其中又以GA-NLP方法所得预测精度最高。

预测输出曲线如图1~4所示。

表1 UCI 数据集

表2 单输出数据集预测结果

表3 多输出数据集预测结果

图1 RD-DBO-G的预测输出与实际输出

图2 RD-DQO-G的预测输出与实际输出

图3 RD-SS-G的预测输出与实际输出

图4 RD-SS-G的预测输出与实际输出

用过上面4幅预测输出与实际输出对比图可以发现,本文提出的两种方法所得预测输出明显优于VIP方法所得预测输出;而所提出的耦合准则(BIC+MSE)方法所得结果也优于单一准则(BIC)方法所得结果。

4 总结

辅助变量选择对于构建软传感器非常重要。为了选择最佳的辅助变量子集,提出了一种遗传算法结合MINLP问题的辅助变量选择方法(GA-LS),并在GA-LS的基础上,通过耦合训练集的BIC准则以及验证集的MSE准则提出了一种更精确的辅助变量选择方法(GA-NLP),并将所得辅助变量子集通过BP神将网络建立软测量模型。与其他方法相比,本文所提出的方法能够很好保证所选变量的质量。通过4组数据集的实验结果表明,该方法可以得到具有良好泛化能力的模型。本文还介绍了该方法在污水处理厂案例上的应用,结果表明,所提出的变量选择方法能够好的与关键变量相关性高且变量数尽可能少地辅助变量子集,从而建立预测性能良好的模型。

猜你喜欢

子集准则辅助
魅力无限的子集与真子集
拓扑空间中紧致子集的性质研究
IAASB针对较不复杂实体审计新准则文本公开征求意见
倒开水辅助装置
关于奇数阶二元子集的分离序列
例谈何时构造辅助圆解题
提高车辆响应的转向辅助控制系统
学学准则
每一次爱情都只是爱情的子集
新审计准则背景下审计教学面临的困境及出路