APP下载

基于改进随机梯度Boosting算法的软测量建模

2017-10-14仓文涛杨慧中

化工学报 2017年3期
关键词:学习机协方差建模

仓文涛,杨慧中



基于改进随机梯度Boosting算法的软测量建模

仓文涛,杨慧中

(江南大学轻工过程先进控制教育部重点实验室,江苏无锡 214122)

在建立复杂化工过程软测量模型时,使用传统的随机梯度Boosting算法(SGB)建模若收缩参数选取不当会明显降低算法收敛速度,且极易陷入过拟合,难以取得令人满意的泛化效果。为解决这一问题,提出了一种基于SGB集成学习的软测量建模方法,采用高斯过程回归作为基学习器,并针对SGB算法固有的不足,依据每一次迭代中弱学习机的反馈,自适应调整收缩参数,改善了SGB算法的过度拟合,从而提高了集成模型的估计精度与学习效率。将该方法应用于某双酚A装置的软测量建模中,仿真结果表明,相比于传统SGB建模,该方法具有更高的泛化性能和学习效率。

算法;计算机模拟;集成;随机梯度Boosting;软测量

引 言

化工、冶金、发酵等过程工业通常是一个具有高度非线性与时变性的复杂过程,一些反映工艺参数或质量指标的重要变量目前还缺乏在线测量的仪器与手段,往往需要通过在线取样、离线分析的方法得到。由于离线分析时间间隔长、数据滞后,难以满足过程工业实施在线优化控制的需求。为解决此类难题,人们提出了软测量技术[1-5]。

软测量技术的基本原理是通过构造某种数学模型,建立辅助变量与主导变量之间的关联形式,从而实现主导变量的实时估计[6-9]。作为软测量技术的核心内容,软测量建模方法通常可划分为机理建模和数据驱动建模法[10-12]。近年来,各种基于数据驱动的软测量技术已经在工业生产过程中得到越来越广泛的运用[13-16]。然而,对于越来越复杂的工业生产过程,各种不确定因素导致很难用单一模型来准确地表达实际工业过程。集成学习方法的出现,为解决上述问题提供了良好的途径。集成学习可以有效地提高软测量模型的泛化能力,已经成为机器学习领域的研究热点之一[17-19]。

作为一种重要的集成学习方法,Boosting算法的思想起源于Valiant[20]提出的PAC(probably approximately correct)学习模型,它能将预测精度仅比随机猜度略高的弱学习机提升为预测精度高的强学习机。1990年,Schapire[21]首次将Boosting算法引入机器学习领域。随后,为解决早期Boosting算法必须知道弱学习算法学习正确率下限的问题,Freund等[22]于1997年提出了一种名为AdaBoost(adaptive Boosting)的回归建模方法。AdaBoost最终判别准则的精确度依赖所有弱学习过程得出的弱学习机,因而更能全面地挖掘弱学习算法的能力。2001年,Friedman[23]提出了梯度Boosting算法(gradient Boosting,GB),GB在建立模型时,使之前模型的残差往梯度方向减少,从而使得强学习机可以对损失函数进行极小化优化。在此基础上,Friedman[24]于2002年结合Bagging思想,在GB算法基础上引入一个随机化参数,提出了随机梯度Boosting(stochastic gradient Boosting,SGB)方法,其主要思想是在算法的每一次迭代过程中,随机抽取训练样本的一部分来拟合弱学习机,因此SGB可以看成是Bagging和Boosting的综合体。

SGB回归算法简单易用,但与GB算法相比,增加了一个需要确定的参数——收缩参数,合理选取值是该算法成功与否的关键因素:若值选取过小,则学习效率低,收敛速度慢;若值选取过大,则学习不充分,可能会出现过拟合现象[25]。为解决这一问题,本文对原始SGB回归算法进行改进,采用高斯过程回归作为基学习器,依据每一次迭代中弱学习机的反馈,自适应调整该学习机的收缩参数,使得每次学习过程中性能优异的弱学习机得到更多关注,从而提高集成模型的泛化性能与收敛速度。最后将此改进的SGB回归算法用于某双酚A生产装置中2,4-双酚A浓度的软测量建模。

1 高斯过程回归

作为近几年发展起来的一种基于高斯随机函数的回归算法,高斯过程回归(Gaussian process regression,GPR)具有严格的统计学理论基础,且对处理高维数、小样本和非线性等复杂问题具有很好的适应性[26-28]。与支持向量机、神经网络相比,GPR具有容易实现、非参数推断灵活、超参数自适应获取以及能够实现概率化估计等优点。

给定训练样本集={(x,y)},=1,2,…,,其中,R为维输入变量,y∈为输出变量。输入、输出之间的回归关系由式(1)产生

y=()+(1)

式中,是未知函数形式;是均值为0、方差为2的高斯噪声。对于新的测试样本*,其预测分布的均值和方差如式(2)、式(3)所示

*(*)=T(*)-1(2)

2*(*)=(*,*)-T(*)-1(*) (3)

式中,(*)=[(*,1),…,(*,)]是测试数据与训练数据之间的协方差矩阵;=(,)是训练数据之间的协方差矩阵;=[1,…,y]T。GPR可以选择不同的协方差函数产生协方差矩阵,只需要选择的协方差函数能保证产生的协方差矩阵满足非负正定的关系。本文选择径向基函数作为协方差函数

式中,0为函数控制局部相关性程度的先验协方差;w为维输入变量的相对重要性权重;1为噪声的先验协方差;为Kronecker算子。GPR需要对式(4)中的未知参数0、w、1和高斯噪声方差2的值进行估计。最常用的方法就是通过极大似然估计得到最优超参数

=[0,2,1,…,w,1] (5)

为求得超参数的值,首先将设置为某一合理区间中的随机数,再用共轭梯度迭代法搜索的最优值。获得最优值后,对于测试样本*,可以通过式(2)、式(3)来估计GPR模型的输出值。

2 SGB回归模型

2.1 SGB加性回归模型

梯度Boosting作为加性回归模型的基本原理是:每一次迭代为了减少上一次弱学习机的残差,在残差减少的梯度方向上建立一个新的弱学习机,由此不断迭代最终产生一个弱学习机的相加组合,使得组合回归模型可以对损失函数进行极小化优化[29-30]。令=[1,2,…,]T,基于梯度Boosting算法加性模型的模型输出()如式(7)表述

(8)

式中,arg min(*)是为使得(*)取最小值的最优(),收缩参数v∈(0,1)称为“学习率”,为子模型个数,v和通常都是根据先验知识确定的常量。

Friedman[24]于2002年将类似于Bagging的随机选择策略与GB组合,提出了SGB算法。SGB在每一次迭代中,有放回地随机抽取训练集中n(n<)个子样本,用以替代全部训练数据,拟合弱学习机与计算当前迭代中模型更新,抽样比例由随机化参数表示。当=1时,算法等同于原始的GB算法,由文献[24]可知,=0.5时模型泛化性能最佳。SGB回归模型的学习及更新过程算法描述如下。

(1)建立训练数据集=(,),确定最大迭代次数及收缩参数v

(2)从训练数据集中随机抽取n个子样本,建立基本GPR模型1=1()(弱学习机1),用1估计全部训练样本,估计结果记为,计算残差:,并更新训练数据集=(,res,1)。

(3)=2,3,…,,重复如下步骤。

① 从已更新的训练数据集中随机抽取n个子样本,建立基本GPR模型=f()(弱学习机)用以拟合上一次弱学习机的残差。

② 用f估计训练集中所有样本,估计结果记为。

③训练数据集更新:=(,res,k),其中。

④ 最终估计结果为

⑤ 对于新的测试样本new,根据式(9)计算估计输出。

2.2 改进的SGB算法

SGB算法在实施过程中首先需要确定学习率v,而v通常通过反复实验获得,这就增加了整个算法操作的复杂程度,而且SGB算法性能对v的选择比较敏感,主要体现为如下几方面。

(1)虽然运用较小的学习率(v<0.1)比GB算法能更有效地提高泛化能力,且学习率越小,学习越充分,然而较小的学习率需要更大的迭代次数才能使模型收敛,这就导致了计算耗时的增加,延缓了算法的执行效率。

(2)若学习率v取值过大,迭代中由某些性能较差的弱学习机提取出的回归信息可能存在过拟合现象,同时也无法保证对训练样本的充分学习,这将严重影响最终集成学习的性能。

为此,本文提出了一种改进的MSGB算法(modified stochastic gradient Boosting,MSGB),即按照迭代误差自适应调整v的方法。在整个SGB迭代学习过程中,v不再是一个固定先验值,而是根据每次迭代学习时弱学习机的反馈不断变化,通过迭代过程中弱学习机的反馈结果,自适应地调节v,使得整个学习过程更多地注重性能优异的弱学习机。即当该次迭代误差e大于前一次迭代的误差e-1时,将v减小;反之,当该次迭代误差e小于前一次迭代误差e-1时,将v增大。这样,可以在整个迭代过程中不断地根据实际情况实时调整v的大小,始终向着性能最优的方向寻找最佳收缩参数值,从而克服初始v选择给SGB算法带来的不利影响。本文的具体改进思路为:首先,确定初始收缩参数1的值,并构造弱学习机1,学习及更新过程与SGB完全一致。弱学习机每学习一次结束后,计算本次学习的输出平均相对误差

收缩参数的变化由输出平均相对误差的变化决定

其中,是一个与平均相对误差变化率相关的系数,取,∈(0,1)为一个自定义的比较小的数,此时完成收缩参数调整,继续SGB迭代,直至迭代过程结束。建立集成学习模型的流程如图1所示。

通过上述方法改进之后的MSGB算法,不必再为如何确定合适的收缩参数而反复尝试,并能保证SGB向正确方向迭代,同时可以依据每一次迭代过程中的误差变化,实时调整收缩参数的值,保证避免过拟合,最终达到改善SGB泛化性能的目的。

3 仿真实验

为了验证改进MSGB算法的有效性,本文利用高斯过程回归作为基学习器,对某石化厂双酚A生产中的脱水单元产物2,4-BPA的质量指标进行估计。分析双酚A生产工艺可知,影响脱水单元2,4-BPA质量指标的主要操作变量为脱水塔进料流量、温度、塔顶压力、塔底压力、回流温度、回流流量以及塔顶、塔中部、塔底温度。

从脱水塔单元现场采集到300组数据,选取200组作为训练样本,100组作为测试样本。首先采用主成分分析(principalcomponentanalysis,PCA)算法对软测量的输入辅助变量进行预处理,用累计方差贡献率(cumulative percent variance,CPV)准则确定PCA主成分个数,从而保证所提取的主成分能够解释过程数据90%以上的信息。如图2所示,采用PCA方法提取出5个主元进行软测量建模。

考虑训练样本集规模,设定模型参数为:=0.5,=0.1,=100。为验证本文方法的有效性,分别设置1=0.9及1=0.8,并重复两次实验。

用200组训练样本对SGB-GPR模型与MSGB-GPR模型进行训练,图3为学习过程中训练数据均方根误差(RMSE)随迭代次数变化的情况,RMSE定义为

图4为1=0.9及1=0.8时,收缩参数随迭代次数变化情况。分析图3的训练结果可知,相比于SGB-GPR模型,本文提出的MSGB-GPR模型具有更好的训练精度与更高的学习效率。

图3 训练数据RMSE曲线

Fig.3 RMSE curves of training data

为进一步验证本文方法对改善模型泛化性能的有效性,用100组测试样本对MSGB-GPR模型进行测试,并将测试结果与SGB-GPR模型进行比较,如图5、图6所示。

分别列出上述2种建模方法的测试误差,各模型的最大绝对误差(MAXE)、均方根误差(RMSE)如表1所示。

通过图5、图6和表1的仿真结果可知,本文提出的基于改进SGB算法的高斯过程集成软测量建模的模型精度和泛化能力明显优于传统的SGB回归模型,对过程信号具有较好的跟踪能力。

表1 两种模型的测试误差

4 结 论

本文针对现有SGB回归算法建立软测量模型时需要反复实验确定收缩参数的不足,依据弱学习机的反馈,提出了一种自适应修正收缩参数的方法,有效地消除了收缩参数选择对系统的影响。将所提出的方法运用于某双酚A生产装置软测量建模,使用实际生产数据建立2,4-BPA浓度软测量模型。仿真结果表明,改进的方法有效地改善了SGB算法性能,估计精度有了显著提高,且提高了学习效率,具有指导工业生产的意义。

References

[1] 杨小梅, 刘文琦, 杨俊. 基于分阶段的LSSVM 发酵过程建模[J]. 化工学报, 2013, 64(9): 3262-3269. YANG X M, LIU W Q, YANG J. LSSVM modeling for fermentation process based on dividing stages[J]. CIESC Journal, 2013, 64(9): 3262-3269.

[2] 曹鹏飞, 罗雄麟. 化工过程软测量建模方法研究进展[J]. 化工学报, 2013, 64(3): 788-800. CAO P F, LUO X L. Modeling of soft sensor for chemical process[J]. CIESC Journal, 2013, 64(3): 788-800.

[3] KADLEC P, GABRYS B, STRANDT S. Data-driven soft sensors in the process industry[J]. Computers and Chemical Engineering, 2009, 33(4): 795-814.

[4] 雷瑜, 杨慧中. 基于高斯过程和贝叶斯决策的组合模型软测量[J]. 化工学报, 2013, 64(12): 4434-4438. LEI Y, YANG H Z. Combination model soft sensor based on Gaussian process and Bayesian committee machine[J]. CIESC Journal, 2013, 64(12): 4434-4438.

[5] CAO P F, LUO X L. Modeling for soft sensor systems and parameters updating online[J]. Journal of Process Control, 2014, 24(6): 975-990.

[6] JIN H P, CHEN X G, WANG L,. Adaptive soft sensor development based on online ensemble Gaussian process regression for nonlinear time-varying batch processes[J]. Industrial & Engineering Chemistry Research, 2015, 54(30): 7320-7345.

[7] CAO P F, LUO X L. Soft sensor model derived from wiener model structure: modeling and identification[J]. Chinese Journal of Chemical Engineering, 2014, 22(5): 538-548.

[8] GUO Y F, ZHAO Y, HUANG B. Development of soft sensor by incorporating the delayed infrequent and irregular measurements[J]. Journal of Process Control, 2014, 24(11): 1733-1739.

[9] LIU J L. Developing a soft sensor based on sparse partial least squares with variable selection[J]. Journal of Process Control, 2014, 24(7): 1046-1056.

[10] GE Z Q, HUANG B, SONG Z H. Mixture semi-supervised principal component regression model and soft sensor application[J]. AIChE Journal, 2014, 60(2): 533-545.

[11] YAN X D, YANG W, MA H H,. Soft sensor for ammonia concentration at the ammonia converter outlet based on an improved group search optimization and BP neural network[J]. Chinese Journal of Chemical Engineering, 2012, 20(6): 1184-1190.

[12] JIN X, WANG S Y, HUANG B,. Multiple model based LPV soft sensor development with irregular/missing process output measurement[J]. Control Engineering Practice, 2012, 20(2): 165-172.

[13] LIU Y, GAO Z L, LI P,. Just-in-time kernel learning with adaptive parameter selection for soft sensor modeling of batch processes[J]. Industrial & Engineering Chemistry Research, 2012, 51(11): 4313-4327.

[14] SHAO W M, TIAN X M, WANG P. Soft sensor development for nonlinear and time-varying processes based on supervised ensemble learning with improved process state partition[J]. Asia-Pacific Journal of Chemical Engineering, 2015, 10(2): 282-296.

[15] LIU Y Q, HUANG D P, LI Y. Development of interval soft sensors using enhanced just-in-time learning and inductive confidence predictor[J]. Industrial & Engineering Chemistry Research, 2012, 51(8): 3356-3367.

[16] WANG L, JIN H P, CHEN X G,. Soft sensor development based on the hierarchical ensemble of Gaussian process regression models for nonlinear and non-Gaussian chemical processes[J]. Industrial & Engineering Chemistry Research 2016, 55(28): 7704-7719.

[17] MA M D, WANG S J, WU M F,. Development of adaptive soft sensor based on statistical identification of key variables[J]. Control Engineering Practice, 2009, 17(9): 1026-1034.

[18] LI X L, SU H Y, CHU J. Multiple model soft sensor based on affinity propagation, Gaussian process and Bayesian committee machine[J]. Chinese Journal of Chemical Engineering, 2009, 17(1): 95-99.

[19] LIU J L. On-line soft sensor for polyethylene process with multiple production grades[J]. Control Engineering Practice, 2007, 15(7): 769-778.

[20] VALIANT L G. A theory of the learnable[J]. Communications of the ACM, 1984, 27(22): 1134-1142.

[21] SCHAPIRE R E. The strength of weak learnability[J]. Machine Learning, 1990, 5(2): 197-227.

[22] FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application of boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.

[23] FRIEDMAN J H. Greedy function approximation: a gradient boosting machine[J]. The Annuals of Statistics, 2001, 29(5): 1189-1232.

[24] FRIEDMAN J H. Stochastic gradient boosting[J]. Computational Statistics and Data Analysis, 2002, 38(4): 367-378.

[25] CAO D S, XU Q S. The boosting: a new idea of building models[J]. Chemometrics and Intelligent Laboratory Systems, 2010, 100(1): 1-11.

[26] SUI Y, ZHANG L. Visual trackinglocally structured Gaussian process regression[J]. IEEE Signal Processing Letters, 2015, 22(9): 1331-1335.

[27] LIU Y, CHEN T, CHEN J H. Auto-switch Gaussian process regression-based probabilistic soft sensors for industrial multigrade processes with transitions[J]. Industrial & Engineering Chemistry Research, 2015, 54(18): 5037-5047.

[28] YAN W J, HU S Q, CHEN T,. Bayesian migration of Gaussian process regression for rapid process modeling and optimization[J]. Chemical Engineering Journal, 2011, 166(3): 1095-1103.

[29] GAO Y B, KONG X Y. Multivariate data modeling using modified kernel partial least squares[J]. Chemical Engineering Research and Design, 2015, 94(1): 466-474.

[30] ZHANG M H, XU Q S, MASSART D L. Boosting partial least squares[J]. Analytical Chemistry, 2005, 77(5): 1423-1431.

Soft sensor modelling method based on modified stochastic gradient Boosting algorithm

CANG Wentao, YANG Huizhong

(Key Laboratory of Advanced Process Control for Light Industry (Ministry of Education), Jiangnan University, Wuxi 214122, Jiangsu, China)

When soft sensor models were constructed for complicated chemical processes by traditional stochastic gradient Boosting (SGB), improper selection of shrinkage parameters would reduce convergence rate of the algorithm, engender overfitting, and sometimes make it difficult to obtain a satisfactory generalization performance. In order to solve this problem, a modified SGB ensemble learning soft sensor was proposed, in which Gaussian process regression (GPR) was adopted as base learner and shrinkage parameters were automatically adjusted according to feedback of a weak learner in each iteration such that both estimation accuracy and learning efficiency were improved. Simulation results in an industrial process of bisphenol A production showed that the modified integration algorithm had higher learning efficiency and generalization performance than traditional SGB models.

algorithm; computer simulation; integration; stochastic gradient Boosting; soft sensor

10.11949/j.issn.0438-1157.20161624

TP 273

A

0438—1157(2017)03—0970—06

国家自然科学基金项目(61273070)。

2016-11-16收到初稿,2016-11-26收到修改稿。

联系人:杨慧中。第一作者:仓文涛(1986—),男,博士研究生。

2016-11-16.

Prof.YANG Huizhong, yhz_jn@163.com

supported by the National Natural Science Foundation of China (61273070).

猜你喜欢

学习机协方差建模
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
基于极限学习机参数迁移的域适应算法
用于检验散斑协方差矩阵估计性能的白化度评价方法
基于改进极限学习机的光谱定量建模方法
分层极限学习机在滚动轴承故障诊断中的应用
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
二维随机变量边缘分布函数的教学探索
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器