基于改进灰狼算法和多核极限学习机的铁水硅含量预测建模

2020-08-14方一鸣赵晓东乐王硕玉

控制理论与应用 2020年7期

方一鸣赵晓东张攀刘乐王硕玉

(1.燕山大学工业计算机控制工程河北省重点实验室,河北秦皇岛 066004;2.燕山大学智能控制系统与智能装备教育部工程研究中心,河北秦皇岛 066004;3.高知工科大学系统工程学院,日本香美782–8502)

1 引言

高炉炼铁过程是高度复杂的物理化学反应过程,良好的炉温控制是高炉生产稳定运行的保证,也是铁水产品质量的重要经济评价参数.然而高炉冶炼过程的封闭性导致很难直接测量炉内温度,通常情况下铁水硅含量与炉温是正相关的,且铁水硅含量是反映铁水化学热的重要指标.铁水硅含量高会使矿渣量增加,有利于去除磷[P]、硫[S];但是硅含量过高会使生铁变硬变脆,收得率降低且易引起喷溅.另外,硅含量高意味着渣中一氧化硅[SiO]含量过高,进而影响石灰渣化速度,延长吹炼时间,同时也会加剧对炉衬的冲蚀,因此,目前多数钢厂通常采用铁水硅含量来反映铁水质量[1].

由于高炉系统属于多变量、强耦合大型复杂工业系统,可测量物理状态数量有限且精度有限,采用传统方法很难建立精确的数学模型,因此,需要研究更好的模型辨识方法,进而实现对高炉系统的控制和优化.长期以来,许多专家学者针对高炉硅含量预测模型做了大量研究,提出了一些建模方法,例如T–S模糊多元回归模型[2]、支持向量机建模[3]、人工神经网络建模[4]等.另外,为了提高模型精度,可对高炉的实测数据进行预处理[5–6].这些建模方法对高炉铁水硅含量的预测有一定的效果,但也存在一些局限性,如回归模型的预测命中率偏低、神经网络的权值不易确定等.南洋理工大学的黄广斌等提出了一种训练速度较快的极限学习机(extreme learning machine,ELM)模型[7],文献[8–10]将其成功应用在回归和分类问题中,分别用于风电功率区间预测、时间序列预测、铁水硅含量预测.然而极限学习机同时也存在一些缺点,如:网络输入权值和隐藏层阈值参数是随机设定的、网络的隐层节点个数难以确定、不同的参数对预测结果有不同的影响等.针对这些问题,黄广斌等又提出了核极限学习机(kernel extreme learning machine,KELM)[11],其通过引入支持向量机(support vector machine,SVM)[12]中的核函数方法,使得学习机网络无需设定隐藏层神经元个数和输入权值参数,较好地解决了极限学习机过拟合和容易陷入局部极值的问题.

生物启发式智能算法相比于传统算法,具有结构简单、易于实现等优点,受到了学者的广泛关注.2014年,Mirjalili等人提出了一种灰狼优化算法(grey wolf optimizer,GWO)[13].GWO模拟了自然界中灰狼的社会等级和狩猎行为.该优化算法因采用新型的搜索机制,在解决一些优化问题时表现出良好的性能,如多目标动态焊接调度问题[14]、神经网络的优化[15]等.目前国内外已有一些学者针对GWO进行了研究,文献[16]提出把动态进化种群融入GWO提高了GWO的探索能力.文献[17]在灰狼优化算法中引入Powell局部优化方法,提升了算法求解复杂优化问题的能力.文献[18]将差分进化算法的交叉和变异算子引入GWO中提出一种混合GWO,进一步平衡了算法的开拓和探索能力.文献[19]提出一种基于混沌理论和精英反向学习策略的混合GWO,用于解决高维函数优化问题.文献[20]将反向学习和差分变异融入GWO,进一步提高GWO的聚类优化性能.以上研究较好地提高了GWO 的寻优能力,但GWO 仍存在易陷入局部最优、过早收敛的问题.

为了进一步提高高炉铁水硅含量预测模型预测精度,本文提出一种改进灰狼算法优化的多核极限学习机高炉铁水硅含量预测建模方法.首先,为提高GWO的寻优能力,利用混沌算法的遍历性初始化种群,并将最优–最差正交反向学习策略应用到灰狼算法位置更新中,得到改进的灰狼优化算法,然后对实测数据进行预处理,找出与硅含量相关度比较高的6组变量作为模型的输入量;其次,采取多种核函数加权的形式来增强模型的回归精度,并利用改进灰狼算法(improved grey wolf optimizer,IGWO)的全局搜索和快速定位的能力来优化核函数中加权系数等参数;最后,将基于IGWO 优化的多核极限学习机(multiple kernel extreme learning machine,MKELM)模型用于铁水硅含量的预测.基于现场数据的仿真及比对结果表明,本文所建模型IGWO–MKELM相比于反向传播神经网络(back propagation neural network,BP–NN)、极限学习机(extreme learning machine,ELM)、单核极限学习机(kernel extreme learning machine,KELM)以及GWO–MKELM,具有预测命中率高、稳定性好、预测误差小等优点,对高炉炼铁具有较好的指导意义.

2 改进的灰狼优化算法

2.1 灰狼优化算法

GWO是受灰狼群体的社会等级和狩猎行为启发而提出的算法[13].在自然界中,灰狼的社会等级从上至下包括4个等级:α狼、β狼、δ狼和w狼.其中α狼的职责是做好决策工作;β狼的职责是扮演α狼助手的角色,协助α狼做出决策;δ狼服从α狼、β狼的命令,同时支配下一阶层的w狼,其主要包括:侦察员、哨兵、捕食者、年老者和看守者;w狼是最底层的灰狼,由余下的灰狼组成,为命令的执行者.为便于理论研究和公式化处理,文献[13]定义狼群中最优个体(适应度值最小)为α狼,次优个体为β狼,第3优个体为δ狼,其余为w狼,即假设α狼、β狼、δ狼均为一只,且狼群总个体数为N;狼群中所有个体的位置维度为η∈N+,则算法更新的数学模型为

其中:式(1)–(3)分别给出了w狼中第υ只狼(υ ∈[1,N−3])与α狼、β狼、δ狼之间的距离. Zα,Zβ,Zδ和Zυ分别表示α狼、β狼、δ狼和第υ只狼的η维位置行向量;t为当前迭代次数;式(4)则给出了第υ只狼的位置更新方式.Awi(t)与Cwi更新分别如式(5)–(6)所示:

式中: Tmax为最大迭代次数.参数Awi(t)和Cwi在灰狼优化算法中起着关键作用,共同决定GWO的全局收敛性与快速性.当Awi(t)>1时,GWO更强调全局搜索能力,当Awi(t)<1时,GWO更强调快速性,Cwi的取值是为了能随机增加(Cwi>1)或减轻(Cwi<1)灰狼靠近猎物的难易程度.

2.2 改进灰狼优化算法

灰狼优化算法属于精英引导型算法,随着算法优化的进行可能会逐渐收敛于一处,导致算法陷入局部最优.针对这一问题,本文在算法初始阶段和位置更新阶段进行了改进,具体方法如下:

1)初始化种群.

利用混沌算法的遍历性,即在一定范围内可以不重复经历范围内的任何一种状态,可以让初始化的种群尽可能分布在可行域内.

设第λ个个体为Zλ[Zλ,1Zλ,2··· Zλ,η],引入Logisitic混沌映射序列模型:

式中aΥ和bΥ分别为个体在Υ维度所能取到的最小值和最大值.

2)最优–最差正交反向学习更新策略.

反向学习的提出是为了解决陷入局部最优的问题[21].对于空间内的反向点有如下定义:

由定义可以看出空间内的反向点在所有维度上进行了反向,这易造成维度退化,以2维空间为例,图1表示了反向学习的维度退化.

由图1看出,反向点在纵轴方向上出现了维度退化,而部分反向点更接近最优点的位置.

图1 反向学习的维度退化Fig.1 Dimensional degradation of reverse learning

步骤1查询正交表.当待优化个体维度为η时,选择一个2水平Kor因素正交表,其中Korη.当个体维度η 大于正交表元素Kor时,将个体向量分解为Kor个子向量.

式中整数t1,t2,···,tKor−1随机生成.将每个子向量当作一个元素,按照正交表规则执行正交反向操作.

步骤2正交反向操作.当正交表的元素为1,试验解对应维度上取个体的值;当正交表的元素为2,试验解对应维度上取反向个体的值.

以一个2水平7因素问题为例,查文献[23]可得到L8(27)的正交表如表1所示.

得到试验解如图2所示.试验解的个数为正交表的行数.若将种群中所有个体都进行正交反向操作,正交试验解个数较大,导致算法更新速度变慢,所以选择最具有代表性的两个个体(当前迭代中最优个体Zbest和最差个体Zworst)执行正交反向操作,其中最优个体易陷入局部最优,最差个体易跳出局部最优.

表1 正交表L8(27)Table 1 Orthogonal table of L8(27)

故对最优个体采用一般正交反向操作,最差个体采用随机正交反向操作:

式中: Zbest,Υ(t)和Zworst,Υ(t)分别表示了最优个体Zbest和最差个体Zworst在迭代次数为t时Υ维度上的值,R表示0到1之间的随机数.

改进灰狼优化算法(IGWO)的优化步骤为

步骤1初始化参数:令迭代次数t0,种群数N100,最大迭代次数T500,个体维度η10.

步骤2初始化种群:采用如式(8)–(9)混沌算法产生初始种群.

步骤3计算适应度函数值(将个体向量代入适应度函数计算可得),选择最优的N个个体组成新种群,更新Zα(适应度函数值最小对应的个体)、Zβ(适应度函数值第2小所对应的个体)、Zδ(适应度函数值第3小对应的个体)与Awi(t)和Cwi的值,迭代次数tt+1.

步骤4判断算法当前最小适应度函数值fmin(最优个体对应的值)是否小于期望值fwish(由实际优化问题中需要的收敛精度或全局最优解所对应的适应度值来确定)或者迭代次数t是否大于最大迭代次数T.如果是,保存fmin对应的最优个体Zbest转步骤6;否则,继续步骤5.

步骤5更新种群位置:找到最优个体Zbest(适应度函数值最小所对应的个体)和最差个体Zworst(适应度函数值最大所对应的个体)依据正交试验操作分别采用如式(12)–(13)的一般正交反向操作和随机正交反向操作产生正交反向候选解;其余个体根据式(1)–(4)执行灰狼算法更新操作.对所有的正交反向候选解和其他经过位置更新得到的新个体组成新的种群转向步骤3.

步骤6输出最优个体Zbest,算法结束.

图2 试验解的构建Fig.2 Construction of experimental solution

IGWO算法流程图如图3所示.

2.3 IGWO的仿真分析

为了验证所提算法的性能,将IGWO、GWO、粒子群优化(particle swarm optimization,PSO)等算法在如附录表A1中10种标准函数(即适应度函数)在维度η为10时独立运行20次.其中: F1∼F3为单峰值函数,F4∼F7为多峰值函数,F8∼F10为复合函数.其仿真结果如表2,其中:Best和Ave为运行20次的适应度函数值的最优值和平均值,Sd为标准差(均方差).

式中Sλ为第λ次的最优适应度函数值.

由表2可知,从均值Ave和标准差Sd来看,在单峰值函数F1∼F3,IGWO算法在Best,Ave和Sd这3方面的性能都优于GWO和PSO,表明IGWO的开拓能力和收敛性能更好.在多峰值函数F4∼F7,IGWO在Best,Ave和Sd这3方面的性能优于GWO和PSO,除了F5中标准差的值.但F5中的最优值和平均值都优于GWO和PSO,说明IGWO跳出局部最优的能力更强.在复合函数F8∼F10,IGWO的性能优于GWO和PSO,表明IGWO能更好的平衡开拓能力和探索能力.

表2 3种算法测试结果对比表Table 2 Comparison of testing results based on three algorithms

通过对表2的分析,结果表明,IGWO算法在确定全局最优方面是有效的.

图3 IGWO算法流程图Fig.3 Flow chart of the IGWO

图4–5是3种算法分别对单峰函数F1与多峰函数F4的迭代寻优过程的收敛曲线图,其中横轴表示算法独立运行一次的迭代次数,纵轴表示独立运行20次的平均适应度值.由图可见,IGWO比GWO与PSO算法收敛到最优解的时间更短,其具有更好的寻优能力和收敛性能.

图4 IGWO,GWO,PSO对基准函数F1的收敛曲线Fig.4 Convergence curves of IGWO,GWO,PSO on F1 benchmark function

3 多核极限学习机算法

为了解决核极限回归能力不足的问题,本节采用一种多核极限学习机算法.

3.1 核极限学习机

极限学习机是一种简单易用且有效的前馈神经网络方法,其网络结构如图6所示.

图6中: X为输入集,Y 为输出集.假设有N′个样本,xk[xk1xk2··· xkn]T代表n维输入,yk[yk1yk2··· ykl]T代表l维输出,其中k1,2,···,N′为第k次采样.设极限学习机隐含层神经元个数为m,wj[w1jw2j··· wnj]为隐含层第j个节点的输入权值,βj[βj1βj2··· βjl]T为隐含层第j个节点的输出权值(W ∈Rm×n,β ∈Rm×l),隐含层阈值b[b1b2··· bm]T.隐含层激励函数g(x)为“Sigmoid”函数.极限学习机网络输出fELM(xk)为

图5 IGWO,GWO,PSO对基准函数F4的收敛曲线Fig.5 Convergence curves of IGWO,GWO,PSO on F4 benchmark function

图6 ELM结构图Fig.6 Structure of the ELM

输出矩阵fELM(X)可以写作fELM(X)Hβ,其中H是如下的隐含层输出矩阵:

在训练过程中,X和Y 为已知.输入权矩阵W 和阈值b可以随机给定,则H可按式(16)计算得到,所以输出权矩阵β可以按照伪逆计算得到其最小二乘解βH+·Y,其中H+为H的伪逆矩阵.

极限学习机克服了传统神经网络训练速度慢,容易过拟合和陷入局部极值的缺点,但是它还存在不足,例如隐含层节点个数难以确定;隐含层输出矩阵可能不满秩(即它的秩不为m)从而导致存在病态解;β通过伪逆求得,没有加入正则化,仍存在过拟合的可能等.针对极限学习机的缺点,受支持向量机(support vector machine,SVM)中引入核函数的启发,文献[11]提出了一种核极限学习机,它将输入到隐含层输出的映射记为h(x).

当h(x)未知时,定义核矩阵:

矩阵中第i行第j列元素为

式中: K(xi·xj)为核函数,从而,当已知系统输入为X、输出为Y 时,则模型输出fKELM(X)可以按式(19)来估计,并可进一步利用此函数关系由输入数据来预测输出:

引入正则化项后,

式中: C为正则项系数且C越大则容错率越小,模型精度越高,但容易过拟合;C越小则容错率越大,泛化能力增强,但容易欠拟合.经过试验最终取正则项系数C8000.

则核极限学习机的网络输出fKELM(xk)为

3.2 多核极限学习机

对于不同种类模型如何选取合适的核函数的问题,在综合常用核函数特性并权衡模型精度与计算复杂度的基础上,选用三阶多项式、指数型径向基和高斯径向基3种核函数进行加权组合,构建融合3种核函数的等价核函数.3种基本核函数的表达式分别如式(22)–(24)所示.

三阶多项式核函数:

常用来表示系统非线性特征映射,式中C0为多项式核函数参数.

指数型径向基核函数:

应用于离散回归问题时可产生一个线性的分段解,式中σ′为指数型核函数核宽度.

高斯径向基核函数:

常用来表示系统非线性特性,式中σ为其核宽度.

因此,用于MKELM算法中的等价核函数表示为

式中C1,C2,C3为核函数的加权系数,取值范围为[0,1],且

把式(26)代入式(25)中消掉C3得到

将式(27)及式(22)–(25)代入式(21),则提出的融合3种核函数的多核极限学习机MKELM算法的输出fMKELM(xk)表达式如下式所示:

4 基于IGWO–MKELM的铁水硅含量预测建模及仿真实验验证

4.1 基于IGWO–MKELM的铁水硅含量预测建模

首先对某钢厂高炉采集的588组数据(采集频率约为一小时),选取前519组数据用作训练数据,其余69组作为测试数据.利用箱线图法[24]对训练数据生产中采集到的519组数据的异常值进行检测,最终剔除掉30组极端异常值,得到489组有效训练数据.然后引入斯皮尔曼秩相关系数分析21种实际数据变量对铁水硅含量的相关性.其中,斯皮尔曼秩相关系数是一个与分布无关的秩统计参数,常用来衡量两个量之间的相关性的强弱.其定义如下:假设有两个随机变量X和Y,其样本数均为N′,对X和Y 的样本集进行排序(同时为升序或者降序),得到排序后的样本集合为X′和Y′,样本集为{xk,yk},k1,2,···,N′,将集合X′和Y′内的元素对应相减得到一个差分集合D,其中dkxk−yk为D的第k个元素.则随机变量X和Y 的斯皮尔曼秩相关系数可由下式得到

表3表示输入变量与硅含量的斯皮尔曼秩相关系数.选取秩相关系数绝对值较大(负号表示负相关)的顶压、热风温度、设定喷煤量、实际风速、鼓风动能、顶温(为了减少输入变量个数,将顶温东北、顶温西南、顶温西北、顶温东南4个相近的特征变量取平均值作为顶温变量,这也可以减小仅取某一个变量、而温度传感器信号可能出现测量误差或故障带来的不良影响)作为系统的6个输入变量;硅含量作为输出变量.系统的网络基本结构如图6所示.

表3 输入变量与硅含量的斯皮尔曼秩相关系数Table 3 Pearson correlation coefficient between different variables and silicon content of liquid iron

IGWO–MKELM建模步骤为:

步骤1训练集数据归一化.为了减小数据中不同量级造成的影响,首先对489组高炉有效训练数据进行归一化处理.对向量X(x(1)x(2)···x(N′)),归一化公式为

步骤2用MKELM训练集的均方根误差作为适应度函数:

式中: fMKELM(xk)为训练集第k个预测值,其计算式如式(28)所示;yk为训练集第k个实测值.

步骤3用第4.1节中IGWO对多核极限学习机中核函数加权系数C1,C2,多项式核函数参数C0,指数型核函数核宽度σ′,高斯型核函数核宽度σ等5个参数(即算法优化个体维度η5)进行寻优,通过判断适应度函数值的大小或最大迭代次数来选取最优的个体(MKELM中最优的5个参数),其中在IGWO每次迭代时都自动对MKELM中的参数进行训练寻优,基于IGWO–MKELM的建模流程图如图7所示.

步骤4将优化后的5个参数代入MKELM(式(28)所示)中,得到高炉铁水硅含量预测模型.

4.2 仿真实验验证

如上节,利用某钢厂现场实际生产中采集到的489组有效数据进行模型训练,建立基于IGWO–MKELM的铁水硅含量预测模型,并用69组数据测试建模精度.

本文设当硅含量(百分比)预测误差小于0.1时[10,24],表明预测成功.

式中: fMKELM(xk)为测试集的第k个预测值,yk为测试集的第k个实测值.

预测命中率(hit rat)为

除了命中率以外,预测值的均方根误差(root mean square error,RMSE)也是预测性能的一个重要参数.

为了验证IGWO–MKELM建模方法的有效性,将其与BP–NN,ELM,KELM 和GWO–MKELM 建模方法进行仿真对比,得到仿真结果如表4所示.

表4为IGWO–MKELM与BP–NN,ELM,KELM和GWO–MKELM建模方法在预测命中率、预测值的均方根误差RMSE的对比结果情况.由表4可知,IGWO–MKELM与另外4种建模方法比较,预测命中率更高、预测值的均方根误差最小,由此也说明了IGWO全局寻优能力更强.

表4 不同建模方法预测结果对比Table 4 Comparison of prediction results of different modeling methods

为了直观看出本文所提方法的在高炉铁水硅含量预测模型的优势,图8为选取表4中后2种最优建模方法对铁水硅含量预测建模的结果对比图.由图8可知,两种方法都能跟踪高炉铁水硅含量变化趋势,但本文提出的IGWO–MKELM建模方法与实测值拟合度更好,更能反映出高炉铁水硅含量的变化趋势,这也说明了IGWO的寻优能力高于GWO.

图9为图8对应的两种不同建模方法对铁水硅含量预测误差的对比图,从图9可以直观地看出,IGWO–MKELM建模误差波动更小、命中率更高.

图8 2种建模方法的硅含量预测结果对比Fig.8 The result comparison for silicon content prediction of two modeling methods

图9 2种建模方法的硅含量预测误差对比Fig.9 The error comparison for silicon content prediction of two modeling methods

为进一步验证IGWO–MKELM方法的泛化能力,本文采用k--折(10--折)交叉验证对其进行评估.表5 分别给出了IGWO–MKELM与BP–NN,ELM,KELM和GWO–MKELM建模方法通过10--折交叉验证得到的预测命中率的平均值、预测值的均方根误差RMSE的平均值的对比结果情况.

表5 不同建模方法的10--折交叉验证预测结果对比Table 5 Comparison of predicted results of 10--fold cross validation with different modeling methods

由表5可知,IGWO–MKELM与另外4种建模方法比较,预测命中率更高、预测值的均方根误差最小,因此说明了IGWO–MKELM方法具有较强的泛化能力.

5 结论

本文针对灰狼算法(GWO)寻优能力不足的问题,将最优–最差正交反向学习(optimal-worst orthogonal opposition-based learning,OWOOBL)策略应用到灰狼算法的位置更新机制中,得到一种改进的灰狼优化算法,基于10种标准测试函数的仿真结果表明,该算法有效提高了寻优能力;并针对单核极限学习机对高炉铁水硅含量预测建模回归精度不足的问题,提出了一种基于多核极限学习机的高炉铁水硅含量预测建模方法;同时,针对多核极限学习机3种不同类型核函数中加权系数等参数的寻优问题,提出了一种IGWO–MKELM的铁水硅含量预测模型.

最后,以某钢厂高炉实测数据进行基于IGWO–MKELM的铁水硅含量预测建模及模型验证,仿真及比对结果表明,当铁水硅含量(百分比)预测误差小于0.1时,本文所提方法的铁水硅含量预测命中率为90%,均方根误差为0.049;所建模型在预测精度、稳定性等方面比BP–NN,ELM,KELM 和GWO–MKELM均有一定的提升,铁水硅含量的预测建模结果能较好地跟踪铁水硅含量的实际变化.

附录