基于MIC和MPA-KELM的脱硫出口SO2浓度预测
2023-03-21闫浩思赵文杰
闫浩思,赵文杰
(华北电力大学 控制与计算机工程学院,河北 保定 071000)
1 引 言
我国煤炭资源丰富,煤炭燃烧产生有害气体导致大气污染问题严峻,其中SO2污染最为严重[1]。为达到SO2排放标准,燃煤电站引进烟气脱硫技术,以石灰石-石膏湿法脱硫为主[2]。然而,湿法脱硫系统运行能耗大,增加了脱硫系统运行成本,如何实现节能和减排的双赢,是燃煤电站脱硫系统运行优化的重要工作之一。
建立脱硫出口SO2浓度预测模型是实现脱硫系统运行优化的基础。目前,脱硫系统建模的方法主要分为两种:一种是基于化学机理的建模方法,一种是基于运行数据的建模方法。基于化学机理建模通常根据脱硫吸收塔内的化学反应过程构建相应的微分方程,建立理论模型。祝杰等[3]依据湿法脱硫系统化学反应机理,组建脱硫系统数学模型预测脱硫效率;马双忱等[4]根据脱硫塔内化学反应建立分布式脱硫塔模型,预判脱硫系统内部参数,为现场优化提供技术支持。但由于脱硫系统的复杂性,机理建模需要对脱硫塔进行模型简化,难以精确描述脱硫系统实际工况,在实际应用中对脱硫系统出口浓度的预测也难以达到预期。
近年来,随着人工智能理论的发展,基于运行数据的建模方法得到了普遍重视,利用机器学习等智能算法建立脱硫系统模型成为了研究热点。洪文鹏等[5]建立了采用粒子群算法(PSO)优化BP神经网络的脱硫效率预测模型;马双忱等[6]利用深度神经网络建立了可用于脱硫系统主要指标预测的模型;李军红等[7]运用广义回归神经网络(GRNN)构建脱硫效率模型,相比于传统BP算法,预测精度更能够达到实际工况运行要求。
由于脱硫系统运行工况复杂,影响因素众多,变量之间存在耦合关系,且系统实际运行数据中含有噪声干扰。基于运行数据建模时,输入变量的选择会影响模型预测精度,选择变量过少不能反映脱硫系统的运行特性,过多则会导致模型结构复杂,引入无用噪声信息,降低模型的泛化能力[8]。因此,合理地选择输入变量是建立脱硫出口SO2浓度预测模型重要的一个环节。上述研究中,模型输入变量的选择大多依赖运行经验,不同类型的脱硫系统模型输入变量需要根据经验重新确定;同时,核极限学习机作为一种改进的前馈神经网络建模方法[9],在学习速率和泛化能力方面,相较于BP神经网络和支持向量机等人工智能方法具有一定优势。韩宏泉等[10]提出了基于核极限学习机的短期水量预测模型,通过城市需水量实际数据进行性能测试,表明该模型对短期水量预测精度高;李军等[11]将遗传算法、模拟退火、微分演化3种优化算法组合对核极限学习机的关键参数进行寻优,建立了高效的风电功率预测模型。
本文针对燃煤机组湿法脱硫系统,提出了一种基于最大信息系数(maximal information coefficient,MIC)的变量选择和海洋捕食(marine predators algorithm,MPA)优化核极限学习机(kernel extreme learning machine,KELM)的脱硫出口SO2浓度预测模型。
2 石灰石-石膏湿法脱硫系统
以山西某电厂600 MW燃煤机组湿法脱硫系统为例,石灰石-石膏湿法脱硫系统的工艺流程图如图1所示。锅炉烟气经由锅炉主烟道引出后,采用引增合一的方式进入脱硫吸收塔。脱硫塔内石灰石浆液经5台浆液循环泵(A~E)分别进入5层喷淋层,由喷嘴喷出产生浆液雾滴,雾滴与烟气充分接触,由上至下的在吸收塔内以逆流的方式洗涤烟气,进行脱硫化学反应。空气通过氧化风机进入吸收塔进行氧化反应,通过脱水系统生产石膏。与此同时,与石灰石循环浆液接触反应后的净烟气通过除雾装置分离液滴,最后经由湿烟囱排入大气离开脱硫系统[12]。
图1 石灰石-石膏湿法脱硫系统工艺流程图Fig.1 Process flow chart of limestone-gypsum wet desulfurization system
3 模型输入变量的选择
3.1 基于机理分析的变量选择
石灰石-石膏湿法脱硫反应包含气体、固体、液体3种不同物质形态的反应与转化,出口SO2浓度影响因素复杂。在建立脱硫出口SO2浓度预测模型的过程中,多选变量会使得预测模型的运行时间长、泛化能力差;而漏选变量会导致模型无法对建模对象进行确切描述[13]。因此,合理的模型输入变量选择,是模型实现高效预测的重要步骤。
根据脱硫系统的运行机理,影响出口SO2浓度的影响因素众多[14],包括吸收塔液位、吸收塔浆液密度、入口SO2浓度、入口烟气温度、机组负荷、氧化风机电流、入口烟气流量、入口烟气氧量、pH值、5台浆液循环泵流量、石灰石浆液供给量等15个影响因素。其中,浆液循环泵运行台数的不同组合,对脱硫效率有显著影响。实际运行中,浆液循环泵运行台数的组合模式多样,为便于描述浆液循环泵组合对出口SO2浓度的影响特性,提出一种循环浆液综合流量描述方法。结合电机学原理,异步电机电流、功率随着电机负载变化而变化,电机不超载其转速不变,转速与磁极对数有关,关系为:
n=60ν/p
(1)
式中:n为电机转速;ν为电源频率;p为磁极对数。
离心泵的电机转速与浆液循环泵功率、扬程、流量之间的关系有:
(2)
式中:Q为浆液循环泵流量;H为扬程;P为浆液循环泵功率;n1、n2分别为异步电机转速。浆液循环泵电流随着扬程增大而增大,在相同循环浆液流量下,启动扬程大的循环泵使得烟气与石灰石浆液的接触时间长,脱硫效率高。
结合山西某电厂浆液循环泵的运行参数,即A、C、D、E泵流量为12 500 m3/h,B泵为12 000 m3/h;5台泵扬程分别为24,27,28.3,30.3,32.3 m。以中间浆液循环泵C泵流量为基准,考虑到扬程对脱硫效率的影响,提出循环浆液综合流量数学描述式:
Qz=(1-4.3k)QA+(1-1.3k)QB+
QC+(1+2k)QD+(1+2k)QE
(3)
式中:Qz为综合浆液循环流量;QA、QB、QC、QD、QE分别为5台浆液循环泵的额定流量;k>0为待定常数,在建模时取值通过MPA寻优算法得到。
3.2 基于MIC的变量选择
最大信息系数是Reshef[15]等在2011年提出的一种新的衡量2个变量之间相关性强弱的算法,是互信息的改进。互信息量为待选变量关于响应变量的信息量,2变量之间是否为线性关系不受约束,基本公式为:
(4)
式中,f(X;Y)为联合概率密度函数。
最大信息系数克服了互信息在计算连续变量的联合概率密度函数困难的缺陷,最大程度地找到待选输入变量X与输出变量Y的相关性。MIC的计算公式为:
(5)
式中:B为构建m×n网格数量的最大上限,是样本规模n的相关函数,B=n0.6。
由于MIC的普遍适用性和公平性,本文提出了一种基于MIC的特征选择算法,即选用MIC算法衡量变量相关性,用相关性判断作为特征选择算法筛选的条件。特征选择算法的评价函数为:
(6)
式中:I(Y;Xa)表示输出变量Y与待选输入变量Xa的相关程度;MIC(Y;Xa)表示输出变量Y与待选输入变量Xa的最大信息系数;MIC(Xa,Xb)为待选择输入变量Xa与已选择输入变量Xb之间的最大信息系数;N为已经筛选出的变量样本集。
相关性判别关系式为:
I(Y;Xa)<η*I(Y;Y)η∈[0,1]
(7)
minI(Xa;Y)/I(Y;Y)≤η≤maxI(Xa;Y)/I(Y;Y)
(8)
式中η为相关性的阈值。当待选变量与响应变量的相关程度小于η*I(Y;Y)时,则表明待选输入变量Xa与输出变量Y不相关。
基于MIC算法的改进变量选择方法步骤为:
(1) 对样本集和待选变量样本集进行初始化,计算输出变量Y与待选输入变量X的最大信息系数;
(2) 求得当MIC值最大时的待选输入变量Xa,即为特征选择后的输入变量;
(3) 在待选样本集中去除MIC值最大的待选变量Xa,用相关性判别关系式判别剩余待选输入变量X与输出变量Y的相关性是否满足式(7),若满足则表示剩余待选输入变量与输出变量不相关,不满足则返回步骤(2)进一步筛选输入变量。
定理1 令φsafe是系统的安全属性,A是一个接受φsafe所有坏前缀集合的DFA,H是表示系统模型的HMM,监控器M=A⊗H,o1,o2,…,ot,是系统运行时的观测序列.那么在t时刻系统安全性的概率:
(4) 当剩余待选输入变量均与输出响应变量Y不相关时,输出待选变量样本集。
采用基于最大信息系数的变量选择方法对影响脱硫出口SO2浓度的影响因素进行筛选,其中循环浆液综合流量待定系数k设置为0。综合考虑模型精度和模型结构,选取相关性的阈值η为0.1,得到6个输入变量为:吸收塔液位高度、吸收塔浆液密度、石膏浆液pH值、吸收塔入口SO2浓度、循环浆液综合流量、机组负荷。筛选后的输入变量及最大信息系数见表1。
表1 输入变量与最大信息系数Tab.1 Input variable and maximum information coefficient
4 基于MPA-KELM出口SO2浓度预测
4.1 核极限学习机(KELM)
极限学习机算法(ELM)是基于前馈神经网络的新型单隐层算法,具有学习速度快、非线性拟合程度高的特点,进行一步计算得到输出权值,近来被普遍应用于预测模型中[16,17]。
假设N个出口SO2浓度的影响因素作为输入训练集{xi,yi|xi∈Rs,i=1,…,n},其中xi是影响脱硫系统因素的第i个样本的s维输入向量xi=[xi1,…,xis],yi为i个样本的出口SO2浓度。根据极限学习机的定义可知,脱硫出口SO2浓度的预测量为:
(9)
式中:k为隐含层神经元的个数;g(*)为显式激励函数;wj为网络输入神经元与隐含层第j个神经元间的权向量;bj是隐含层第j个神经元的偏置;βj为网络隐含层第j个神经元与输出层神经元间的权值向量。
当ELM的输出预测结果与实际输出误差最小时,达到训练模型的学习目标,其对应的矩阵表达式为:
Hβ=Y
(10)
式中:H是网络隐含层的输出矩阵;Y是出口SO2浓度期望输出。依照最小二乘法对式(10)求解得到网络输出权值矩阵β,表达式为:
β=(HTH)-1HTY
(11)
ELM预测模型在训练过程中会出现波动随机且耗时过久的缺点,引入核极限学习机算法改进ELM,即利用核函数矩阵ΩELM内积的形式确定隐含层映射,在计算过程中隐含层神经元数量不需要人为指定。核极限学习机训练模型结构如图2。
图2 核极限学习机训练模型Fig.2 KELM training model of
首先引入正则化系数C,控制β的取值范围,即用来衡量结构风险与经验风险间的比例,提高模型泛化能力,则β表示为:
β=HT(HTH+I/C)-1Y
(12)
接着采用核函数矩阵ΩELM代替HHT,则有
(13)
最终网络输出预测结果为:
y=f(x)
=h(x)HHT(HTH+I/C)-1Y
=[K(x,x1),…,K(x,xN)](I/C+ΩELM)-1Y
(14)
式中K(xi,xj)为核函数。核函数的存在,将数据投向高维映射空间,有效提高了KELM预测模型的泛化能力和稳定性,加快模型的学习速度,能够在脱硫系统出口SO2浓度预测中具有更精准的预测能力。
4.2 海洋捕食算法
海洋捕食者算法(MPA)是一种新型仿生物智能优化算法,模拟海洋中捕食者与猎物之间的生物行为,捕食者通过在Lévy游走和布朗运动2种方式中选择切换,寻求捕猎最优方式成为顶级捕食者[19]。MPA基本原理描述为:
(1) 初始化阶段。MPA算法随机对搜索空间中的猎物种群位置初始化,数学描述为:
X0=Xmin+rand(Xmax-Xmin)
(15)
式中:Xmax、Xmin分别为海洋生物种群搜索空间的上下界;rand(,)为[0,1]区间内的随机值。
(2) MPA优化阶段。迭代初期捕食者的速度低于猎物速度,捕食者选择布朗运动方式,数学模型描述为:
(16)
式中:Bi为移动步长;RB是布朗运动下满足正态分布的随机向量;Ei为精英矩阵;Pi猎物矩阵;P为常数取值0.5;R为在[0,1]区间内的随机向量;t与tmax为当前以及最大的迭代次数。
优化迭代中期,捕食者与猎物两者速度相当地进行运动,海洋种群被分为相等2个部分,猎物基于Lévy游走的方式负责开发,捕食者选取布朗运动的方式负责探寻。负责开发和探寻的种群行为的数学表达为:
(17)
(18)
(19)
式中:RL为Lévy游走下分布的随机向量;BCF是用来限制捕食者运动步长的一种自适应参数。
优化迭代后期,捕食者速度大于猎物。捕食者选择Lévy游走为最佳策略负责开发,优化捕食过程。该过程数学描述为:
(20)
Pi=Ei+P×BCF⊗Bi
(21)
式中RL点乘精英矩阵模拟Lévy游走。
(3) 鱼类聚集装置(FADs)与涡流效应影响捕食者种群运动。为防止MPA算法优化过程中的早熟收敛,陷入局部最优停滞,提出了算法寻优调节机制,数学描述为:
(22)
式中:pf表示在迭代过程中受鱼类聚集装置所影响的概率,取值为0.2;U为[0,1]区间内的随机生成的二进制向量;r为[0,1]区间内的平均分布随机数值;r1、r2为猎物矩阵的随机指标[20]。
4.3 MPA-KELM预测模型建立
核极限学习机KELM的核函数参数S、正则化系数C决定其学习能力和预测精度,循环浆液综合流量参数k决定循环浆液综合流量与脱硫出口SO2浓度相关性,采用海洋捕食算法对C、S以及循环浆液综合流量参数k进行寻优,提高脱硫出口SO2浓度预测模型效果。在确定模型的输入变量后,建立基于MPA-KELM的脱硫出口SO2浓度预测模型,模型流程图如图3所示。
图3 MPA-KELM预测模型流程图Fig.3 Flow chart of MPA-KELM prediction model
依据图3流程图,建立MPA-KELM脱硫出口浓度预测模型的详细步骤为:
步骤1 初始化,设置MPA的最大迭代次数tmax、最初迭代次数t、种群数量n、受FADs所影响的概率pf、常数P等进行初始化设置,确定KELM预测模型核函数类型为RBF核;
步骤2 定义适应度函数,遍历猎物种群矩阵P,计算每个元素的适应度,得到最优解后构建精英矩阵E;
步骤3 根据FADs效应和旋涡效应更新猎物所处位置,获取最佳捕食者位置,更新精英矩阵,并利用记忆功能存储最优位置;
步骤4 迭代到最大迭代次数后,终止迭代,将精英矩阵确定的参数最优解代入网络训练;
步骤5 将测试样本输入脱硫出口SO2浓度预测模型,得到预测结果并根据评价指标评价模型。
5 实验设计与结果分析
5.1 实验设计
为验证模型的有效性,选取山西某600 MW机组脱硫塔现场运行的稳定工况数据,对数据进行清洗后,得到389组为预测模型训练数据,189组为测试数据。对脱硫出口SO2浓度预测模型进行性能评价时,采用均方误差(MSE)、平均绝对百分比误差(MAPE)2个指标来衡量预测精度:
(23)
(24)
5.2 实验结果与分析
5.2.1 MPA-KELM预测模型实验结果与分析
设定MPA算法n=30,tmax=50,当前最大迭代次数t=0,受鱼类聚集装置所影响的概率pf=0.2、P=0.5。KELM参数[C,S]∈[2-2,220][21],循环浆液综合流量参数k的取值范围设置为[0,0.1]。图4为变量选择后脱硫系统出口SO2浓度预测模型训练样本和测试样本的预测值和实际值曲线。
图4 MPA-KELM模型预测效果图Fig.4 MPA-KELM model prediction effect diagram
由图4可知,在训练样本和测试样本中,MPA-KELM的预测值与实际值基本重合,能够紧密地跟踪实际值的变化,具有较小的偏差。不管是对于训练集的拟合还是对测试集的预测均具有较高的准确度,表明MPA-KELM的预测模型精度较高,其拥有较强的学习能力。
5.2.2 基于MIC的变量选择对结果影响分析
在使用机理分析法对影响出口浓度的变量进行筛选后,冗余变量以及相关性较弱变量的存在仍然使得预测模型的运行时间长、泛化能力差。针对这一问题,采用基于MIC的变量选择算法进一步选择模型输入变量。为验证算法的适用性,将变量选择前与变量选择后的输入变量分别采用MPA-KELM预测模型进行预测,其它参数设置等保持相同,评价指标如表2所示。
由表2可知,变量选择后的预测模型训练样本的评价指标变化不大,测试样本的评价指标有了明显改善:MSE在训练集上增加了0.380 3 mg/m3,测试集上减少了1.219 7 mg/m3,MAPE在训练集上增加了1.741 3%,测试集上减少了2.397 5%。
表2 变量选择前后的评价指标Tab.2 Evaluation indexes before and after variable selection
由于脱硫系统实际运行数据包含噪声信号,在变量选择前对包含无用噪声和冗余信息的变量进行学习,出现过拟合,导致了训练精度高,泛化能力差的现象;在变量选择后剔除了冗余变量,减少了模型可调参数,一定程度抑制噪声的干扰,使得训练集的误差稍有增大。表明在变量选择前,预测模型的学习能力较强,泛化能力较差。基于MIC变量选择算法选择了对脱硫系统出口SO2浓度相关性强且合理的输入变量,精简了模型结构,使得模型预测精度得到提高。
5.2.3 模型对比分析
为进一步探寻MPA-KELM模型的预测特点,分别与核极限学习机(KELM)、麻雀搜索算法(sparrow search algorithm,SSA)优化核极限学习机(SSA-KELM)2种脱硫出口浓度预测模型进行对比。采用试错法在评价指标最佳时获取KELM模型参数取值。为避免实验的偶然性,采用相同的样本集,将麻雀搜索算法与MPA算法的参数设置相同,即n=30,tmax=50。各预测模型对脱硫系统出口浓度数据的训练样本和测试样本的预测曲线见图5,各预测模型测试误差对比见图6。
图5 各预测模型预测效果对比图Fig.5 Comparison of prediction effects of each prediction model
图6 各预测模型测试误差对比图Fig.6 Error comparison diagram of each prediction model
由图5、图6可知,由脱硫出口SO2浓度的实际值与3种模型的预测结果分析,各预测模型的输出均能较好地跟踪实际的变化趋势,但各模型的预测准确度存在不同。由预测模型的结果与实际脱硫出口SO2浓度值的拟合度分析,在训练集上,KELM、SSA-KELM、MPA-KELM这3种模型的拟合度基本相同;在测试集上,3种预测模型对脱硫出口浓度的预测结果与实际结果存在一定偏差。由测试结果看:SSA-KELM的预测结果与实际值偏离程度最大,KELM的预测值基本贴合于实际值,吻合程度优于SSA-KELM;而从训练样本结果和测试样本输出的结果可知,MPA-KELM的预测数据为最佳拟合,且具有稳定性,说明MPA-KELM模型对脱硫出口浓度的预测精度高,性能优越。表3为各模型预测评价指标。
表3 各模型预测评价指标Tab.3 Prediction and evaluation indexes of each model
由表3可知,相较于常规的KELM,MPA-KELIM的MPE在训练集上和测试集上分别减小0.738 2 mg/m3、1.543 3 mg/m3,MAPE分别减小了0.895 1%、1.763%。结合图6预测模型测试误差对比图,表明MPA算法能够对于KELM预测模型的关键参数进行有效寻优,提高模型预测准确度,对于提高脱硫出口预测模型的学习能力和泛化能力具有重要意义。
与SSA-KELM相比,MPA-KELIM的MPE和MAPE在训练集上分别增大了0.641 6 mg/m3、2.326 2%,而在测试集上MPE和MAPE分别减小了4.602 5 mg/m3、3.207 8%。可知SSA算法使得模型的训练精度变高,但模型出现过拟合的问题。上述结果表明MPA能够克服算法寻优过程中的早熟收敛现象,进而拥有良好的寻优特性。
综上,在3个模型比较中,MPA-KELM模型预测的拟合度和稳定性均优于其他2个模型,证明采用MPA算法能够进行有效的寻优,提升脱硫出口浓度预测模型的准确度。
6 结 论
本文提出了基于MIC变量选择和海洋捕食优化核极限学习机的脱硫系统出口SO2浓度预测模型,采用山西某600 MW电厂脱硫现场工况数据对预测模型进行验证,得到以下结论:
(1) 利用基于MIC的变量选择方法选择合适的变量精准描述建模对象,能够有效去除冗余变量以及相关性较弱的变量,提高模型的泛化能力。
(2) 与KELM模型相比,MPA优化KELM预测模型的关键参数,避免了需要假设正则化系数与核参数并不断试验的缺陷。
(3) 与麻雀搜索算法优化的KELM预测模型相比,MPA-KELM预测模型矫正了SAA-KELM模型的过拟合问题,提高预测模型的泛化能力。
(4) 采用基于MIC的变量选择算法,以及MPA优化KELM关键参数能够有效提高KELM预测模型的适用性、稳定性,得到高质量的预测结果,为脱硫系统SO2的现场优化控制提供技术支持。