APP下载

基于RF-PCCs和RBF的焦炭质量预测模型研究

2023-10-18李芹芹宋宝宇庞克亮王越

鞍钢技术 2023年5期
关键词:炼焦特征选择焦炭

李芹芹,宋宝宇,庞克亮,王越

(鞍钢集团北京研究院有限公司,北京 102211)

在高炉炼铁中,焦炭起着骨架的作用[1],且具有不可替代性,而焦炭的机械强度M40和M10以及反应性CRI和反应后强度CSR四项质量指标的好坏反映了焦炭作为骨架的能力高低[2-3],在高炉炼铁过程中如何保证焦炭质量的稳定性是企业面临的重要难题。

目前,常见的用于焦炭质量预测的模型有线性回归模型、支持向量机(Support Vector Manchine,SVM)模型、反向传播(Back Propagation,BP)神经网络模型和径向基函数(Radial Basis Function,RBF)神经网络模型。刘颖义等[4]基于工业焦炉生产数据,建立了焦炭M40和M10与配合煤的煤化度和黏结性的二元线性关系模型;谢海深等[5]采用多元逐步回归方法,成功建立了焦炭CRI和CSR的预测模型,具有较高的预测精度;崔庆安等[6]综合考虑配合煤特性和焦炉加热制度,基于SVM建立了焦炭质量预测方法;Chen&Bai[7]利用 SVM 对传统配煤与煤岩配煤方案进行建模,预测了焦炭的M40、M10、CRI和 CSR;刘春梅[8]首次将 BP 神经网络应用于焦炭质量预测,预测误差在±5%左右;刘有势等[9]利用BP神经网络和粒子群算法建立了焦炭质量预测模型,改善了预测精度,满足了焦化企业的生产需求。本文采用特征选择算法和RBF神经网络建立了焦炭质量预测模型,首先通过对实际生产数据进行数据预处理,并利用随机森林(Random Forest,RF)和皮尔逊相关系数(Pearson Correlation Coefficients,PCCs)算法共同进行特征选择;之后通过试凑法确定RBF神经网络的中心数量,K-均值算法得出RBF神经网络的中心值;最后对模型的结果进行对比分析。

1 RBF神经网络模型

RBF神经网络模型由三层网络结构构成。其中,中间层(隐含层)的作用函数为高斯函数Gi,具体公式如下:

式中,X为训练样本;xi为高斯函数的中心;δi为函数宽度参数;I为隐含层节点数。

式(1)中,xi的值由K-均值算法确定。假设中心数量为 I个,设 xi(n)(i=1,2......I)为第 i个中心第n次迭代时的值,中心值确定方法如下:

(1)初始化中心取值,即随机选取I个不同的样本作为中心 xi(0)(i=1,2......I)。

(2)Xk为随机选择的训练样本。

(3) Xk的最近距离中心 i(Xk)满足

(4)调整函数的中心

式中,ε 为步长,且满足 0<ε<1。

(5)如中心值不再发生太多变化,则结束迭代;否则 n=n+1,返回第(2)步。

函数中心确定后,每个高斯函数采用统一的宽度参数δ值,由如下公式确定:

式中,I为隐藏层节点数;dmax为 xi(i=1,2......I)之间的最大距离。网络输出Y值由如下公式确定:

式中,W为输出层神经网络的权值。

2 焦炭质量预测模型案例研究

2.1 数据来源

针对炼焦配煤生产过程中存在的人工计算强度大、配煤模型精度不佳、配煤效益难以提高等问题,以某钢厂炼焦部2018—2022年炼焦生产过程中配合煤到焦炭的300组数据为基础,进行实验分析,具体见表1。

表1 部分实验数据Table 1 Some Experimental Data

2.2 数据预处理

配合煤性质和炼焦工艺是影响焦炭质量各个指标的重要因素[10]。为此通过将数据进行总体分析,查看数据的维度,对数据进行统计分析;同时,对数据的变化进行可视化,查看数据的异常值、缺失值,并根据数据特点对相关异常值和缺失值进行相应处理,剔除特征值不变的特征。

另外,针对数据具有维度高、各个特征取值跨度大的特点,将数据归一化至0到1之间,归一化公式如下:

图1 数据预处理流程Fig.1 Data Processing Flow

2.3 配煤RF-PCCs特征选择

为降低模型的复杂度,节省模型的训练时间,进一步从现有模型特征中选择重要特征。采用RF和PCCs两种算法进行特征的选择。其中,RF是通过计算所有决策树得到的平均不纯度衰减,并以变量重要性评分VIM作为度量特征重要性指标。由于基尼指数法计算相对快速简单,不采用对数计算,因此本文使用基尼指数值GI作为特征重要性的评价指标,GI值介于-1与1之间。第i棵决策树中节点n的基尼指数值GIin可表示为:

式中,K代表节点n处的K个类别;Pnk代表随机选中的样本在节点n处属于类别K的概率。

在第i棵决策树中,若特征j出现的节点属于集合Q,那么特征j在该决策树的特征节点n处的重要性为:

式中,ΔVIM表示节点n分裂前后的基尼指数变换量;GIl表示节点分裂后新节点的基尼指数。

若随机森林共有t棵树,那么特征变量j在随机森林中的重要性为:

另一方面,PCCs用于计算两个连续变量的相关性,根据PCCs计算公式,两个连续变量j与X之间的相关系数 Pj,X为:

其中,cov(j,X)为变量 j和 X 的协方差;σj、σX分别为特征变量j和目标变量X的标准差;μj、μX分别为变量j和X的期望值。Pj,X的值介于-1与1之间。

在使用RF计算特征的重要性基础上,再利用PCCs进行分析。由于特征的重要性与相关性取值都在-1与1之间,故将二者相加,得到配合煤指标和炼焦过程参数对焦炭质量的影响值,利用影响值对输入特征进行排序,保留排序靠前的特征,适当舍弃排序靠后的特征,从而减少作用不大或无作用的特征数据。特征选择分析结果见表2。

表2 特征选择分析结果Table 2 Analysis Results of Feature Selection

由于排名越靠前,特征的重要性越强,相关性也越强。 因此,选择配合煤的 Ad、Vd、Sd、G 和 Y 作为模型的输入,从而简化RBF神经网络模型的网络结构,提高模型的学习效率。

2.4 仿真分析

对数据进行预处理和特征选择之后,进行模型训练。通过对配煤机理进行研究,焦炭的M40和M10的相关性较强,CRI和CSR的相关性也较强,而M40和M10与CRI和CSR相关性却相对较弱。为此,分别针对M40和M10与CRI和CSR建立两个模型,如图2所示,z1和z2分别为M40和M10或者CRI和CSR。

图2 预测模型结构图Fig.2 Structure Diagram of Prediction Model

为了验证RBF神经网络的性能,将数据按照8:2的比例分割为训练集和测试集,对线性回归、SVM、BP神经网络、RBF神经网络模型分别进行训练,并将训练样本的平均绝对误差MAE作为衡量各个模型预测准确性的指标,具体计算公式如下:

式中,yi为真实值;fi为预测值。模型预测性能比较结果如表3所示。

表3 模型预测性能比较结果Table 3 Comparision Results of Prediction Performance by Model %

由表3可知,相较与另外3个模型,RBF神经网络模型中焦炭各质量指标的MAE值均为最小。这表明RBF模型的预测精度高,可以更好地应用于焦炭质量的预测。

线性回归、SVM、BP神经网络、RBF神经网络模型中,M40、M10、CRI、CSR 四项指标的模型预测值与样本真实值之间绝对误差值的对比如图3~6所示。

图3 M40模型预测绝对误差Fig.3 Absolute Errors by M40Model Prediction

图4 M10模型预测绝对误差Fig.4 Absolute Errors by M10Model Prediction

图5 CRI模型预测绝对误差Fig.5 Absolute Errors by CRI Model Prediction

图6 CSR模型预测绝对误差Fig.6 Absolute Errors by CSR Model Prediction

由图3~6可以看出,与线性回归、SVM、BP神经网络模型相比,RBF神经网络模型具有较小的绝对误差值,预测更准确。

3 结语

在理论和数据表现上对焦炭质量进行了分析。在样本数量有限的情况下,通过与传统机器学习模型进行对比,基于RF-PCCs和RBF神经网络的焦炭质量预测模型预测误差更小,准确率更高,可为炼焦生产提供一定的理论指导。由于炼焦过程复杂,影响因素较多,未来研究重点将结合专家经验、炼焦机理、人工智能及大数据等技术建立更加准确高效的焦炭质量预测模型。

猜你喜欢

炼焦特征选择焦炭
顶装炼焦与捣固炼焦的对比研究
2020年我国累计出口焦炭349万t
浅谈SDS脱硫技术在炼焦工序中的运用
焦炭塔鼓胀变形合于使用评价
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
焦炉捣固炼焦控制系统设计与应用
日本Hypercoal 技术现状及其在炼焦中的应用
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
基于二元搭配词的微博情感特征选择