APP下载

基于随机森林的汽油精制过程中辛烷值损失模型

2022-05-11

智能计算机与应用 2022年2期
关键词:适应度变量曲线

薛 洁

(北京信息科技大学 经济管理学院, 北京 100192)

0 引 言

近年来,随着汽车尾气污染问题日趋严重,世界各国都制定了严格的汽油质量标准。 为此,中国大力发展以催化裂化为核心的重油轻质化工艺技术,对汽油进行精制处理,以实现汽油清洁化。

经研究发现,辛烷值(RON)作为反映汽油燃烧性能最重要的指标,在实现汽油清洁化的过程中,却不可避免地出现较大的损失值单位。 据统计,RON每降低1 个单位,相当于每吨损失约150 元,这对于一个企业来说,无疑是增加了其生产成本,减少了收益。 以一个100 万吨/年的催化裂化汽油精制装置为例,若能降低0.3 个单位的RON 损失,其经济效益将达到4 500 万元,因此,降低汽油RON 损失具有重要的意义。

本文以某石化企业为例,研究其RON 损失值的诸多问题。 经广泛收集各类相关数据,并进行相应处理,综合运用随机森林、遗传算法等统计知识建立并优化相关问题的损失预测模型,利用SPSS(Statistical Product and Service Solutions)、Matlab(Matrix&laboratory)等软件对汽油精制过程中的RON 损失进行可视化展示及分析,力求降低其损失值15%以上,增加企业效益。

1 主要变量降维

1.1 建模变量命名

为了方便统计与计算,将所需的354 个操作变量以“M+变量编号”命名,如1 号位点氢油比命名为“M1”。 同样,将13 个材料性质以“A+变量编号”命名,如原料的RON 命名为“A2”,依次据此方式对366 个变量进行命名。

1.2 计算相关性矩阵

因样本中存在许多特征相同的变量,冗余程度较高,而相关性较强的变量较多会影响随机森林模型的准确性,使得随机森林的优势被削弱;同时,高相关度的属性会挤占其他属性被选择的机会,导致其他具有不同特征信息的属性无法得到评估,所以在使用随机森林降维之前, 需对相关度较高的变量进行剔除,以此提高随机森林的泛化能力。

计算366 个变量的相关性矩阵,按照相关度矩阵的值进行填色。 如图1 所示, 亮黄色和深蓝色表示变量间存在强相关性,本文定义为相关度大于0.8,对于强相关的变量,保留其一即可,删除冗余变量后,剩余158 个变量,再进行随机森林的构造,进行再一次降维。

图1 366 个变量的相关性矩阵Fig.1 Correlation matrix of 366 variables

1.3 随机森林降维

使用随机森林算法找出剩余158 个变量的统计结果中信息量最大的特征子集,从而进行降维,重复10 次实验,对158 个变量的重要程度求平均值后进行排序,得出前30 个主要变量,如图2 所示。

图2 随机森林算法计算出前30 个主要变量Fig.2 The first 30 main variables calculated by the random forest algorithm

对前30 个主要变量再次进行筛选,本文保留重要性程度在0.1 以上的主要变量,如图2 中的2468, 共13 个变量,而后使用SPSS(Statistical Product and Service Solutions)软件对前6 个变量进行相关性计算,得出表示相关关系强弱情况的皮尔逊相关性与显著性(双尾)计算结果,见表1。

表1 皮尔逊相关性与显著性(双尾)计算结果Tab.1 Pearson correlation and significance (two tailed) calculation results

2 基于随机森林的损失预测模型

2.1 随机森林预测

随机森林是一种分类和预测集成的学习算法,其预测模型对部分变量坏值的容忍度较高,能够更好地利用不同变量与预测值之间的特征信息进行预测。 预测步骤如下:

(1)划分训练集与测试集:对原始样本进行划分,选出训练集与测试集。

(2)训练预测模型:使用带有输出的训练集训练随机森林模型。

(3)对测试集进行测试:删除测试集中的输出结果,将测试集输入模型,得到测试集样本的预测值。

(4)模型评价:对模型预测的误差进行计算,得到更接进于真实值的最佳测量结果。

2.2 建立RON 损失预测模型

首先对样本的366 个变量进行处理,删除冗余变量,保留主要的13 个变量;再将某石化企业的325 个数据样本以6:4 的比例进行划分,随机选出训练集与测试集;构建随机森林模型,以训练集的RON 损失值作为标签,以13 个主要变量作为特征值输入训练模型;最后,将测试集中的13 个变量输入到训练好的模型中,得到测试集样本的预测值,以测试集中预测值与真实值的均方对数误差作为评价指标,对模型预测的误差进行计算。 随机森林模型预测值与真实值曲线对比,如图3 所示。

图3 随机森林模型预测值与真实值曲线对比图Fig.3 Comparison of predicted value and true value curve of random forest model

3 基于遗传算法的优化预测模型

3.1 主要变量操作方案的优化

在13 个主要变量中,除原料的RON 是固定值以外,依次对其他12 个操作变量进行编码,并在不同取值范围内进行限幅。 将最大迭代次数设置为100,将预测样本RON 损失值的倒数作为个体的适应度函数,对325 个数据样本逐一进行交叉、遗传、变异、选择等优化操作;而后运用随机森林预测模型进行封装,但个别样本的适应度在100 次迭代内出现了明显提高,遗传算法100 次迭代适应度变化曲线如图4 所示。 大部分数据无法在迭代内得到优化,效果并不理想,没有产生降幅大于15%的样本。

图4 遗传算法100 次迭代适应度变化曲线Fig.4 The fitness curve of 100 iterations of genetic algorithm

受计算速度和计算时间的限制,无法对全部数据增加优化的迭代次数,因此只能对小部分样本进行再一次优化。 如:对129 号样本在500 次迭代内先后进行2 次优化,迭代适应度变化曲线如图5所示,其RON 损失值由0.9 降低至0.78,降幅为13.3%,依然没有产生降幅超过15%的优化数据。

图5 129 号样本500 次迭代适应度变化曲线Fig.5 The fitness curve of sample No.129 during 500 iterations

对170 号样本在1 000 次迭代内先后进行3 次优化,迭代适应度变化曲线如图6 所示,其RON 损失由0.98 降低至0.81,降幅为17.3%,实现了降幅超过15%的优化目标。

图6 170 号样本1 000 次迭代适应度变化曲线Fig.6 The fitness curve of sample No.170 during 1 000 iterations

3.2 优化预测模型的部分可视化展示

为了工业装置稳定高效运行,优化后的主要变量只能逐步调整到位。 因此,若只改变一种变量,保持其他变量不变,便可得出该变量在优化调整过程中所对应的RON 损失变化轨迹。 以133 号样本为例,其RON 损失变化曲线如图7 所示。

图7 133 号样本的RON 损失变化曲线Fig.7 RON loss curve of sample No.133

4 结束语

本文通过对某石化企业原始数据进行处理,将得到预处理后的数据降维,建立基于随机森林的RON 损失预测模型,对RON 损失及其指标进行预测,通过预测值曲线与真实值曲线的对比,发现其预测结果接近于真实值,说明预测模型有效。

运用遗传算法优化主要变量,经过多次迭代优化后,最终完成了降幅超过15%的优化目标。 本文基于随机森林的汽油精制过程中辛烷值损失模型为中国车用汽油质量升级的关键技术及其深度开发提供了可靠依据。

猜你喜欢

适应度变量曲线
未来访谈:出版的第二增长曲线在哪里?
启发式搜索算法进行乐曲编辑的基本原理分析
基于改进演化算法的自适应医学图像多模态校准
梦寐以求的S曲线
基于人群搜索算法的上市公司的Z—Score模型财务预警研究
分离变量法:常见的通性通法
曲线的华丽赞美诗
不可忽视变量的离散与连续
轻松把握变量之间的关系
数学问答