深度学习聚类算法在炼铁高炉指标聚类中的应用

2022-09-23李军

中国新技术新产品 2022年12期

李军

（上海宝信软件股份有限公司，上海 201203）

0 引言

目前深度学习和聚类分析已经广泛应用于工业生产中，深度学习主要应用于图像识别、语音识别等方面，是生产控制和工艺研究的一个辅助手段。聚类分析作为无监督学习的关键技术也被广泛应用于工业生产，主要是发现数据间内在结构的相关性，完成自主分类。两类技术的集成应用也越来越多，如杨琪设计的DBNOC算法，在工业生产领域也有应用，如赵晶晶等提出一种将深度学习、聚类算法结合用于电网快速分区。

钢铁行业是中国经济高质量发展的重要支撑，如何对钢铁行业进行精准的优化控制以及趋势预测至关重要。钢铁企业生产过程时刻都在产生海量数据，例如炼铁高炉各项指标及工艺参数，这些数据规模大、实时性强、结构多样且维度高，需要及时高效地从中挖掘出关键特征指标，通过聚类生成高炉画像，并通过对标找差的方式实现对高炉生产状况的精准把控。该文借鉴Lim等人的设计思路，采用有监督学习和无监督学习结合的方式，将各高炉指标数据先抽象化为高维空间中的点，再映射到低维流形中进行聚类，解决了聚类过程中由于指标数量庞大且属性分布分散带来的指标权重难以量化分配的问题。

1 算法模型总体流程

高炉指标聚类算法模型以高炉画像中高维数据作为输入，最终输出结果用以支撑高炉对标管理实际应用需要，主要流程包括数据预处理、特征工程、算法建模及训练、模型验证上线及模型自学习等，其总体流程如图1所示。

图1 算法模型总体流程

基于高炉4类高维特征数据，通过构建统计模型生成各高炉个体画像，经过异常数据清洗、数据补全和归一化等预处理后，采用相关性检验、自变量筛选、因变量加工等特征工程算法为深度学习聚类算法建模提供规范化数据；基于历史数据完成模型训练和测试，测试结果达标的纳入模型库管理，并定期导入生产过程中新产生数据，对模型结果进行动态监控，达标则输出到高炉对标应用，未达标则通过自训练控制进入下一次迭代。

2 算法模型设计

2.1 高炉画像

高炉炼铁是钢铁工业降低能源消耗、降低污染排放、控制制造成本的核心工序。基于高炉生产管理系统数据，通过统计模型，建立各高炉个体画像，采集指标包括操作类、排放类、铁水成本类、能耗类等数十个指标。通过高炉画像为每座在役高炉建立档案信息，包括高炉身份ID、炉役、炉龄、炉容、炉缸直径、地理位置、所属基地等，支持炉役、炉龄等属性的自动更新。通过高炉画像，可以支撑实现以下3点。

筛选反映高炉炉况的生产指标和工艺参数，按炉容等级设置评价规则。

根据收集到的高炉实际生产数据，匹配评价规则，形成单高炉、制造基地、公司法人层级的高炉评价报告。

采用多指标、考虑权重，计算高炉综合竞争力分值，综合比较评价各生产基地每座高炉的竞争力。

2.2 特征工程

对高炉画像指标数据进行异常数据清洗、缺失值补充，并使用MinMaxScaler方法进行归一化预处理后，抽象化为高维空间中的数据点。将预处理后的数据使用Pearson相关系数法，保留相关性最强的几个特征，作为模型的输入参数。

2.3 算法建模

该文构建深度学习聚类算法中包括表达空间学习、低维空间聚类以及最优解算法模块三部分，如图2所示，最终将输出每个高炉画像高维原始数据、表达空间低维特征数据、低维特征数据聚类所属族群等三项结果。

图2 深度学习聚类算法流程

算法以经过预处理和特征工程的高炉画像高维原始数据作为输入，通过基于神经网络自编码器的表达空间学习同时输出高炉画像低维特征数据和高维近似数据，使用高斯混合模型（Gaussian Mixture Model，GMM）完成低维特征数据聚类，同时考虑表达空间学习损失和低维空间聚类损失，通过超参数训练求得最优。

表达空间学习部分的核心是神经网络自编码器模型，分为编码器和解码器两个部分。编码器将高维高炉画像数据通过深度神经网络转化为低维表达空间数据，解码器将低维表达空间数据逆转换为高维高炉画像数据。训练后，通过编码器与解码器以后的拟合数据与原始数据误差足够小，表达空间学习完成，其架构图如图3所示。

图3 表达空间学习模型架构

从输入层到隐藏层，神经网络编码器将高炉画像高维原始数据压缩为低维特征数据，从隐藏层到输出层，神经网络解码器再将还原为高维数据，将其作为原始数据的近似表达。在表达空间学习的过程中反复对比与的误差，并进行反向传递，逐步提升神经网络自编码器的准确性，最终得到能够很好地描绘出高炉画像的低维特征数据。

低维空间聚类部分的核心采用GMM聚类模型。将通过上述步骤以后的高维高炉画像数据的结果基于GMM模型进行聚类，根据属于不同簇的概率分布，确定单个高炉数据点的最终簇归属。。

最优解算法模块是综合考量前两个步骤，也就是有监督学习和无监督学习模型的损失函数，建立统一损失函数和最优化模型，并寻找表达空间学习和聚类模型中参数最优解，优化前两个步骤中的模型。统一损失函数定义如公式（1）所示。

式中：和分别代表编码器和解码器函数，x是高炉画像第维特征，（x）是其经过编码后的低维特征表达，（（x））是经过解码的高维近似特征，||x-（（x））||即为表达空间学习损失，C为（x）所属簇k的质心，||（x）-C||即为低维空间聚类损失，是介于0和1之间用于平衡两个损失函数的影响的超参数，模型最优化目标函数为min（）。

2.4 模型训练

数据集选用国内某大型多基地钢铁企业4大类高炉指标数据，其中包括操作类指标，如炉容利用系数、炉缸截面利用系数、煤气利用率、休风率、燃料比、焦比、煤比、富氧率等；排放类指标，如热风炉烟气SO、热风炉烟气NO、炉顶煤气SO和降尘量等；铁水成本类指标，如全成本、变动成本、固定成本、原料成本、燃料成本、能介成本、吨铁折旧等；能耗类指标，如炼铁工序能耗、高炉工序能耗等。

训练集和测试集按照8∶2的比例划分，对每个模型的超参数（如GMM聚类簇数n_components、统一损失函数权重）选择，使用交叉验证，其中验证集合占比1/6。

2.5 性能评估指标

模型整体性能采用统一损失函数和最优化模型进行训练、优化，针对该文设计的基于GMM的低维空间聚类模型，采用CH分数（Calinski Harabasz Score，CHS）和轮廓系数（Silhouette Coefficient，SC）作为其性能评估指标，其中CH分数主要基于簇间协方差与簇内协方差比值计算，其值越大越好，轮廓系数基于每个样本与簇内及簇间其他样本间平均距离计算，其取值为[-1，1]，为1时表示簇内样本紧凑，为0时簇间存在重叠，为-1时则聚类效果差。

2.6 自学习机制

自学习机制由聚类结果监测与自训练模块组成，针对动态变化的高炉指标数据，定时监测聚类模型性能指标，当性能指标显著下降，低于系统设定阈值时，启动自训练模块对模型进行重训练提升模型性能。

3 试验与评估

试验数据集选用该钢铁企业2021年全年7个基地24座高炉指标历史数据，共42万条，每条数据包括基地、炉号以及四大类101项指标数据，对其进行异常数据去除与归一化预处理后，通过表达空间学习模型抽象化为高维空间中的数据点，采用8∶2的比例划分为训练集和测试集。针对训练集，留取1/6的数据作为验证集，用于交叉验证和超参数最优化，迭代试验结果见表1。

表1 性能对比结果

4 高炉对标应用

结合深度学习聚类算法模型最终输出的每个高炉聚类所属族群、高炉综合炉况等信息，通过丰富的图形化方式实现多层级、多维度的高炉生产指标对标功能。对标层级包括单高炉、炉容等级、制造基地、公司法人等。对标的主要指标包括利用系数、截面利用系数、煤气利用率、休风率、冶炼强度、燃料比、焦比、煤比、工序能耗、风温、全焦负荷、矿耗、吨铁耗风、TRT吨铁发电量、富氧率、铁水合格率等。

针对试验所选用的钢铁企业，将高炉聚类生成的4个族群结果应用到高炉对标管理中，按照高炉聚类族群，展示对标对象综合炉况排名结果，刻画出综合炉况的高炉群像，体现高炉与高炉、高炉与高炉群体、高炉群体与高炉群体之间的关系，应用效果图如图4所示。