基于k-NN 算法的钢板性能预测模型的建立与应用
2022-09-26张仁琳
张仁琳
(福建三钢(集团)有限责任公司中板厂,福建 三明 365000)
中厚板是典型的以热轧或控轧状态交付最终用户使用的钢材产品,其产品性能是衡量产品质量的主要依据[1],影响中厚板性能的主要因素是化学成分和生产工艺,研究、开发产品性能预测系统,了解并掌握中厚板化学成分和生产工艺对其性能的影响规律具有重要意义。
研究开发中厚板产品性能预测系统,可以利用现有数据库中的海量数据,结合当今主流的数据挖掘技术,建立基于大数据技术的产品性能预测模型,并开发交互软件,使技术人员能在仿真环境下实现产品性能预测,甚至是新产品性能的预测,这样可以大大提高中厚板工艺控制的准确性和降低新产品研发的周期和成本。k 最邻近(k Nearest Neighbor,简称k-NN)算法是数据挖掘领域常用的机器学习算法,具有简单易用、模型训练时间快、预测效果好、对异常值不敏感等优点,是一种非参的、惰性的算法模型[2-3]。目前还未将k-NN 算法应用于中厚板性能预测上,因此本文利用福建三钢中厚板数据库资料,探索k-NN 算法在中厚板性能预测领域的应用。
1 中厚板生产工艺简述
中厚板生产线从坯料库接收板坯进入加热炉进行加热,加热到轧钢所需温度,出钢后经过粗轧和精轧轧制,然后进行控冷、热矫,送入冷床进行冷却,再根据规格和订单需求进行火切或组合剪(切头剪、圆盘剪、定尺剪)处理。具体工艺流程如图1 所示。
图1 中厚板生产工艺流程
2 中厚板性能的影响因素
2.1 化学成分
化学成分是影响中厚板性能的内因。钢中碳含量的不同,以及合金元素种类和多少的不同,都会使钢板性能产生不同,特别是Nb、V、Ti、Mn 等合金元素能改善钢板的塑性和强度。
2.2 加热工艺
板坯加热温度的上限通常取铁碳相图中固相线以下100~150 ℃,另外从细化晶粒的要求出发,需充分考虑加热温度,不可使加热后的奥氏体晶粒变得粗大及不均。
2.3 轧制工艺
轧钢过程主要通过控制、调整生产条件,包括压缩率、开轧温度、冷却速度、反红温度等,使最终获得的金相组织是细小、有均匀铁素体及片状弥散度大的珠光体组织,从而保证钢板可获得良好的机械性能。
3 基于k-NN 算法的钢板性能预测模型
3.1 k-NN 算法理论
k-NN 算法又称为k 近邻算法或者k 最近邻算法,是数据挖掘领域中基于实例学习的非参数回归预测法,通过搜索训练集数据库中与预测值特征向量最相似的k 个样本来进行分类和预测[4]。如果某一个样本与该训练集空间中k 个最相似(即训练集空间中最近邻)的样本中的绝大多数都属于某一个类别,则该样本也属于这个类别。k-NN 算法采用距离度量的方式判断历史数据与预测值特征向量的近似程度。
k-NN 方法中有三个最基本的要素,即k 值的选取、距离的度量以及分类决策时的规则。本文以曼哈顿距离(Manhattan Distance)作为距离算法,以加权平均值法作为预测值输出算法。
3.2 k-NN 算法预测模型的建立
3.2.1 建立k-NN 模型的训练集
中厚板生产过程中,钢板性能(以屈服强度为例)是一个由多重因素相互影响的复杂过程,影响因素很多,包括化学成分、压缩率、开轧温度、反红温度、冷却速度等。将已有的数据库构建为训练集S(同时作为测试集),S 由i 个样本组成,每个样本由m 个特征向量(输入变量)及输出变量y 构成,其数学表达式为:
3.2.2 建立距离算法
设yp为预测值(输出变量),xp为预测值yp的特征向量,计算特征向量xp与训练集S 中历史特征向量xm的曼哈顿距离dm:
3.2.3 预估钢板性能
基于上述方法,在训练集内寻找出k 个距离最小的样本,k 值采用经验得出。
最后,将k 个样本的属性值采用加权平均值法计算出目标钢板性能的预测值yp:
式中:ωi是第i 个样本的权重。
3.2.4 确定k 值
本文拟定k=2、3、4、5、6 五个值进行了模型训练,最终结果如表1 所示。
表1 模拟训练结果统计
训练结果表明,k=2 时预测误差最小、精度最高。
3.3 中厚板性能预测模型的应用
模型应用包含以下四方面:自动预测,可实现每块钢板在下冷床时的性能值预测;投用情况分析及跟踪,该功能包含投用情况查询和投用情况分钢种查询;手动预测,可以选择已经自动预测完成的钢板,修改特征值后(部分工艺参数,如开轧温度)重新计算,该模块可以感知各个特征对屈服、抗拉、延伸影响的趋势,为轧制工艺的调整提供依据;根据时间段查询各个规格钢种的预测值统计,统计项包含“小于2%”“小于5%”“小于6%”“小于9%”“小于5 MPa”“小于10 MPa”“小于20 MPa”“小于30 MPa”的占比,以便对模型进行优化,同时按钢种生成规格数据分布图。
4 结语
k-NN 算法属于大数据挖掘算法,数据样本的规模越大,其预测结果越科学、准确,基于k-NN 算法的中厚板性能预测模型考虑了中厚板性能影响的多面性和非线性,以中厚板生产的各项指标和成分作为特征向量,以中厚板各项性能指标作为输出向量,是一种多因素的综合模型[5]。本文利用三钢中板厂现有数据库,构建了k-NN 预测模型的训练集和测试集,得出k=2 时模型预测精度较高。此外,将今后的生产数据不断补充到训练集中,以进一步提高模型预测精度。基于k-NN 算法的钢板性能预测模型可实现实时预测,从而指导中厚板生产的工艺调整。