浮选精矿品位软测量模型
2022-10-27宋长春王长煜傅国辉钮展良
宋长春,王长煜,傅国辉,钮展良,张 勇
(1.鞍钢集团矿业有限公司 齐大山选矿厂,辽宁 鞍山 114031;2.辽宁科技大学 电子与信息工程学院,辽宁 鞍山 114051)
我国是铁矿资源大国,但我国的铁矿石存在贫、细、杂等特点,品位普遍偏低。为了满足高炉炼铁对优质炉料的需求,我国大力发展以浮选为代表的选矿技术。精矿品位是浮选工艺的重要控制指标,主要通过加药量来调节,且受浮选生产过程中众多工艺参数的影响。浮选过程是一个典型的非线性、大滞后过程。精矿品位过高虽然会提高产品质量,但一方面会造成药剂浪费,污染环境,另一方面会使尾矿品位升高,造成金属流失;精矿品位过低则会影响产品质量。对精矿品位进行实时监测是保证浮选生产质量的前提条件。精矿品位在线检测仪表价格昂贵,很多进口产品不适应我国的生产条件,设备稳定性差,难以长期稳定工作。目前我国绝大多数选矿厂采用人工化验的方式来检测浮选槽出口精矿品位,难以实施浮选过程的闭环调节。
软测量技术是一种利用工业现场可测辅助工艺变量预测关键工艺变量的数学建模技术。目前国内外对于浮选精矿品位软测量的研究处在一个逐步成熟阶段。Al-Thyabat等[1]使用多层前馈神经网络研究给矿粒度、药剂量和叶轮转速对精矿品位和浮选回收率的影响。涂燕琼等[2]用Jordan网络建立浮现生产指标预测模型。耿增显等[3]采用最小二乘支持向量机建立浮选过程的软测量模型。王介生等[4]提出一种基于自适应神经模糊推理系统的软测量模型。已有研究表明,采用机器学习算法和人工智能技术建立软测量模型的性能优于传统的机理建模和统计学习方法。极限梯度提升(Extreme gradient boosting,XGBoost)算法作为一种新的机器学习算法近年来取得巨大成功,在很多国际大赛中取胜[5],它具有运行速度快、拟合能力强、不易过拟合且泛化能力强等优点,非常适合于用于高维、非线性过程软测量模型的建立。因此,本文采用XGBoost算法建立浮选精矿品位软测量模型,利用蒙特卡洛异常数据诊断方法剔除异常数据,采用主成分分析方法降维处理建模数据,预测精矿品位的变化趋势。
1 总体研究方案
某公司铁矿石浮选主要采用反浮选工艺,浮选的给矿为磁铁矿、赤铁矿和褐铁矿等,脉石矿物主要为石英。浮选作业时,添加pH介质调整剂NaOH、铁矿物抑制剂淀粉、石英活化剂CaO和捕收剂如RA-515等[6]。浮选生产时,首先将矿浆和4种浮选药剂在搅拌槽中充分搅拌,完成矿浆的矿化。矿化好的矿浆进入浮选机,转子旋转将空气吸入矿浆,形成固、液、气三相流体在搅拌力的作用下充分混合,气体形成微细气泡,固体矿粒在搅拌力的作用下撞向气泡,疏水性矿粒被气泡吸附上浮至矿浆表面,形成泡沫层,被刮板刮出,而亲水性的矿粒则留在水中,从而实现有用矿物和脉石矿物的分离[7]。浮选生产分为粗选、精选和扫选,整个过程在多槽浮选系统中完成。其工艺流程如图1所示。
建立浮选精矿品位的软测量模型的总体方案如图2所示。首先对建模数据集采用蒙特卡洛分析法剔除异常数据,再采用主成分分析法(Principal components analysis,PCA)进行数据降维,以提高建模数据质量,化简模型结构。为了提高模型性能,采用一种改进后的粒子群优化算法(Hybrid quantum particle swarm optimization,HQPSO)[8]对模型的超参数进行优化。
2 建模数据采集与处理
2.1 数据采集
为了建立符合现场生产工艺、适用工况范围广的软测量模型,从2021年11月份到3月份,采集某公司浮选厂1 200组各种工况下的生产数据,构成软测量建模的初始数据集。影响精矿品位的12个输入变量分别是:给矿流量、给矿品位、给矿粒度、矿浆浓度、矿浆密度、矿浆pH值、矿浆温度、泡沫层厚度、淀粉流量、NaOH流量、CaO流量、捕收剂流量,数据集的输出变量为精矿品位。
2.2 异常数据剔除
采用基于数据驱动的软测量建模方法,模型的性能与建模数据的质量有关,数据集中的异常数据会导致模型性能下降。这些异常数据可能是由于现场传感器受到干扰或矿浆样品受到污染而产生的,出现概率小,隐藏在正常样本中,难以人工剔除。本文采用蒙特卡洛异常数据诊断方法[9]剔除异常数据,具体步骤:
(1)将初始建模数据集随机分成A(包含90%的数据)和B(包含10%的数据)两部分。
(2)利用数据集A建立多元线性回归模型,对数据集B中的精矿品位进行预测,此过程重复2000次,并记录每个测试样本的预测误差。
(3)计算每个样本预测误差的均值和标准差。
(4)利用3δ准则确定每个样本预测误差的均值方向(x方向)和标准差方向(y方向)的截断阈值。
x和y方向的截断阈值以及正常样本和异常样本均标记在图3中。本文共剔除26条异常样本数据,最后保留1 174条数据作为软测量模型的建模数据。
对于这1 174条建模样本数据,随机选取80%的数据(共939条)作为模型训练数据,其余20%的数据(共235条)作为模型测试数据。
2.3 数据降维处理
降低软测量模型输入数据维数有利于简化模型结构,提高模型的计算速度与预测精度。本文采用PCA对12维模型输入数据进行降维处理,结果如图4所示。当各主成分的累计贡献率大于85%时,PCA的变换结果即可对原始数据向量进行很好的解释[10]。本文前6个主成分的累计贡献率为85.28%,所以选择PCA变换后的前6个主成分作为XGBoost模型的输入,将精矿品位作为模型的输出,建立一个6个输入1个输出的软测量模型。
3 基于HQPSO算法优化的XGBoost模型
XGBoost能使传统的提升树突破自身的计算极限,加快运行速度并获得优良的性能。XGBoost来源于传统梯度提升(Gradient boosting decision tree,GDBT)算法,其输出可以表示为
式中:K为提升树的数目;F表示所有提升树的集合。
XGBoost是一种典型的加法模型,算法在迭代时不断增加树的数量。模型第t次迭代的输出为
XGBoost模型的目标函数定义为
式中:l(·)代表残差函数,残差越小,算法的拟合越好;Ω(·)为正则函数,它与模型的复杂度相关。正则项的加入可以避免算法的过拟合风险。
XGBoost模型超参数的取值范围根据经验设置:学习率η∈[0.01,0.3],惩罚系数γ∈[0.1,0.9],正则系数λ∈[0.1,0.9],每棵树子样本比例Sp∈[0.1,1],每棵树子指标集比例Cp∈[0.1,1],最小节点权重mw为1~15之间的整数,树的最大深度md为4~15之间的整数。
由于参数较多,且这些参数之间存在着耦合,人为确定这些参数难以使模型达到最优状态,因此本文采用HQPSO算法对XGBoost模型的超参数进行优化。HQPSO算法的参数设置:种群规模M=30,最大迭代次数T=1 000,内部参数λ=1,L=10。HQPSO算法的适应度函数定义为模型十折交叉验证决定系数R2
cv10的倒数,其中
式中:ycv(i)为十折交叉验证模型中第i个交叉验证样本的实际输出值;y^cv(i)为第i个交叉验证样本的模型预测输出;-ycv为所有交叉验证样本实际输出的均值;Ncv为参与交叉验证样本的数量。
采用HQPSO算法优化模型超参数的流程如图5所示。优化后获得的模型参数:η=0.021,γ=0.816,λ=0.047,Sp=0.573,Cp=0.793,mw=7,md=5。
应用PCA降维处理后的939条数据建立XGBoost算法软测量模型,所得模型的十折交叉验证精度,拟合精度R2=99.2%。这表明模型具有较强的稳健性和很好的拟合精度。
4 模型性能测试
本文用235条测试数据对模型性能进行测试。将XGBoost模型预测结果与采用孪生支持向量回归机(Twin support vector regression,TSVR)模型[11]和RBF(Radial basis function)神经网络模型预测结果进行对比。
采用HQPSO算法对TSVR和RBF模型的超参数进行优化。TSVR模型超参数:ε1=0.001,ε2=0.003,C1=1,C2=1,δ=0.65。RBF模型超参数:δ1=1.87,ε1=0.005 3。3种模型的预测结果如图6所示,统计信息详见表1,预测结果的相对误差分布详见图7。XGBoost模型的预测性能最好,预测的相对误差分布在[-2.399 6%,2.102 0%]之间,精矿品位的绝对预测误差值在[-1.618 6,1.441 7]之间,模型具有较高的预测精度,且预测结果的R2=84.6%,预测结果的变化趋势能够正确反映实际精矿品位的变化趋势。
表1 各模型预测结果统计信息Tab.1 Statistics of prediction results of each model
5 结论
本文以某公司浮选系统为研究对象,采用XGBoost算法建立精矿品位预测模型。通过蒙特卡洛异常数据分析方法剔除建模样本中的异常数据,提高数据质量;通过PCA变换降低模型输入维数,简化模型结构;通过HQPSO算法对模型的超参数进行优化,提升模型性能。仿真结果表明,基于浮选工艺参数所建立的精矿品位软测量模型具有较强稳健性,模型的预测误差分布在±2.5%之间,且模型预测结果能够正确反映实际精矿品位的变化趋势,为浮选过程的闭环调节奠定基础。