激光诱导击穿光谱技术结合偏最小二乘回归快速预测废钢中8种元素的含量

2022-10-21刘艳丽孙永长安治国石玉龙黄晓红

理化检验-化学分册 2022年10期

刘艳丽 ,孙永长 ,安治国 ,石玉龙 ,黄晓红 ,宋超

(1.河钢集团钢研总院,石家庄 050000;2.华北理工大学人工智能学院,唐山 063210)

以废钢为主要原料的电炉炼钢在钢铁行业绿色发展战略中发挥重要作用。在“碳达峰”和“碳中和”的双碳战略目标部署下,国家对传统工业在环境保护、技术升级等方面提出了更高的要求[1]。废钢成分快检是废钢判别的重要手段,对节约资源与环境保护具有重要作用。相较于传统方法,激光诱导击穿光谱(LIBS)技术不需要复杂的样品制备过程,具有样品破坏小、现场快速分析等明显优势,在冶金[2-4]、食品[5-6]、地质勘探[7-8]等领域研究广泛。近年来,开发适用于工业现场应用的在线、便携仪器装置是LIBS领域的重要发展方向之一。

废钢中的元素组分较多、谱线复杂、干扰较大,采用内标法、自由定标法等单变量分析方法难以满足工业的精确度要求。多变量分析方法能够有效减少基体效应,降低光谱及噪声的干扰,提升预测效果,是提高LIBS精确度的重要手段。文献[9]提取钢铁样品中铁、锰、铬等元素的特征谱线,将其作为输入,建立了神经网络模型,研究了不同输入方式对模型预测准确度的影响。文献[10]选取铅、铜元素光谱中强度较高的波段进行分析,通过主成分分析方法降维,实现了铜合金中铅元素含量的预测。文献[11]采用偏最小二乘法(PLS)结合变量选择法对光谱数据进行筛选,通过建立的模型来定量分析土壤中的铜和镍。鉴于此,本工作采集12个钢铁标准样品的光谱数据,进行光谱预处理后,对碳、硅、锰、钒、钛、铬、镍和铜元素的光谱波段进行筛选,建立了上述8种元素的偏最小二乘回归(PLSR)定量分析模型,通过评价指标对模型进行评估。

1 试验部分

1.1 仪器与试剂

自主研发的便携LIBS废钢成分检测仪,内置基于瑞芯微RK3399 pro的嵌入式LIBS高精度定标分析软件系统、Lapa-80型固体脉冲激光器、AvaSpec-Mini4096CL小型光纤光谱仪2块、高精度光路探头(不共轴光路,最优激光焦点到样品表面距离为2 mm)。

为了提升模型定标精度,参考火花直读光谱定标模型所用的中低合金钢样品范围,选取12个钢铁标准样品,各元素的质量分数见表1;其中,样品1～6为中低合金钢标准样品YSBS23207-97的A1～A6,样品7～12为低合金钢GSB-03-2615的1～6号。

表1 各元素的质量分数Tab.1 Mass fraction of each element %

1.2 仪器工作条件

激光器电压130 V;脉冲频率2 Hz;积分时间1.05 ms,延迟时间1.28μs。

整个光谱的采集和预测全部是在基于C＋＋的嵌入式LIBS高精度分析软件系统中完成的,系统包含光谱数据采集控制、光谱仪多通道数据融合、光谱数据筛选及背景杂光滤波、人机交互控制数据库存储等功能,实现了光谱数据预处理与分析预测一体化。系统加入内标法定标模型,基于反向传播神经网络(BP-ANN)、PLS的定量分析模型和集成学习定性分析模型,能够有效地提取重要光谱数据信息,实现快速、高精密度的定量定性分析。

1.3 试验原理

PLSR由多元线性回归改进得到,集成了主成分分析、典型相关分析和线性回归的优点。对自变量相关性较多、样本数少且具有高维度的数据有良好的求解能力。PLSR建模原理如下:

1)设因变量个数为q,自变量个数为p,共n个样本数据;在自变量数据矩阵X和因变量数据矩阵Y中提取主成分t1和u1,其中t1为自变量的线性组合,u1为因变量的线性组合;提取主成分时,需要t1和u1尽可能多地携带其数据矩阵中的变异信息,并且t1和u1相关程度能够达到最大,使t1和u1有最强的解释能力;

2)经主成分提取后,利用PLS实施X对t1,Y对u1的回归,一般以是否达到一定精密度作为判断结束的条件;若没有达到条件,则利用X被t1解释后的残差信息和Y被u1解释后的残差信息进行主成分提取,直至满足条件;

3)若满足条件结束时X提取了t1,t2,…,t m共m个成分,则实施Y中每一维因变量y k对t1,t2,…,t m的PLSR,转换为y k关于原自变量的回归,完成建模。

1.4 试验方法

以样品1～11建立模型,按比例划分训练集和测试集,以样品12为验证集。为降低试验波动影响,每个样品表面均匀选取20个不同检测位置,每个位置激发50次脉冲,取第10～50次为有效数据,并对每个位置获取的光谱数据进行预处理,具体流程为:k值校验剔除误差较大的数据,对剔除后的数据进行平均,自动校正变化连续背景发射的基线,筛选合并谱线范围,归一化处理等。接着,设定铜、镍、硅、铬、碳、锰、钛、钒的潜变量数为18,24,22,16,9,25,22,14,对各元素筛选出的波段范围内的光谱数据进行建模。

2 结果与讨论

2.1 光谱预处理

2.1.1 基线校正

在激光诱导击穿过程中没有产生有效信号情况下,光谱仪获取到的信号强度理论值应为0,而在实际操作过程中,激光器、光谱仪等仪器设备的运行会产生不可避免的波动,由此带来的噪声会对光谱产生一定影响,导致最终获得的光谱与理论光谱产生偏差。因此,需要对光谱进行基线校正,使其更接近理论状态,减少测量误差。

筛选、剔除光谱数据中的极小值,对剩下的数据进行插值拟合,形成一条完整的基线,最终实现对光谱的基线校正处理。基线校正前后样品3的光谱图见图1。

图1 基线校正前后的光谱图Fig.1 Spectra before and after baseline correction

由图1可知,在不影响光谱信号强度的前提下,光谱基线得到了较好的校正。

2.1.2 光谱筛选与归一化

钢铁样品的LIBS谱线较为复杂,包含了多种元素的光谱信息,若将全光谱作为输入不但会增加数据维度、降低计算效率,还会引入大量与建模元素无关的谱线数据参与运算,降低模型的准确度和预测能力。因此,本工作以美国国家标准与技术研究院(NIST)发射谱线数据库为参考依据,选取包含建模元素较多的波段,合并、筛选出所需的光谱数据,最终选择的建模波段为碳191～196 nm,硅211～213 nm,251～254 nm和287～289 nm,锰256～261 nm和293～295 nm,钒289～293 nm和308～314 nm,钛307～309 nm,323～325 nm,334～339 nm和375～377 nm,铬205～207 nm,266～268 nm和283～286 nm,镍215～223 nm和229～232 nm,铜202～205 nm,211～225 nm和323～328 nm。

在建模前,还需对光谱数据进行归一化处理,一般选用基体元素进行归一化。废钢中的基体元素一般为铁元素,因此选取铁元素谱线作为内标线进行归一化,以降低基体效应产生的影响,增强对应谱线与元素含量的相关性。以距离待测元素谱线较近,且谱峰完整为原则,对内标线进行选取。

以铜元素为例,经光谱筛选和归一化处理后,选取202～205 nm,211～225 nm和323～328 nm波段范围的光谱数据,最终训练集数据矩阵的维数为247×660,输出数据矩阵为247×1,相比于全光谱的7 767维,数据维度仅为原始数据的近1/10,且保留了相关元素的重要波段,在保证高精密度的前提下降低了模型的复杂度,提高了建模速率。

2.2 潜变量数的选择

确定不同元素的输入矩阵后,需要针对不同元素建立PLSR定量分析模型。潜变量数是PLSR建模时需要确定的重要参数,选择合适的潜变量数能够增强模型的适应度及预测性能。试验采用十折交叉验证法对模型参数进行优化,主要流程为:对于每一个潜变量数,将训练集数据平均划分为10段,每次选取不同的9段数据进行建模,剩余数据用于模型验证;以均方根误差(RMSE)作为评估指标,将循环10次得到的RMSE值进行平均,得到当前潜变量数的交叉验证均方根误差(RMSECV),通过对不同潜变量数的RMSECV值进行比较,以最小RMSECV值对应的潜变量数为最优潜变量数。铜、镍、硅、铬、碳、锰、钛、钒的RMSECV值随潜变量数的变化情况如图2所示。

由图2可知,铜、镍、硅、铬、碳、锰、钛和钒的RMSECV值分别在潜变量数为18,24,22,16,9,25,22,14时达到最小,此时RMSECV值分别为0.005 1,0.018 3,0.023 0,0.026 1,0.054 9,0.056 3,0.016 1,0.015 0。因此,选择铜、镍、硅、铬、碳、锰、钛和钒的潜变量数依次为18,24,22,16,9,25,22,14。