激光诱导击穿光谱(LIBS)结合机器学习算法快速测定石油焦中微量元素

2024-01-13刘一江闫春华李茂刚张天龙汤宏胜

中国无机分析化学 2024年2期

刘一江闫春华李茂刚张天龙汤宏胜李华,

(1.西安石油大学化学化工学院,西安 710065;2.西北大学化学与材料科学学院,合成与天然功能分子教育部重点实验室,西安 710127)

石油焦是由原油中的重质碳氢化合物经高温分解后形成的,在工业中扮演着重要的角色。随着化工市场规模持续扩大,重油加工业的需求急剧增长[1],导致石油焦(作为渣油延迟焦化的重要副产物[2])的产量显著上升。这是一种坚硬而易碎的多孔材料[3],主要由90%～97%的碳和1.5%～8.0%的氢组成,还含有少量的氧、氮、硫和微量金属[4]。2020年,我国石油焦产量达到了2 517万t,消耗量高达3 488万t[5]。目前,大部分石油焦已被广泛应用于石墨生产、电解铝、炼制等化工领域。

石油焦高碳含量、高热值、低灰分和低成本等特性使其成为电解铝工业的重要原料之一[6]。然而石油焦在生产和运输过程中往往会带入微量元素,例如Fe、Cu等。这些微量元素对于阳极的质量乃至电解出的铝都可能会带来危害,它们会增加铝的电阻率,降低铝的机械性能和纯度。尤其是Cu,它的含量每增加0.1%,铝的电阻率就会增加0.4%[7-8]。因此,准确快速地测定石油焦中微量元素的含量在支持降低石油焦中微量元素含量并提高阳极质量方面非常重要。

对石油焦中微量元素的传统测定分析方法包括火焰原子吸收光谱法(Flame atomic absorption spectrometry,FAAS)[9]、原子吸收光谱法(Atomic absorption spectrometry,AAS)[10]、波长色散X射线荧光光谱法(Wavelength dispersive X-ray fluorescence spectrometry,WD-XRF)[11]和电感耦合等离子体原子发射光谱(Inductively coupled plasma atomic emission spectroscopy,ICP-AES)[12]法等。这些方法可以对石油焦中微量元素的含量进行测定,并可以提供极为准确的结果。但它们也有各自的不足。当使用AAS、FAAS和ICP-AES时,需要将石油焦溶解至试剂中进行检测,而溶解方法如高温溶解或微波消解不仅过程复杂、成本高和耗时长,还只能由有经验的分析师在实验室中进行。这样大量的预处理工作还可能导致较大的实验误差。GAZULLA等[13-14]均用WD-XRF方法来确定石油焦样本中微量元素的含量,其测定结果优于美国材料与试验协会的标准ASTM-D 6376,然而石油类产品的组成具有极高的复杂性和差异性,仍能观察到这些因素对该方法产生的干扰。因此,急需一种可快速、准确且无需对样本进行复杂处理的分析方法,以实现样本的无损或微损检测。

激光诱导击穿光谱(LIBS)技术是一种激光作为激发源的全新物质元素分析技术。该技术使用激光脉冲照射待测物体表面,激发样本产生等离子体。通过获取等离子体在产生到消亡过程中发出的光信号得到LIBS光谱,从而进行定性和定量分析。与传统的分析方法相比,激光诱导击穿光谱技术具备以下显著优势:无需繁琐的样本预处理、可实现微损或无损检测、能够进行快速的实时在线分析、适用于恶劣环境,如深空和高辐射区域中的远距离测量以及具备多元素同时分析的能力。这些特点使得LIBS技术在科学研究、工业应用以及其他领域中备受欢迎。因此,LIBS技术已在古董鉴定和评估、土壤重金属分析、冶金过程分析、太空和军事探测、生物医学、爆炸物检测等领域广泛应用[15-20]。

尽管LIBS在元素分析中具有显著的优势,但它仍然面临一些挑战。例如,对于定量分析,需要建立准确的标定方法,以将LIBS光谱与元素浓度相关联。但由于激光能量波动、样本表面不均匀以及外部环境等因素的影响,使得直接定量分析困难。化学计量学方法,如偏最小二乘(PLS)、岭回归(Ridge regression)、随机森林(Random forest,RF)和卷积神经网络(Convolutional neural networks,CNN)等对LIBS光谱数据进行复杂的多元分析,处理噪声、校准光谱信号,并建立精确的浓度模型,帮助识别和定量分析样本中的化学成分。LIBS和化学计量学结合能够更准确和稳定地用于各种定量分析任务[21]。

本文拟探究LIBS技术结合PLS算法用于石油焦中Fe和Cu定量分析的可行性。首先,采集了石油焦实际样本的LIBS光谱,并基于LIBS光谱构建用于石油焦中Fe和Cu定量分析的PLS校正模型。其次,考察了不同光谱预处理方法对PLS校正模型预测性能的影响。然后,在最优的光谱预处理基础上优化并使用变量选择算法建立PLS校正模型。最后,比较基于两种不同变量选择算法的PLS模型的预测性能,并选择最优结果作为石油焦中Fe和Cu定量分析的最优预测模型。

1 实验部分

1.1 样本制备

从某石化公司获得了19个实际的石油焦样本块。首先使用球磨机(南京莱步科技QM-3SP2行星式球磨机)将这些样本研磨成粒径小于75 μm的粉末,并经过74 μm(200目)筛分。然后取出一定量的石油焦样本粉末,在110 ℃下干燥2 h,待冷却至室温后,将每个样本依次称取1.2 g(精确至0.000 1 g)粉末置于离心管中备用。使用压片机(Pinchuang Technology,PC-24)以30 MPa的压力维持5 min,制备Φ20 mm×4 mm的样片。每个石油焦样本制备一个样片。采用ICP-MS对19个石油焦样本中Fe和Cu进行检测,将所测得的真实值作为参考值。石油焦中Fe和Cu的参考值如表1所示。

表1 石油焦样本中Fe和Cu含量的参考值

1.2 光谱采集

使用自行搭建的激光诱导击穿光谱采集装置(图1)进行光谱采集。采用Q-switched Nd:YAG激光器(Dawa300,镭宝光电技术有限公司)作为激发光源,激发波长为1 064 nm,激光脉冲电压为720 V,激光频率为5 Hz。将19个石油焦样本依次放置于三维可调样本台上进行LIBS光谱采集。激光束通过50 mm的透镜聚焦在石油焦样本表面,激发等离子体。与激光束45°的石英准直透镜收集等离子体产生的光谱信号,通过光纤传输至三通道光谱仪(Ocean optics,MX2500,波长200～550 nm),延迟时间为3 μs,门宽为2 ms。在标准大气压下进行光谱信号的采集。为了减少误差,在每个样本上随机选择100个不同的位置进行光谱采集。每个样本获得100条光谱。

图1 激光诱导击穿光谱实验装置示意图Figure 1 Schematic diagram of the laser-induced breakdown spectroscopy experimental setup.

1.3 异常光谱剔除

光谱采集过程中由于基体效应的影响或外部环境等因素的干扰,会导致LIBS光谱异常。这些异常光谱的存在会影响模型的鲁棒性和可靠性,因此剔除异常光谱对于获得高质量的分析结果非常重要。

作为常用的多元统计技术,主成分分析(Principal component analysis,PCA)的优势在于降维、数据可视化和探索多维数据集等。其主要目标是通过线性变换,在新的坐标系中将原始数据投影,从而使得数据的方差最大化,捕捉到数据的主要变化方向。另一方面,马氏距离(Mahalanobis distance,MD)考虑了特征之间的相关性和协方差矩阵,能够更准确地测量多维数据空间中点之间的距离。这使得MD在多变量数据中能够更好地识别离群点。综合使用PCA和MD可以有效剔除异常光谱。将每个样本的光谱数据转换到PCA降维后的特征空间中,通过MD评估数据点与其他数据点的关系是否偏离了正常的数据分布,设定阈值对每个样本的100条光谱进行异常光谱剔除。剔除后,得到剩余光谱的平均值,使每个样本得到1条光谱。19个样本共获得19条光谱。

2 结果与讨论

2.1 LIBS光谱分析

图2为石油焦样本的LIBS光谱图。通过与NIST的光谱数据库对比,对采集到的LIBS光谱进行谱线的识别分析。从图2中可以看出,石油焦的LIBS光谱图中包含了C、Mg、Cu、Fe等元素的特征谱线,其中Fe和Cu的特征谱线主要集中在200～300 nm波段内。为了保证模型的稳定性和普遍性,在建立PLS模型时使用200～500 nm的全波段建模。

图2 石油焦#3样本的LIBS光谱图(a.200～500 nm;b.210～255 nm;c.272～278 nm;d.255～265 nm)Figure 2 LIBS spectrum of petroleum coke #3 samples(a.200—500 nm;b.210—255 nm;c.272—278 nm;d.255—265 nm).

2.2 模型优化

2.2.1 潜变量优化

基于原始光谱(RAW)构建用于化学计量学分析的PLS模型时,正确选择潜变量(Latent variables,LVs)的数量可以确保模型具有良好的预测性能并避免过度拟合。通过留一交叉验证对PLS模型的潜变量个数进行优化。图3为不同潜变量个数对应的交叉验证R2cv和RMSEcv(均方根)值。从图3可以看出,对于Fe,潜变量为7时对应最佳的R2cv和RMSEcv值分别为0.897 2、14.365 0 mg/kg;对于Cu,潜变量为4时对应最佳的R2cv和RMSEcv值分别为0.819 7、9.581 8 mg/kg。

2.2.2 光谱预处理方法选择

由于原始光谱模型获得的交叉验证准确度较低,本节进一步研究不同预处理方法对PLS校正模型预测性能的影响。表2展示了不同光谱预处理方法[归一化(Normalization,Nor)、多元散射校正(Multiple scattering correction,MSC)、标准正态变换(Standard normal variate,SNV)、一阶导数(First derivative,D1st)和二阶导数(Second derivative,D2nd)]对PLS模型预测性能的影响。从表2可以看出,对于Fe,D2nd(平滑点数n=9)对应最优的R2cv和RMSEcv。Fe的R2cv从0.795 8(原始光谱)提升至0.938 0,RMSEcv从25.405 7 mg/kg(原始光谱)降至14.446 5 mg/kg。对于Cu,使用MSC方法时模型预测效果最好,R2cv从0.815 7提升至0.882 8,RMSEcv从12.818 6 mg/kg降至10.361 5 mg/kg。

2.3 变量选择

基于光谱预处理,模型预测性能得到进一步提升,但全谱中仍然包含大量的冗余信息,可能会影响PLS模型的预测性能。因此,分别使用PSO和VIP两种变量选择算法对原始光谱进行筛选,以进一步提升PLS模型的预测性能。

2.3.1 粒子群优化算法(PSO)

首先,基于五折交叉验证对PSO的参数进行优化,发现当粒子群数量为20、迭代次数为200、惯性权重为0.7、学习因子C1和C2均为2时对应最优的性能。表3展示了两种元素在各自最优的光谱预处理方法后再使用PSO进行变量选择的结果。从表3可以看出,对于Fe,使用PSO进行变量选择之后,Fe的R2cv从0.938 0(D2nd)提升至0.964 0,RMSEcv从14.446 5 mg/kg(D2nd)降至10.703 3 mg/kg。对于Cu,R2cv从0.882 8(MSC)提升至0.955 3,RMSEcv从10.361 5 mg/kg(MSC)降至6.330 0 mg/kg。因此,基于最优预处理和PSO构建的PLS校正模型与仅使用光谱预处理方法构建的PLS校正模型相比有较大提升。

表3 基于PSO的PLS校正模型的五折交叉验证结果Table 3 Five fold cross-validation results of PSO-based PLS calibration models

2.3.2 变量重要性投影(VIP)

VIP算法中合适的阈值k的选择有助于降低数据维度,提高模型训练和预测的效率,并减少过拟合的风险。用五折交叉验证对阈值k进行优化,如图4所示。从图4可以看出,Fe的阈值为0.22时模型最佳,Cu的阈值为0.75时模型最佳。基于Fe和Cu两种元素再各自最优光谱预处理和各自最佳阈值VIP的PLS校正模型预测性能结果如表4所示。由表4可知,对于Fe,R2cv为0.966 7,RMSEcv为10.282 1 mg/kg,结果与基于PSO的PLS模型相比有所提升;对于Cu,R2cv为0.911 4,RMSEcv为9.075 7 mg/kg,结果与基于PSO的PLS模型相比却有所下降。由此可知,选择适当的模型和方法非常重要,不同的元素和样品类型可能需要不同的分析策略,这会影响到模型的预测性能。

图4 VIP阈值k优化图(a) Fe;(b) CuFigure 4 Optimization of VIP threshold k(a) Fe;(b) Cu.

表4 基于VIP的PLS校正模型的五折交叉验证结果Table 4 Five fold cross-validation results for VIP-based PLS calibration models

2.4 不同校正模型的预测性能比较

基于最优的光谱预处理和变量选择方法,构建用于石油焦中Fe和Cu元素分析的定量模型对预测集样本进行分析。图5(a)和5(b)展示了Fe和Cu元素各自的校正模型对预测集样本预测结果的线性拟合。从图5可以看出,对于Fe,基于D2nd和VIP的PLS模型预测集R2p为0.863 8,RMSEp为14.507 8 mg/kg,MRE为0.075 8;而对于Cu,基于MSC和PSO的PLS模型预测集R2p为0.926 9,RMSEp为7.650 2 mg/kg,MRE为0.068 7。预测集样本的模型预测值与参考值之间具有良好的线性关系。

图5 变量选择之后的PLS模型预测结果的散点图(a) Fe;(b) CuFigure 5 Scatter plot of PLS model prediction results after feature selection(a) Fe;(b) Cu.

3 结论

利用LIBS结合PLS算法,对石油焦中微量元素Fe和Cu进行定量分析。首先,基于LIBS光谱构建用于石油焦中Fe和Cu定量分析的PLS校正模型并优化潜变量个数。然后,考察了不同光谱预处理以及变量选择算法对PLS校正模型预测性能的影响。研究结果显示,对于Fe基于D2nd和VIP的PLS模型获得了最优的预测结果,R2cv从原始光谱的0.795 8提升至0.966 7,RMSEcv从25.405 7 mg/kg降至10.282 1 mg/kg,预测集R2p为0.863 8,RMSEp为14.507 8 mg/kg;对于Cu,基于MSC和PSO的PLS模型获得了最优的预测结果,R2cv从原始光谱的0.815 7提升至0.955 3,RMSEcv从12.818 6 mg/kg降至6.330 0 mg/kg,预测集R2p为0.926 9,RMSEp为7.650 2 mg/kg。综上,LIBS结合变量重要性投影的PLS模型和粒子群优化的PLS模型具有良好的预测性能,该研究成果可为石油焦中微量元素的快速检测提供理论依据和技术参考。