一种两阶段变量选择的LIBS定量分析方法
2021-05-11郭宇潇史晋芳王慧丽邓承付
郭宇潇,史晋芳,王慧丽,邱 荣,邓承付
(1.西南科技大学制造科学与工程学院 教育部制造过程测试技术重点实验室,四川 绵阳621010; 2.西南科技大学 极端条件物质特性联合实验室,四川 绵阳 621010)
1 引 言
激光诱导击穿光谱是一种原子发射光谱技术,在分析物质成分方面有很大潜力。LIBS定量分析一直是一个研究难题[1],已有研究表明,机器学习方法能显著提升LIBS定量分析效果,例如支持向量回归(Support Vector Regression,SVR)[2-3]、人工神经网络(Artificial Neural Network,ANN)[4-5]、随机森林(Random Forest,RF)[6-7]、偏最小二乘回归(Partial Least Squares Regression,PLSR)[8-9]、最小绝对收敛选择算子(Latest absolute shrink and selection operator,Lasso)[10]等。然而,如何从数以万计的光谱信息中提取有效信息,进行高效的变量选择,是建立高质量定量分析模型的关键[11]。
LIBS定量分析的变量选择方法可以分为两类:(1)基于先验知识的手动变量选择[12];(2)基于机器学习中优化方法的自动变量选择[13]。前者需要一些基体的知识,所选的变量往往包含基体元素的发射线。例如,Sirven[14]在使用LIBS结合ANN分析土壤中Cr的含量时,同时选择了目标元素Cr和基体元素Fe的发射线作为ANN的输入变量。然而,在大部分场景(例如:土壤)先验知识往往难以获得。目前,研究者更致力于探索基于机器学习方法的变量选择。Guezenoc[11]使用LIBS定量分析土壤中的K,采用经典的PLS-VIP进行变量选择,最终建立并比较了3种PLS模型,不过,作者在研究中仍然手动排除了H、Ca的发射线和608~1000 nm波长范围的变量。除此之外,连续投影算法(Successive Projection Algorithm,SPA)[15]、遗传算法(Genetic Algorithm,GA)[16]在LIBS分析中也有应用,但是这些方法的计算量都非常庞大。Duan[15]使用LIBS定量分析土壤中的Cu、Ba、Cr,分别以SPA和GA作为变量选择方法,计算时间分别为7200 s和1200 s。Yan[17]在使用LIBS定量分析煤炭的热值时,提出一种小波变化(Wavelet Transformation,WT)结合平均影响值(Mean Influence Value,MIV)的变量选择方法并取得了较好的结果,不过MIV阈值的不当选择可能导致丢失重要信息。
针对LIBS定量分析的变量选择问题,提出一种结合排序和搜索策略的两阶段变量选择方法,该方法无需先验知识,能自动、快速完成变量选择。将之结合不同机器学习方法,提升LIBS定量分析的精密度和准确度。
2 LIBS实验
2.1 样品制备
LIBS实验以标准土壤样品GBW07387(GSS-31)作为分析物。首先,将10份纯净的、不同质量的(C2H3O2)2Sr混合PE微粉(HDPE,1810)和标准土壤,在玛瑙研钵中均匀研磨,得到10个Sr浓度在110~850 ppm之间的土壤样品。然后,每个样品在20 MPa压力下压成薄片(φ12 mm×2.3 mm)。
如表1所示,根据浓度从高到低,将样品标记为C1~C10。C2和C9作为验证集,其他样品作为定标集。
表1 样品分类
2.2 数据采集
LIBS设备如图1所示。光源为两个调Q Nd-YAG激光器(λ1=355 nm,λ2=1064 nm)。激光器1(Spectral Physics,LAB-190-10)能量为45 mJ,脉冲持续时间10 ns。激光器2(Innolas,Spitlight 600)能量45 mJ,脉冲持续时间7 ns。样品置于X-Y-Z平台(LTB,XYZ-Tish)。两道激光光束通过透镜(focal length=300 mm)汇聚于样品表面2 mm以下。等离子体辐射由透镜(focal length=150mm)聚焦,由光纤采集,用光谱仪(LTB,Aryelle200)进行分析。光谱仪的光谱间隔在193~793 nm之间,分辨率为0.02 nm。延迟由延迟生成器(DG645,stanford)生成。优化实验参数后,将两个激光器的延迟固定为1 μs,将光谱仪采集延迟设定为第二次激光脉冲后3.3 μs,ICCD(Andor,i-star)积分时间为1 s。
在每个样品的表面5×5矩形方阵上一共采集25幅光谱,除去离群值后,10个样品一共获得220幅光谱。由于每一幅光谱有42870个波长,即42870个强度值,可以得到一个光谱矩阵X[220,42870]和标签矩阵y[220,1]。
图1 LIBS原理
3 变量选择方法
在实际测量的光谱中,由LIBS实验得到的光谱矩阵为X[m,n],待测元素浓度矩阵为y[m,1],其中,m为光谱数量,n为一幅光谱拥有的强度值数量。一幅LIBS光谱由大量波长对应不同的强度值构成,一幅光谱可以记为[x1,x2,…,xn]。大多数情况下,待测元素原子发射光谱谱线强度值x与待测元素的浓度y符合塞伯-罗马金(Schiebe-Lomakin)公式:
x=a·yb
(1)
式中,a、b在一定条件下为常数,常数b与谱线的自吸收有关,当谱线自吸收可以被忽略时b=1,此时元素的发射线强度x与该元素的浓度y呈线性关系。
3.1 基于皮尔逊相关系数的排序策略
皮尔逊相关系数r是用于计算两个变量之间线性相关性的统计准则,它可以与实验获得的光谱数量m构成统计量F:
首先,完善集成电路产业的风险投资机制:一方面,由国家在技术创新初期投入一定比例的种子基金,建立风险投资基金,通过风险投资机构以股份的形式向社会公开募集;另一方面,通过税收优惠等政策,吸引国外风险投资基金尤其是跨国公司投资我国的集成电路产业。同时,政府可以设立专项资金,成立集成电路产业风险担保基金,为一些国家战略重点发展的技术项目提供部分的融资担保。
(2)
其中,std( )是标准偏差;cov( )是方差。
通过计算待测元素浓度y与光谱中每个强度变量{xi|xi∈[x1,x2,…,xn]}的F,获得集合[F1,F2,…,Fn]。变量xi的得分Fi越高,则xi与待测元素浓度y之间的线性相关性越强。通过皮尔逊相关系数可以快速得出每个强度变量xi与待测元素浓度y的相关性,变量的排序策略如图2所示。通过变量评价准则F计算每个变量xi的得分Fi,选择前k个得分最高的变量从而快速排除与待测元素浓度y无关、弱相关的变量,并将保留的变量记为S1,S1=[x1,x2,…,xk]。
图2 变量排序过程
3.2 基于近似马尔科夫毯(AMB)的搜索策略
排序策略并不能消除冗余变量,变量集合S1中的冗余变量会干扰机器学习模型的准确度和精密度,本文中使用近似马尔科夫毯消除S1中的冗余变量。
在变量集合U中,对于变量x∈U,变量集合MB∈U(x∉MB),若有:
x⊥U-MB-x|MB
(4)
认为当MB存在时,x对问题没有贡献,可以被删除。由于马尔科夫毯的时间复杂度极高,实际中,近似马尔科夫毯常被用于消除冗余变量。下列条件满足时,变量xi是变量xj的AMB:
(5)
其中,MIC(x,y)表示变量x和变量y的最大信息系数。
图3 变量搜索过程
3.3 基于两阶段变量选择的LIBS定量分析方法
基于两阶段变量选择的LIBS定量分析流程如图4所示。首先通过离散小波变换(Discrete Wavelet Transform,DWT)对原始LIBS光谱进行降噪和去基线,然后通过排序策略得到变量集合S1,之后通过搜索策略得到变量集合S2,最后将S2作为机器学习方法的输入变量,得到土壤中目标元素Sr的浓度预测模型。
图4 基于两阶段变量选择的LIBS定量分析流程
4 数据处理
实验采集的典型LIBS光谱如图5所示,根据NIST数据集,图中标注了Sr I 460.73 nm,小图中的黑线代表原始光谱,红线代表DWT对原始光谱降噪和去基线的效果。
图5 样品C2的平均光谱
4.1 两阶段变量选择
LIBS变量选择由两阶段组成。在第一阶段,通过排序策略从原始光谱X[220,42870]中保留178个与目标元素Sr浓度相关性最大的变量,保留的变量集合记为S1,这个阶段保留的变量数目k一般参考定标集中光谱的数量[18]。在第二阶段,通过搜索策略从S1筛选出14个没有AMB的变量,保留的变量集合记为S2。与S1不同的是,第二阶段保留的变量数目是唯一确定的。图6的(a)和(b)分别显示了S1和S2中的变量。完成变量选择后,光谱矩阵由X[220,42870]变为X[220,14],其中的时间成本为3.75 s。
图6 Wavelengths stored by sorting and searching strategy
4.2 LIBS定量分析模型
以变量集合S2结合SVR、ANN和RF,获得的3种定标模型性能如表2的No.1,2,3所示,定标曲线如图7所示。本文通过绝对系数R2、均方根误差RMSE、相对偏差RE、相对标准偏差RSD来全面评价模型的质量。
就准确度而言,三种模型的R2均高于0.99,REC(RE of Calibration set)和REP(RE of Validation set)均低于5 %,RMSEC和RMSEP均低于22 ppm,表明三种模型都有很好的预测能力。就精密度而言,三种模型的RSD均低于20 %,说明模型对同一样品表面不同位置的光谱预测偏差较小。
图7 以S2为输入变量建立的3个定标模型
将本文提出的变量选择方法与经典的变量选择方法PLS-VIP作比较。在实践中,一般选择VIP值大于1的变量作为机器学习模型的输入变量[11]。通过PLS-VIP方法,从X[220,42870]中筛选出9994个VIP值大于1的变量,将此变量集合记为S3。完成变量选择后,光谱矩阵由X[220,42870]变为X[220,9994]。将S3分别作为ANN、SVR和RF的输入变量,得到的定标模型的性能如表2的No.4,5,6所示。
可以发现,无论是准确度还是精密度,以S2为输入的3种定标模型均优于以S3为输入的3种定标模型。
5 结 论
本文针对LIBS定量分析中的变量选择问题,提出一种两阶段的变量选择方法,并将该方法结合机器学习方法用于土壤中Sr的定量分析。将该方法得到的14个变量集合记为S2,将PLS-VIP方法得到的9994个变量集合记为S3。通过比较分别由S2和S3生成的ANN、SVR、RF发现:以S2生成的模型,R2大于0.99,RE低于5 %,RMSE低于22 ppm,RSD低于20 %,准确度和精密度均优于以S3生成的模型。研究结果证明了该方法的高效性和普适性,在LIBS定量分析中有着重要作用。
表2 分别以S2、S3为输入的SVR、ANN、RF模型的表现