APP下载

多元素LIBS分析的标准化交叉验证及其优化

2020-02-25钟奇秀赵天卓连富强聂树真孙思宁樊仲维

光谱学与光谱分析 2020年2期
关键词:定标跨度准确度

钟奇秀, 赵天卓*, 李 欣, 连富强, 肖 红,聂树真, 孙思宁, 樊仲维

1. 中国科学院空天信息创新研究院, 北京 100094 2. 中国科学院大学光电学院, 北京 100049 3. 国家半导体泵浦激光工程技术研究中心, 北京 100094 4. 北京国科世纪激光技术有限公司, 北京 102211

引 言

激光诱导击穿光谱由于无需样品预处理, 检测速度快, 且能够实现多元素实时在线检测, 已在工业生产、 环境监测、 食品安全、 垃圾回收等多个领域得到广泛应用[1-7]。 交叉验证的基本思想是通过对样本进行多次划分, 每次将部分样本用于训练模型, 而剩余样本用于测试模型, 直至将所有样本既用作训练, 又用作测试, 再将所有结果合并用于估计泛化误差[8]。 近年来, 交叉验证在激光诱导击穿光谱(laser-induced breakdown spectroscopy, LIBS)定量分析领域已有所应用, 并取得良好效果。 Labutin[9]等对碳锰钢中的C进行了检测, 并使用主成分回归方法进行定量分析, 主成分个数为4时, 对C的交叉验证均方根误差(root mean square error of cross-validation, RMSECV)为0.045%。 Cama-Moncunill等[10]利用偏最小二乘算法对奶粉中的Ca进行定量分析, 并分别对定标模型进行交叉验证与外部验证, 对Ca的RMSECV为0.062%, 外部验证均方根误差为0.068%。 谷艳红等利用偏最小二乘算法对钢合金中的Ni和Cr进行定量分析, 对两种元素的平均预测相对误差分别为6.349%与5.940%。 陈添兵等[11]先使用多元散射校正方法对猪肉的LIBS光谱进行预处理, 再对其中的Pb进行定量分析, 其RMSECV为0.302%。

进行交叉验证时通常使用各元素的RMSECV均值来评价对多元素的分析准确度, 但将LIBS用于多元素分析时, 不同元素的RMSECV大小存在较大差异, 导致以RMSECV均值为评价指标进行数据优化时, 容易淹没某些RMSECV较小元素的分析准确度的变化趋势。 另外, 人们往往通过重复测量以期减小随机误差。 但是, 重复测量过程中受测量条件波动等不确定因素的影响, 会引入异常光谱, 对分析准确度会产生负面影响。

本文提出了多元素的RMSECV标准化方法, 并引入标准化交叉验证均方根误差(standardized root mean square error of cross-validation, SRMSECV)的概念, 可有效缩小元素间RMSECV的差异, 更全面地表征多元素的分析准确度, 从而在数据优化过程中体现多数元素的分析准确度的变化趋势。 此外, 通过光谱面积筛选, 有效滤除LIBS检测中存在的异常光谱, 并使各元素的定标模型的决定系数(coefficient of determination,R2)均值与SRMSECV均值都得到一定程度改善。

1 实验部分

对10块Ni基标样进行了检测气压维持在0.5 Pa左右。 所使用的Nd∶YAG激发光源(GKNQL-1064-10, 北京国科世纪激光), 输出波长为1 064 nm, 脉冲能量为55 mJ, 脉宽为20 ns, 重复频率为5 Hz。 调焦系统将激光与等离子信号探测系统的焦点汇聚于一点, 并具有同步变焦功能, 实验中输出镜至样品表面距离固定为1.8 m。 四通道型光纤光谱仪(AvaSpec-Desktop, Avantes)波长范围为190~557 nm, 分辨率为0.04 nm, 受激光器触发, 积分时间为1.05 ms, 积分延迟为0.6 μs。 实验对每块样品均进行500个脉冲的测试, 为减小光谱仪的读数误差, 每累计50个脉冲输出一幅光谱, 输出结果为50次测试的均值, 即对每个样品共获得10幅经平均的光谱。

图1 实验装置示意图

实验样品集由10块Ni基合金(安泰科技)组成, 表1给出了各元素在其中的浓度范围。

表1 样品集中各元素的浓度范围(Wt%)

2 各元素定标模型及分析准确度

先利用多谱线内标法根据10块Ni基样品的光谱信息构建定标模型, 并选出各元素R2较高的一定数量的特征谱线对, 继而通过留一交叉验证对各定标模型的性能进行测试, 最终选用各元素RMSECV最低的定标模型。

进行交叉验证时, 常使用RMSECV来表征定标模型的好坏, RMSECV越小表明定标模型对测试集样品中的元素含量的分析准确度越高, 其计算公式如式(1)

(1)

使用多谱线内标法构建的各元素定标模型所选用的分析线组与内标线组如表2所示, 其中内标元素均选用基体元素Ni, 各定标模型的R2与RMSECV如表3所示。

3 SRMSECV定义及分析准确度表征

进行交叉验证时, 通常根据RMSECV的大小来估计定标模型的泛化误差。 但是, 多谱线内标法构建的定标模型的RMSECV的元素间差异较大, 实验中C与Cr的差异高至8.96倍, 导致RMSECV均值无法较全面地表征多元素的分析准确度。 因此, 将RMSECV均值选为数据优化的评价指标时, 可能不能反映大多数元素的分析准确度的变化趋势。

表2 各元素定标模型所选用的分析线组与内标线组

表3 各元素定标模型的R2与RMSECV

本文发现, 不同元素在样品集中浓度范围的差异是造成元素间RMSECV差异的重要因素。 利用多谱线内标法构造定标模型, 即是利用最小二乘法对某元素的特征谱线对的强度与其在样品中的浓度进行拟合。 当样品中某元素浓度等于该元素在样品集中的浓度均值时, 对浓度的回归值等于基准值, 定标模型在理论上对该元素浓度的预测偏差为0; 浓度偏离浓度均值越大, 回归值与基准值的偏差越大, 预测偏差也越大。 为证明RMSECV与浓度范围间的相关性, 使用最小二乘法对其进行拟合验证, 结果表明RMSECV与浓度范围间可近似用线性关系表述, 其R2为0.7327, 如图2所示。

图2 RMSECV与元素浓度范围的线性最小二乘法关系曲线

为此, 提出标准化交叉验证均方根误差(SRMSECV), 其计算公式由式(2)给出

(2)

式中,CS为某元素在样品集中的浓度跨度, 其他参数的定义在介绍RMSECV时已给出。 由于RMSECV的单位与浓度跨度相同, SRMSECV是无量纲参数。 图3给出了各元素标准化前后的RMSECV, 由于RMSECV与浓度跨度具有较高的线性相关性, 标准化后各元素RMSECV的相对标准差(relative standard deviation, RSD)由68.7%降至48.9%, 其均值对不同元素的灵敏度差异显著减小, 元素间的RMSECV最大差异由8.96倍降至3.93倍。

图3 各元素的RMSECV及SRMSECV

RMSECV均值对于个别元素过于灵敏, 在数据优化过程中, 可能导致其无法反映大多数元素分析准确度的变化趋势。 以各样品的光谱面积中位数(后文统称S)为中心, 在(0.977 5S, 1.022 5S)区间进行光谱面积筛选时, 各元素定标模型的RMSECV与SRMSECV如表4所示。

经过光谱面积筛选, 14种元素中, 虽然有11种元素的RMSECV减小, 但由于Mo元素的RMSECV本身较大, 且在面积筛选后出现较明显的恶化, 导致各元素的RMSECV均值由0.145 8%增大至0.148 2%, 掩盖了多数元素RMSECV减小的趋势。 若改用SRMSECV来表征分析准确度, 则各元素的SRMSECV均值由面积筛选前的0.108 6减小至0.108 3, 多数元素RMSECV减小的趋势得以体现。 这表明, 相较于RMSECV均值, SRMSECV均值能够更全面地表征多元素分析准确度, 更有利于实现定标曲线的全自动优化。

表4 光谱面积筛选区间(0.977 5S, 1.022 5S)下各元素定标模型的RMSECV与SRMSECV

Table 4 RMSECV and SRMSECV of each element under the spectral area screening interval(0.977 5S, 1.022 5S)

评价指标RMSECV/(Wt%)SRMSECV评价指标RMSECV/(Wt%)SRMSECVTi0.121 70.064 2Nb0.177 50.074 9Cr0.328 10.061 4W0.229 80.201 6Mn0.050 40.058 6Al0.279 40.069 3V0.061 60.051 3Si0.073 60.099 4Fe0.101 10.114 7C0.035 90.189 1Co0.095 00.082 4Zr0.037 10.123 9Mo0.341 60.133 9Cu0.141 30.190 7

4 不同光谱面积跨度区间的SRMSECV变化规律

光谱面积筛选, 即是根据同一样品的各张等离子光谱的谱图信息选定某一数值, 如光谱面积的均值、 中位数、 中间值等, 并以此数值为中心, 选定某一光谱面积区间, 舍弃面积在该区间之外的光谱, 使用余下光谱进行定量分析。 LIBS检测中往往存在异常光谱, 其特征之一是面积较正常光谱偏大或偏小。 同一样品下只有10张光谱且当中存在异常光谱时, 均值光谱会包含异常光谱信息, 而中位数光谱往往由正常光谱平均而成, 故将光谱面积中位数S选作筛选中心。

多元素分析准确度可由各元素定标模型的R2均值与SRMSECV均值体现。 为研究筛选区间跨度对R2均值与SRMSECV均值的影响, 分别在6个跨度不同的区间下进行光谱面积筛选, 并利用多谱线内标法对筛选剩余的光谱进行定量分析, 结果如图4所示。

图4 R2均值与SRMSECV均值随筛选区间跨度的变化规律

Fig.4 The variation of the averageR2and the average SRMSECV with the span of the screening interval

未经光谱面积筛选时, 各元素定标模型的R2均值为0.950 4, SRMSECV均值为0.108 6。 随着筛选跨度逐渐缩小,R2均值呈现先增大后减小的趋势, 而SRMSECV均值则呈现先减小后增大的趋势。

出现这种现象, 是由于构建定标模型时, 各样品的所有光谱共同组成样本, 而各样本点则由单个样品的各幅光谱组成。 各样本点均存在两类误差, 一类是随机误差, 由光谱仪基底噪声、 烧蚀面形貌等因素引入, 另一类则是粗大误差, 由测量条件波动(如激光脉冲能量, 振动)等因素引入。 随机误差广泛存在于各张光谱中, 而异常光谱中既包含随机误差, 也包含粗大误差。 采样次数较多时, 各张光谱所组成整体的随机误差趋向于0, 且异常光谱较集中地分布于光谱面积分布区间的两端。 筛选跨度本身较宽时, 缩小筛选跨度能够有效滤去异常光谱, 从而减小粗大误差。 然而, 光谱面积筛选在滤去异常光谱时, 变相减少了采样次数, 致使筛选剩余光谱组成整体的随机误差增大。 当筛选跨度减小到一定程度时, 面积筛选减小粗大误差的效果已不明显, 而随机误差随着光谱张数减少逐渐增大, 导致分析准确度反而下降。

表5给出的是在优化筛选跨度下, 进行光谱面积筛选所获得的各元素定标模型的R2与SRMSECV。

表5 (0.974 7S, 1.025 3S)跨度下各元素定标模型的R2与SRMSECV

Table 5 TheR2and SRMSECV of each element under the spectral area screening interval (0.974 7 S, 1.025 3 S)

评价指标R2SRMSECV评价指标R2SRMSECVTi0.990 00.064 3Nb0.992 40.071 3Cr0.993 10.060 6W0.870 70.200 5Mn0.995 60.058 4Al0.977 50.069 8V0.992 70.049 6Si0.963 30.104 4Fe0.929 30.112 7C0.882 80.191 8Co0.982 50.079 0Zr0.947 70.126 0Mo0.958 20.111 7Cu0.858 50.188 9

经过光谱面积筛选, 14种分析元素中, 有10种元素定标模型的R2得到优化,R2均值由0.950 4升至0.952 5; 有11种元素定标模型的SRMSECV得到优化, SRMSECV均值由0.108 6降至0.106 4。 可见, 在合适的筛选跨度下进行光谱面积筛选, 可在一定程度上提高LIBS的多元素分析准确度。

5 结 论

通过对RMSECV进行标准化, 可有效减小元素间的RMSECV差异, 与RMSECV均值相比, SRMSECV均值能够更全面表征多元素的分析准确度, 将后者作为评价指标进行数据优化时, 能够体现多数元素分析准确度的变化趋势。 在0.5 Pa真空下, 对10块Ni基标样进行了检测, 使用光谱面积筛选进行预处理后, 利用多谱线内标法对其中的14种元素成分进行了定量分析。 在优化光谱面积筛选跨度下, 各元素定标模型的R2均值与SRMSECV均值都得到一定程度改善。

猜你喜欢

定标跨度准确度
缓粘结预应力技术在大跨度梁中的应用
我国为世界大豆精准选种“定标”
大跨度连续钢箱梁桥设计研究分析
基于恒星的电离层成像仪在轨几何定标
大跨度连续刚构桥线形控制分析
Phosphatidylinositol-3,4,5-trisphosphate dependent Rac exchange factor 1 is a diagnostic and prognostic biomarker for hepatocellular carcinoma
幕墙用挂件安装准确度控制技术
基于子空间正交的阵列干涉SAR系统相位中心位置定标方法
动态汽车衡准确度等级的现实意义
大跨度高速铁路桥梁健康监测系统研发