腔体约束LIBS结合机器学习对土壤重金属元素的定量分析
2022-08-07刘烨坤郝晓剑杨彦伟郝文渊潘保武
刘烨坤, 郝晓剑, 杨彦伟, 郝文渊, 孙 鹏, 潘保武
中北大学电子测试技术重点实验室, 山西 太原 030051
引 言
生态环境保护已经被列为我国最重要的治国理政与发展战略, 而土壤修复是生态环境保护的重中之重。 土壤中重金属元素如钡、 铬、 镍等难以被微生物分解; 随着食物链的传递重金属元素逐渐富集, 有损动植物健康。 因此实现高精度土壤微量重金属元素检测, 对治理我国土壤污染有着重要意义。
激光诱导击穿光谱(laser-induced breakdown spectroscopy, LIBS)技术在近二十年发展迅速, 由于分析速度快且无需对样品预处理的特点, 被广泛应用于多种物理形态样品如: 液体[1-2]、 气体[3-4]、 固体[5-6]的定量定性分析中。 传统LIBS技术存在灵敏度低、 噪声明显、 重复性差等缺点, 从而影响了定量分析的精度。 国内外研究学者提出利用磁场约束[7-8]、 双脉冲激光[9]、 腔体约束[10]等提高光谱强度, 改善LIBS灵敏度低的缺点。 Cui[11]利用long-short double pulse LIBS(DP-LIBS)对钢铁样品中的锰元素定量分析, 结果表明与single-pulse LIBS相比DP-LIBS拟合系数R2从0.810提升到0.988, 平均相对误差从94.9%下降到4.9%。 Akhrar[12]等利用磁场约束LIBS对土壤中重金属元素Cr进行含量检测, 检测限下降为原来的0.42倍。
为了提高LIBS定量分析精度, 李春艳[13]等建立了基于谱线筛选的PLS模型对煤炭灰分进行检测, 以剔除噪声对信息的干扰, 结果表明与传统PLS相比, 基于谱线筛选的PLS对灰分预测精度更高, 其平均误差由2.262%下降至1.972%。 周华茂[14]等建立基于粒子群算法-支持向量机(PSO-SVM)模型对稻壳中Cr元素定量分析, 其测试集RMSE为7.83, 平均绝对误差为4.10%, 预测结果要优于采用联合区间最小二乘法(siPLS)。 Guo[15]等利用偏最小二乘回归(PLSR)和支持向量回归(SVR)对土壤中元素定量分析, 结果表明SVM鲁棒性优于PLSR。 目前腔体约束LIBS结合机器学习对土壤的定量分析还未见报道。
为了提高土壤中微量元素Ni和Ba的检测精度, 分析了传统LIBS与外加腔体约束LIBS条件下, 采集延迟时间对特征谱线强度的影响, 通过信噪比及增强因子确定最佳实验条件。 利用主成分分析算法(principal component analysis, PCA)对采集到的光谱数据进行降维, 采用机器学习中Lasso、 自适应增强(AdaBoost)、 随即森林(random forest, RF)模型对降维后光谱数据分析, 实现Ni和Ba元素高精度定量分析, 并对模型的性能进行评估。
1 实验部分
1.1 仪器
实验用仪器为美国ChemReveal集成式台式激光诱导击穿光谱仪。 该仪器配置的激光器为法国Quantel公司的Nd∶YAG激光器, 波长为1 064 nm, 激光脉冲能量0~200 mJ, 频率1~10 Hz可调。 光谱仪采用Echelle的7通道iCCD高分辨率光谱仪, 探测波长范围为180~980 nm。 实验过程中将直径为5 mm, 高度为4 mm的铝制腔体薄片紧贴于土壤表面, 调节X-Y-Z三维样品台, 使得激光束聚焦在约束腔的圆心, 实验装置如图1所示。
图1 实验装置示意图
实验所用的9种土壤样品来自中国不同省份的标准物质, 为了获取均匀的激光烧蚀土壤样品表面, 分别称取4 g待测样品, 并用台式粉末压片机将土壤粉末压制成直径32 mm, 厚度约为3 mm的圆形土壤压片。 为减小外部环境因素及土壤颗粒大小不均匀等问题对实验结果的影响, 设置激光器脉冲能量为70 mJ, 聚焦后光斑直径为200 μm, 在样本表面选取5个点, 分别对这5个点击打45次, 对获取的光谱数据求平均值, 作为样本的最终光谱数据。 土壤中重金属Ni, Ba元素的含量如表1所示。 随机选择1#, 2#, 4#, 5#, 7#和8#为训练集, 3#, 6#和9#作为测试集。
表1 土壤样品中Ni和Ba元素含量
1.2 方法
首先利用外加腔体约束LIBS提高光谱强度及信噪比, 减少外部环境对光谱仪采样的影响。 之后在Python环境下利用PCA实现特征谱线的降维, 通过协方差矩阵计算主成分贡献率, PCA算法在反映样品信息的同时, 可以有效降低计算成本。 定量分析模型属于机器学习中的有监督学习, 将PCA处理后的土壤数据输入Lasso、 AdaBoost、 RF三个模型中, 对土壤中Ni、 Ba元素进行定量分析。 Lasso回归解决了线性回归出现的过拟合问题, 通过引入正则化L1惩罚项, 解决求解θ中出现的转置不可逆的现象。 AdaBoost是一种迭代算法, 其核心思想是利用不同的弱学习器对同一个训练集进行训练, 之后将弱学习器集合成一个强学习器。 RF是Bagging的扩展变体, 它以决策树构建为基础, 利用集成思想提升单个决策树的性能, 获取比单个模型更好的回归表现。 通过对以上三个模型参数的调节实现土壤中重金属元素的定量分析, 根据模型的相关系数R2, 均方根误差RMSE对模型性能进行评估。
2 结果与讨论
2.1 延迟时间对谱线强度、 信噪比及增强因子的影响
光谱仪采集到的等离子体数目与其设置的延迟时间有关。 设置光谱采集延迟时间在0.5~5 μs之间。 分析LIBS、 外加腔体约束LIBS(cavity confinement LIBS, CC-LIBS)两种条件下Ni Ⅱ 221.648 nm和Ba Ⅱ 495.709 nm谱线强度及信噪比(signal-to-noise ratio, SNR)随延迟时间的变化, 并计算Ni和Ba元素在不同情况下光谱强度的增强因子, 结果如图2, 图3和图4所示。
从图2、 图3可以看到与传统LIBS相比外加腔体约束可以增大特征谱线光谱强度及SNR, 这是由于激光烧蚀样品表面后, 等离子扩散速度要远小于冲击波膨胀速度, 冲击波膨胀过程中碰到腔体壁后向烧蚀点中心反射, 此时对等离子体进行压缩, 增大了等离子的密度, 最终实现光谱强度的增强。 在0.5 μs处光谱仪采集到的等离子体数目最多, 光谱强度最大。 之后随着采集时间的延长, 等离子体数目衰减较多, 谱线强度及SNR同时降低, 并趋于平缓。 从图3可以观察到, 延迟时间在1 μs处腔体约束LIBS条件下Ni和Ba的信噪比达到最大。
图2 Ni, Ba在两种LIBS条件下随延迟时间的强度变化
图3 两种元素在不同条件下的信噪比
为了表征等离子体光谱的增强情况, 计算Ni和Ba元素的增强因子随延迟时间的变化, 如图4所示, 增强因子随延迟时间在1.1~2.4范围内波动, 且当延迟时间为1 μs时, 增强因子达到最大, 分别为2.21和2.36。
图4 Ni和Ba元素的增强因子随延迟时间的变化
结果表明, 腔体约束LIBS不但可以增大光谱强度, 同时可以改善特征谱线的信噪比, 提高LIBS的灵敏度。 因此在后续分析中, 选择外加腔体约束LIBS, 激光能量为70 mJ, 延迟时间为1 μs对样品进行击打, 获取最优条件下的土壤光谱数据。
2.2 PCA降维预处理
光谱仪探测到的光谱范围为190~980 nm, 每组光谱包括12 248个光谱特征变量, 将全光谱数据作为定量分析的输入, 会增加计算机的运算量, 减缓运算速度。 因此在对腔体约束增强得到的光谱数据进行标准化处理后, 利用PCA对数据进行降维, 当选择9个主成分时, 其主成分贡献率分别为0.512, 0.157, 0.134, 0.072 7, 0.031 1, 0.024 2, 0.014, 0.007 3和0.004 4, 方差累计贡献率已达到了95.67%, 可以较好地反映原始土壤样品的信息, 如图5所示。
图5 PCA降维主成分累计贡献图
2.3 定量分析
为了分析土壤中微量金属元素Ni和Ba的含量, 将PCA降维后的光谱数据输入Lasso, AdaBoost和RF模型中进行训练, 训练后的Ni、 Ba元素在三个模型中的预测结果结果如图6, 图7所示。
图6 Ni元素在不同模型下的预测结果
图7 Ba元素在不同模型下的预测结果
综上所述, Lasso模型在对土壤中Ni和Ba元素进行定量分析时, 预测结果较差, 当使用集成学习中的AdaBoost模型对Ni分析时, 效果也不理想, 但在对Ba元素进行定量分析时, AdaBoost模型预测效果得到了提升。 就RF模型而言, 对两种元素都有较好的定量分析结果。
3 结 论
研究了LIBS技术结合腔体约束在不同延迟时间下的特征光谱强度及信噪比的变化, 结果表明腔体约束LIBS可以提高光谱强度及信噪比, 同时在1 μs下元素的信噪比及增强因子达到最大, 因此腔体约束可以提高LIBS灵敏度。 利用机器学习中Lasso, AdaBoost, RF模型对土壤中Ni和Ba元素进行定量分析, RF的预测效果最优, 此时Ni和Ba元素在预测集中的拟合系数R2分别为0.937, 0.886, RMSEP分别为3.037, 90.515。