LIBS与变量选择PLS结合的含油土壤中Cu,Ni定量分析
2020-12-04朱绍农陈雨娟陈非凡
朱绍农,丁 宇*,陈雨娟,邓 凡,陈非凡,严 飞
1. 南京信息工程大学江苏省大数据分析技术重点实验室,江苏 南京 210044 2. 南京信息工程大学江苏省大气环境与装备技术协同创新中心,江苏 南京 210044 3. 南京信息工程大学江苏省气象能源利用与控制工程技术研究中心,江苏 南京 210044
引 言
土壤中各种元素的含量是用来衡量土壤质量的重要指标之一[1],因此,如何高效的掌握土壤中元素含量是农业发展的重要内容。 而在工业飞速发展的大背景下,由于工业“三废”的不合理排放,大量的重金属污染物以不同的形式进入土壤,其中最具代表性的便是工业用油的污染。 近年来,在石油的开采、油品的储存以及运输使用过程中,石油泄漏事故多次发生。 2004年11月18日,陕西延安发生的特大石油泄露事故使得数百亩农田被污染; 2013年11月山东青岛的东黄输油管道原油泄漏并发生了爆炸,不仅使得周边土壤被严重污染,甚至造成了重大的人员伤亡。 含油土壤中的重金属元素不仅会极大地破坏土壤的结构,改变其物理化学性质,还会影响植被的品质,并通过食物链危害人类和动物的生命安全,严重威胁生态环境与人类的食品安全。 因此,检测含油土壤中的重金属浓度及其治理是目前环境保护工作的重点项目。 然而使用传统方法进行土壤中重金属元素的原位分析十分困难,加之不同重金属分析方法存在差异,导致分析过程周期长,成本高,操作工序复杂,不适合大规模使用。
激光诱导击穿光谱(laser induced breakdown spectroscopy, LIBS)是一项近年来发展极为快速的元素分析技术,目前已经广泛应用于化工[2]、食品[3]、生物[4]、考古[5]以及农业[6]等领域。 该技术具有检测速度快、不需要样品预处理等优点[7],因此对于污染场地重金属元素的即时检测以及污染防控的快速反应有着极其重要的意义。 但在实际应用中,由于该项技术是通过获取等离子体发射谱线的强度信息来确定元素的含量,而传统的基本标定法与内标定法均为单变量模型[8],对于自吸收效应,基体效应等干扰无法做到有效的消除,故需要一种准确度更高的方法来满足实际应用的需要。
在定量分析中,偏最小二乘法(partical least-square method, PLS)能够在自变量存在较强相关性的情况下处理光谱,目前已经在铝合金、钢铁、煤炭等材料的LIBS成分检测中得到广泛应用[9-10]。 PLS利用光谱数据作为自变量,被分析元素浓度作为因变量,在一定程度上可以克服传统方法的缺陷。 但由于全谱建模在实验中复杂费时[11],且全光谱常常掺杂着非目标成分的吸收,导致样品光谱与样本组分性质之间的关联性较差,选取全谱作为模型的输入变量,不仅可能会影响光谱的灵敏度,还会影响模型的准确度。 因此,PLS结合变量选择发展出了一些改进的建模方法,这些方法的优势也在不同领域得到了应用[12-13]。
本研究基于LIBS技术对含油土壤中的铜、镍两种重金属污染元素进行分析,建立PLS模型,并将独立的PLS模型与区间变量选择法以及后向区间变量选择法结合,探索对定量分析性能提升的效果。
1 方法
1.1 偏最小二乘法
PLS算法的建模思想主要是从自变量和因变量矩阵中提取第一主成分,并求得协方差,再提取第二主成分,求得协方差,依次迭代,最后根据交叉验证的结果,建立最终的偏最小二乘定量回归预测分析模型。
1.2 区间偏最小二乘法
区间偏最小二乘法(interval partical least-square method, iPLS)是由Norgaard等提出的波段区间选择方法[14]。 其原理主要是将数据集均分成多个同等宽度区间之后,建立每个子区间的PLS模型,再根据各个模型的交叉验证结果优选出最佳的光谱波段。
1.3 后向区间偏最小二乘法
后向区间偏最小二乘法(backward interval partial least-square method, BiPLS)是在iPLS的基础上更进一步提出的算法。 由于iPLS并不能确保选出的一个区间是最适于建模的,故不能排除多个区间建模效果更好的可能。 因此在BiPLS中将会进行多次计算,并依次减少交叉验证表现最差的区间,直到只剩下一个数据区间,进而得出交叉验证结果最小,即预测效果最好的波段集合。
1.4 模型的评价
(1)
(2)
RPD=SD/RMSE
(3)
其中n为校正集和测试集的样品个数,y和y分别为对应的预测值和真实值,SD为样品的标准差。 一般来说,R2越接近于1,RMSE越小,RPD越大,则说明模型的预测能力越好,预测结果的准确度越高。
2 实验部分
2.1 装置
实验装置如图1所示。 激发源采用Q-Switched Nd∶YAG激光器(北京镭宝,Dawa 300),激光波长1 064 nm,工作频率1 Hz,脉冲能量设定为150 mJ。 激光器发出的高能脉冲经反射镜传递至聚焦镜(焦距: 100 mm)后,聚焦在放置于三维样品台上的样品表面。 烧蚀样品产生等离子体,辐射出的光谱信号经光纤探头耦合至光谱仪。 光谱仪为海洋光学MX2500+, 波长范围190~520 nm,光谱分辨率0.07 nm,光谱积分时间设定为1 ms。 为了降低光谱信号产生前期的韧致辐射等影响,将延时时间设定为3 μs。 所有实验均在常温常压下完成。
图1 实验装置图Fig.1 Experimental setup
2.2 样品
实验样品中Cu和Ni的成分如表1所示,由XRF检测获得。 样品1是从受到油污染地区采集的原始样品,其他样品是通过光谱纯试剂配制而成。 为了降低样品不均性对实验结果的影响,所有的样品均在150 ℃的烤箱中烘干6 h,烘干后的样品研磨过200目筛网,最终压制成φ20×1.5 mm的圆片,压力为20 MPa。 光谱信号采集过程中,为了进一步降低激光能量波动等因素对光谱信号的影响,每个样品采集50个点,且每个点是由5发脉冲产生的光谱信号平均所得。 建模时,随机选取了1,3,5,6,7,8,10,11,13,14和15号样品作为校正集,剩余5个样品作为测试集。
表1 样品中Cu和Ni含量(%)Table 1 The Contents list of Cu and Ni (%)
3 结果与讨论
3.1 定性分析
波长和强度是用于定性分析含油土壤中重金属元素的重要信息。 图2为所有样品的光谱信号平均后得到的光谱图,结合NIST数据库可以发现,Cu元素在216.51,324.75和327.39 nm位置的特征线信号较强,Ni元素在338.05和361.49 nm位置特征线信号较强。 但由于土壤成分较为复杂,除了Cu和Ni元素,还有较多其他元素的光谱信号,如K和Ca等。 这些信号的强度以及位置都会对Cu和Ni的谱线造成影响。 因而探得不同的变量选择方法以剔除干扰信号,达到提升定量分析结果的目的。
图2 含油土壤样品典型光谱Fig.2 Typical spectra of soil samples
3.2 不同PLS模型的预测性能
3.2.1 PLS模型预测性能
在PLS建模过程中,潜变量数(LV)的选择尤其重要,若LV太少,会导致光谱中较多信息的丢失,最终导致拟合不充分; 若LV太多,则会导致过拟合现象,最终得到的预测误差会有显著的增大。 本实验中,将通过交叉验证确定两种元素的最佳潜变量。
图3 Cu和Ni元素PLS模型下不同潜变量数对应的RMSECVFig.3 RMSECVs for PLS models with differentpotential variables of Cu and Ni
如图3所示,两种元素对应模型的RMSECV值先随着LV的增加而减小,儿后又随着LV的增加而有所起伏。 当LV为3时,Cu元素的PLS模型有最小的RMSECV; 当LV为2时,Ni元素的PLS模型有最小的RMSECV。 在最佳潜变量下,建立两种重金属元素的全光谱PLS模型,建模预测结果如图4、图5所示。
图4 PLS模型对校正集的预测结果Fig.4 Prediction results of PLS for calibration set
图5 PLS模型对测试集的预测结果Fig.5 Prediction results of PLS for test set
3.2.2 iPLS模型的预测性能
利用iPLS方法,将全光谱波段依次按10~25个区间进行等分,并在每一个区间建立PLS回归模型。 将每次等分所获得的最小RMSECV作为衡量标准。 如表2所示,在铜元素的区间划分过程中,当共划分19个区间时,对应区间9的RMSECV最小,故选择第9区间作为铜元素iPLS建模的输入变量。 对于Ni元素,iPLS筛选结果与Cu一致。
表2 iPLS模型不同区间个数对应Cu的RMSECVTable 2 RMSECVs for iPLS models with differentinterval numbers of Cu
建立两元素的iPLS预测模型,模型的预测结果如图6、图7所示。
图6 iPLS模型对校正集的预测结果Fig.6 Prediction results of iPLS for calibration set
图7 iPLS模型对测试集的预测结果Fig.7 Prediction results of iPLS for test set
3.2.3 BiPLS模型的预测性能
虽然iPLS对数据集进行了一定程度的筛选,但由于其忽略了多区间建模效果更优的可能性,所以可能会丢失一些其他区间的有用信息,因此采用BiPLS再次进行特征变量的提取。 将全谱划分为10~25个子区间,并挑选出最小RMSECV值作为建模的光谱区间集合。 对于Cu元素,结果如表3所示,当所划区间数为21时,RMSECV最小为0.014 3。
表3 BiPLS模型下不同区间个数Cu的RMSECVTable 3 RMSECVs for BiPLS with differentinterval numbers of Cu
将由表3确定的21个子区间进行联合建模,依次剔除RMSECV表现最差的子区间,当剔除掉11个子区间,剩下10个子区间时,RMSECV的表现最好,10个子区间分别为第1,4,6,8,10,12,14,15,19和21区间。 对于Ni元素,BiPLS筛选结果与Cu一致。
利用筛选出的区间分别建立两元素的BiPLS模型并预测,得到两元素预测的结果如图8、图9所示。
3.3 模型预测性能对比
将全光谱PLS,iPLS以及BiPLS三个模型的各项结果进行比较。
图8 BiPLS模型对校正集的预测结果Fig.8 Prediction results of BiPLSfor calibration set
图9 BiPLS模型对测试集的预测结果Fig.9 Prediction results of BiPLS for test set
表4 Cu元素的PLS,iPLS,BiPLS模型结果比较Table 4 Comparison of PLS, iPLS and BiPLS models for Cu element
表5 Ni元素的PLS,iPLS,BiPLS模型结果比较Table 5 Comparison of PLS, iPLS and BiPLS models for Ni element