APP下载

丹江口库区土壤镍含量高光谱反演方法

2021-07-15傅邦杰牛瑞卿王春胜

遥感信息 2021年3期
关键词:丹江口库区反演

傅邦杰,牛瑞卿,王春胜

(中国地质大学(武汉) 地球物理与空间信息学院,武汉 430074)

0 引言

土壤是地球上所有生命生存与发展的重要基础,它不仅孕育了动植物与微生物,同时也是人类社会发展的基石[1]。城市化进程加快,土地资源不断被开发利用、大量物质资料被生产的同时,还伴随着废水废渣的产生。这些废料往往含有过量的重金属,且无法被快速降解。由于人们环境保护意识薄弱,这些化工废气废水、生活废料和污水大多被直接排入地下,使重金属在土壤中的富集程度不断加深。土壤重金属含量过高,会直接或间接地影响地球上动植物的生长,同时会导致环境污染问题的产生。金属镍是重金属的一种,土壤中镍含量过高会破坏植物的防御系统,对植物幼苗产生明显的抑制作用,进而导致植物的总生物量降低[2]。另一方面,镍元素被农作物吸收之后,在食物链的作用之下容易被人体吸收,并在人体各器官中积累。人体内镍元素积累过高,会导致皮肤炎、胃肠炎并诱发呼吸道癌症,甚至可能导致白血病[3-4]。因此,准确获取土壤中的镍含量信息,加强土壤环境的科学监测与管理,对于环境保护与人类社会的可持续发展具有重要意义。

现阶段,在土壤组分检测方法方面,以主流的实验室化学检测为主,精度高的优势得到了广泛的肯定,但是其耗费大量人力、物力、时间等缺点也必须得到重视[5]。高光谱遥感技术自发展以来,其技术发展不断成熟,在各个领域应用广泛[6],尤其在土壤成分分析方面表现出较强的适用性,使得利用高光谱技术快速监测土壤重金属含量成为可能。李琼琼等[7]构建了上海闵行居民区土壤重金属Cu、Pb、Zn元素多元线性逐步回归模型,所建模型的决定系数R2位于0.43~0.68之间。赵理等[8]基于土壤汞含量相关的光谱指标构建了华南地区土壤高光谱线性估算模型,最优模型的R2为0.60。Lu等[9]建立了喀斯特地区Cr、Cu、Ni、Pb元素的高光谱反演模型,研究发现,镍离子受黏土矿物的吸附作用影响,其响应波段主要位于黏土矿物相关的吸收带内。童伟等[10]以野外采集土壤样品中的重金属含量建立偏最小二乘回归模型,结果表明,镍元素含量的最优建模R2为0.71。Liu等[11]建立了陕西关中地区九种重金属元素的回归模型,其中镍估测模型的R2为0.687。在目前已有的研究中,土壤重金属含量的线性建模精度都不是很理想,而建模精度是定量遥感需要解决的重要问题之一。当线性统计模型不能很好地解释光谱特征与重金属含量的复杂关系时,非线性模型的引入可能为该问题的解决提供思路。本文以丹江口库区内55个土壤样品的高光谱特征和镍元素含量为研究对象,在土壤原始光谱及光谱微分变换基础上,根据最大正相关性和最小负相关性对光谱特征进行筛选,在光谱特征的基础上构建并对比分析土壤镍含量随机森林模型(random forest regression,RFR)和极端梯度提升树模型(extreme gradient boosting regression,XGBR)的差异,以期为快速、准确利用高光谱技术反演丹江口库区土壤中其他重金属含量提供思路。

1 数据和预处理

1.1 研究区概况与样品采集

丹江口库区位于陕、鄂、豫3个省的交界,介于109°62′E~111°73′E,32°26′N~34°22′N之间。该区地处亚热带半湿润季风气候区,日照充足,降雨充沛,非常适合农业的发展。该区亦是南水北调工程中段的水源地,拥有重要的社会功能。然而近年来,库区的土壤环境受到了一定程度的破坏。一方面,生活污水和矿山废弃物的乱排乱放导致了区域土壤中重金属含量累积现象加重;另一方面,库区所在流域长期存在较为明显的水土流失现象,为重金属元素迁移提供了通道。因此,快速监测土壤重金属含量对保护库区水源地的土壤环境意义重大。

在丹江口库区范围内,随机采取具代表性的土壤样品55个,采样深度为10~15 cm,去除植物根系。采集的土壤样品均匀散布于研究区内,且尽可能分布在矿区、工厂、垃圾处理厂等高污染区域。土壤样品带回实验室后,经室内风干、研磨过筛,密封保存待测。

1.2 土壤镍含量测定

X射线荧光光谱法在样本无损检测方面应用广泛,作为一种成熟的分析方法,其原理为利用X射线对样品进行照射,使样品产生荧光,然后仪器再对二次特征的射线能量、频率等进行记录,最后进行定量的分析[12]。测试过程中,将样品展开压平后用X射线荧光光谱仪均匀测定,平均测量时间60 s,测试五次取均值,作为每个土壤样本的平均镍含量,单位是mg/kg。

土壤镍含量统计结果如表1所示。样本镍含量在41.0~328.0 mg·kg-1范围内分布不均,表明丹江口库区不同区域的镍含量累积差异显著。这种差异主要受区域本底值和人工扰动的影响。所有样本的平均镍含量为121.8 mg·kg-1,超过库区一级土壤环境质量标准值2.05倍,表明库区内土壤镍含量存在明显积累。变异系数常用于表示样本间的平均离散程度,变异系数≤10%为弱变异,10%~100%为中等变异,≥100%为高度变异[13]。由表1可知,镍元素含量变异系数达到45.89%,属于中等变异,在一定程度上反映了样本镍含量的离散水平中等,同时为基于高光谱分析的样本镍含量的可分性提供了基础。

表1 土壤镍含量统计特征分析

1.3 土壤光谱测定

土壤光谱采用Field Spec Pro JR地物光谱仪进行测定,测试前对样本做压平处理,测试工作在暗箱内完成。测试过程中,单个样品采集五条光谱曲线,取平均值作为样品的实际光谱反射率,输出光谱范围为350~2 500 nm[14]。

不同土壤样品的光谱曲线如图1所示。不同样本的光谱曲线形态较为相似,差异主要出现在反射峰和吸收谷的位置。由于重金属含量会影响土壤吸附物在不同波长下的反射性质,不同样本反射峰和吸收谷的反射率值略有不同。350~700 nm光谱反射率迅速升高,样本间光谱重叠效应明显,光谱可分性较差;800 nm后,反射率缓慢升高;光谱曲线在850 nm附近受土壤有机质C-H吸收带的影响,出现吸收谷;在1 400 nm、1 900~2 000 nm、2 200 nm附近存在黏土矿物羟基吸收带;2 200 nm后,光谱反射率逐渐下降。

图1 土壤光谱曲线

1.4 光谱变换

(1)

式中:R(λi)′为波段i处的一阶微分数值;R(λi+1)和R(λi-1)分别为波段i处前后各一个步长单位的光谱反射率值;Δλ为相邻波段的步长,为1 nm。

2 研究方法

2.1 相关性分析

图2 相关系数曲线

表2 光谱特征及相关系数

2.2 建模估测方法

RFR是由一系列基础评估模型集成而来的模型,其基础评估模型为决策树模型[18]。基于决策树的树形结构,决策树的非叶子节点均是与特征属性相关的测试,每次经过特征属性的测试,决策树会产生多个分支,而决策树上每个叶子节点则用来表达连续的输出结果。每次抽取部分特征来建立评估器,使得迭代产生的决策树相互独立且不重复,同时综合考虑多个决策树的预测来产生最后的结果,使得数据噪声、特征共线性和离群点对算法性能的扰动作用最小化,以最大程度提高模型稳定性,是随机森林算法的主要思路。

XGBR也是由一系列基础评估模型集成而来的模型。与随机森林并行训练基础评估模型的方式不同,极限梯度提升算法采取基础评估模型串行训练模式[19]。极限梯度提升树每次迭代产生的决策树旨在拟合之前建立的若干决策树的残差,从而达到损失下降的目的,最终构成由众多基础评估模型集成的强评估器。

影响土壤光谱的要素众多且影响程度不一,简单的线性回归无法解释光谱特征与土壤镍含量之间的复杂关系,非线性模型的引入往往有利于这种复杂关系的表达。因此,本文在光谱特征筛选的基础上,分别采用RFR和XGBR算法构建丹江口库区土壤镍含量的高光谱估测模型。

3 结果与分析

表3 土壤镍含量RFR和XGBR模型建模精度

从模型的稳定性来看,RFR模型和XGBR模型在训练集的R2分别为0.90和0.93,在验证集的R2分别为0.85和0.91,表明两种不同集成算法模型的普适性均较好。XGBR建模的稳定性最优,RFR模型的稳定性次之。从模型精确性来看,验证集的RMSE值总体保持在12.35~16.48之间,与训练集的RMSE值范围相近,表明误差整体分布较为稳定。XGBR模型的平均相对误差率为10.1%,表明模型预测精度较高。

为了对比土壤镍含量在不同模型的反演效果,绘制验证集样本镍含量在不同模型中预测值与实测值的1∶1散点图,如图3所示。散点分布越靠近1∶1线,表明预测值与真实值越接近,模型预测精度越高。

图3 土壤镍含量预测值与实测值散点图

4 结束语

本文对丹江口库区土壤光谱特征进行分析,在微分变换基础上以最大正相关和最小负相关原则筛选出光谱指标,分别利用RFR和XGBR模型对研究区土壤镍含量进行反演研究,最后分析了不同模型在丹江口库区土壤重金属含量的反演精度,得出以下结论。

1)土壤原始光谱反射率与土壤镍含量相关性整体较低,经过光谱微分变换,可以在一定程度上提高土壤光谱数据和土壤镍含量的相关性。其中,光谱反射率一阶、对数一阶、平方根一阶微分变换数据与土壤镍含量相关性提升显著,最大相关系数达0.63,为原始光谱最大相关系数的三倍左右。

3)所建研究区土壤镍含量反演模型表明,两种不同集成算法模型的普适性均较好。其中,XGBR模型估算土壤镍含量效果更优。XGBR模型的决定系数R2为0.93,土壤镍含量反演的平均误差率为10.1%,精确性较高,可以对丹江口库区土壤镍含量进行有效估测。

猜你喜欢

丹江口库区反演
丹江口库区加强文物保护(之一)
反演对称变换在解决平面几何问题中的应用
突变理论在库区移民后期扶持成效评估中的应用
基于低频软约束的叠前AVA稀疏层反演
基于自适应遗传算法的CSAMT一维反演
库区防护工程社会稳定风险识别
丹江口柑橘价格“破纪录”啦
广东河源万绿湖库区的“双音话”
舌尖上的丹江口
丹江口库区旧石器考古调查记