基于统计分析与高光谱结合的土壤重金属监测研究
——以铜为例
2018-08-20徐夕博张森林卜凡升刘玉红
徐夕博,张森林,卜凡升,刘玉红*
(1.山东师范大学 地理与环境学院,山东 济南 250358; 2.山东省胶州市第二中学, 山东 青岛 266300; 3.山东省五莲县国土资源局,山东 日照 262300)
土壤系统作为地表生态系统中的重要组成部分,在各类生命活动中起着基础的媒介作用,同时也是各类重金属富集的重要场所。不合理的工农业生产方式使重金属在土壤内聚集,且其半衰期长,自然不易降解,较高含量的重金属易进入食物链后危及生物群落,对国家食品安全产生不利影响。因此,土壤中重金属的污染和扩散在环境管理中受到极大关注,实现对重金属的快速准确检测,可为土壤环境评价和治理提供依据[1-2]。
对土壤重金属含量的测定,传统方法需要实验室内一系列繁琐复杂的操作,费时费力,难以实现对大区域重金属含量的实时快速测定。随着高光谱技术的发展,高光谱分辨率的影像能够提供大量土壤理化属性信息,这为识别和评估土壤内重金属含量提供了基础。光学遥感技术可以利用土壤反射光谱特征来监测土壤属性信息,相关研究表明,利用光谱特征可以对重金属含量进行准确预测,例如:铁、有机质、Cr和Cd[2-4]。此外,尽管土壤中重金属浓度值较低时所体现出的光谱特征并不明显,但是外源输入的重金属仍然会使土壤光谱特征产生细微的变化[5]。叶勤等[6]、于雷等[7]及滕靖等[8]通过对光谱数据进行倒数及一阶导数等处理来降低变量间的非线性关系,建立多元逐步回归(MLR)和偏最小二乘法回归(PLS)的土壤理化属性估算模型,决定系数R2达到0.8以上,取得较好的预测效果。但是其研究对象是在土壤具有较高丰度的有机质、铁及高重金属含量污染区域土壤,至于其应用到重金属含量低的大区域平原效果未知。因此,研究通过对光谱平滑处理和一阶导数变换,并与具有潜在危害的重金属含量进行相关分析,利用光谱特征建立预测模型对潍北平原土壤中的重金属含量进行估算。
本研究以土壤高光谱数据为基础,通过相关性分析获取特征波段,以特征波段为自变量,实测铜含量为因变量,建立MLR和PLS回归预测模型,并对模型进行精度验证,以期建立一个有效可靠的土壤重金属估算方法,也为以后利用机载影像和高空影像快速高效地对重金属含量制图提供理论基础和模型支持。
1 材料和方法
1.1 样品获取与处理
研究区位于山东省潍坊北部平原(37°30′~36°37′N、118°43′~119°42′E),气候类型为暖温带季风性气候,土壤类型以棕壤、潮土和褐土为主,90%以上区域适宜耕种。综合考量土地利用类型、地质地貌和道路通达性等因素后共布设了52个样点,样点内按照梅花状取样将获得的5处样品混合至1 kg,实验室风干、研磨、过2 nm筛,采用电感耦合等离子体原子发射光谱法(ICP-OES)测得土壤内铜元素的含量[9]。
1.2 高光谱测定
土壤高光谱数据获取自FieldSpec HH地物光谱仪(ASD,USA),光谱仪采样间隔为1 nm,光谱分辨率为3 nm,设备响应波谱介于325~1 075 nm,在实验室暗室内对土壤反射光谱进行测定,每份样品采集10次光谱,计算平均值获得样品光谱反射率。
1.3 特征波段获取
经过降噪处理[10]后的原始光谱曲线较为平滑,光谱特征不明显。王菲等[2]在研究中发现,对原始光谱进行一阶导数处理,可以增强土壤中微弱信息的光谱特征,使光谱曲线变化幅度加大,正负交替出现,有助于发现特征波段。首先对原始光谱进行一阶导数处理,如式(1)所示;其次,对52个样本的铜元素含量与一阶导数光谱数据逐波长地进行相关性分析,计算出每个波长与铜元素含量的相关系数(r);最后,选取r值较高(|r|>0.4)或突变的波长作为敏感波长[11]。
式中,λi指第i波段,R(λi)指原始波长,Δλ指波段间隔。
1.4 模型建立与验证
在52个样本中,随机选取36个样本作为建模样本集,分别建立多元逐步回归模型和偏最小二乘法模型,此外,保留16个土样用作模型验证样本集,评判预测模型的估算效果。土壤重金属预测模型的估算精度采用决定系数(R2)、均方根误差(RMSE)和相对分析误差(RPD)进行评价,R2的大小代表因变量被完全解释程度,较高的R2通常对应更低的RMSE,预测值与真实值的偏差更小,预测模型的效果更好。另外,RPD为验证集标准差与验证集均方根误差比值,当RPD≥2.0时,说明模型用于对土壤重金属的预测是可靠的,当2≥RPD≥1.4时,模型的预测能力是较可靠的,但是还有提高的空间,当RPD≤1.4时,则认为该模型不可靠[12]。
2 结果与分析
2.1 土壤重金属含量统计描述特征
土壤中的铜元素描述统计特征如表1所示。研究区内铜元素的平均含量为20.6 mg/kg,略高于山东省土壤铜元素背景值19.6 mg/kg[13];部分区域出现的铜元素含量的极大值超出背景值含量2.7倍,此外中位数的值与背景值基本相同,说明近一半的样点存在铜元素超标现象;标准差为10.9,与均值存在较大偏差,说明受到了一定程度外部扰动,这也与前面对超标样点数的判断相一致。
表1 土壤铜元素含量统计描述特征 mg/kg
2.2 重金属高光谱特征的选取和分析
不同含量铜元素的土壤光谱曲线如图1所示,总体上看,光谱曲线上升过程平缓,曲线较为平滑。从曲线变化趋势来看,在600 nm处出现1个反射率变化拐点,其后反射率均匀上升。此外,较低含量铜元素的土壤光谱反射率较高,随着铜元素含量的上升,土壤光谱吸收能力增强,反射率呈现下降趋势。
将一阶导数光谱数据与实测铜元素含量值进行相关分析,根据r值的大小顺序选取前12个波段作为特征波段,分别是385、667、729、731、791、802、822、834、840、841、870、873 nm。
图1 土壤不同含量铜元素光谱特征
2.3 土壤重金属含量预测模型的建立
在52个样本中,随机选取36个样本用于预测模型的构建,其余16个样本用于模型验证。预测模型分别以MLR和PLS为基础进行构建。图2a是基于MLR预测模型的铜元素的预测值与实测值的对比,可以看出,预测值的总体趋势曲线与实测值基本一致,整体误差保持在较低水平,但在样本6、10、12处产生的预测值与实测值差距较大,说明MLR在对特异点的预测上存在欠缺;图2b是基于PLS预测模型的铜元素的预测值与实测值的对比,其预测值与实测值之间的拟合效果较好,整体走向基本吻合,基本上能实现对极值点的准确预测。所以,从拟合趋势和极值点预测误差上判断,PLS模型的预测效果优于MLR模型。
图2 土壤中铜元素含量实测值与预测值的对比
2.4 预测模型精度分析
将选取的12个特征波段一阶导数值作为自变量,铜元素的含量值作为因变量分别建立MLR模型和PLS模型,得到模型结果如表2所示。可以发现, MLR和PLS的R2值分别为0.538和0.858,RMSE
值分别3.1和1.8,较高的R2和较低的RMSE意味着基于PLS建立的预测模型精度更高;在MLR和PLS建模公式中,中心波长在870 nm和860 nm处的波段所起到的作用最大;PLS模型的RPD值为1.6,说明模型对铜元素进行预测是可靠的,而MLR模型的RPD值较小,说明该模型难以对铜元素进行准确地预测。
表2 高光谱土壤重金属铜含量预测模型
3 结论与展望
基于统计描述特征对土壤内铜元素含量的分析表明,区域内存在着轻度的铜元素积累,超标范围较大,覆盖面广;铜元素的积累主要受到人为扰动影响,结合样点大多在农田内布置,可以得出农业生产活动是造成铜元素污染的主要因素。
利用一阶导数光谱与土壤中铜元素含量进行相关分析,根据相关系数的大小顺序依次获取12个特征波段,其中中心波长分别为385、667、729、731、791、802、822、834、840、841、870、873 nm。
基于MLR建立预测模型的R2和RMSE分别为0.538和3.1,PLS建立预测模型的R2和RMSE分别为0.858和1.8,可以得出PLS模型预测精度高于MLR,基于高光谱特征对土壤重金属含量进行预测以PLS模型最为有效。
通过对原始光谱进行一阶导数变换,并与实测铜金属含量进行相关分析提取特征波段,建立MLR和PLS模型对重金属含量进行预测,得到较好的预测结果,可为进行其他重金属元素的反演估算提供理论基础和技术支持,也可作为高空影像的大区域实时监测的部分验证工作。但是,基于高光谱数据建立PLS模型可以实现对土壤中铜元素的预测,由于不同区域自然和社会条件不尽相同造成了重金属元素在土壤中的丰度存在差异,此外,不同形态的重金属具有不同的光谱特征,重金属在土壤中存在多种形态,是否能将模型运用到其他区域和不同形态的重金属有待进一步研究。