基于支持向量机的土壤有机质高光谱反演
2019-10-31张世文夏沙沙邹宏光
沈 强,张世文,,夏沙沙,尹 炳,陈 飞,邹宏光
(1. 安徽理工大学测绘学院,安徽 淮南 232001;2. 安徽理工大学地球与环境学院, 安徽 淮南 232001)
有机质作为土壤中的一种动态的变量,其分解和转化是不断进行的,传统的土壤有机质检测技术操作步骤复杂,成本高,周期长,无法实现大范围的实时动态监测。高光谱技术具备检测速度快,成本低等特点,近些年发展迅速,仪器检测精度越来越高,分析手段逐渐多样,已经成为了当前研究的热点问题。
土壤光谱学研究最早开始于20世纪40年代,文献[1]探究了土壤水分、颗粒大小和物质组成对光谱反射率的影响。20世纪60年代,光谱技术逐渐被应用到土壤有机质检测当中,文献[2]探究了有机质分解过程对于光谱反射率的影响。文献[3]分析了检测土壤有机质的最优波段。80年代以后,成像光谱技术的发展奠定了高光谱遥感的基础,光谱分辨率更高,信息量更大。高光谱技术在土壤光谱学研究中得到了更广泛的研究,文献[4]利用光谱特征波段估算了土壤有机质和黏土矿物的含量;文献[5]研究了有机质对土壤反射率、土壤线参数、土壤铁氧化物定量反演的影响。探明了土壤有机质的光谱特征及其影响作用;文献[6]结合偏最小二乘回归法(PLSR)方法建立土壤有机质的光谱分类-局部预测模型。国内外众多学者都对土壤有机质的的光谱特性进行了研究,但针对不同的研究区所选取的光谱处理方法,特征波段的选取方法和模型的建立方法都存在一定的分歧。支持向量机(support vector machines,SVM)是一种通过维度转化解决非线性样本的模式识别技术[7],是Vapink在1995年提出的一种基于内核统计学理论的回归分析模型[8-12],逐渐被应用到高光谱技术中,文献[13]将稳定度自适应重加权采样特征变量选择算法用于支持向量机定性分析,提高了近红外在线分析模型在木材材性分析中的稳健性和适用性;文献[14]结合支持向量机(SVM)分类器,实现了光谱图像分类法的优化。
本文以矿业废弃复垦区为研究对象,探究了支持向量机(SVM)土壤有机质光谱特性中的应用。采用Gaussian滤波、一阶微分、二阶微分、倒数对数法的光谱预处理方法,分析了不同有机质含量下的光谱反射率变化情况。结合逐步回归模型(stepwise multiple linear regression,SMLR)和支持向量机(SVM)建立了土壤有机质高光谱预测模型,并利用决定系数和均方根误差对模型反演效果进行精度评价。研究揭示了土壤有机质快速与光谱反射率间的关系,为实现土壤有机质快速检测和实时动态监测提供技术支持和参考。
1 研究区概况与数据获取
1.1 研究区概况
研究区位于湖北省大冶市矿业废弃地复垦项目区,整体地势南高北低,地面高程30~50m。研究区属于典型的亚热带季风气候,四季分明,光照和降雨量充足,年温差变化范围-10~40.1℃,年平均气温17℃,年均降水量1 385.8mm,年均光照时数1 813h。2013年对研究区实行土地复垦工作,于2014复垦完成。采用工程措施和生物化学措施相结合的方法,主要复垦方向为农用地。
1.2 数据获取
综合考虑研究区复垦方向和复垦措施,采用网格布点的方式,共布设采样点38个,采集0~20cm的表层土壤,每份样本采集200g。将采集到的土壤样本过10目均匀尼龙筛,去除石子、草杆等杂物,放置在自然通风的条件下阴干。将风干后的土样研磨过100目筛,一部分土样(100g)用于土壤光谱检测;另一部分用于有机质含量检测,土壤有机质采用重铬酸钾-外加热法检测。
土壤光谱反射率检测选择在无光的暗室中进行,采用美国ASD公司生产的FieldSpec4便携式地物光谱仪。光谱检测范围为350~2 500nm,选用12V、50W的卤素灯为光源,裸光纤探头视野范围25°。仪器使用前预热半个小时,将土壤样本放置在直径100mm,高1.5mm的盛样皿中,以黑色天鹅绒布为背景,光线探头位于土样垂直正上方7cm,光源天顶角为45°,与土样的直线距离为60cm[15-16]。使用前先进行白板校正,带仪器稳定后再进行实验,实验过程中每检测5个样本,需要重新优化一次。每份样本采样间隔为1nm,共采集10次,选取其平均值作为样本的光谱反射率。
图1 研究区位置与采样点分布图
1.4 光谱预处理
光谱数据在获取过程中由于仪器操作、实验环境和土壤样本等因素的影响,会产生不同程度的噪声,因此需要对光谱曲线进行校正,首先为避免边缘噪声的影响,去除350~499nm和2 241~2 500nm两处波段,并采用Gaussian滤波法,对光谱曲线进行平滑。通过光谱平滑处理可以,在维持光谱曲线的的总体特征的条件下有效的去除噪声。
将平滑后的光谱曲线进行一阶微分(first order differential reflectance,FDR),二阶微分(second order differential reflectance,SDR),倒数对数(inverse-log reflectance,LR)三种光谱变换。FDR、SDR、CR采用MATLAB 2016 b软件实现。
2 结果与分析
2.1 不同有机质含量高光谱特征
已有的研究表明,土壤有机质含量对土壤光谱曲线有影响作用[17-19],研究区土壤有机质含量变化范围较大(0.75~26.5 g/kg),按照全国第二次土壤普查的土壤养分分级标准对采集到的土壤样本进行分类[20-21](见表1)。
表1 土壤有机质分类统计表
土壤养分标准分为6个等级(很丰富、丰富、中等、缺乏、很缺乏、极缺乏),研究区土壤样本全部位于中等水平以下,土壤有机质含量总体水平偏低,表明由于长期的矿业开采导致土壤出现了有机质流失的现象。变异系数反应了数据的离散程度和突变性,土壤有机质在各组分中变异系数不大,但总体偏移程度较大,变异系数高达72%。
根据不同的有机质含量绘制土壤有机质原始光谱反射率曲线图(见图2)。从图2中可以看出不同样本的土壤光谱反射率值不同,但土壤光谱曲线整体变化趋势一致。光谱曲线的影响因素众多,已有的研究结果显示,土壤光谱反射率受有机质含量的影响,有机质含量越高,光谱反射率越低[22]。但从图中可以看出不同分级标准下有机质曲线分布均匀,并无明显的规律性。这表明有机质含量并不是影响研究区土壤光谱反射率的主要因素, 具体影响因素还需进一步探究。 近红外范围(700~
2 240nm)内反射曲线较为稳定,在一定范围内上下波动, 曲线间的离散程度加大, 在1 000nm、 1 400nm、1 800nm、1 900 m、 2 200nm等位置可以看到明显的光谱吸收谷, 其中1 400nm、 1 900nm、 2 200nm位置都是明显的水分吸收谷[23-25]。
图2 光谱原始反射率曲线
2.2 光谱变换
为提取原始波段中不易被发现的光谱信息,突出光谱特征波段、分离平行背景值,对平滑后的土壤原始光谱反射率曲线进行一阶微分(FDR),二阶微分(SDR),倒数对数(LR)三种光谱变换(见图3)。
从图3中可以看出,经过变换后的光谱信息得到了明显的加强,光谱波段,特别是可见光波段的灵敏度提高了。FDR和SDR曲线的数值在正负值之间上下起伏,所反映出的光谱信息十分丰富,数值变化范围分别为:-0.004~0.005、-0.008~0.012。其中曲线变化幅度较大的区间有:500~800nm、1 300~1 500nm、 1 860~1 920nm、 2 020~2 040nm。LR曲线数值范围为:0~1,曲线整体较为平滑,形状类似于原始曲线的倒置,吸收峰出现的位置与原始波段大体相同。
图3 光谱变换曲线(FDR、SDR、LR)
2.3 相关性分析
为进一步论证利用高光谱反演土壤有机质的可行性,探究有机质含量与土壤光谱反射率曲线间特别是光谱吸收波段的相关性关系。引入相关系数r进行描述相关性系数公式如
图4 土壤有机质含量与OR、FDR、SDR、LR间的相关分析
从总体上来看,与原始光谱曲线相比,经过光谱变换后的全波段的光谱相关性都得到了明显的加强,部分波段的相关系数提升了0.5以上。 对曲线进行显著性检验, 部分波段可以达到0.05显著性水平, 少部分达到0.01极显著水平。 不同相关系数曲线达到0.05显著性水平的波段位置分别为OR: 500~560nm; FDR: 640~870nm、 1 150~1 250nm、1 550~1 795nm、1 940~2 200nm;SDR:540~640nm、830~930nm、1 860~1 910nm;LR:500~670nm。从相关系数来看二阶微分变换的效果最好,最高相关波段为2 170nm(r=-0.83)。
2.4 模型建立与精度评价
按照全样本3∶1的比例和有机质含均匀选择建模样本(28)和预测样本(10)。根据FDR、SDR、LR三种光谱变换方法,选择达到0.05显著性水平以上的波段为特征波段,建立多元逐步回归模型(SMLR),采用径向基函数((radial base function,RBF))为核函数建立支持向量机(SVM)模型。并利用决定系数(coefficient of determination,R2)和均方根误差(root mean square error,RMSE)对模型预测集进行精度评价(见表2,图5)。模型建立采用MATLAB 2016 b软件实现。
表2 土壤有机质含量预测模型
决定系数(R2)反映了模型的稳定性,均方根误差(RMSE)反映了模型的预测能力,分析可以看出SMLR模型中基于FDR的SMLR模型的反演效果最优,R2=0.80,均方根误差为3.18;SVM模型中基于SDR的SVM模型的反演效果最优,R2=0.89,均方根误差为1.73。从总体上来看SVM模型的预测效果明显优于SMLR模型,与SMLR模型相比R2普遍提高了0.1左右,RMSE降低的1.5左右。研究表明基于SDR的SVM模型对研究区土壤有机质的实测值与预测值之间的差异性较小,模型能够较为精确的实现研究区土壤有机质含量预测。
a 多元逐步回归模型比较
b支持向量机模型比较图5 土壤有机质含量模型实测值与预测值比较
3 讨论
通过研究可以看出,研究区土壤有机质含量与光谱反射率之间存在较好的相关性关系,研究通过实验样本处理,仪器调试,光谱曲线校正等步骤,最大程度上排除了环境因素对实验结果的影响,通过与常见的多元逐步回归模型对比,建立的了基于支持向量机的土壤有机质高光谱预测模型。与传统的线性模型相比,经过支持向量机处理R2普遍提高了0.1左右,RMSE降低的1.5左右。可以实现在高维空间中提升变量间的线性关系,极大的提高了模型的稳定性和精度,可以在一定的精度条件下实现土壤有机质的快速检测。
土壤光谱反射率中包含了大量的土壤信息,是土壤质地,含水量,盐分、氧化铁含量等综合影响的结果。加之土壤成土条件、土壤利用类型和复垦方式的不同具有其特殊的区域性特点,本文以湖北省大冶市复垦后的矿业废弃地为研究区,建立的土壤有机质预测模型在其他区域的适用性还有待于进一步研究,因此需要针对不同的研究区域开展长时间的监测,获取更多的数据对模型反演效果进行验证。此外针对影响因素众多的光谱反射率曲线,如何排除其他因素的干扰,最大程度的提取有机质中包含的光谱信息,还需要进一步优化光谱信息提取技术。
4 结论
本文采用支持向量机(SVM)的方法,建立了湖北大冶复垦项目区土壤有机质含量高光谱反演预测模型。分析了不同有机质含量的土壤光谱曲线差异,光谱变换对于提升光谱信息的作用,建立了基于SDR的SVM预测模型。具体结论如下:
(1)不同有机质含量的光谱反射率曲线变化趋势一致,不同等级的光谱反射率数值分布均匀。表明了,研究区土壤有机质含量对光谱曲线的影响较小,对于研究区土壤而言,有机质含量并不是光谱反射率数值存在差异的主要因素。
(2)可以明显的看出, 通过光谱预处理技术光谱信息得到了明显的加强, 与原始曲线相比光谱吸收波段的位置更加明显。 主要的光谱吸收谷有1 000nm、1 400nm、1 800nm、1 900nm、2 200nm等。
(3)通过光谱变换可以明显提高相关系数,其中二阶微分变换的效果最好,相关系数为-0.83,最高相关波段为2 170nm。通过显著性检验,部分波段可以达到0.05显著性水平,少部分达到0.01极显著水平。
(4)采用多元逐步回归与支持向量机方法建立土壤有机质高光谱预测模型。通过对比模型实测值和预测值,提出了基于SDR的SVM模型的反演效果最优,其中R2=0.89,均方根误差为1.73。研究结果,为实现土壤有机质快速检测和实时动态监测提供技术支持和参考。