基于光谱FOD与优化指数的银川平原土壤有机质含量反演
2023-01-05张俊华尚天浩陈睿华王怡婧丁启东李小林
张俊华 尚天浩 陈睿华 王怡婧 丁启东 李小林
(1.宁夏大学生态环境学院, 银川 750021;2.西北土地退化与生态恢复国家重点实验室培育基地, 银川 750021;3.西安煤航遥感信息有限公司,西安 710199;4.宁夏大学地理科学与规划学院,银川 750021)
0 引言
土壤有机质(Soil organic matter,SOM)是植物营养物质的主要来源之一,在土壤肥力质量评价中具有重要地位[1]。SOM成分复杂,光谱特性差异大,但总体呈现出SOM含量升高,整个谱线反射率逐渐降低的趋势[2]。但当SOM含量较低,光谱波段被吸收部分的能量过低时,光谱特性分析效果不佳[3]。ABERGAZ等[4]指出,SOM含量(质量比)小于20 g/kg时,光谱曲线易受其他成分的影响,不能准确反映由官能团引起的吸收特征。因此,如何提高低含量SOM的反演精度是相关领域的研究热点之一。
利用不同的反射率变换方式筛选SOM敏感波段和采用不同建模方法都是提高低含量SOM反演模型精度的有效手段。XIE等[5]研究指出,与反射率的一阶微分、倒数的一阶微分、平方根的一阶微分和对数的一阶微分变换方式相比,特征波段选择一阶微分可以显著提高低含量SOM的反演精度。LIU等[6]在一阶微分、二阶微分和吸光度对数、吸光度对数的一阶和二阶微分及连续统去除等变换方式的基础上,采用竞争自适应加权算法筛选出15~40个不等的特征波段,发现采用连续统去除-随机森林建立反演陕西省靖边县SOM模型精度达0.96,相对分析误差(Residual predictive derivation,RPD)为3.02。在建模方法中,最小二乘法(Least square,LS)[7-8]、支持向量机(Support vector machine,SVM)[7-8]、支持向量机分类(Support vector machine classification,SVMC)[9]、遗传算法(Genetic algorithm,GA)[10]、最小二乘回归(Least square regression,LSR)[11]、反向传播神经网络(Back propagation neural network,BPNN)[12-13]、随机森林(Random forest,RF)[14-15]等一种或多种方法被用于巴西、以色列荒漠区以及我国河北、新疆、西藏、宁夏等地区低含量SOM的反演,都取得了较好的效果。此外,引入其他变量也可以提高SOM反演精度[13,16-17]。虽然变量的引入可以显著提高SOM含量的反演精度,但这些变量的获取技术难度较大,所以其应用和推广有一定困难。
为提高模型运算效率,减少建模变量输入个数,有学者在敏感波段筛选的基础上,用两个或两个以上特征波段分别进行波段耦合运算,构建比值指数(Ratio index,RI)、差值指数(Difference index,DI)、土壤沙化指数(Soil desertification index,SDI1)、土壤退化指数(Soil degradation index,SDI2)、修正归一化差分指数(Corrected normalized difference index,CNDI)等[18-20],也有学者尝试在二维空间建立光谱数据与SOM间的全波段相关性运算,以解决单一敏感波段在一维空间构建光谱指数所造成的光谱信息缺失问题[21-22]。二维空间所建模型精度较一维空间所建模型精度得到显著提升,但因研究区域不同,导致所选最佳建模光谱指数存在较大差异。综合来看,已有研究或基于不同二维光谱指数分别建模,或以分数阶微分(Fractional-order derivarives,FOD)、整数阶微分联合单一光谱指数建模,将FOD联合优化指数进行较低SOM含量反演的报道相对较少。
1 材料与方法
1.1 研究区概况
银川平原(37°50′~39°23′N,104°17′~107°39′E)地处宁夏北部,是我国粮食主产区之一,属温带干旱气候,年均降水量约190 mm,全年蒸发量约 1 750 mm。土壤类型多以灌淤土、灰钙土和盐碱土为主[24],SOM含量普遍偏低。
1.2 土壤样本采集
根据银川平原气候、水文、地质地貌和土壤等基础资料数据,主要以农田土壤为研究对象,利用ArcGIS 10.4预设5 km×5 km 网格。于2019年5月以梅花五点法采集裸露地表0~20 cm的土样(以光谱测定点为中心,半径为1 m距离4个方向处各选1个点,共5个点),混合均匀后保留0.5 kg作为该点土样。采样过程中受建筑、道路和水体的影响,适当调整采样点(图1)。土样风干后采用外加热-重铬酸钾法测定SOM含量,共获得有效土壤样本187个。
图1 研究区及样点分布
1.3 野外光谱采集及预处理
采用ASD FieldSpc4型地物光谱仪进行野外原位土壤的高光谱测定,波段为350~2 500 nm,每次测定前均进行白板校正,光谱探头始终保持在距地面约80 cm,每一样点重复测定5次,取平均值作为该样点的光谱反射率。测定时间为10:00—14:00,天气状况良好,晴朗无风。
为消除仪器噪声和环境背景干扰,去除噪声过大的边缘波段(350~399 nm和2 401~2 500 nm)。在Matlab 2018b软件中对400~2 400 nm范围内的高光谱数据作S-G平滑去噪处理。FOD作为一种光谱信号处理技术[22],通过细化阶数改变光谱曲线中的斜率和曲率,使不同分数阶下光谱曲线间的特征波段处微弱差异得到明显放大[25]。本研究以整数阶微分定义推广出的G-L算法进行分数阶微分计算,计算式为
(1)
式中n——上下限微分阶数之差
f(λ)——以波长λ处反射率为自变量的函数
v——阶数
本研究分数阶设置为0~2阶,以0.20阶为间隔,共11阶。
1.4 优化光谱指数
基于高光谱遥感信息进行表层土壤属性快速反演,其中光谱信息多以连续窄波段为主。本文在全波段400~2 400 nm范围,通过对差值指数、比值指数、归一化指数(Normalized difference index,NDI)、再归一化差值指数(Renormalized difference index,RDI)和广义差值指数(Generalized difference index,GDI)进行两两算法优化(表1),建立全波段(400~2 400 nm)与SOM含量间的二维相关性图。
表1 优化光谱指数及公式
1.5 建模方法与精度评价
SVM模型基于结构风险最小化处理,能够很好地解决模型中存在的局部最优问题[26]。本研究选用决定系数R2、均方根误差(Root mean square error,RMSE)和RPD作为所建模型的精度和预测效果评价。一般将RPD分为3类来评价模型的可靠性:RPD小于等于1.4,表明模型预测能力极差;RPD大于1.4、小于等于2.0,表明模型能够具有较为可靠预测能力;RPD大于2.0,表明模型预测能力极好[23]。
2 结果与分析
2.1 银川平原土壤有机质含量特征
根据全国第二次土壤普查推荐的土壤肥力分级标准,将银川平原187个土样按SOM含量共分为6个等级(表2):SOM含量为2.81~56.14 g/kg,均值12.48 g/kg、变异系数57.26%,其中处于四级~六级(SOM含量小于20 g/kg)的土样有174个,占总数的93.05%,该范围SOM含量平均值为11.06 g/kg,变异系数为39.30%,本文选取这174个土样为研究对象。
表2 银川平原土壤SOM统计特征
利用K-S算法[27]中的欧氏距离划分总样本集,其中建模和验证样本分别为117和57(表3)[23],所划分的建模数据和验证数据较总样本SOM含量区间值和标准差较为一致,变异系数说明SOM均属中度变异。
表3 建模与验证土壤样本有机质含量统计特征
2.2 基于原始光谱反射率的分数阶微分光谱特征
由图2可知,原始光谱反射率吸收带整体较宽,吸收特征差异明显,其中1 400、1 900 nm处存在明显吸收峰。在400~1 800 nm范围内,光谱反射率随波长的增加而增大;在1 900~2 200 nm范围内,光谱重叠严重。随着分数阶的不断增加,重叠峰和基线漂移逐渐消除,光谱强度的幅度下降,光谱反射率不断趋近于0,其中1 900 nm处的吸收谷逐渐由正峰变为负峰;近红外波段玫红色区域的光谱标准差差异明显大于可见光区域。当FOD从0阶增加到1.6阶时,土壤光谱反射率逐渐降低并最终稳定在-0.07~0.07;当从1.6阶增加到2.0阶时,土壤光谱反射率在-0.06~0.06稳定不变,且高分数阶微分的吸收谷明显小于低分数阶微分。
图2 土壤反射率分数阶微分曲线
2.3 不同分数阶下的光谱指数与土壤有机质含量相关性及敏感波段优选
比较土壤NDI/RDI、DI/NDI、DI/RDI、RDI/NDI、DI/GDI和RI/GDI在不同分数阶微分下的最大相关系数绝对值(Maximum absolute correlation coefficient,MACC)可以看出(图3),优化指数DI/RDI与SOM的MACC显著高于其他指数,平均值高达0.997 6,其次为NDI/RDI和RDI/NDI,均值分别为0.740 6和0.730 2,DI/NDI最低,MACC均值为0.309 3。同时,DI/RDI、NDI/RDI和RDI/NDI与SOM含量间的MACC在0.8阶时达到峰值后逐渐下降,此时MACC分别为0.998 6、0.762 1和0.799 3。
图3 不同分数阶微分下光谱优化指数最大相关系数绝对值
为筛选最佳建模变量,本研究以MACC大于等于0.800 0为阈值进行优选。土壤DI/NDI、DI/GDI、RI/GDI、NDI/RDI和RDI/NDI在0~2阶范围内并无MACC大于等于0.800 0的敏感波段组合存在,故在后续建模中不作考虑。DI/RDI在0.2~2.0阶范围内的MACC为0.996 5~0.998 6,全部高于0.800 0,故在后续建模中采用DI/RDI指数。
2.4 优化光谱指数与土壤有机质含量二维相关性分析
图4为SOM含量与优化光谱指数DI/RDI的二维相关系数分布图,该图能够清晰展示相关系数较高特征指数的波段分布区间。与优化指数NDI/RDI和RDI/NDI的最大MACC相比(分布图未展示),DI/RDI最大相关系数绝对值整体提高0.25,其敏感波段主要集中在1 450~1 750 nm和 2 100~2 400 nm之间(图4),这也进一步说明分数阶微分联合优化指数在较低含量SOM的敏感波段筛选中,能够有效消除土壤水分敏感波段在1 400 nm 和1 900 nm处的干扰[9]。
图4 最优DI/RDI指数与SOM含量的二维相关系数
2.5 基于支持向量机的SOM含量反演模型构建
表4 基于DI/RDI-SVM的SOM建模与预测结果
2.6 克里格模型与银川平原SOM含量分布反演
在ArcGIS 10.2中,利用模型残差结合普通克里格对实测和0.2阶下DI/RDI-SVM模型的结果分别作反演插值(图5),可以看出,银川平原南部的吴忠市利通区、青铜峡市和巴音陶亥镇黄河以西地区SOM含量明显高于其他地区。贺兰县整体及惠农区东北部SOM含量较高,而银川市西夏区西南部、永宁县东西两侧及石嘴山市大武口区SOM含量整体较低,这是由于该区域地势低洼、蒸发强烈,加之多年引黄灌溉,导致该区域土壤盐渍化较重,土壤结构差,保水、保肥性能下降,故SOM含量低下。
图5 银川平原土壤有机质含量实测值和0.2阶下DI/RDI-SVM反演值插值图
与实测值相比,四级水平(SOM含量 10~20 g/kg)SOM的反演值所占面积比实测值高2.80%(表5),而五级(SOM含量6~10 g/kg)和六级(SOM含量小于6 g/kg)水平面积低了2.07%和0.73%,说明该方法反演的银川平原SOM在相对较高水平反演值略高于实测值,而低水平反演值则略低于实测值。
表5 银川平原不同等级有机质实测值与反演值所占面积
3 讨论
光谱指数能够从二维光谱空间凸显SOM的响应特征,充分利用高光谱信息,减少其他土壤信息对SOM的影响,降低模型的复杂性、去除冗余信息变量[29]。郭燕等[21]分析了NDI、DI、RI与SOM的二维相关性,最大相关系数在0.5~0.7之间;HONG等[22]基于不同光谱变换的光谱指数与SOM的二维相关性,得到最大相关系数为0.810 0,比一维光谱与SOM的相关性有了显著提升。尚天浩等[23]采用单一光谱指数对银川平原SOM估算,发现RDI的MACC最高,MACC可达0.801 0,RDI-SVM模型估测精度最高,RPD为2.32。目前大多应用RI、DI和NDI等单一光谱指数来反演土壤属性,而两两组合很少使用[15]。本研究基于5种光谱指数的两两算法优化,发现NDI/RDI和RDI/NDI的MACC最大值分别为0.762 1和0.769 3,说明光谱指数NDI和RDI无论作何算法,其比值优化波段指数间的MACC范围都差异不大;与此相比,DI/RDI的MACC显著提升20%以上,最高达0.998 6,表明在土壤低有机质含量条件下,DI/RDI指数作算法优化时的作用优于单一NDI或RDI指数。这也说明SOC对优化光谱指数的灵敏度明显高于使用单一光谱指数时的灵敏度,从而突出了使用光谱指数组合的优势[7]。在SOM估测建模方法中,SVM作为一种有效监督机器学习的方法,通过对数据的智能化处理和数据价值的充分挖掘,在一定程度上解决了数据处理过程中的“过学习”和“离散值多”问题[23]。本研究利用分数阶微分联合不同优化指数所建SVM模型,预测RPD普遍高于2.00,其中DI/RDI-SVM模型RPD高达4.31,这是因为SVM为机器算法,其模型在数据驱动中具有极强的自学习能力,能够准确获取土壤光谱中极为复杂的非线性特征[33],SVM模型依靠核函数,经过多次训练后,将输入数据绘制到新的超空间中,在该超空间中执行分离,最终使用ε不敏感损失函数获得用于数据拟合和预测的最优超空间[17],该超空间可以容忍小于常数ε集作为阈值的误差[34],使得模型拟合精度不断接近100%[35]。ZHANG等[20]还基于波段优化算法和两波段指数形式构建了一个新的三波段指数——修正归一化差分指数,并指出该三维指数在利用可见-近红外光谱估计土壤其他生化参数方面具有很强的应用潜力。本研究后期也可以尝试采用三维光谱指数建立SOM估算模型。此外,还需考虑银川平原土壤属性中的水分、盐分、pH值和养分等因素对SOM光谱反演的影响。
4 结论
(1)银川平原土壤样本SOM含量平均值为12.48 g/kg,属于高度变异,其中93.05%的土样SOM处于四级~六级水平。
(2)土壤野外原始光谱反射率吸收带整体较宽,吸收特征差异明显,在1 400 nm和1 900 nm处有明显吸收峰。随着分数阶的不断增加,光谱反射率不断趋近于0;高分数阶微分的吸收谷明显小于低分数阶微分。
(3)优化光谱指标MACC从大到小依次为DI/RDI、NDI/RDI、RDI/NDI、DI/GDI、DI/NDI和RI/GDI,敏感波段主要集中在1 450~1 750 nm和2 100~2 400 nm。