人工神经网络与普通克里金插值法对土壤属性空间预测精度影响研究
2021-08-02谢梦姣吴志涛陈奇乐吴超玉张俊梅
谢梦姣,王 洋,康 营,吴志涛,陈奇乐,刘 琦,吴超玉,张俊梅①
(1.河北农业大学国土资源学院,河北 保定 071000;2.华北作物改良与调控国家重点实验室,河北 保定 071000;3.河北农业大学资源与环境科学学院/ 河北省农田生态环境重点实验室,河北 保定 071000;4.北京邮电大学信息与通信工程学院,北京 100876)
土壤有机质(SOM)和全氮(TN)是反映土壤肥力水平的重要指标,准确获取其空间分布特征和变异规律对田间管理模式及农作物生产具有重要意义。土壤作为一个连续体,在实际空间变异研究中,通常无法对研究区域内所有土壤点全部采样分析,目前,主要通过空间插值法及数字化制图技术,研究土壤属性的空间分布特征。然而因计算方法和插值原理的不同,对于同一空间尺度的同一土壤属性采用不同的插值方法,其表达的土壤属性空间分布特征会有所不同,而对于不同空间尺度的同一土壤属性采用不同插值方法,其预测精度高低也会有所改变。
不同尺度的研究样区土壤有机质和全氮的空间分布特征及空间变异性也不同,吴乐知等[1]发现土壤空间尺度越大,越能综合、概括地分析研究对象的空间变化特征,而土壤空间尺度越小,越能详细地反映研究对象局部微小空间区域的含量情况。而应用不同插值方法得到的土壤属性空间变异性也会有所不同,其预测结果精度也存在较大差异,探究预测精度较高的空间插值方法,对土壤属性空间变异性研究具有重要意义。陈飞香等[2]采用径向基函数(RBF)人工神经网络插值方法和传统统计学插值方法进行土壤铬含量空间预测并对其预测结果精度进行对比分析,发现RBF人工神经网络具有较好的空间预测能力,尤其是当样点较少时,其避免了普通克里金(ordinary Kriging)插值法预测的“平滑效应”现象,是一种预测精度高、适用范围广的空间插值方法。在以往土壤学研究中,应用不同空间插值方法对不同尺度土壤有机质和土壤全氮空间分布特征的预测精度研究尚有不足[3],而在以后的土壤科学研究中,探寻并应用预测精度较高的空间插值方法揭示土壤属性的空间分布特征及变异性,对合理利用和管理土壤资源及实现农作物优质高产目标,具有重要的理论与实践意义。
该研究应用普通克里金插值法和RBF人工神经网络插值法研究农场和田块两种尺度土壤有机质和全氮含量空间分布特征及变异性,并分析其预测结果的精度大小,确定空间预测效果最合适的空间插值方法,为土壤属性空间分布图的精确绘制提供最合适的空间插值方法参考,同时也为该研究样区土壤有机质和全氮的田间管理提供依据,为该研究样区土壤有机质和全氮含量空间分布信息系统的建立提供全面、精准的基础数据资料。
1 材料与方法
1.1 研究区概况
研究区位于黄淮海平原北部,选取河北省宁晋县(37°24′~37°48′ N,114°46′~115°15′ E)地形无起伏、位置相近的两个代表性区域作为研究样区,其中,农场尺度研究样区为面积1 km×1 km的农田,田块尺度研究样区为面积50 m×50 m的农田(图1)。该区域属暖温带半干旱季风气候区,年平均降水量和气温分别为449.1 mm和12.8 ℃。研究区土壤类型主要为潮土, 土地利用方式为农田, 耕作制度为小麦(Triticumasetivu)-玉米(Zeamays)轮作,一年两熟。
1.2 研究方法
1.2.1采样点设计
土壤样品采集点的布设主要基于最优布点方式,结合“规则格网、完全随机、短距离点”3种方式布设[4]。农场尺度研究样区共设置采样点100个,其中,通过python仿真实现随机样点布设,设置随机样点41个,规则格网为7×7单位顶点采样49个,短距离样点10个。田块尺度研究样区设置采样点80个,随机样点34个,规则格网为6×6单位顶点采样36个,短距离样点10个,其中,从已经进行空间覆盖设计的样本点中随机选取10个点布设短距离样点,在随机方向放置固定距离单位的点§。生成此采样设计样本后,进行实地精确布点。短距离样点的设置方法为随机选取1个已布设样点,以在随机方向上与该点距离为§的点作为短距离样点(图1)。
(1)
式(1)中,n为研究区内采样点个数;l为每个采样点与其最近采样点的距离[5]。该研究中农场尺度研究样区§=4 m,田块尺度研究样区§=0.9 m。
1.2.2土壤有机质和全氮含量测定
于2018年夏玉米收获期(9月28日至30日)植株还未收割时,在玉米行间采用3点取样法获取土壤待测样品,并在剔除小石子、树根等影响试验指标测定的杂物后,将土样带回室内风干保存以备土壤有机质和全氮含量测定。分析测定采用常规的农化分析法,土壤有机质含量测定采用重铬酸钾氧化-容量法测定,土壤全氮含量采用开氏消煮法测定。
1.3 数据处理与精度检验
1.3.1数据处理与正态检验
采用Microsoft Excel 2010和SPSS 17.0对土壤有机质和全氮含量数据进行统计分析。将用3S准则法识别后未发现异常值的土壤有机质和全氮含量数据按照布点方案进行样本创建,并进行K-S正态分布检验,发现各方案土壤有机质和全氮含量数据均符合正态分布。
1.3.2空间插值
通过普通克里金和RBF人工神经网络两种插值方法,利用已获取样点的土壤有机质和土壤全氮含量空间分布信息进行空间插值,获取在农场和田块两个尺度研究样区内土壤有机质和土壤全氮含量空间分布特征,并研究两种插值方法的预测精度,从而寻求较为可靠的土壤属性空间分布研究方法。
普通克里金空间插值法是应用地统计学原理,通过已知部分空间样本信息对未知地理空间特征进行预测的方法[6]。采用GS+ 10.0对土壤有机质和全氮含量空间变异的半变差函数进行分析,应用普通克里金插值方法对农场和田块两个尺度研究样区的土壤有机质和全氮含量空间插值进行预测,并用ArcGIS 10.2对土壤有机质和全氮含量空间分布特征制图[7-10]。普通克里金插值法公式为
(2)
(3)
式(3)中,μ为拉格朗日乘数;γ(xi,xj)为点xi和点xj两个实测值之差的平方的一半;γ(xi,x0) 为点xi实测值和未测点x0预测值之差的平方的一半。
RBF人工神经网络是一种三层前向网络。第一层是由感知单元(源节点)组成的输入层,其功能只是传递输入信号到隐层;第二层是计算节点的隐含层,其传递函数是由像高斯核函数(Gaussian kernel function)那样的辐射状作用函数(径向基函数)组成;第三层即输出层,其节点函数通常为简单的线性函数。RBF人工神经网络插值分析计算基于Matlab,以神经网络工具箱为基础经编程实现,使用newrbe函数构建RBF人工神经网络模型。模型输入参数为X,Y坐标,并对其作归一化处理,以提高其学习速度,模型输出为研究样区内不同空间位置土壤有机质和全氮含量,并用ArcGIS软件进行数字制图,从而得到研究样区土壤有机质和全氮含量空间分布特征。
使用最常用的高斯核函数,如式(4):
(4)
式(4)中,μj为第j个隐含层节点的输出;x为神经网络的输入;cj为高斯函数的中间值;δj为标准化常数;Nh为隐含层节点数。由式(4)可知,节点输出范围在0和1之间,且输入样本越靠近节点中心,输出值就越大。
1.3.3空间预测精度检验
采用交叉验证作为土壤属性空间预测精度的检验方法,交叉验证作为目前最常用的精度检验方法,通过比较验证数据点的预测值和实际测量值来评价预测精度。将均方根误差(root mean squared error,RMSE,ERMS)、平均绝对误差(mean absolute error,MAE,EMA)和平均相对误差(mean relative error,MRE,EMR)作为预测精度的验证指标,分析对比农场与田块2种尺度土壤有机质和全氮含量空间预测精度。相关公式为
(5)
(6)
(7)
MAE、RMSE和MRE值越小,空间预测结果就越精确。
1.4 数据准备
1.4.1农场和田块尺度下土壤有机质和全氮含量的基本统计特征
农场尺度和田块尺度样区内耕层土壤有机质和全氮含量实测值的统计分析和K-S检验结果见表1。由偏度系数和峰度系数可知,在两种尺度下土壤有机质和全氮含量基本服从正态分布。但两个研究尺度下,耕层土壤有机质和全氮含量的平均值、最大值和最小值均存在一定差异。农场尺度和田块尺度研究样区土壤有机质含量平均值分别为12.75和13.36 g·kg-1,变化范围分别为8.39~18.94和9.83~20.59 g·kg-1,变异系数分别为19%和15%,土壤全氮含量平均值分别为1.16和2.10 g·kg-1,变化范围分别为0.31~2.01和0.59~2.90 g·kg-1,变异系数分别为30%和28%,农场尺度和田块尺度研究样区土壤有机质和全氮含量均属于中等程度变异(表2)。农场尺度和田块尺度研究样区土壤有机质和全氮含量偏度和峰度均接近0,且K-S检验呈正态分布(P>0.05),均可以直接进行空间插值和空间预测精度分析。
表1 土壤有机质和全氮含量的统计特征
1.4.2农场和田块尺度土壤有机质和全氮含量的空间结构分析
为从整体上把握两种尺度研究样区土壤有机质和全氮含量的空间分布特征,借助ArcGIS空间自相关工具,根据样点位置及土壤各养分含量值采用全局Moran′sI统计量测量其空间自相关性(表2)。
空间自相关统计量指某位置上的数据与其他位置上的数据间的相互依赖程度。全局 Moran′sI指数是空间自相关分析中使用广泛的检测方法,当Moran′sI值为正数时,表示空间聚集,当该值为负数时,表示空间离散。农场尺度和田块尺度样区土壤有机质Moran′sI值分别为0.720 5和0.711 7,土壤全氮含量Moran′sI值分别为0.309 1和0.299 3,且两种尺度土壤有机质和全氮含量均表现为P<0.01,Z>2.58,这表明结果呈显著水平,土壤与全氮Moran′sI和Z值均呈正的空间自相关性,但相关性不强。也就是说两种尺度研究区土壤各养分含量的空间分布呈聚集状态,其高值和低值在空间分布上具有聚集趋势,但此趋势不强,属于中等程度。
表2 Moran′s I 指数统计量
2 结果与分析
2.1 土壤有机质和全氮含量空间预测特征分析
表3显示,农场尺度研究样区中有机质含量变程范围为400 m,全氮含量变程范围为690 m,土壤有机质和全氮含量自相关距离均小于研究样区最大样点间距(1 400 m),大于研究样区最小样点间距(4 m),田块尺度研究样区中有机质含量变程范围为84 m,全氮含量变程范围为81.6 m,均大于研究样区最大样点间距(73.5 m),这表明土壤有机质和全氮含量在农场和田块尺度研究样区均有空间变异性。农场尺度土壤有机质含量最优半方差拟合模型为球状模型,全氮含量拟合模型为指数模型,土壤有机质和全氮含量块金系数分别为54.8%和63.7%。田块尺度土壤有机质和全氮含量拟合模型均为指数模型,土壤有机质和全氮含量块金系数分别为44.8%和60.9%。这表明两种尺度研究样区土壤有机质和全氮含量均呈中等程度空间变异性。
表3 农场和田块尺度土壤有机质和全氮含量的普通克里金空间预测特征
2.2 土壤有机质和全氮含量空间预测精度分析
由表4可知,基于RBF人工神经网络模型对农场尺度和田块尺度样区土壤有机质和全氮含量进行空间分布预测所得预测值和实测值之间的回归方程决定系数R2分别为0.90和0.91以及0.93和0.97,均高于普通克里金插值方法。这说明基于RBF人工神经网络模型比基于普通克里金模型的空间插值法对土壤有机质和全氮含量空间分布预测模型的拟合能力更强。
表4 农场尺度和田块尺度两种空间插值方法的预测精度分析
随着采样空间尺度的减小,采用普通克里金插值方法对有机质含量进行空间预测的MAE、RMSE和MRE分别降低0.3%、24.4%和37.8%,全氮含量空间预测的MAE、RMSE和MRE分别降低2.6%、2.7%和7.3%,随尺度减小采用RBF人工神经网络插值方法对有机质含量进行空间预测的MAE、RMSE和MRE分别降低10.8%、32.3%和32.7%,全氮含量空间预测的MAE、RMSE和MRE分别降低1.8%、23.0%和5.0%,这表明同一种空间插值方法对土壤有机质和全氮含量空间分布预测精度随着研究样区空间尺度的减小均呈上升趋势。
由表4可知,RBF人工神经网络插值法的预测误差指标均低于普通克里金插值法,其中,农场尺度研究样区采用RBF人工神经网络插值法对有机质含量进行空间预测的MAE、RMSE和MRE比普通克里金插值法分别降低3.4%、3.1%和8.4%,全氮含量预测的MAE、RMSE和MRE分别降低5.6%、0.2%和4.5%,田块尺度研究样区采用RBF人工神经网络插值法对有机质含量进行空间预测的MAE、RMSE和MRE比普通克里金插值法分别降低13.5%、13.3%和1.0%,全氮含量预测的MAE、RMSE和MRE分别降低4.9%、21.0%和2.1%,这表明在笔者研究所设定的空间采样尺度下,同一空间尺度研究样区中,RBF人工神经网络预测精度优于普通克里金插值。
2.3 农场和田块尺度土壤有机质和全氮含量的两种空间插值法预测结果分析
由图2~3可知,农场尺度和田块尺度研究样区土壤有机质和全氮含量总体状况均较好。其中,田块尺度研究样区土壤有机质和全氮含量空间分布状况整体一致,呈现东北部地区土壤有机质和全氮含量较高且整体向西南部递减的空间分布特征。农场尺度研究样区土壤有机质和全氮含量呈现西北部地区含量较高且整体向西南部递减的空间分布特征。
农场尺度研究样区土壤有机质和全氮含量总体上大致呈现以西北部东南对称线含量较高向两边逐渐减少的空间分布趋势,田块尺度研究样区土壤有机质和全氮含量大致呈现东北部含量较高逐渐向西南部减少的空间分布趋势,两种插值方法对土壤有机质和全氮含量空间分布预测的高值区和低值区的位置和范围基本一致。
基于普通克里金插值法对农场尺度和田块尺度研究样区土壤有机质和全氮含量空间分布的预测结果比较平滑,高值区、低值区连片分布。
而与之相比,基于RBF人工神经网络模型插值法的预测结果图的高值区、低值区斑块状分布明显,有一部分高值区包含明显的低值部分,其空间分布预测结果更为细节化。土壤有机质和全氮含量高值区包含明显的低值部分,在一定程度上体现了研究样区土壤有机质和全氮含量空间分布预测结果随取样布点设置及人为田间管理变化的细节信息。
综合预测结果的总体和细节的对比分析,基于RBF人工神经网络模型插值法和普通克里金插值法预测的两种尺度研究样区土壤有机质和全氮含量空间分布特征大体上呈现一致性,这表明两种尺度研究样区采用两种插值方法得到的土壤有机质和全氮含量空间分布预测的大体趋势没有太大偏差,而基于RBF人工神经网络模型插值法,在预测结果的细节上可以较大程度地避免普通克里金插值法的“平滑效应”现象,提高预测精度。
3 讨论
变程也称为自相关距离,在变程范围内的养分含量具有相关性,在该范围之外没有相关性。农场尺度研究样区中,土壤有机质和全氮含量自相关距离均小于研究样区最大样点间距,大于研究样区最小样点间距。空间自相关范围在农场尺度范围内,受人为因素干扰大,区域变量存在随机性变异,这表明施肥等人为因素导致农场尺度研究样区土壤有机质和全氮含量空间变异性大。而田块尺度研究样区中有机质和全氮含量变程范围为均大于研究样区最大样点间距,这说明土壤有机质和全氮含量在田块尺度范围内空间相关性较大,人为等随机性因素影响小。
两种尺度研究样区土壤有机质和全氮含量块金值和基台值均大于0,表明其半方差变化受到区域变量空间自相关性的影响,存在随机性误差。在空间分布预测图中,农场尺度研究样区距离村庄近的地区土壤有机质和全氮含量较高,这可能与人类日常生活、畜牧生产等行为产生的碳素和氮素在村庄周围累积,以及村庄附近田间施用粪便等有机肥较多有关[11]。经实地调查发现,施肥量高的地区土壤有机质和全氮含量明显高于施肥量低的地区,该结果与人为施肥量越高,浇水越多,土壤有机质和全氮含量越高的结论相一致,后续研究中需要进一步探究人为活动因子对土壤有机质和全氮含量的影响。
从土壤有机质和全氮含量空间分布预测结果来看,同一尺度研究样区中,RBF人工神经网络插值法的空间分布预测误差均小于普通克里金插值法的预测误差,其精度更高。从预测图来看,采用RBF人工神经网络插值法预测可以避免普通克里金插值法的“平滑效应”现象,体现了研究样区高值区和低值区分布真实细节的变化规律,预测结果更加精确,更加符合研究样区土壤各养分含量分布的复杂实际情况。两种插值方法中,普通克里金插值法是基于土壤属性的空间自相关性且以邻近样点的土壤属性值来预测未采样的值。笔者研究中,土壤有机质和全氮含量呈现中等程度空间自相关性,对预测精度会有所影响。而 RBF人工神经网络插值法基于RBF神经网络的高斯核函数,具有很强的非线性拟合能力,能以任意精度逼近任意函数。用已知采样点的土壤属性值作为期望输出对网络进行训练,可以更好地模拟地表空间坐标的土壤属性空间分布,即使在已知样点较少的情况下,依然具有较高的预测精度[2],RBF人工神经网络更适用于笔者研究中土壤有机质和全氮含量的空间分布特征预测。这与李启权等[12]应用神经网络空间插值和克里金等空间插值法对土壤有机质预测效果的研究结果一致,与许珊等[13]、梁旭光等[14]及杨海荣[15]对RBF人工神经网络模型预测精度更高的研究结果一致。
基于RBF人工神经网络模型插值法的预测结果表现出的不仅只有土壤有机质和全氮含量空间变异性信息,在一定程度上也能够体现土壤有机质和全氮含量随人为管理因素变化的细节信息,使其预测结果更加贴近黄淮海平原北部白木村耕地研究样区耕地土壤有机质和全氮含量分布不规则的复杂实际情况,更加真实地反映出研究样区土壤各有机质和全氮含量的空间分布状况,其土壤有机质和全氮含量预测值更接近真实值。此外,在后续研究中可设置研究区面积相对更大的大尺度研究样区,对土壤有机质和全氮含量空间分布进行预测研究,对土壤有机质和全氮含量预测尺度变化做出进一步的补充和完善。
4 结论
基于农场和田块两种尺度研究样区,应用RBF人工神经网络插值法和普通克里金插值法探究土壤有机质和全氮含量空间分布特征,分析两种插值方法对土壤属性空间分布预测精度的影响,得出以下结论:
(1)农场尺度研究样区土壤有机质和全氮含量范围分别为8.39~18.94和0.31~2.01 g·kg-1,块金系数分别为0.548和0.637,呈现中等程度的空间变异;田块尺度研究样区土壤有机质和全氮含量范围分别为9.83~20.59和0.59~2.90 g·kg-1,块金系数分别为0.448和0.609,呈现中等程度的空间变异。
(2)采用RBF人工神经网络插值法得到的MAE、RMSE和MRE较小,R2较大,模型拟合较好,且避免了普通克里金插值结果的“平滑效应”现象,RBF人工神经网络空间插值方法对土壤有机质和全氮含量空间分布特征的预测精度更高,应用RBF人工神经网络插值法探究土壤有机质和全氮含量空间分布特征是科学易行且可靠的研究方法。