集成土壤-环境关系与机器学习的干旱区土壤属性数字制图
2020-02-25张振华丁建丽王敬哲葛翔宇王瑾杰田美玲赵启东
张振华,丁建丽,王敬哲,葛翔宇,王瑾杰,田美玲,赵启东
集成土壤-环境关系与机器学习的干旱区土壤属性数字制图
张振华,丁建丽,王敬哲,葛翔宇,王瑾杰,田美玲,赵启东
(新疆大学资源与环境科学学院/新疆大学绿洲生态教育部重点实验室/新疆大学智慧城市与环境建模自治区普通高校重点实验室,乌鲁木齐 830046)
【目的】土壤属性的空间分布是影响农业生产力、土地管理和生态安全的重要因素。通过土壤环境耦合关系,在机器学习算法框架下,定量预测出干旱区土壤酸碱度(pH)、土壤盐分含量(Soil Salt Content,SSC)与土壤有机质(Soil Organic Matter, SOM)3种土壤属性的空间分布,为干旱区农业生产和生态安全提供科学依据。【方法】在渭干河—库车河绿洲干旱区于2017年7月设计采集典型表层(0—20 cm)土壤样品82个,依据土壤-环境之间的关系,集成DEM数据和Landsat 8数据提取出32种环境协变量,利用栅格重采样将提取出的32种变量重采样为90 m空间分辨率并转换为Grid格式参与建模。借助梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型依次对3类土壤属性的32种环境协变量进行重要性排序,并通过均方根误差(Root Mean SquareError,RMSE)界定出协变量重要性阈值点,从而筛选出参与3类土壤属性制图的环境协变量。进而运用随机森林(Random Forest, RF)、Bagging和Cubist 3种非线性模型建模,并引入多元线性回归模型(Multiple Linear Regression,MLR)进行对比分析,选出最优模型并绘制出90 m分辨率新疆渭干河-库车河绿洲干旱区pH、SSC与SOM 3种土壤属性图。【结果】梯度提升决策树能有效筛选出重要协变量,高程(Elevation)、剖面曲率(Profile Curvature)、差值植被指数(Difference Vegetation Index)、扩展增强型植被指数(Extended Normalized Difference Vegetation Index)、调整土壤亮度植被指数(Modified Soil Adjusted Vegetation Index)、盐分指数S1(Salinity Index S1)以及盐分指数S6 (Salinity Index S6) 7类环境变量均参与3类土壤属性建模,其中SSC遴选出参与建模协变量15种,pH和SOM则均为17种,且遥感指标在预测土壤属性图中起到强大的作用。机器学习3种算法的结果均优于MLR。通过3种非线性模型对比发现,随机森林在3种土壤属性中均表现最佳。在随机森林预测的3种土壤属性中,土壤pH验证集效果2=0.6779,=0.2182,=0.6084;在SSC预测中,验证集2=0.7945,=3.1803,ρ=0.8377;在SOM预测中,验证集2=0.7472,=3.5456,=0.7009。【结论】GBDT所筛选出的重要性因子借助机器学习算法可以用于干旱区土壤属性制图,且随机森林模型均对3类土壤属性表现出最佳预测能力。依据所绘制的土壤属性图并结合土壤分类图厘清了3种制图属性的空间分布。
土壤属性; 环境协变量; 数字土壤制图; 机器学习;梯度提升决策树模型;随机森林模型;Bagging模型;Cubist模型
0 引言
【研究意义】土壤圈作为水圈、大气圈、生物圈、岩石圈的交界面,是承接物质能量交换循环的中间环节[1]。同时,作为各项农业生产活动的基础,土壤属性的空间异质性变化又直接作用于农业活动领域。由于干旱、半干旱区生态环境极其脆弱,土壤沙化、盐碱化现象严重。传统土壤普查和地图属性编制方法大都通过大面积实地采样,编制多边形图斑并依据一定专家知识的方式成图[2],但这种方式往往需要耗费大量的人力物力财力,且由于最小多边形图斑的限制,制图精度不高、存在一定的不确定性,并不能完全作为指导精细农业生产的图鉴。为此,依据一定的手段刻画干旱区土壤属性显得至关重要。【前人研究进展】相较于传统手段,遥感技术的大尺度、高精度为土壤属性制图提供了新的思路。目前,国内外已经有许多学者提出了各类数字土壤制图的方法。王幼奇等[3]通过地统计学方法分析了宁夏砂田小尺度土壤肥力空间变化特征。传统模型简单有效的寻找出土壤与环境之间的线性关系,是最基础、最广泛的土壤制图方式[4],但是对于更深层次的非线性关系挖掘却显得无力;ZHU[5]等通过运用SoLIM模型推导出美国蒙大拿州和澳大利亚新南威尔士州两地的土壤属性。这种方法通过典型样点的获取并对参评因子建立隶属度函数,综合评价某点土壤的隶属度值来推理制图,适用于大范围、少样本的属性制图。王飞等[6]通过遥感、母质和地形因子比较不同机器学习算法优选出预测土壤盐分的最佳模型。ZHANG等[7]利用地形和离子因子运用随机森林预测了中国东部地区土壤有机碳分布。BODAGHABADI等[8]依据地形因子耦合人工神经网络推演出伊朗中部的土壤属性。MAHMOUDABADI等[9]借助遥感和地形因子协同人工神经网络模型预测了伊朗东北部的土壤属性。【本研究切入点】综上所述,较多制图策略基于少量变量和单一算法来获取单一的土壤属性图,但是由于土壤有机质、土壤全盐含量与土壤酸碱度都是影响干旱区土壤肥力以及生态安全的重要土壤属性,这一特定策略难以对比分析出最佳土壤属性图。在干旱区利用多种变量和不同算法获取多种土壤属性图的方式鲜见报道,且对精准农业、生态安全和土壤治理等具有一定意义。【拟解决的关键问题】本文以新疆渭干河-库车河三角洲绿洲为研究对象,基于3种影响干旱区生态农业的土壤性质(pH、SSC与SOM),通过梯度提升决策树(GBDT)模型遴选出最优土壤属性建模因子,利用Cubist模型、Bagging和随机森林3种机器学习方法,对干旱区土壤基本属性数字化制图进行刻画,优选出渭干河-库车河绿洲干旱区最佳土壤属性制图组合方案,以期为干旱区绿洲农业生产和生态安全提供数据支持与科学参考。
1 材料与方法
1.1 研究区概况
研究区位于新疆维吾尔自治区塔里木盆地中北部的渭干河-库车河绿洲(以下简称渭-库绿洲),根据实际采样点标定研究区边界位于82°11′—83°51′ E与40°56′—41°58′ N之间,研究区域面积约894 865 hm²(图1)。研究区毗连天山南麓,海拔高度956—1 013 m。由于深居内陆、远离海洋致使渭-库绿洲形成典型暖温带大陆性干旱气候,多年平均降水量、蒸发量分别约为70、1 100 mm,蒸降比较大(约16﹕1)。研究区土地利用类型以林地、耕地、草地和荒漠为主,且多以盐生植被为主。
图1 研究区概况和采样点分布图
1.2 实测数据及预处理
本研究于2017年7月在渭-库绿洲区域根据地形特征,按照5点梅花状采样方法均匀采集82个典型土样单元。在采样前首先利用GPS记录采样单元的经纬度坐标,每个土样点位单元采集0—20 cm土层深度250 g土壤样品共计5次,将土样均匀混合后提取出250 g即为每个典型土样单元。取样结束后,将82个采样单元点装袋带回实验室自然风干后剔除杂质,过2 mm孔径筛均分3份备用。按土水比1﹕5的比例提取浸提液,用pH 7310台式酸度计和Cond 7310土壤测试仪分别测定pH值和土壤含盐量;采用重铬酸钾容量-稀释热法测定土壤有机质含量[10]。
1.3 环境变量获取及预处理
1.3.1 环境协变量因子选取原则 采用土壤发生学理论为基础的数字土壤制图,主要依照土壤形成的五大要素(母质、地形、生物、气候和时间)辅以较易获取的数字土壤信息(遥感信息)来探寻土壤与环境之间的关系,通过不断丰富的土壤环境关系库,从而达到数字制图的目的。地形因子在地表物质能量循环过程中起着重要作用,进而影响到土壤发生与演变,是土壤制图中广泛应用且不可或缺的因子之一[11-12]。
遥感信息具有广覆盖易获取的特点,其特征波段及不同组合指数可以反映土壤属性形成的综合环境(地表状况以及植被景观特征等),为数字制图提供了丰富的生物景观信息[13]。遥感手段在多数情况下因植被覆盖无法深入裸露地表,但是由于地表和植被关系密切,而遥感技术恰巧可以通过植被指数、盐分指数等来间接反映地表状况[9]。
气候因子(降水量、蒸发量、气温等)影响成土过程中的水热条件[14]。但是由于本研究区域较小,气候要素相对均一,此外,由于缺乏地面气象观测站点,简单插值结果会增加数字制图更多的不确定性。因此,本研究仅采用遥感定量反演的地表温度作为衍生气候因子。另外,母质和时间信息由于目前还没有较好的统一定量化方法,因此本研究暂不考虑母质和时间类因子。
1.3.2 地形因子的获取与预处理 地形是干旱、半干旱区域土壤形成发展的主要因素,影响地表物质能量及再分配,不同地形部位的成土过程可能截然不同,由于研究区地势西北高而东南低,因此发育的土壤属性可能会有所不同[15]。基于此,在Shuttle Radar Topographic Mission(SRTM)上获取了空间分辨率为90 m的DEM数据。利用ArcGIS 10.0 软件在DEM数据中提取了高程、坡度、坡向、总曲率、剖面曲率、平面曲率、地形湿度指数7种地形因子(表1)。
1.3.3 遥感因子的获取与预处理 搭载Landsat 8卫星的OLI传感器,空间分辨率30 m。本文选取了一景2017年7月4日的Landsat 8 OLI影像数据(云量<10%,轨道号为145/31)。为与DEM数据相匹配且获取真实的地表反照率,将影像在ENVI 5.1软件中进行了预处理(辐射定标、FLAASH大气校正、最邻近内插法重采样为90 m×90 m分辨率),提取出单波段、植被指数及盐分指数等24种协变量因子,并采用单窗算法[16]反演出地表温度(表1)。所有环境协变量因子均用ArcGIS 10.0软件统一空间范围、分辨率及投影坐标系后提取出相应采样点对应值并导出为Grid格式参与后续建模运算。
1.4 协变量重要性
在提取的32种协变量因子中,由于不同土壤属性制图用到的环境因子不尽相同,且环境因子对土壤属性的贡献度也颇具差异。梯度提升决策树(Gradient Boosting Decision Tree,GBDT),是一种泛化能力较强的迭代决策树算法,它具有很强的自适应性,可以灵活处理各类数据,且调参较少,齐备固有的特征选择能力,划定变量重要性百分比效果较好[17]。基于上述优点,因此选用GBDT来筛选变量。本文在R-3.5.3中运用GBDT初步遴选出3种土壤属性中每种协变量的重要性百分比。
1.5 预测模型及模型评价
本文拟采取随机森林、Cubist模型以及Bagging 3种模型方法对比分析渭—库绿洲干旱区制图效果最好的模型。
随机森林(Random Forest,RF)是一种包含多棵决策树,输出类别由个别树输出的类别众数而决定的分类回归模型。随机森林中包含众多有较高预测精度且弱相关甚至不相关的决策树,并形成组合预测模型[18]。集成后的众多预测模型将共同参与对新观测输出变量取值的预测,从而获取更高的精度。在R语言中随机森林通过randomForest包来实现,并优化mtry和ntree两参数分别为5和1 000[19]。
Cubist是一种基于回归树且优于回归树的算法,其通过分类响应的方法对用于建模的环境变量进行递归划分并生成树状模型。Cubist模型在预测中是基于线性回归而非离散值。通过内嵌的条件规则集将预测变量特性相似的环境变量划分成不同子集[13]。
Bagging是一种通过对训练样本重新采样的方法得到不同的训练样本集,在这些新的训练样本集上分别训练学习器,最终合并每一个学习器的结果,作为最终的学习结果[20]。在R语言中Bagging模型通过ipred包来实现,其控制参数与随机森林控制参数相同,为模型对比的公平性,参数与随机森林保持一致。
以上建模过程均在R-3.5.3编程软件中实现。
为评估上述3种预测模型的性能,选取了3种模型验证标准。分别为均方根误差(Root Mean Squared Error,)、决定系数(Determination Coefficients,²)及一致性相关系数(Concordance Correlation Coefficient,ρ)[21]。
2 结果
2.1 描述性统计分析
通过R-3.5.3中sample函数随机划分出70%(n=57)的建模集和30%(n=25)的验证集并用set.seed函数固定选中的数据集。渭-库绿洲3种土壤属性描述性统计分析结果如图2所示。土壤酸碱度(pH)全集其均值为8.0423,变异系数为0.0404,属于弱变异,其建模集与验证集变异系数在全集0.1%左右浮动。土壤有机质含量(SOM)范围在1.2863—29.9705 g·kg-1,变异系数全集为0.4802,属于中等变异。建模集和验证集变异系数在全集2%上下波动。土壤盐分含量(SSC)变异系数为3种土壤属性中最高。其中全集变异系数达到1.2646,属于强变异。建模集和验证集分别为1.2894和1.2075。干旱区盐分变异系数相对较高表明表层土受盐分影响较大[22]。3种土壤属性全集、建模集、验证集在统计特征中保持相似的统计形态,表明样本划分合理。
SD为方差,CV为变异系数 SD corresponding to variance, CV corresponding to the coefficient of variation
表1 数字土壤制图环境协变量
β:坡度,采用最大下坡坡度代替;α:单位等高线上上游汇水面积;B:蓝波段;G:绿波段;R:红波段;NIR:近红外;SWIR1:短波红外(1570—1650 nm); SWIR2:短波红外(2100—2290 nm)
β: Corresponding to the slope and is replaced by the maximum downhill gradient; α: Corresponding to the upstream catchment area on the unit contour; B: Corresponding to the Blue band; G corresponding to the Green band; R: Corresponding to the Near Infrared band; SWIR1: Corresponding to the Shortwave Infrared 1 (1570-1650 nm); SWIR2: Corresponding to the Shortwave Infrared 2 (2100-2290 nm)
2.2 环境协变量遴选
图3 变量重要性玫瑰图中给出了3种土壤属性32种环境协变量的重要程度。但是,由于环境协变量并不总是参与建模的重要因子,因此,依据Occam's Razor原理[29],根据图3界定出的变量重要性以0.3为协变量重要性变化阈值再次带入GBDT模型,对变量依次循环训练,直至GBDT模型无法再细分,同时计算出每次训练的均方根误差,最后划定出用于后续建模环境因子的阈值(图4)。
结合图3和图4可以看出,在土壤属性pH中,随着变量重要性的增加在1.8—2.1范围时降至最低。此后随着变量重要性的增加,呈波动上升趋势,在重要性为8时达到最大。由此可确定pH的变量重要性阈值为1.8。因此,如表2所示,可确定、以及等是影响pH的主要环境协变量,其中的重要性最大(13.686%)。在土壤属性SSC中,随着变量重要性的增大而渐趋减小,在1.2—1.5范围时跌至低谷,此后在3.6—3.9范围时达到最大,由此判定SSC协变量阈值范围大于1.5为主要环境协变量。经此,SSC主要环境协变量见表2,其中和的重要性均达15%以上。而对于SOM,随着变量重要性范围的增加,在1.8—2.1之间处于最小位置,而在4.5—4.8范围时明显达到最大值4.24。依据所划定的阈值,则可以很明显地看出的重要性最强(14.355%),其与、以及等共同构成SOM的主要环境协变量。至此,参与3种土壤属性制图建模所遴选出的环境因子中,共划分出环境因子SSC为15种,而pH与SOM则均为17种(表2)。
2.3 建模与验证
为与传统线性模型作对比,本文引入多元线性回归模型(MLR)。根据验证标准,3种模型均比MLR预测精度高。总体而言,RF在3种土壤属性预测中效果拔群(表3)。在土壤pH预测中,验证集效果RF亦为最佳(2=0.6779,=0.2182,ρ=0.6084)。pH预测制图效果总体上来看依次是RF>Bagging>Cubist>MLR。在SSC预测中,无论是建模集还是验证集RF均最为突出(建模集2=0.9067,= 2.6680,ρ=0.9219;验证集2=0.7945,=3.1803,ρ=0.8377),Cubist次之(2=0.8820,=2.9190,ρ=0.9237),但是在验证集中Cubist的RMSE达到7.5771,一致性ρ降至0.6194。这很有可能是因为信息量过大,信息的复杂性可能会导致局部最优,继而主导优化过程,从而产生局部最优的情况[19]。MLR效果在SSC预测中最差。而在SOM预测中,验证集RF(2=0.7472,=3.5456,ρ=0.7009)效果较好。图5为土地利用图,图6、7、8分别为pH、SSC和SOM 3种土壤属性最佳制图。
图3 环境协变量重要性
图4 数字土壤制图环境协变量阈值划分
图5 土地利用分类图
图6 土壤pH空间分布预测图
图7 土壤盐分含量空间分布预测图
图8 土壤有机质含量空间分布预测图
3 讨论
渭-库绿洲耕地主要分布于中西部地区,范围较大,林地南部分布较多,荒漠与交错带则围绕耕地和林地周边分布(图5[30])。在土壤pH预测制图中,从总体上看,渭-库绿洲土壤整体上呈碱性,预测值在7.68—8.43之间。土壤pH值空间分布呈西北略高而东南偏低。主要归因于西北地区以耕地为主,耕作制度、长期施肥等引起土壤肥力和酸碱度的变化。同时,由于研究区干旱少雨,释放的盐基不易淋失而富集于土壤中,受北部天山的影响,经流天山的河流顺地势将天山土质碎屑等带入绿洲北部地区,在灌溉、流水作用影响下,水解时形成比其他地方高的碱性土,因此在绿洲北部沿河流扇状面积区域pH普遍较高(8.14—8.43)。
表2 参与建模环境协变量
表3 土壤属性建模集与验证集性能比较
在土壤SSC预测中(图7),参照《新疆土壤》[31]标准确定土壤盐碱化分级(非盐渍化<3 g·kg-1;3 g·kg-1<轻度盐渍化<6 g·kg-1;6 g·kg-1<中度盐渍化<10 g·kg-1;10 g·kg-1<重度盐渍化<20 g·kg-1;极重度盐渍化>20 g·kg-1)。SSC分布图表明,绿洲区域内部土壤SSC北部低而南部较高,且高值沿渭干河库车河流域下游呈富集状态,呈现出明显的地势效应,这与王飞等[32]研究结果一致。从土地利用方式来看,耕地SSC值最低,林地次之,研究区东北部的荒漠绿洲交错带和绿洲外围的荒漠地区SSC最为严重,这主要是由于研究区处在干旱、半干旱区,由于气候干旱,降水稀少,蒸降比过大而致使地下水和地面水及母质中所含的可溶性盐类在水分携带下通过土壤毛管,在地表和上层土体中不断累积形成盐结皮[33],因此这部分地区受盐渍化影响最为明显。
在土壤SOM预测制图中(图8),土壤SOM与土地利用方式之间存有明显关系。从总体上看,渭-库绿洲土壤有机质西高东低,绿洲边缘与林地SOM达到最大(>17 g·kg-1),荒漠地区有机质含量最低,林地、草地这两种土地利用方式因鲜少的人工干预,其地表植被较丰富,凋落物、腐殖质及植物根系分级等加速了有机质循环速率,致使SOM处于较高水平[30]。BRUBAKER等[34]指出植被覆盖度越高,SOM含量也越大,这与本文的研究结果一致。从自然角度看,耕地表层植被类型较少,土壤中有机残体含量较少;从人为角度看,耕地有SOM的高低很大程度取决于人为投入管理水平,耕地土壤结构受耕作破坏严重,导致植被凋落物留归土壤甚少,增速了有机质分解速率。因此耕地表层SOM含量较低。结合SSC盐分制图,我们发现SSC值最大的地区恰好是SOM值最低的地区。这是由于盐渍地植被覆盖极少,土壤肥力和活力不高,鲜少有机质留存于土壤中,因此荒漠交错带盐渍地土壤有机质最低,这也从侧面印证了SSC制图的准确性。
此外,结合图3和表2可以发现,DEM提取协变量中的高程和剖面曲率以及Landsat 8 OLI衍生出的、、、以及这7个协变量均为3种土壤属性中重要的环境参量。这也从侧面反映出同一地区不同土壤属性之间的成土因素有一定内在联系和共性。高程对三者都有重要贡献,且在共同的土壤属性中植被指数和盐分指数占了很大一部分。尤其是SSC和SOM中、等指数都占据较大比重。这主要是由于研究区西北部有植被覆盖,MAHMOUDABADI[9]和FALAHATKAR等[35]研究表明,由于土壤性质与植被覆盖状况之间的关系密切,植被指数恰好可以反映这种变化。特别是在盐渍化程度高的干旱区域,耦合植被与土壤信息是监测土壤盐渍化不可或缺环境参量[13]。尽管植被指数和盐分指数对用来评测土壤属性十分有效,但并没有特定指数可以用在任何不同质区获得精准结果,指数随着自然条件、土壤类型及植被盖度的变化而变化。究其原因,主要由于植被指数作为一种定性表达,在信息量表达中存有先天缺陷,应更多考虑能够深入反映土壤属性变化的植被覆盖、物候、长势等深层次植被信息[33]。也基于此本文选用了大量植被指数来探究其与土壤属性之间的隐含关系。综合来看,植被指数可以间接反映植被覆盖的地区,运用遥感指标的数字土壤制图在植被覆盖区具有可行性。
定量遥感的困难在于,应用参量不完全是控制遥感信息的主导因子,仅为遥感信息提供弱信号[36]。3种土壤属性制图中遥感指标确实起到了举足轻重的作用,在土壤属性制图中,充分挖掘土壤与环境之间的耦合关系,寻求尽可能多的环境协变量,通过筛选最优因子是保证制图精度的先决条件。4种方法预测3种土壤属性中,SSC的总体精度最高,相比SSC和SOM,pH精度相对较低,根据CHEN等[37]研究表明pH受年平均降水和年平均气温的影响较大;ZHANG等[7]研究表明pH受到矿物质含量的影响很大。因此土壤pH预测情况总体上不如SSC和SOM。此外,彭杰等[38]研究发现不同地区空间异质性较大,光谱特征不同,因而加入光谱特征可能会提高预测精度。因此,本文虽较为充分的利用了遥感数据和DEM数据寻求了主要土壤属性制图的协变量,但是对于母质、离子含量[39]、植被物候等较难获取的其他次要因子以及隐含因子的挖掘还有待更深入的研究。MOSLEH等[40]指出田间观测采样点的数量和研究的区域尺度是指导土壤制图精度更精细的必要条件。在今后的研究中应该扩大采集样点数目并制作更为精细的土壤属性图,从而对精准农业和生态安全提供更精细的参照。
4 结论
通过3种数字土壤制图方法,绘制出了新疆渭-库绿洲干旱区pH、SSC和SOM 3种土壤属性的空间分布图。通过GBDT模型遴选出的指标能够解释3种土壤属性的空间变化,且遥感指标显示出强大优势。相较于MLR、Cubist和Bagging模型,RF在预测3种土壤属性中均显示出了最佳制图精度。通过结合高程数据和土地利用分类图,厘清了3种土壤属性空间变化的机理。
[1] MA Y X, MINASNY B, WU C F. Mapping key soil properties to support agricultural production in Eastern China., 2017, 10: 144-153.
[2] 杨琳, Sherif F, Sheldon H, 朱阿兴, 秦承志, 徐志刚. 基于土壤-环境关系的更新传统土壤图研究. 土壤学报, 2010, 47(6): 1039-1049.
YANG L, SHERIF F, SHELDON H, ZHU A X, QIN C Z, XU Z G. Updating conventional soil maps using knowledge on soil- environment relationships extracted from the maps., 2010, 47(6): 1039-1049. (in Chinese)
[3] 王幼奇, 白一茹, 赵云鹏. 宁夏砂田小尺度土壤性质空间变异特征与肥力评价. 中国农业科学, 2016, 49(23): 4566-4575. DOI: 10.3864/j.issn.0578-1752.2016.23.009.
WANG Y Q, BAI Y R, ZHAO Y P. Assessment of soil fertility and its spatial variability based on small scale in the gravel mulched field of NingXia., 2016, 49(23): 4566-4575. DOI: 10.3864/j.issn.0578-1752.2016.23.009. (in Chinese)
[4] LAGACHERIE P, MCBRATNEY A B. Spatial soil information systems and spatial soil inference systems: perspectives for digital soil mapping., 2006, 31: 3-22.
[5] ZHU A X, BAND L, VERTESSY R, DUTTON B. Derivation of soil properties using a soil land inference model (SoLIM)., 1997, 61(2): 523-533.
[6] 王飞, 杨胜天, 丁建丽, 魏阳, 葛翔宇, 梁静. 环境敏感变量优选及机器学习算法预测绿洲土壤盐分. 农业工程学报, 2018, 34(22): 102-110. DOI: 10.11975/j.issn.1002-6819.2018.22.013.
WANG F, YANG S T, DING J L, WEI Y, GE X Y, LIANG J. Environmental sensitive variable optimization and machine learning algorithm using in soil salt prediction at oasis., 2018, 34(22): 102-110. DOI: 10.11975/j.issn.1002-6819.2018.22.013. (in Chinese)
[7] ZHANG H, WU P B, YIN A J, YANG X H, ZHANG M, GAO C. Prediction of soil organic carbon in an intensively managed reclamation zone of Eastern China: A comparison of Multiple Linear Regressions and the Random Forest model., 2017, 592: 704-713.
[8] BODAGHABADI B M, MARTÍNEZ-CASASNOVAS J, SALEHI M H, MOHAMMADI J, BORUJENI E I, TOOMANIAN N, GANDOMKAR A. Digital soil mapping using Artificial Neural Networks and terrain-related attributes., 2015, 25(4): 580-591.
[9] MAHMOUDABADI E, KARIMI A, HAGHNIA G H, SEPEHR A. Digital soil mapping using remote sensing indices, terrain attributes, and vegetation features in the rangelands of northeastern Iran., 2017, 189(10): 500.
[10] 鲁如坤. 土壤农业化学分析方法. 北京: 中国农业科技出版社, 2000.
LU R K.. Beijing: China Agricultural Science and Technology Press, 2000. (in Chinese)
[11] ZHOU Y, HARTEMINK A E, SHI Z, LIANG Z Z, LU Y L. Land use and climate change effects on soil organic carbon in North and Northeast China., 2019, 647: 1230-1238.
[12] ABDEL-KADER F H. Digital soil mapping at pilot sites in the northwest coast of Egypt: A Multinomial Logistic Regression approach., 2011, 14(1): 29-40.
[13] PENG J, BISWAS A, JIANG Q S, ZHAO R Y, HU J, HU B F, SHI Z. Estimating soil salinity from remote sensing and terrain data in southern Xinjiang Province, China., 2019, 337: 1309-1319.
[14] 朱阿兴. 精细数字土壤普查模型与方法. 北京: 科学出版社, 2008: 21-57.
ZHU A X.Beijing: Science Press, 2008: 21-57. (in Chinese)
[15] MEHNATKESH A, AYOUBI S, JALALIAN A, SAHRAWAT K L. Relationships between soil depth and terrain attributes in a semi arid hilly region in western Iran., 2013, 10(1): 163-172.
[16] QIN Z H, KARNIELI A, BERLINER P. A mono-window algorithm for retrieving land surface temperature from Landsat TM data and its application to the Israel-Egypt border region., 2001, 22(18): 3719-3746.
[17] LIU L F, JI M, BUCHROITHNER M. Combining partial least squares and the gradient-boosting method for soil property retrieval using visible Near-Infrared shortwave infrared spectra., 2017, 9(12): 1299.
[18] GE X Y, WANG J Z, DING J L, CAO X Y, ZHANG Z P, LIU J, LI X H. Combining UAV-based hyperspectral imagery and machine learning algorithms for soil moisture content monitoring., 2019, 7: e6926.
[19] DING J L, YANG A X, WANG J Z, SAGAN V, YU D L. Machine-learning-based quantitative estimation of soil organic carbon content by VIS/NIR spectroscopy., 2018, 6: e5714.
[20] CORETEAM R. R:A language and environment for statistical computing., 2015, 14: 12-21.
[21] LAWRENCE I, LIN K. A concordance correlation coefficient to evaluate reproducibility., 1989, 45(1): 255-268.
[22] WANG J Z, DING J L, ABULIMITI A, CAI L H. Quantitative estimation of soil salinity by means of different modeling methods and visible-near infrared (VIS–NIR) spectroscopy, Ebinur Lake Wetland, Northwest China., 2018, 6: e4703.
[23] ZERAATPISHEH M, AYOUBI S, JAFARI A, TAJIK S, FINKE P. Digital mapping of soil properties using multiple machine learning in a semi-arid region, central Iran., 2019, 338: 445-452.
[24] LOBELL D, LESCH S, CORWIN D, ULMER M, ANDERSON K, POTTS D, DOOLITTLE J, MATOS M, BALTES M. Regional-scale assessment of soil salinity in the Red River Valley using multi-year MODIS EVI and NDVI., 2010, 39(1): 35-41.
[25] 陈红艳, 赵庚星, 陈敬春, 王瑞燕, 高明秀. 基于改进植被指数的黄河口区盐渍土盐分遥感反演. 农业工程学报, 2015, 31(5): 107-114. DOI:10.3969/j.issn.1002-6819.2015.05.016.
CHEN H Y, ZHAO G X, CHEN J C, WANG R Y, GAO M X. Remote sensing inversion of saline soil salinity based on modified vegetation index in estuary area of Yellow River., 2015, 31(5): 107-114. DOI: 10.3969/j.issn.1002-6819.2015.05.016. (in Chinese)
[26] TRIKI FOURATI H, BOUAZIZ M, BENZINA M, BOUAZIZ S. Modeling of soil salinity within a semi-arid region using spectral analysis., 2015, 8(12): 11175-11182.
[27] ALLBED A, KUMAR L, ALDAKHEEL Y Y. Assessing soil salinity using soil salinity and vegetation indices derived from IKONOS high-spatial resolution imageries: Applications in a date palm dominated region., 2014, 230: 1-8.
[28] MENG L, ZHOU S W, ZHANG H, BI X L. Estimating soil salinity in different landscapes of the Yellow River Delta through Landsat OLI/TIRS and ETM+ Data., 2016, 20(4): 271-279.
[29] GERSHMAN S J, NIV Y. Perceptual estimation obeys Occam's razor., 2013, 4: 623.
[30] 古丽波斯坦·巴图. 渭—库绿洲不同土地利用方式下土壤理化性质分析[D]. 乌鲁木齐: 新疆大学, 2018.
GULIBOSITAN-BATU. Analysis of soil physical and chemical properties under different land use/land cover in Weigan and Kuqa rivers delta oasis[D]. Urumqi: Xinjiang University, 2018. (in Chinese)
[31] 谷海斌. 灌区尺度土壤特性空间变异性研究[D]. 乌鲁木齐: 新疆农业大学, 2011.
GU H B. Research on spatial variation of properties in irrigation area scale[D]. Urumqi: Xinjiang Agricultural University, 2011. (in Chinese)
[32] 王飞, 杨胜天, 魏阳, 杨晓东, 丁建丽. 基于RF和SGT算法的子区优先建模对绿洲尺度土壤盐度预测精度的影响. 中国农业科学, 2018, 51(24): 4659-4676. DOI: 10. 3864/j. issn.0578-1752.2018.24. 007.
WANG F, YANG S T, WEI Y, YANG X D, DING J L. Influence of sub-region priority modeling constructed by random forest and stochastic gradient treeboost on the accuracy of soil salinity prediction in oasis scale., 2018, 51(24): 4659-4676. DOI: 10.3864/j.issn.0578-1752.2018.24.007. (in Chinese)
[33] DING J L, YU D L. Monitoring and evaluating spatial variability of soil salinity in dry and wet seasons in the Werigan–Kuqa Oasis, China, using remote sensing and electromagnetic induction instruments., 2014, 235: 316-322.
[34] BRUBAKER S, JONES A, LEWIS D, FRANK K. Soil properties associated with landscape position., 1993, 57(1): 235-239.
[35] FALAHATKAR S, HOSSEINI S M, AYOUBI S, SALMANMAHINY A. Predicting soil organic carbon density using auxiliary environmental variables in Northern Iran., 2016, 62(3): 375-393.
[36] 葛翔宇, 丁建丽, 王敬哲, 王飞, 蔡亮红, 孙慧兰. 基于竞争适应重加权采样算法耦合机器学习的土壤含水量估算. 光学学报, 2018, 38(10): 393-400. DOI: 10.3788/AOS201838.1030001.
GE X Y, DING J L, WANG J Z, WANG F, CAI L H, SUN H L. Estimation of soil moisture based on CARS algorithm coupled with machine learning., 2018, 38(10): 393-400. DOI: 10.3788/AOS201838.1030001. (in Chinese)
[37] CHEN S C, LIANG Z Z, WEBSTER R, ZHANG G L, ZHOU Y, TENG H F, HU B F, ARROUAYS D, SHI Z. A high-resolution map of soil pH in China made by hybrid modelling of sparse soil data and environmental covariates and its implications for pollution., 2019, 655: 273-283.
[38] 彭杰, 刘焕军, 史舟, 向红英, 迟春明. 盐渍化土壤光谱特征的区域异质性及盐分反演. 农业工程学报, 2014, 30(17): 167-174. DOI: 10.3969/j.issn.1002-6819.2014.17.022.
PENG J, LIU H J, SHI Z, XIANG H Y, CHI C M. Regional heterogeneity of hyperspectral characteristics of salt-affected soil and salinity inversion., 2014, 30(17): 167-174. DOI: 10.3969/j.issn.1002-6819. 2014.17.022. (in Chinese)
[39] WANG H F, CHEN Y W, ZHANG Z T, CHEN H R, LI X W, WANG M X, CHAI H Y. Quantitatively estimating main soil water-soluble salt ions content based on visible-near infrared wavelength selected using GC, SR and VIP., 2019, 7: e6310.
[40] MOSLEH Z, SALEHI M H, JAFARI A, BORUJENI I E, MEHNATKESH A. The effectiveness of digital soil mapping to predict soil properties over low-relief areas., 2016, 188(3): 195.
Digital Soil Properties Mapping by Ensembling Soil-Environment Relationship and Machine Learning in Arid Regions
ZHANG ZhenHua, DING JianLi, WANG JingZhe, GE XiangYu, WANG JinJie, TIAN MeiLing, ZHAO QiDong
(College of Research and Environmental Science, Xinjiang University/ Ministry of Education Key Laboratory of Qasis Ecology, Xinjiang University/ Key Laboratory of Smart City and Environment Modelling of Higher Education Institute, Xinjiang University, Urumqi 830046)
【Objective】The spatial distribution of soil properties is an important factor affecting agricultural productivity, land management and ecological security. Utilizing the coupling relationship between soil and environment within framework of machine learning algorithm, the spatial distribution of soil pH, soil salt content (SSC) and soil organic matter (SOM) was quantitatively predicted to provide a scientific basis on ecological security and agricultural production in the arid region. 【Method】A total of 82 topsoil (0-20 cm) samples were collected from the Ugan-Kuqa River basin oasis in Xinjiang Uyghur Autonomous Region in July 2017. Furthermore, Digital elevation model (DEM) data and Landsat 8 data were used to extract 32 environmental covariates according to the soil-environment relationship. The 32 extracted variables were resampled to 90 m spatial resolution via raster resampling and were converted to grid format for participate in modeling. According to the importance of environmental covariates, they were ranked respectively using Gradient Boosting Decision Tree (GBDT) algorithm on the three soil attributes. We considered three strategies to estimate soil properties, including random forest, bagging and Cubist algorithm. Compared with non-linear models, we introduced classic linear model (MLR) to conduct optimization. On this foundation, we mapped the soil properties (pH, SSC and SOM) with a resolution of 90 m in the Ugan-Kuqa River basin oasis, respectively.【Result】The results showed that GBDT could screen out important covariates effectively. Elevation and Profile Curvature, Difference Vegetation Index, Extended Normalized Difference Vegetation Index, Modified Soil Adjusted Vegetation Index and Salinity Index S1 and Salinity Index S6 were important factors and involved in modeling of three kinds of soil properties, among which SSC selects 15 covariates to participate in modeling, pH and SOM were both 17. Remote sensing index played a significant role in predicting soil property maps. Non-linear models showed more accuracy than MLR as linear model. Random forest performed best in all three soil properties. Among the three soil properties predicted by random forest, the validation dataset of soil pH, SSC and SOM were2=0.6779,=0.2182,ρ=0.6084,2=0.7945,=3.1803,ρ=0.8377 and2=0.7472,=3.5456,ρ=0.7009, respectively. 【Conclusion】 The importance factors selected by GBDT and machine learning algorithm could be used to mapping soil properties in arid areas. The random forest strategy showed the best predictive ability for soil properties. The spatial distribution of mapping three properties could be determined by combining with soil classification map.
soil property; environment covariates; digital soil mapping; machine learning; Gradient Boosting Decision Tree, GBDT; random Forest, RF; bagging model; Cubist model
2019-05-06;
2019-09-18
国家重点研发计划(2016YFC0402409-03)、国家自然科学基金(41961059,41771470)、新疆维吾尔自治区自然科学基金青年基金(2018D01C067)
张振华,E-mail:15099577874@163.com。通信作者丁建丽,E-mail:watarid@xju.edu.cn
(责任编辑 李云霞)